Physical AI vs Spatial AI : Différence, Acteurs Clés et Vision 2026

« Physical AI » et « Spatial AI » sont devenus les deux mots d'ordre de l'industrie en 2026. On les confond souvent, on les oppose parfois. Voici la distinction réelle, qui détient les cartes, où va le marché, et ma conviction sur ce qu'il faut bâtir aujourd'hui pour se positionner.

Avancé

25 min

Analyse stratégique

            "Le Spatial AI répond à la question où est quoi, et comment l'espace est-il organisé ?. Le Physical AI répond à comment agir dans cet espace sans le casser ?. La première est la couche de perception et de raisonnement ; la seconde y ajoute le corps, la physique et l'action. On ne construit pas la seconde sans maîtriser la première."
        

1. Deux concepts, une même trajectoire

Depuis 18 mois, deux expressions structurent tout le discours de la Silicon Valley sur « la prochaine vague » de l'IA. D'un côté, Jensen Huang (NVIDIA) martèle l'arrivée de la Physical AI : l'IA qui sort de l'écran pour piloter des robots, des usines et des véhicules. De l'autre, Fei-Fei Li (Stanford, World Labs) défend la Spatial Intelligence comme « la prochaine frontière de l'IA » : la capacité des machines à percevoir, reconstruire et raisonner sur le monde en 3D.

Ces deux discours ne s'opposent pas. Ils décrivent deux étages d'une même pile technologique. Pour quiconque vient du géospatial, de la 3D ou du traitement de nuages de points, comprendre cette articulation n'est pas un débat académique : c'est la carte qui indique où se situe la valeur défendable dans les cinq prochaines années.

Florent's Tip: Ne vous laissez pas piéger par le marketing. « Physical AI » et « Spatial AI » ne sont pas des produits concurrents que l'on choisit ; ce sont des couches qui s'empilent. La question utile n'est pas « laquelle gagne ? » mais « sur quelle couche ai-je un avantage durable ? ».

2. La différence fondamentale

Le Spatial AI est l'héritier direct de la vision par ordinateur, du SLAM, de la reconstruction 3D et des scene graphs. Son objet : transformer des capteurs (caméras, LiDAR, radar) en une représentation structurée et exploitable de l'espace — géométrie, sémantique, relations. Il perçoit et comprend, mais n'agit pas nécessairement.

Le Physical AI ajoute trois ingrédients que le Spatial AI seul n'a pas : un corps (embodiment), une compréhension de la physique (forces, contacts, dynamique, causalité) et une boucle perception → décision → action → conséquence. C'est l'IA des robots humanoïdes, des bras manipulateurs, des véhicules autonomes et des usines.

Dimension	Spatial AI	Physical AI
Question centrale	Où est quoi ? Comment l'espace est-il structuré ?	Comment agir dans cet espace en respectant la physique ?
Sortie principale	Carte 3D, scene graph, sémantique, mesures	Actions motrices, trajectoires, manipulation
Briques techniques	SLAM, reconstruction, NeRF/3DGS, segmentation 3D	Contrôle, RL, politiques motrices, sim-to-real
Notion de temps	Souvent statique ou quasi temps réel	Boucle fermée, temps réel strict, conséquences
Échec typique	Mauvaise mesure, objet mal classé	Collision, chute, casse — coût physique réel
Incarnations	Jumeaux numériques, cartographie, AR/VR, BIM	Humanoïdes, voitures autonomes, usines, drones

Sont-elles liées ? Profondément. Le Spatial AI est le substrat de perception sur lequel repose le Physical AI. Un robot qui ne sait pas où sont les murs, les objets et les humains ne peut pas agir en sécurité. À l'inverse, le Physical AI génère, via ses interactions, les données qui entraînent des modèles spatiaux toujours plus riches. Le pont entre les deux porte un nom : les world models.

Le concept clé — World Models: Un world model est un modèle génératif qui apprend la dynamique du monde : à partir d'un état et d'une action, il prédit l'état suivant. C'est exactement le maillon qui relie « comprendre l'espace » (spatial) et « agir dedans » (physical). Genie 3 (DeepMind), Cosmos (NVIDIA) et les Large World Models de World Labs visent tous cette jonction.

3. Cartographie des acteurs majeurs

Le marché s'organise en trois familles : ceux qui construisent la couche spatiale, ceux qui construisent la couche physique/incarnée, et les plateformes qui tentent de capter les deux via les world models et la simulation. Voici comment je lis le paysage mi-2026.

Acteur	Positionnement	Pari principal
NVIDIA	Plateforme transverse	Cosmos (world foundation models), Omniverse, Isaac/GR00T : posséder la simulation et le silicium des deux couches
World Labs (Fei-Fei Li)	Spatial AI pur	Large World Models : générer et comprendre des mondes 3D persistants à partir d'images
Google DeepMind	Les deux couches	Genie 3 (mondes interactifs génératifs), Gemini Robotics, SIMA : du world model à l'agent incarné
Tesla / Figure / 1X	Physical AI incarné	Humanoïdes à usage général ; données issues du monde réel à grande échelle
Physical Intelligence (π)	Physical AI — modèles	Un « foundation model » unique pour le contrôle moteur, indépendant du robot
Niantic Spatial	Spatial AI géolocalisé	Large Geospatial Model : une carte 3D mondiale alimentée par le crowdsourcing
Meta	Spatial AI + perception	Project Aria, Segment Anything, egocentric AI pour les lunettes
Apple	Spatial computing	Vision Pro : l'interface spatiale grand public, capteurs et SDK
Wayve / Waymo	Physical AI — mobilité	Conduite autonome end-to-end apprise plutôt que codée en dur

Pitfall: Beaucoup d'observateurs réduisent ce marché à « la course aux humanoïdes ». C'est l'erreur d'analyse classique : on regarde le robot (visible, médiatique) et on ignore la couche spatiale (invisible, mais indispensable). La valeur défendable se cache souvent un étage en dessous du produit spectaculaire.

4. Où vont les choses ?

Cinq tendances de fond se dessinent et convergent vers un même point : la fusion progressive du spatial et du physique au sein de modèles unifiés.

Du modèle 2D au world model 3D : après les LLM (texte) et les modèles vidéo (2D+temps), la frontière est le modèle qui comprend la 3D persistante et sa dynamique. C'est le pari commun de NVIDIA, DeepMind et World Labs.
La donnée 3D devient le goulot d'étranglement : il n'existe pas d'équivalent « internet » de données 3D annotées. Celui qui possède un moteur de génération de données spatiales (réelles ou simulées) possède un avantage structurel.
Sim-to-real industrialisé : entraîner en simulation, déployer dans le réel. La qualité du jumeau numérique conditionne directement la performance du robot. Le géospatial et le Spatial AI deviennent l'usine à données du Physical AI.
Convergence des interfaces : lunettes AR, casques, robots et véhicules partagent le même besoin — une représentation spatiale commune, persistante et partageable entre agents.
Souveraineté et territoire : les États investissent dans des infrastructures spatiales nationales (en France, le programme JUNN de jumeau numérique national). La couche spatiale devient un actif stratégique public.

Ma lecture : le Physical AI captera l'attention et les capitaux, mais le Spatial AI captera la valeur défendable. Les humanoïdes finiront par se commoditiser (matériel + foundation model). Ce qui restera rare, c'est la capacité à produire, structurer et raisonner sur des représentations spatiales fiables du monde réel.

5. Ma vision : le track record à construire pour entrer dans le jeu

On me demande souvent : « par où entrer dans cette opportunité ? ». Ma conviction est nette : ne courez pas après le robot, construisez la couche spatiale sur laquelle il s'appuie. C'est là que se trouve l'avantage durable, et c'est là qu'un individu ou une petite équipe peut encore créer un actif unique. Concrètement, voici le « record » — l'actif et le track record — que je recommande de bâtir.

Brique à construire	Pourquoi c'est défendable
Un moteur de données 3D	Capter, nettoyer, annoter et générer de la donnée spatiale est le goulot d'étranglement du secteur. C'est rare et difficile à copier.
Des scene graphs sémantiques	Transformer la géométrie brute en connaissance structurée que les LLM et agents peuvent exploiter — le chaînon manquant du raisonnement spatial.
Des agents spatiaux opérationnels	Connecter un LLM à des outils de perception 3D et le déployer en production : c'est ce qui sépare la démo de la valeur métier.
Un portfolio public et reproductible	Dans un marché naissant, la preuve de travail vaut plus que le diplôme. Du code, des démos, des écrits : voilà le track record qui ouvre les portes.

Ce n'est pas une vue théorique. C'est exactement la pile que je construis et que j'enseigne : maîtriser le nuage de points et le Gaussian Splatting pour la perception, les scene graphs pour la structure, et les agents spatiaux pour l'action. Cette colonne vertébrale est agnostique du robot — elle a de la valeur pour un jumeau numérique de territoire comme pour un humanoïde d'usine.

Florent's Tip: Le meilleur moment pour construire ce track record, c'est maintenant — pendant que le marché cherche encore son vocabulaire. Choisissez un problème spatial réel, résolvez-le de bout en bout, documentez-le publiquement. Trois projets de ce type valent plus que dix certifications.

Conclusion : le spatial est la fondation, le physique est l'application

Physical AI et Spatial AI ne sont pas deux camps mais deux étages. Le Spatial AI perçoit et structure le monde ; le Physical AI y agit. Les world models les soudent. Le marketing s'enthousiasmera pour les robots ; les ingénieurs lucides bâtiront la couche spatiale qui les rend possibles.

Différence : perception/raisonnement spatial vs perception + physique + action incarnée.
Relation : le spatial est le substrat du physique ; les world models sont le pont.
Marché : NVIDIA et DeepMind verrouillent la plateforme, World Labs et Niantic le spatial pur, Tesla/Figure/PI l'incarné.
Vision : construisez la couche spatiale — moteur de données, scene graphs, agents — et un track record public. C'est l'actif défendable.

Ces compétences sont précisément le cœur de la formation Architecte IA 3D / Spatial AI de la 3D Geodata Academy, où vous construisez cette pile de bout en bout sur vos propres données.

🚀 Construisez votre couche de Spatial AI

Cette analyse pose la carte. La formation Elite vous accompagne pour bâtir concrètement le moteur de données, les scene graphs et les agents spatiaux qui constituent votre avantage durable.

Rejoindre l'Elite (120h)