Physical AI vs Spatial AI : Différence, Acteurs Clés et Vision 2026
1. Deux concepts, une même trajectoire
Depuis 18 mois, deux expressions structurent tout le discours de la Silicon Valley sur « la prochaine vague » de l'IA. D'un côté, Jensen Huang (NVIDIA) martèle l'arrivée de la Physical AI : l'IA qui sort de l'écran pour piloter des robots, des usines et des véhicules. De l'autre, Fei-Fei Li (Stanford, World Labs) défend la Spatial Intelligence comme « la prochaine frontière de l'IA » : la capacité des machines à percevoir, reconstruire et raisonner sur le monde en 3D.
Ces deux discours ne s'opposent pas. Ils décrivent deux étages d'une même pile technologique. Pour quiconque vient du géospatial, de la 3D ou du traitement de nuages de points, comprendre cette articulation n'est pas un débat académique : c'est la carte qui indique où se situe la valeur défendable dans les cinq prochaines années.
2. La différence fondamentale
Le Spatial AI est l'héritier direct de la vision par ordinateur, du SLAM, de la reconstruction 3D et des scene graphs. Son objet : transformer des capteurs (caméras, LiDAR, radar) en une représentation structurée et exploitable de l'espace — géométrie, sémantique, relations. Il perçoit et comprend, mais n'agit pas nécessairement.
Le Physical AI ajoute trois ingrédients que le Spatial AI seul n'a pas : un corps (embodiment), une compréhension de la physique (forces, contacts, dynamique, causalité) et une boucle perception → décision → action → conséquence. C'est l'IA des robots humanoïdes, des bras manipulateurs, des véhicules autonomes et des usines.
| Dimension | Spatial AI | Physical AI |
|---|---|---|
| Question centrale | Où est quoi ? Comment l'espace est-il structuré ? | Comment agir dans cet espace en respectant la physique ? |
| Sortie principale | Carte 3D, scene graph, sémantique, mesures | Actions motrices, trajectoires, manipulation |
| Briques techniques | SLAM, reconstruction, NeRF/3DGS, segmentation 3D | Contrôle, RL, politiques motrices, sim-to-real |
| Notion de temps | Souvent statique ou quasi temps réel | Boucle fermée, temps réel strict, conséquences |
| Échec typique | Mauvaise mesure, objet mal classé | Collision, chute, casse — coût physique réel |
| Incarnations | Jumeaux numériques, cartographie, AR/VR, BIM | Humanoïdes, voitures autonomes, usines, drones |
Sont-elles liées ? Profondément. Le Spatial AI est le substrat de perception sur lequel repose le Physical AI. Un robot qui ne sait pas où sont les murs, les objets et les humains ne peut pas agir en sécurité. À l'inverse, le Physical AI génère, via ses interactions, les données qui entraînent des modèles spatiaux toujours plus riches. Le pont entre les deux porte un nom : les world models.
world model est un modèle génératif qui apprend la dynamique du monde : à partir d'un état et d'une action, il prédit l'état suivant. C'est exactement le maillon qui relie « comprendre l'espace » (spatial) et « agir dedans » (physical). Genie 3 (DeepMind), Cosmos (NVIDIA) et les Large World Models de World Labs visent tous cette jonction.
3. Cartographie des acteurs majeurs
Le marché s'organise en trois familles : ceux qui construisent la couche spatiale, ceux qui construisent la couche physique/incarnée, et les plateformes qui tentent de capter les deux via les world models et la simulation. Voici comment je lis le paysage mi-2026.
| Acteur | Positionnement | Pari principal |
|---|---|---|
| NVIDIA | Plateforme transverse | Cosmos (world foundation models), Omniverse, Isaac/GR00T : posséder la simulation et le silicium des deux couches |
| World Labs (Fei-Fei Li) | Spatial AI pur | Large World Models : générer et comprendre des mondes 3D persistants à partir d'images |
| Google DeepMind | Les deux couches | Genie 3 (mondes interactifs génératifs), Gemini Robotics, SIMA : du world model à l'agent incarné |
| Tesla / Figure / 1X | Physical AI incarné | Humanoïdes à usage général ; données issues du monde réel à grande échelle |
| Physical Intelligence (π) | Physical AI — modèles | Un « foundation model » unique pour le contrôle moteur, indépendant du robot |
| Niantic Spatial | Spatial AI géolocalisé | Large Geospatial Model : une carte 3D mondiale alimentée par le crowdsourcing |
| Meta | Spatial AI + perception | Project Aria, Segment Anything, egocentric AI pour les lunettes |
| Apple | Spatial computing | Vision Pro : l'interface spatiale grand public, capteurs et SDK |
| Wayve / Waymo | Physical AI — mobilité | Conduite autonome end-to-end apprise plutôt que codée en dur |
4. Où vont les choses ?
Cinq tendances de fond se dessinent et convergent vers un même point : la fusion progressive du spatial et du physique au sein de modèles unifiés.
- Du modèle 2D au world model 3D : après les LLM (texte) et les modèles vidéo (2D+temps), la frontière est le modèle qui comprend la 3D persistante et sa dynamique. C'est le pari commun de NVIDIA, DeepMind et World Labs.
- La donnée 3D devient le goulot d'étranglement : il n'existe pas d'équivalent « internet » de données 3D annotées. Celui qui possède un moteur de génération de données spatiales (réelles ou simulées) possède un avantage structurel.
- Sim-to-real industrialisé : entraîner en simulation, déployer dans le réel. La qualité du jumeau numérique conditionne directement la performance du robot. Le géospatial et le Spatial AI deviennent l'usine à données du Physical AI.
- Convergence des interfaces : lunettes AR, casques, robots et véhicules partagent le même besoin — une représentation spatiale commune, persistante et partageable entre agents.
- Souveraineté et territoire : les États investissent dans des infrastructures spatiales nationales (en France, le programme JUNN de jumeau numérique national). La couche spatiale devient un actif stratégique public.
Ma lecture : le Physical AI captera l'attention et les capitaux, mais le Spatial AI captera la valeur défendable. Les humanoïdes finiront par se commoditiser (matériel + foundation model). Ce qui restera rare, c'est la capacité à produire, structurer et raisonner sur des représentations spatiales fiables du monde réel.
5. Ma vision : le track record à construire pour entrer dans le jeu
On me demande souvent : « par où entrer dans cette opportunité ? ». Ma conviction est nette : ne courez pas après le robot, construisez la couche spatiale sur laquelle il s'appuie. C'est là que se trouve l'avantage durable, et c'est là qu'un individu ou une petite équipe peut encore créer un actif unique. Concrètement, voici le « record » — l'actif et le track record — que je recommande de bâtir.
| Brique à construire | Pourquoi c'est défendable |
|---|---|
| Un moteur de données 3D | Capter, nettoyer, annoter et générer de la donnée spatiale est le goulot d'étranglement du secteur. C'est rare et difficile à copier. |
| Des scene graphs sémantiques | Transformer la géométrie brute en connaissance structurée que les LLM et agents peuvent exploiter — le chaînon manquant du raisonnement spatial. |
| Des agents spatiaux opérationnels | Connecter un LLM à des outils de perception 3D et le déployer en production : c'est ce qui sépare la démo de la valeur métier. |
| Un portfolio public et reproductible | Dans un marché naissant, la preuve de travail vaut plus que le diplôme. Du code, des démos, des écrits : voilà le track record qui ouvre les portes. |
Ce n'est pas une vue théorique. C'est exactement la pile que je construis et que j'enseigne : maîtriser le nuage de points et le Gaussian Splatting pour la perception, les scene graphs pour la structure, et les agents spatiaux pour l'action. Cette colonne vertébrale est agnostique du robot — elle a de la valeur pour un jumeau numérique de territoire comme pour un humanoïde d'usine.
Conclusion : le spatial est la fondation, le physique est l'application
Physical AI et Spatial AI ne sont pas deux camps mais deux étages. Le Spatial AI perçoit et structure le monde ; le Physical AI y agit. Les world models les soudent. Le marketing s'enthousiasmera pour les robots ; les ingénieurs lucides bâtiront la couche spatiale qui les rend possibles.
- Différence : perception/raisonnement spatial vs perception + physique + action incarnée.
- Relation : le spatial est le substrat du physique ; les world models sont le pont.
- Marché : NVIDIA et DeepMind verrouillent la plateforme, World Labs et Niantic le spatial pur, Tesla/Figure/PI l'incarné.
- Vision : construisez la couche spatiale — moteur de données, scene graphs, agents — et un track record public. C'est l'actif défendable.
Ces compétences sont précisément le cœur de la formation Architecte IA 3D / Spatial AI de la 3D Geodata Academy, où vous construisez cette pile de bout en bout sur vos propres données.
🚀 Construisez votre couche de Spatial AI
Cette analyse pose la carte. La formation Elite vous accompagne pour bâtir concrètement le moteur de données, les scene graphs et les agents spatiaux qui constituent votre avantage durable.
Rejoindre l'Elite (120h)