Guide Expert : Deep Learning sur Nuages de Points 3D

"Le passage de la 2D à la 3D change radicalement la manière dont les réseaux de neurones 'voient' le monde. L'invariance aux permutations est la clé."

1. Pourquoi le Deep Learning 3D ?

Le Deep Learning 3D permet d'automatiser des tâches autrefois manuelles et laborieuses comme la classification d'objets (mobilier, végétation, infrastructures) et la segmentation sémantique à l'échelle de villes entières.

2. Architectures Piliers

Architecture Concept Clé Cas d'Usage
PointNet Global Pooling (Invariance spatiale) Classification simple d'objets
PointNet++ Apprentissage hiérarchique local Segmentation indoor (S3DIS)
KPConv Kernel Point Convolution LiDAR aérien grande échelle
3D Transformers Attention spatiale 3D Scènes complexes et relations

3. Segmentation Sémantique vs Instance

Il est crucial de distinguer ces deux approches fondamentales :

4. Préparation des Données (Preprocessing)

La performance d'un modèle 3D dépend à 80% de la qualité des données :

  1. Normalisation : Centrer le nuage de points à l'origine (0,0,0).
  2. Augmentation : Rotation aléatoire, jittering (bruit), et scaling pour renforcer la robustesse.
  3. Sampling : Utilisation du Farthest Point Sampling (FPS) pour conserver la structure géométrique.

5. Métriques et Benchmarks

L'évaluation des modèles 3D repose sur des métriques spécifiques :

Architecture mIoU S3DIS mIoU ScanNet
PointNet 41.1% -
PointNet++ 54.5% 33.9%
KPConv 70.6% 69.2%
Point Transformer V2 71.6% 75.4%

6. Ressources Complémentaires

Ce guide constitue une introduction aux architectures fondamentales du Deep Learning 3D. Le Module 4 de la formation approfondit chacune de ces architectures avec des implémentations complètes en PyTorch et des entraînements sur données réelles.

Dr. Florent Poux

Expertise Deep Learning 3D | 3D Geodata Academy