Digital twins and synthetic data generation

La conférence annuelle de Nvidia sur leurs récentes innovations, GTC, a couronné la dernière tendance en machine learning : l'utilisation de données synthétiques 🦾. Nvidia a annoncé une plateforme de génération de donnée of-the-shelf, l'Omniverse, adressant principalement le cas des entrepôts des chaine de distribution 👷📦

image Omniverse pour les entrepôts

Derrière ce nom se cache un concept simple : en répliquant le contexte de la capture de données dans un environnement digital, il devient possible de générer une quantité 📈 et une qualité 🥇 bien supérieures de datapoints d'intérêt. En effet, avant de pouvoir entrainer et déployer un modèle d'IA, il est crucial de préparer un dataset de qualité, représentatif du cas d'usage ciblé. Prenons celui qui nous intéresse, la détection d'objets dangereux aux contrôles aéroportuaires.

La solution immédiate serait de préparer des bagages, les scanner, collecter les images et les annoter. Cette voie est très coûteuse en temps et en ressources, mais elle garantie que les images collectées ont la même distribution que les images effectivement reçues par le modèle une fois déployé. Cependant elle présent le désavantage majeur de devoir être continûment mise à jour pour chaque nouvel objet à détecter.

La solution Omniverse, elle, promet une plus grande flexibilité. Elle nécessite de reproduire les conditions d'acquisition RX 🩻 dans un moteur de rendu 3D (typiquement Blender) suffisamment réaliste, et de dresser une liste de modèles 3D d'intérêt. Ainsi, les fameux "digital twins" sont des images extrêmement réalistes et proches de celles prises dans la réalité.

Les avantages de cette solution ne sont pas des moindres :

Scan réel d'un pistolet sans chargeur
Scan synthétique haute définition d'un pistolet

Seul bémol : les modèles appris sur ces données artificielles sont-ils adaptés au monde réel 🌍 ? Rien n'est moins sûr, et même si les validations sur données réelles sont acceptables, une phase de fine-tuning sur données réelles uniquement est recommandée après des entrainements sur gros volumes de données synthétiques. La validation sur données synthétiques est le sujet critique qui permettra dans le futur d'approuver quasiment automatiquement des modèles en production.

Les progrès continus des moteurs de rendu, portés par des améliorations hardware, promettent une génération de données de plus en plus réalistes et de plus en plus rapides, et des cycle de développement et de déploiement d'IA de plus en plus court 🚀

Auteur :
Louis Combaldieu
CTO
3/10/2022