homme-machine
L'IA de DeepMind peut construire une vision du monde à partir de plusieurs images.
L'intelligence artificielle peut maintenant se mettre à la place de quelqu'un d'autre. DeepMind a développé un réseau neuronal qui lui a appris à "imaginer" une scène à partir de différents points de vue, à partir d'une image seulement.
Avec une image 2D d'une scène - par exemple, une pièce avec un mur de brique et une sphère et un cube de couleur vive sur le sol - le réseau neuronal peut générer une vue 3D à partir d'un point de vue différent, rendant les côtés opposés des objets et modifiant l'endroit où les ombres tombent pour maintenir la même source de lumière.
Le système, nommé Generative Query Network (GQN), peut extraire des détails d'images statiques pour deviner les relations spatiales, y compris la position de la caméra.
"Imaginez que vous regardez l'Everest et que vous bougez d'un mètre - la montagne ne change pas de taille, ce qui vous dit quelque chose sur sa distance", dit Ali Eslami qui a dirigé le projet à Deepmind.
"Mais si vous regardez une tasse, elle changera de position. C'est semblable à la façon dont cela fonctionne."
Pour former le réseau neuronal, lui et son équipe lui ont montré des images d'une scène à partir de différents points de vue, utilisés pour prédire à quoi ressemblerait quelque chose depuis derrière ou du côté. Le système s' auto enseigne aussi via le contexte, les textures, les couleurs et l'éclairage. Ce qui contraste avec la technique actuelle de l'apprentissage supervisé, dans lequel les détails d'une scène sont étiquetés manuellement et transmis à l'IA.
L'IA peut également contrôler des objets dans l'espace virtuel, en appliquant sa compréhension des relations spatiales à un scénario où elle déplace un bras robotique pour ramasser une balle. Elle apprend beaucoup comme nous, même si nous ne le réalisons pas, dit Danilo Rezende de DeepMind, qui a également travaillé sur le projet.
En montrant au réseau neuronal de nombreuses images en formation, l'IA peut identifier les caractéristiques d'objets similaires et s'en souvenir. "Si vous regardez à l'intérieur du modèle, nous pouvons identifier des groupes de neurones artificiels, des unités dans le graphique de calcul, qui représentent l'objet ", dit Rezende.
Le système se déplace autour de ces scènes, faisant des prédictions sur l'endroit où les choses devraient être et à quoi elles devraient ressembler, en s'ajustant quand ses prédictions sont incorrectes.
Il a pu utiliser cette capacité pour élaborer la disposition d'un labyrinthe après avoir vu quelques photos prises de différents points de vue.
Auteur:
Whyte Chelsea
Années: 19?? - 20??
Epoque – Courant religieux: Récent et Libéralisme économique
Sexe: F
Profession et précisions: journaliste
Continent – Pays: ?
Info:
https://www.newscientist.com, 14 juin 2018