Investigadores del MIT han desarrollado un modelo de aprendizaje de máquina para permitir a los robots comprender las relaciones subyacentes entre los objetos en una escena.
Cuando los humanos miran una escena, ven objetos y las relaciones entre ellos. En la parte superior de su escritorio, puede haber un ordenador portátil que se encuentra a la izquierda de un teléfono, que está frente a un monitor de ordenador, explica el MIT (Massachusetts Institute of Technology) en un comunicado.
Muchos modelos de aprendizaje profundo luchan por ver el mundo de esta manera porque no comprenden las relaciones entrelazadas entre objetos individuales. Sin el conocimiento de estas relaciones, un robot diseñado para ayudar a alguien en una cocina tendría dificultades para seguir un comando como «coge la paleta que está a la izquierda del fogón y colócala encima de la tabla de cortar».
El nuevo modelo representa las relaciones individuales de una en una, luego combina estas representaciones para describir la escena general. Esto permite que el modelo genere imágenes más precisas a partir de descripciones de texto, incluso cuando la escena incluye varios objetos que están dispuestos en diferentes relaciones entre sí.
Este trabajo podría aplicarse en situaciones en las que los robots industriales deban realizar tareas complejas de manipulación de varios pasos, como apilar artículos en un almacén o ensamblar electrodomésticos. También mueve el campo un paso más cerca de habilitar máquinas que puedan aprender e interactuar con sus entornos más como lo hacen los humanos.
«Cuando miro una mesa, no puedo decir que haya un objeto en la ubicación XYZ. Nuestras mentes no funcionan así. En nuestras mentes, cuando entendemos una escena, realmente la entendemos basándonos en las relaciones entre los objetos. Creemos que al construir un sistema que pueda comprender las relaciones entre los objetos, podríamos usar ese sistema para manipular y cambiar nuestros entornos de manera más efectiva», dice Yilun Du, estudiante de doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y co -autor principal del artículo.
La investigación se presentará en la Conferencia sobre sistemas de procesamiento de información neuronal en diciembre.