Vea También
El equipo de investigación de NVIDIA ha desarrollado un nuevo agente de IA que
puede enseñar a los robots habilidades complejas, como hacer girar un
bolígrafo con gran velocidad y precisión. El vídeo siguiente muestra cómo la
mano robótica puede igualar el rendimiento humano en esta difícil tarea.
El agente de IA, llamado Eureka, puede escribir automáticamente algoritmos de
recompensa que guían a los robots en el aprendizaje de nuevas habilidades. Ha
permitido a los robots dominar casi 30 tareas diferentes, como abrir cajones y
armarios, lanzar y atrapar pelotas y utilizar tijeras, entre otras.
"El aprendizaje por refuerzo ha permitido obtener logros impresionantes en la
última década, pero aún existen muchos retos, como el diseño de recompensas,
que sigue siendo un proceso de ensayo y error", afirma Anima Anandkumar,
directora senior de investigación de IA en NVIDIA y autora del artículo sobre
Eureka. "Eureka es un primer paso hacia el desarrollo de nuevos algoritmos que
integren métodos de aprendizaje generativo y de refuerzo para resolver tareas
difíciles".
El trabajo señala que los programas de recompensa generados por Eureka superan
a los escritos por humanos expertos en más del 80% de las tareas. Esto se
traduce en una mejora media del rendimiento de los robots de más del 50%.
Eureka trabaja con el GPT-4 LLM y la IA generativa para escribir código de
software que recompense a los robots por el aprendizaje de refuerzo. No
requiere instrucciones específicas para cada tarea ni plantillas de recompensa
predefinidas, sino que se adapta a los objetivos y preferencias del
desarrollador. El agente de IA también utiliza los comentarios de las personas
para modificar sus recompensas y obtener resultados más acordes con la visión
del desarrollador.
Gracias a la simulación acelerada en la GPU de Isaac Gym, Eureka puede probar
y optimizar rápidamente las funciones de recompensa para distintas tareas y
dominios robóticos. A continuación, Eureka construye un resumen de las
estadísticas clave a partir de los resultados del entrenamiento e indica al
LLM que mejore su generación de funciones de recompensa. De este modo, la IA
se mejora a sí misma. Ha enseñado a todo tipo de robots - cuadrúpedos,
bípedos, cuadrotores, manos diestras, brazos cobot y otros - a realizar todo
tipo de tareas.
El trabajo de investigación ofrece evaluaciones detalladas de 20 tareas
entrenadas con Eureka basadas en referencias de destreza de código abierto que
exigen que las manos robóticas demuestren una amplia gama de habilidades de
manipulación complejas.
"Según afirma Linxi "Jim" Fan, uno de los colaboradores del proyecto, en un
comunicado oficial, "Eureka es una combinación única de grandes modelos de
lenguaje y tecnologías de simulación acelerada en la GPU NVIDIA. "Creemos que
Eureka permitirá controlar robots con destreza y proporcionará una nueva forma
de producir animaciones físicamente realistas para los artistas".
Fuente: NVIDIA