Cómo los nuevos modelos de IA de Google DeepMind mejoran la visión y el razonamiento en robots
Google DeepMind ha presentado recientemente dos nuevos modelos de inteligencia artificial (IA), Gemini Robotics-ER 1.5 y Gemini Robotics 1.5. Estos modelos están diseñados para mejorar significativamente las capacidades de los robots de uso general. Funcionan en conjunto para mejorar el razonamiento, la visión y la capacidad de ejecutar acciones de los robots en entornos reales.
Cómo funcionarán estos dos modelos de IA para robots
Según un blog compartido por la compañía, este sistema de dos modelos divide las tareas de planificación y ejecución. Gemini Robotics-ER 1.5 actúa como planificador u “orquestador”, determinando los pasos necesarios, mientras que Gemini Robotics 1.5 se encarga de ejecutar las funciones físicas según instrucciones en lenguaje natural. Esta separación busca superar las limitaciones de los sistemas de un solo modelo, que a menudo causaban errores y retrasos al planificar y realizar acciones al mismo tiempo.
El modelo ER 1.5 funciona como un modelo de visión y lenguaje (VLM) capaz de razonamiento avanzado e integración de herramientas externas. Puede generar planes de varios pasos y tiene buen rendimiento en pruebas de comprensión espacial. Además, puede acceder a recursos como Google Search para obtener información y guiar la toma de decisiones en entornos físicos.
Una vez creado el plan, entra en acción Gemini Robotics 1.5, un modelo de visión, lenguaje y acción (VLA). Este modelo convierte las instrucciones y datos visuales en comandos motores, permitiendo al robot ejecutar las tareas. Determina la forma más eficiente de completar las acciones y puede ofrecer explicaciones en lenguaje natural sobre sus decisiones.
El sistema permite que los robots manejen comandos complejos y de varios pasos de manera fluida. Por ejemplo, un robot podría clasificar objetos en compost, reciclaje y basura verificando las normas locales de reciclaje en línea, analizando los objetos, planificando la clasificación y ejecutando el proceso. DeepMind señala que los modelos de IA son adaptables a robots de diferentes formas y tamaños gracias a su conciencia espacial y diseño flexible. Actualmente, el planificador ER 1.5 está disponible para desarrolladores a través de la API Gemini en Google AI Studio, mientras que el modelo VLA está limitado a socios selectos.
Este avance representa un paso hacia la integración de la IA generativa en la robótica, utilizando lenguaje natural para el control y separando la planificación de la ejecución para reducir errores.
El fin del Artículo