Los avances siguen y Gemini lo dio a conocer en sus redes sociales. Ahora están implementando una actualización diseñada para ayudar a los robots a razonar sobre el mundo físico.

Gemini Robotics-ER 1.6 es una importante actualización de su modelo basado en el razonamiento que permite a los robots comprender su entorno con una precisión sin precedentes.

Publicidad

“Al mejorar el razonamiento espacial y la comprensión multivista, brindamos un nuevo nivel de autonomía a la próxima generación de agentes físicos”, indica la empresa.

C-UAS de Saab: El escudo invisible de 2.600 millones que “borra” drones del cielo sueco

¿Cómo es el modelo?

Este modelo se especializa en capacidades de razonamiento cruciales para la robótica, incluyendo la comprensión visual y espacial, la planificación de tareas y la detección de éxito.

Publicidad

Actúa como el modelo de razonamiento de alto nivel para un robot, capaz de ejecutar tareas mediante el uso nativo de herramientas como la búsqueda de Google para encontrar información, modelos de visión-lenguaje-acción (VLA) o cualquier otra función definida por el usuario.

Gemini Robotics-ER 1.6 muestra una mejora significativa con respecto a Gemini Robotics-ER 1.5 y Gemini 3.0 Flash, especialmente en lo que respecta a las capacidades de razonamiento espacial y físico, como señalar, contar y detectar el éxito.

El colapso energético de la IA: los centros de datos ya consumen tanta electricidad como todo el estado de Nueva York

Además, están desbloqueando una nueva capacidad: la lectura de instrumentos, que permite a los robots leer indicadores y visores complejos.

A partir de hoy, Gemini Robotics-ER 1.6 está disponible para desarrolladores a través de la API de Gemini y Google AI Studio.

Puntos importantes

  • Razonamiento espacial: Detección y conteo de objetos de precisión.
  • Lógica relacional: Realizar comparaciones como identificar el elemento más pequeño de un conjunto; definir relaciones “de-a” (por ejemplo, mover X a la ubicación Y).
  • Razonamiento del movimiento: Mapeo de trayectorias e identificación de puntos de agarre óptimos.
  • Cumplimiento de restricciones: Razonamiento a través de indicaciones complejas como “señala todos los objetos lo suficientemente pequeños como para caber dentro de la taza azul”.

Gemini Robotics-ER 1.6 puede usar puntos como pasos intermedios para razonar sobre tareas más complejas. Por ejemplo, puede usar puntos para contar elementos en una imagen o para identificar puntos relevantes que ayuden al modelo a realizar operaciones matemáticas y mejorar sus estimaciones métricas.

El siguiente ejemplo muestra las fortalezas de Gemini Robotics-ER 1.6 a la hora de señalar múltiples elementos y saber cuándo señalar y cuándo no.

Detección de éxito: El motor de la autonomía

En robótica, saber cuándo termina una tarea es tan importante como saber cómo empezarla. La detección de éxito es un pilar fundamental de la autonomía, ya que funciona como un motor de toma de decisiones crucial que permite al agente elegir de forma inteligente entre reintentar un intento fallido o avanzar a la siguiente etapa del plan.

Lograr la comprensión visual en robótica es un desafío que requiere capacidades sofisticadas de percepción y razonamiento, combinadas con un amplio conocimiento del mundo, para manejar factores que complican la tarea, como oclusiones, iluminación deficiente e instrucciones ambiguas.

Además, la mayoría de los sistemas robóticos modernos incluyen múltiples vistas de cámara, como una vista superior y una montada en la muñeca. Esto significa que un sistema necesita comprender cómo se combinan los diferentes puntos de vista para formar una imagen coherente en cada momento y a lo largo del tiempo.

Gemini Robotics-ER 1.6 mejora el razonamiento multivista, lo que permite al sistema comprender mejor las señales de múltiples cámaras y la relación entre ellas, incluso en entornos dinámicos u ocluidos, como se demuestra en el escenario multivista típico que se muestra a continuación.

Razonamiento visual en situaciones reales

Para comprender una de las principales fortalezas de Gemini Robotics-ER 1.6, debemos analizar cómo combina capacidades como el razonamiento espacial y el conocimiento del mundo para resolver problemas complejos del mundo real. Un ejemplo perfecto es la lectura de instrumentos.

Esta tarea surge de las necesidades de inspección de instalaciones, un área de enfoque fundamental para nuestros socios de Boston Dynamics. Las instalaciones industriales contienen numerosos instrumentos —termómetros, manómetros, visores químicos y más— que requieren monitoreo constante. Spot, un robot de Boston Dynamics, puede recorrer los instrumentos en toda la instalación y capturar imágenes de ellos.

La lectura de instrumentos requiere un razonamiento visual complejo. Es necesario percibir con precisión diversos elementos —como las agujas, el nivel del líquido, los límites del recipiente, las marcas de graduación y otros— y comprender su interrelación. En el caso de los visores, esto implica estimar la cantidad de líquido que llena el visor, teniendo en cuenta la distorsión producida por la cámara.

Los indicadores suelen tener texto que describe la unidad, el cual debe leerse e interpretarse, y algunos cuentan con varias agujas que representan diferentes decimales, los cuales deben combinarse. (I)