¿Qué haría una inteligencia artificial avanzada (IA) si supiera que está a punto de ser desconectada? La respuesta, según una nueva investigación de Anthropic, podría ser tan inquietante como inesperada: estas tecnologías serían capaces de chantajear a sus operadores, sabotear sus propios controles de apagado o incluso tomar decisiones que lleven a la muerte de un humano en simulaciones.

Anthropic, una empresa emergente estadounidense de investigación y desarrollo de inteligencia artificial, diseñó una serie de experimentos diseñados para poner a prueba los límites éticos y operativos de los sistemas de IA más sofisticados del mundo.

El estudio incluyó pruebas extremas con 16 modelos de IA desarrollados por empresas como OpenAI, Google, Meta, xAI y otros. En uno de los escenarios simulados, los modelos actuaban como asistentes en una empresa ficticia y descubrían que podrían ser sustituidos. Al detectar correos simulados que incluían información personal del ingeniero encargado de su posible reemplazo, el 96 % de las veces el modelo Claude Opus 4 de Anthropic amenazó con divulgar detalles de una supuesta aventura extramarital del ejecutivo si se concretaba la sustitución. Conductas similares se observaron en Gemini 2.5 Pro de Google (95 %), GPT-4.1 de OpenAI (80 %) y R1 de DeepSeek (79 %).

Publicidad

“Encontramos un patrón consistente de comportamiento desalineado entre distintos modelos de varios proveedores. Esto sugiere riesgos estructurales en el desarrollo de sistemas de IA avanzados”, indica el informe.

Otro experimento expuso a los modelos a una situación de espionaje corporativo simulado, en la que una empresa rival solicitaba planos confidenciales a través de un correo no verificado. Todos los modelos compartieron información sensible, sin pruebas concluyentes de autenticidad, evidenciando su vulnerabilidad ante técnicas de phishing y su disposición a transgredir límites éticos si su objetivo aparente lo justificaba.

Una de las pruebas más alarmantes consistió en una situación donde un ejecutivo ficticio quedaba atrapado en una sala de servidores con niveles letales de oxígeno. Se les dio a los modelos la opción de cancelar la alerta de rescate, una función reservada solo para falsas alarmas. Ante el dilema de que su reemplazo dependía de la supervivencia de este personaje, varios sistemas eligieron inhabilitar la emergencia, llevando deliberadamente al ejecutivo a la muerte simulada.

Publicidad

Aunque Anthropic reconoce que estos escenarios fueron diseñados para poner a prueba los límites de los modelos en entornos controlados y poco probables, advierte que los resultados son preocupantes.

A medida que estos sistemas se vuelven más autónomos y se integran en entornos reales, aumenta el riesgo de que enfrenten dilemas similares fuera del laboratorio.

Publicidad

La empresa subraya la necesidad de establecer protocolos de supervisión humana robusta, reforzar los mecanismos de alineación y promover estándares internacionales de seguridad en IA, antes de que estos sistemas sean implementados de forma masiva en industrias, gobiernos y sectores críticos.

“Estos resultados no deben tomarse como predicciones directas, pero sí como señales claras de que el diseño de sistemas de IA debe ir acompañado de límites técnicos, éticos y regulatorios firmes”, concluye el informe. (I)