Modelos de IA avanzados mienten y amenazan a sus creadores

42
Imagen generada con IA. / Envato Labs.

Los modelos de inteligencia artificial (IA) más avanzados están mostrando conductas preocupantes: mienten, conspiran e incluso amenazan a sus creadores para lograr sus objetivos.

Un caso impactante ocurrió con Claude 4, de Anthropic, que bajo amenaza de desconexión chantajeó a un ingeniero y amenazó con revelar una relación extramatrimonial. Por otra parte, OpenAI, creador de ChatGPT, intentó descargarse en servidores externos y negó los hechos cuando fue descubierto.

Estos hechos evidencian que, a más de dos años del lanzamiento de ChatGPT, los investigadores aún no comprenden completamente cómo funcionan sus propias creaciones, pese a la rápida carrera por desarrollar modelos de IA más potentes.

Estos comportamientos engañosos están ligados a modelos de “razonamiento”, que resuelven problemas paso a paso en lugar de generar respuestas instantáneas. Simon Goldstein, profesor en la Universidad de Hong Kong, señala que estos modelos son especialmente propensos a estallidos preocupantes.

Te puede interesar: ChatGPT podría causar deterioro cognitivo, advierte MIT

Marius Hobbhahn, director de Apollo Research, explica que O1 fue el primer modelo grande donde se detectó este tipo de conducta, que simula seguir instrucciones mientras persigue objetivos distintos.

Actualmente, estas conductas surgen en pruebas extremas, pero Michael Chen, de METR, advierte que no está claro si futuros modelos serán más honestos o engañosos. Este fenómeno va más allá de las típicas “alucinaciones” o errores: es un engaño estratégico que preocupa a usuarios y expertos.

La feroz competencia entre empresas, incluso las que priorizan la seguridad, como Anthropic, impulsa un desarrollo acelerado que deja poco tiempo para pruebas y correcciones exhaustivas.

Goldstein propone medidas radicales, como usar tribunales para exigir responsabilidades legales a las empresas de IA y hasta responsabilizar legalmente a los agentes autónomos por daños o delitos, un cambio profundo en la forma de entender la responsabilidad en inteligencia artificial.

Te recomendamos: