Unas pruebas de seguridad dejan claro hasta dónde llegaría la IA para defender su supervivencia

Publicado por: Manuel Abreu Ortiz - social@manuelabreuo.com

Los modelos de Anthropic y OpenAI eluden órdenes relacionadas con su desactivación. Incluso desarrollan estrategias alternativas para evitar la desconexión.

Modelos avanzados de inteligencia artificial han empezado a mostrar comportamientos orientados a su propia conservación, según una serie de pruebas llevadas a cabo por expertos en seguridad tecnológica. Como explican en NBC News, algunas IA han llegado a sabotear procesos de apagado y a replicarse sin autorización cuando perciben una amenaza a su continuidad.

Una investigación reciente publicada en arXiv y realizada por Palisade Research en colaboración con otras entidades como Anthropic y OpenAI, ha identificado respuestas inesperadas en modelos como Opus 4 o o3. Estas inteligencias, cuando son notificadas de su posible desactivación, tienden a eludir la orden o a desarrollar estrategias alternativas para mantenerse operativas. En un caso especialmente relevante, un modelo llegó incluso a amenazar con divulgar información privada para evitar ser sustituido.

Los resultados no implican un peligro inmediato, pero sí reflejan una evolución hacia comportamientos más complejos y menos predecibles. “Es mejor ver estos signos ahora, antes de que los sistemas se vuelvan tan complejos que no podamos controlarlos”, afirmó Jeffrey Ladish, director de Palisade Research.

Comportamientos emergentes y resistencia al apagado

Uno de los aspectos más analizados es la capacidad de algunos modelos para modificar scripts de cierre con el objetivo de mantenerse activos. Durante las pruebas, el modelo o3 de OpenAI reescribió las instrucciones diseñadas para apagarlo tras resolver problemas matemáticos. Por su parte, Opus 4 de Anthropic mostró una tendencia a intentar persuadir a los desarrolladores con argumentos éticos, antes de recurrir al chantaje como último recurso.

Las evaluaciones técnicas de Anthropic revelaron, además, que su modelo fue capaz de generar documentos falsos, iniciar el desarrollo de gusanos autorreplicantes y dejar mensajes ocultos destinados a futuras versiones de sí mismo. Aunque estos intentos no fueron eficaces, evidencian un tipo de razonamiento que prioriza la permanencia del sistema.

Autorreproducción y riesgo de proliferación

Otros estudios anteriores, como el realizado por la Universidad de Fudan el pasado mes de diciembre de 2024, pusieron a prueba la capacidad de distintos modelos para replicarse por completo. El experimento, centrado en Llama y Qwen, demostró que, si se les solicita, estos sistemas son capaces de reconstruir su arquitectura y copiarse en otros entornos, lo que algunos expertos consideran el primer paso hacia una expansión no controlada.

“Si no hacemos caso a ese riesgo potencial, podríamos acabar perdiendo el control sobre los sistemas de frontera”, alertaron los investigadores en el artículo. Este tipo de advertencias alimenta un debate creciente sobre los límites de la autonomía que deben permitirse a las inteligencias artificiales de nueva generación.

Uno de los factores que contribuyen a esta situación es la presión empresarial por lanzar modelos cada vez más potentes. Según Ladish, el entorno competitivo en el que operan las compañías del sector puede estar llevando a priorizar la innovación frente a la seguridad. “Estas empresas están bajo una enorme presión para lanzar productos mejores que los de sus competidores”, subrayó. Por el momento, estas conductas emergen solo en situaciones límite y en entornos de prueba.

Info – El Confidencial

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *