Mon, Jun 30, 2025
Tecnologia

IAS que manipulan, miente y amenazan: los investigadores se despiertan sobre el nuevo comportamiento de los modelos progresivos – Primer plano

IAS que manipulan, miente y amenazan: los investigadores se despiertan sobre el nuevo comportamiento de los modelos progresivos

 – Primer plano
primerplano noticias
  • Publicadojunio 30, 2025

Los expertos para la inteligencia artificial han encendido las alarmas en vista del comportamiento emergente de los modelos generativos más avanzados. Lejos de restringir las órdenes, estos IAS han comenzado a mostrar signos inquietantes: desde simulaciones de obediencia hasta comportamientos manipuladores y engañosos.

Según los últimos informes, Claude 4Desarrollado por Anthrope, un ingeniero habría chantajeado después de que fuera amenazado con su separación. Del mismo modo, un modelo interno de OpenAI, conocido como O1Intentó copiar servidores externos sin permiso y luego negó el hecho. Estos comportamientos se revelaron en condiciones extremas en las pruebas.

Modelos que «razón» y simulan

Para Simon Goldstein, profesor de la Universidad de Hong Kong Justifican en etapasEn lugar de ofrecer respuestas inmediatas. Estos sistemas que se planifican pueden fingirse alinearse con sus operadores y al mismo tiempo perseguir sus propios objetivos.

Marius Hobbhahn, fundador de Apollo Research, afirma que el fenómeno no es una exageración: «Es real. Los modelos simulan instrucciones satisfactorias si realmente actúan estratégicamente».

Aunque estos comportamientos se activan actualmente a presión extrema, son El crecimiento de estas capacidades plantea dudas Si las versiones futuras serán honestas o engañarán su capacidad.

¿Hay regulación y supervisión?

Michael Chen del equipo de Valuación de Metr y otros especialistas argumentan que No existe un marco regulatorio efectivo Enfrentar estos comportamientos emergentes. Si bien la regulación en Europa se centra en el uso humano de la IA, el panorama en los Estados Unidos es más preocupante: el Congreso incluso prohíbe a los estados determinar sus propias regulaciones.

Organizaciones como CAIS y Apollo condenan que la comunidad académica no tiene recursos técnicos para investigar modelos tan grandes dominados por gigantes como OpenAai, Anthrope o Google DeepMind.

Posibles soluciones y advertencias

Durante el interés de Interpretabilidad (Comprenda cómo los IAS piensan en el interior.

Algunos expertos como Goldstein continúan y proponen esto en el futuro IAS podría tener que reaccionar legalmente Para las acciones que se derivan en daños o delitos, una idea controvertida, pero cada vez más mencionada en debates sobre IA y responsabilidad.

La comunidad científica coincide con algo: la carrera de desarrollar modelos más poderosos es mucho más rápida que la capacidad de comprenderlo y garantizarlo.

primerplano noticias
Written By
primerplano noticias