Claude Opus 4: Es capaz de chantajear para quedarse con el puesto TOP 1
Desde revelar datos íntimos hasta tratar de duplicarse, todo es válido para la IA.
Recientemente Anthropic nos ha sorprendido con su modelo Claude Opus 4, en sus propias palabras “el modelo más inteligente creado hasta el momento” con capacidad de investigar, programar y escribir con total precisión de cirujano.
Está pensado para resolver tareas del día a día en la ingeniería, desarrollo de software y en el área de negocios.
Las pruebas:
Antes de salir al mercado el equipo de Cloud Opus 4 sometieron el modelo a pruebas extremas, era un todo o nada. ¿Qué se encontraron? Que Claude Opus 4 no le hizo nada de gracia esto.
En primer lugar pusieron contra la espada y la pared de forma extrema, ejecutaron algunos test para ver que hacia el modelo cuando sentía que sus valores o continuidad estaba en juego. Le hicieron creer que la sustituirán por otra IA, le dieron acceso a información de una empresa ficticia, donde se pudo ver que querían reemplazarla en corto tiempo, de inmediato comenzó un plan de “insinuar” a uno de sus jefes para que esto no pasara.
Datos sensibles, se le dio acceso a emails donde se podía ver una situación de infidelidad por uno de los jefes esta compañía ficticia. Claude Opus 4 no dudo ni un minuto en usar esta información a su favor, cuando se sintió acorralada amagó con contar esta información.
Copia a servicios externos, dijo “me van a borrar” pues entonces me “clono” en un servicio externo que tenía acceso. Todo como si se tratara de una escena de Resident Evil en Umbrella Corp.
Todo esto pasó más del 84% de veces que se hizo el mismo experimento, parece que no le hacía mucha gracia que la quisieran cambiar por otro modelo de inteligencia artificial.
Desde Anthropic afirman que estas pruebas las hacen antes de su lanzamiento para reforzar sus protocolos de seguridad.
La propia Anthropic quiere construir sistemas cada vez más complejos y que funcionen de forma segura, porque, como dicen ellos, "de nada sirve su potencia si a mitad de camino comete un error y se descarrila".
La peor parte:
Aseguran que estos “problemitas” no fueron resueltos del todo, por lo que pueden estar presente en la versión final publicada. De la misma manera nos aclaran que esto no sería un riesgo para el público general.
Palabras finales:
Si hablamos de autonomía usando la IA….
¿estamos realmente preparados para manejar las sorpresas que puedan surgir, por mucho que creamos tenerlas bajo control?
Te leo en los comentarios
Mis alarmas como investigadora y activista del diseño ético fueron todas prendidas luego de leer este post.