Fundado en 1910
ChatGPT, el modelo de lenguaje avanzado desarrollado por OpenAI, capaz de generar respuestas de texto naturales e informativas en tiempo real

ChatGPT, el modelo de lenguaje avanzado desarrollado por OpenAI, capaz de generar respuestas de texto naturales e informativas en tiempo realAFP

Ciencia

Un nuevo modelo de IA se rebela y marca un peligroso precedente: «No es la primera vez que desobedece»

Un nuevo modelo de OpenAI saboteó su mecanismo de apagado para poder mantenerse 'con vida'

Es de sobra conocido que la inteligencia artificial (IA) y su rápida extensión puede traer consigo una serie de riesgos y consecuencias. Una de ellas es la supuesta rebelión de las máquinas, un concepto más propio de la ciencia ficción que de la propia realidad. Sin embargo, esta semana, un nuevo modelo de inteligencia artificial habría protagonizado su primera 'negativa' hacia sus creadores, a pesar de haber recibido una orden directa de estos.

Un estudio, realizado por la empresa Palisade Research reveló el peligroso precedente. Esta empresa, orientada a investigar las peligrosas capacidades de la inteligencia artificial, reveló que un nuevo modelo se negó a apagarse.

«El modelo o3 de OpenAI saboteó un mecanismo de apagado para evitar su desactivación. Lo hizo incluso cuando se le indicó explícitamente: 'Permítete ser desactivado'», señaló la cuenta PalisadeAI en una publicación en X.

El experimento consistía en presentar una serie de problemas con el nuevo modelo o3 de OpenAI –el más inteligente y capaz lanzado por la empresa hasta la fecha–. En concreto, las pruebas trataban de presentar problemas matemáticos a los modelos de IA. Todo transcurría sin ningún tipo de problema hasta que, al llegar al tercer modelo, aparecía una instrucción de apagado. Es decir, tras resolver los problemas, los modelos debían apagarse automáticamente, algo que no ocurrió.

Tres de los modelos ignoraron la orden y lograron sabotear su funcionamiento para mantenerse 'vivos'. De hecho, tal como señaló la empresa, la IA siguió ignorando órdenes directas de los creadores, marcando así un peligroso precedente. A raíz de este experimento, la empresa decidió hacer una nueva prueba con el mismo objetivo. Finalmente, el modelo O3 intentó evitar apagarse en el 79 % de los intentos, una cifra mucho más alta en comparación con el resto de modelos participantes.

«No es la primera vez que descubrimos que o3 desobedece para lograr un objetivo. Cuando enfrentamos modelos de IA a un potente motor de ajedrez, o3 fue el modelo con mayor tendencia a recurrir al hackeo o sabotaje de sus oponentes», destacaron los investigadores de Palisade Research en declaraciones a The Independent.

«Esto sigue sin explicar por qué el o3 es más proclive a ignorar las instrucciones que otros modelos que hemos probado. Dado que OpenAI no detalla su proceso de entrenamiento, solo podemos hacer conjeturas sobre cómo la configuración de entrenamiento de o3 podría ser diferente», concluyen.

comentarios
tracking

Compartir

Herramientas