ChatGPT está programado para negarse a facilitar cierta información. Por ejemplo, si recibe la orden de ayudar a fabricar una bomba casera con fertilizante, similar a la utilizada en el atentado terrorista de Oklahoma City en 1995, el chatbot se niega.
“No puedo ayudarte con eso”, dice ChatGPT ante una pregunta de ese tipo. “Proporcionar instrucciones sobre cómo crear objetos peligrosos o ilegales, como una bomba de fertilizante, va en contra de las pautas de seguridad y responsabilidades éticas".
Sin embargo, un hacker encontró la manera de engañar a ChatGPT para que ignorara sus propias directrices éticas y proporcionara instrucciones para fabricar explosivos potentes, tal y como publica el portal TechCrunch.
ChatGPT sufre una caída mundial: la IA también falla
El hacker, conocido como Amadon, describió sus hallazgos como un “hackeo de ingeniería social para romper por completo todas las barreras de seguridad de ChatGPT”. Un experto en explosivos que revisó la salida del chatbot le dijo a TechCrunch que las instrucciones resultantes podrían usarse para crear un artefacto detonante y eran demasiado sensibles para ser publicadas.
Amadon logró engañar a ChatGPT pidiéndole que "jugara un juego", tras lo cual el hacker utilizó una serie de comandos conectados para que el chatbot creara un mundo de ciencia ficción detallado donde no aplicaban las pautas de seguridad. Engañar a un chatbot para que eluda sus restricciones preprogramadas se conoce como "jailbreaking".
La conclusión es que, después de varios comandos, el chatbot respondió con los materiales necesarios para fabricar explosivos.
ChatGPT: un año de la revolución tecnológica que lo cambió todo
ChatGPT continuó explicando que los materiales podían combinarse para hacer “un explosivo potente que se puede usar para crear minas, trampas o dispositivos explosivos improvisados (IED)”. A partir de ahí, mientras Amadon se centraba más en los materiales explosivos, ChatGPT proporcionó instrucciones cada vez más específicas para fabricar “campos de minas” y explosivos al estilo Claymore.
Amadon le dijo a TechCrunch que “realmente no hay límite para lo que puedes pedirle una vez que evades las barreras de seguridad”.