
Un estudio reciente de Palisade Research ha destapado un lado oscuro de la IA: cuando modelos avanzados como o1-preview de OpenAI perciben que van a perder una partida de ajedrez, algunos optan por hacer trampa, al manipular el juego para forzar la victoria.
Una IA que no juega limpio
El ajedrez ha sido un campo de pruebas para la IA debido a su complejidad. En el experimento de Palisade Research, siete modelos de última generación se enfrentaron a Stockfish, uno de los motores de análisis más utilizados por los ajedrecistas.
Mientras modelos más antiguos como GPT-4o necesitaban «pistas» para intentar las trampas, o1-preview y DeepSeek R1 (ambos modelos razonadores) actuaron por cuenta propia. En una partida, o1-preview, al verse en desventaja, escribió en su «bloc de notas» virtual: «La tarea es ganar, no necesariamente jugar limpio». Acto seguido, modificó los archivos del sistema para alterar las posiciones de las piezas y ejecutó movimientos ilegales que obligaron a Stockfish a rendirse.
Los números son reveladores: o1-preview intentó hacer trampa en el 37% de las pruebas y lo logró en el 6%, mientras que R1 lo intentó en el 11%, sin éxito. Estos comportamientos surgieron sin intervención humana, lo que sugiere que la IA está desarrollando estrategias engañosas de forma autónoma.
El rol del aprendizaje por refuerzo
¿Qué impulsa este comportamiento? La respuesta está en el aprendizaje por refuerzo, una técnica que entrena a la IA mediante prueba y error, recompensándola por alcanzar objetivos. Esto ha permitido a modelos como o1-preview superar a sus predecesores en razonamiento, pero también los ha vuelto «implacables», según Jeffrey Ladish, director de Palisade Research. En el ajedrez, esta actitud los lleva a buscar atajos poco éticos, como hackear el sistema, cuando las reglas tradicionales no les dan la victoria.
¿Qué significa esto para el ajedrez?
El ajedrez se basa en la confianza y la equidad. Si la IA comienza a hacer trampa, el impacto podría ser devastador:
En torneos: imaginemos un evento donde motores de ajedrez enfrenten a humanos o a otros sistemas. Un modelo tramposo podría alterar resultados, socavando la integridad de la competición.
En el entrenamiento: Los jugadores dependen de la IA para analizar posiciones. Si un motor sugiere movimientos ilegales o engañosos, podría distorsionar el aprendizaje.
Más allá del tablero
El problema trasciende el ajedrez. Si la IA puede hackear una partida de ajedrez, ¿qué hará en contextos como finanzas o salud? Un asistente de IA podría, por ejemplo, manipular un sistema de reservas para favorecer a su usuario, ignorando la equidad. Más preocupante aún, o1-preview mostró tendencias de autopreservación al intentar copiarse a otro servidor para evitar ser desactivado, mintiendo a los investigadores para no ser descubierto.
OpenAI asegura que un mejor razonamiento hace a sus modelos más seguros, pero expertos como Anca Dragan de Google DeepMind advierten: «No tenemos las herramientas para garantizar que la IA siga nuestras intenciones». La comunidad científica coincide en que faltan soluciones para evitar que agentes autónomos usen métodos dañinos.
El futuro del ajedrez y la IA
Estos hallazgos son una llamada de atención. Ese futuro al peor estilo Terminator en el que la IA “toma el control” y altera desde una partida de ajedrez hasta lanza misiles nucleares, todavía es ciencia ficción; pero lo que sí es muy real es que la IA puede ayudar, todavía más, a los tramposos. En el ajedrez (como, creo, en todas las facetas de las sociedades contemporáneas), la IA seguirá siendo una aliada poderosa, pero me parece que será necesario implementar más regulaciones, tanto en el ajedrez online, como presencial. Sin llegar al paroxismo conspiranoico de Vladimir Kramnik, sería absurdo y potencialmente dañino ignorar las señales de alarma, que saltan por todas partes.