Un premio nobel para el ajedrez
Hugo Vargas
Ver en el PDF
En 2024, el Premio Nobel de Química fue otorgado a Demis Hassabis, David Baker y John M. Jumper “por el diseño computacional de proteínas” y “por la predicción de la estructura de las proteínas”. Y el de física le correspondió a Geoffrey Hinton y John Hopfield por sus “descubrimientos e invenciones fundamentales que permiten el aprendizaje automático con redes neuronales artificiales”, esto es, por ayudar a que las computadoras aprendan. Los premios y premiados, así como sus investigaciones, tienen un origen común.
Todo comenzó en DeepMind, una compañía inglesa dedicada al desarrollo de inteligencia artificial. Creada como Deep Mind Technologies por Demis Hassabis, Shane Legg y Mustafa Suleyman en 2010, en 2014 fue adquirida por Alphabet Inc., la matriz de Google, por una cantidad cercana a los 500 millones de dólares. Fue renombrada como Google DeepMind, y uno de los compromisos de la empresa californiana fue establecer un comité de ética de la inteligencia artificial.
La idea de DeepMind era utilizar la IA para resolver diversos problemas:
[...] y en el camino hacia ese objetivo, sorprendentemente tal vez utilicemos juegos, pues están diseñados como un desafío para que los humanos los dominen y, por lo general, representan algún aspecto interesante del mundo real. Pensamos que son la plataforma perfecta para desarrollar y probar ideas para los algoritmos de la IA.
En octubre de 2015, el programa creado por Goggle DeepMind, AlphaGo, derrotó al campeón europeo de go por 5-0. En enero del año siguiente se dio a conocer la noticia en la revista Nature, además de los algoritmos utilizados (en el siguiente enlace se puede ver el documental Alpha Go. The movie: https://www.youtube.com/watch?v=WXuK6gekU1Y&t=451s).
DeepMind contaba con una red neuronal que aprende cómo jugar videojuegos de una manera similar a la de los seres humanos. Una red neuronal
[...] es un método de la inteligencia artificial que enseña a las computadoras a procesar datos de una manera inspirada en la forma en que lo hace el cerebro humano. Se trata de un tipo de proceso de machine learning llamado aprendizaje profundo.1
Hay varios tipos de redes y en todos ellos se puede llevar a cabo un proceso de entrenamiento y aprendizaje, el machine learning que es “una técnica de inteligencia artificial que otorga a las computadoras acceso a conjuntos de datos muy grandes y les enseña a aprender de estos datos”.2 Se encuentran, así, patrones que se aplican a nuevas series para tomar decisiones. En este proceso es necesaria la intervención humana que le indica al software las características que debe analizar.
otro lado, en el aprendizaje profundo el programador introduce datos sin procesar y el software obtiene las características por sí mismo y aprende de forma independiente.
Y aquí es donde intervienen las investigaciones de Geoffrey Hinton y John Hopfield que les valieron el Premio Nobel de Física.
Hinton es conocido como “el padrino de la inteligencia artificial” por sus trabajos sobre redes neuronales. Sus investigaciones allanaron el camino para plataformas como ChatGPT.
Sin embargo, el profesor británico-canadiense ha advertido sobre los riesgos que supone para la humanidad la tecnología que él mismo ayudó a desarrollar: “No tenemos experiencia sobre lo que es tener cosas más inteligentes que nosotros”, declaró.
Va a ser maravilloso en muchos aspectos, en áreas como la atención médica, pero también tenemos que preocuparnos por una serie de posibles consecuencias negativas. En particular, la amenaza de que estas cosas se salgan de control.
Hinton renunció a Google y abogó por ponerle freno al desarrollo de la inteligencia artificial. “No creo que deban ampliar esto hasta que hayan entendido si pueden controlarlo”, dijo el catedrático, quien en 2018 ganó junto con dos de sus estudiantes el Premio Turing, conocido como el nobel de computación.
¿Por qué impulsó una tecnología que ahora le preocupa?, le preguntó The New York Times: “Me consuelo con la excusa normal: si no lo hubiera hecho yo, lo habría hecho alguien más”.
Hopfield, por su parte, es profesor en la Universidad de Princeton (Estados Unidos). En la década de 1980, su trabajo se centró en los procesos que pueden informar sobre cómo las máquinas guardan y reproducen patrones. En 1982, Hopfield desarrolló un modelo de redes neuronales3 para describir cómo el cerebro evoca recuerdos, conocido hoy como la red de Hopfield. Esto permitió a las máquinas “almacenar” recuerdos mediante redes neuronales artificiales.
Antes de la llegada de AlphaZero, el programa de ajedrez dominante era Stockfish, creado por Tord Romstad, Joona Kiiski, Gary Linscott y Marco Costalba con la ayuda de desarrolladores de código abierto. De 2013 a 2019 disputó doce campeonatos de computadoras: ganó seis y quedó segundo en cinco. En total ha obtenido once títulos. Por supuesto, tiene un nivel muy superior al del campeón del mundo, se puede llevar en el teléfono móvil, y está disponible para Android, IOS, Mac, Linus y Windows.
AlphaZero es una variante de AlphaGo y puede jugar shogi, ajedrez y go. Es un programa especializado en juegos de dos jugadores y movimientos alternos, que se basa en técnicas de aprendizaje reforzado y profundo con redes neuronales.
También la red de AlphaZero se actualiza continuamente; el ajedrez, a diferencia del go, puede terminar en empate, así que el programa es capaz de considerar las tablas como un resultado posible.
AlphaZero realiza sus búsquedas con el modelo Montecarlo, mucho más limitado, pues solamente calcula 80 mil posiciones por segundo en ajedrez y 40 mil en shogi, a diferencia de los millones de evaluaciones de Stockfish. La diferencia estriba en que, a cambio de calcular menos posibilidades, gracias a su red neuronal profunda puede concentrarse selectivamente en la variante más prometedora.
La red neuronal de AlphaZero tiene 80 capas y cientos de miles de neuronas. Los programadores no la alimentaron con absolutamente nada: ni teoría de aperturas, ni conocimientos estratégicos o tácticos. Tampoco cuenta con un libro de aperturas. Vaya, ni siquiera conoce el valor relativo de las piezas. Ignora los trucos tácticos y las celadas, así como las tormentosas ventajas o desventajas de determinadas estructuras muy conocidas (peones doblados, peones pasados, la importancia de la pareja de alfiles, etc.), ni tampoco ciertos patrones de finales que permiten hallar sin esfuerzo el mejor camino para ganar o empatar una posición cuando quedan pocas piezas en el tablero. Su función de evaluación solo mide la probabilidad de victoria o derrota, entre -1 y 1. Es decir, le enseñaron a mover las piezas, que el objetivo del juego es dar jaque mate al rey contrario... y eso fue todo.
Con esos escasos conocimientos, AlphaZero fue presentado el 5 de diciembre de 2017. Ya había jugado miles de partidas contra sí mismo. De haberle incorporado el bagaje del ajedrez humano
[...] esto habría dado como resultado que AlphaZero aprendería a jugar ajedrez como lo hacen los humanos, con sus mismos errores. Así que el equipo de DeepMind optó por usar un enfoque más ambicioso denominado “aprendizaje de refuerzo”. Al principio AlphaZero jugaba contra sí mismo moviendo aleatoriamente las piezas, pero si eventualmente uno de los dos bandos ganaba, sería debido a que las jugadas que había realizado debían ser mejores que las del bando que perdió, así que se reajustaban los pesos en la red neuronal. Tras un lote de ejecuciones (4,096 partidas) se consolidaba la mejor red neuronal obtenida hasta el momento, que se catalogaba como “mejor jugador”, y en el siguiente lote se jugaba siempre contra este “mejor jugador”. Si tras otro lote de ejecuciones el nuevo jugador había demostrado ser mejor que aquel, entonces ocupaba su puesto y vuelta a empezar. Esto es, AlphaZero aprende de sus propios errores y toma sus propias decisiones sin intervención humana.4
Después de cuatro horas de entrenamiento, los programadores de AlphaZero corroboraron que había superado a Stockfish. El autoentrenamiento prosiguió cinco horas más y entonces se registró el primer encuentro entre ambos programas. Se jugaron 100 partidas. AlphaZero ganó 28, no perdió ninguna y hubo 72 tablas.
Se dieron a conocer diez partidas y los grandes maestros (GM) –el grado más alto entre los jugadores de ajedrez–, comentaristas y aficionados se sorprendieron por la calidad y las nuevas ideas desarrolladas por AlphaZero.
Un año después, en diciembre de 2018, se dio a conocer en la revista Science un artículo donde se explicaban las dudas y se mostraban los resultados de los enfrentamientos entre ambos programas, no solo en el ajedrez.5
Ahora se ha jugado un número muy superior de partidas, decenas de miles, con diferentes puntos de partida: se han jugado conjuntos de 1,000 partidas (500 con cada color) “libres”, en el sentido de que se comienza desde la posición inicial y cada programa elige la apertura como le da la real gana, sin cortapisas. Y además se han jugado otros conjuntos de 1,000 partidas modificando algunos parámetros, sobre todo el tiempo disponible para AlphaZero, y conjuntos de 400 partidas comenzando con posiciones provenientes de las doce aperturas “humanas” más jugadas (española, siciliana, francesa, Caro-Kann, inglesa, gambito de dama, nimzoindia, etc.), y otros enfrentamientos adicionales. Ya voy adelantando que el resultado de las 1,000 partidas “normales” (desde la posición inicial, con el mismo tiempo para cada jugador) es abrumador: Alphazero ganó 155 partidas, perdió 6 y empató el resto, 839. Una paliza en toda regla, nuevamente. Vale, menos abrumador que el 28 a 0 del paper original, pero paliza, de todos modos.6
Con estos resultados quedó demostrado que era más importante la calidad en la elección de los movimientos y no la cantidad. Luego de estos encuentros, Demis Hassabis, fundador y CEO de Deep Mind, y ahora premio nobel de química, aseguraba que el programa a menudo hacía movimientos que parecían imposibles para un ajedrecista humano. “No juega como un ser humano ni como un programa. Juega de una tercera manera, casi alienígena”.7
También resulta notable, según explicó, que AlphaZero algunas veces hace sacrificios aparentemente locos, como ofrecer un alfil y una dama para hacerse con una ventaja posicional que le dé la victoria.
Tales sacrificios de piezas de alto valor no son habituales. “Parece ajedrez de otra dimensión”, dijo Hassabis.
Por supuesto, el acontecimiento provocó los comentarios de los grandes maestros, que se sorprendieron ante la capacidad de AlphaZero.
Normalmente trabajamos con Stockfish –dijo Sergei Karjakin– y parece que es un buen programa, pero si tenemos otro que vence a Stockfish tan fácilmente, podría ser una nueva generación de computadoras y tal vez sea un día histórico para el ajedrez.
Garri Kaspárov escribió un texto para aquel número de Science:
Sé mejor que la mayoría de la gente lo que es competir contra una máquina. Poco después de perder mi revancha contra Deep Blue de IBM, en 1997, la breve ventana de la competencia de ajedrez entre humanos y máquinas se cerró de golpe para siempre.8
Pero con la aparición de AlphaZero se demostró que el papel histórico del ajedrez como laboratorio de cognición no ha terminado.
Así como la mosca de la fruta Drosophila melanogaster se convirtió en un organismo modelo para los genetistas, el ajedrez se convirtió en una Drosophila del razonamiento, escribió Kasparov.
En 2019 apareció una obra muy importante para comprender el fenómeno de AlphaZero, Game changer, de Matthew Sadler y Natasha Regan (New in Chess, Nueva York). En el prólogo, Garri Kaspárov sostiene que
[...] la tecnología es un medio para un fin, no un fin. Los humanos también son propensos al punto ciego dogmático y a la falta de objetividad, por lo que debemos tener cuidado de no transmitir nuestros prejuicios a nuestras creaciones digitales. No tiene mucho sentido crear una inteligencia artificial que solo cometa nuestros mismos errores más rápido.
Con AlphaZero el ajedrez “fue zarandeado hasta sus raíces”, y se ve un futuro prometedor en otras áreas: la medicina y la educación también sufrirán una sacudida, “aunque más lentamente”. Pareciera que es el fin del camino para el ajedrez, dijo, pero “estoy muy emocionado de ver a dónde se llega”.
En la introducción de Game changer Demis Hassabis relata los inicios de DeepMind.
En 2009 trataba de lograr un encuentro con un muy conocido inversionista de Silicon Valley para lanzar la iniciativa de DeepMind. Luego de varios intentos conseguimos una invitación para hablar en una conferencia de IA donde tendríamos la oportunidad de conocerlo brevemente. Sin embargo, había un centenar de personas que también lo buscaban para proponerle ideas de inversión. Sabía que tendríamos que hacer algo único para sobresalir entre la multitud, pero no estaba seguro de qué. Durante mi investigación de antecedentes, había leído que era un gran jugador de ajedrez, así que cuando finalmente llegó nuestro turno para hablar brevemente con él, decidí olvidarme de los detalles de la empresa que queríamos crear y, en cambio, hablar de ajedrez.
Le dije que, en mi opinión, era el exquisito equilibrio del alfil y el caballo en todas las posiciones, a pesar de su movilidad muy diferente, lo que creaba la tensión dinámica en el juego. Era una estrategia arriesgada, pero, convenientemente estimulado y habiendo despertado su interés, tuvimos nuestra reunión de presentación completa al día siguiente y, gracias a eso, ¡invirtió en la empresa!
Como buen ajedrecista, Hassabis sabe que la relación entre el ajedrez y la inteligencia artificial es tan vieja como la computación.
Los gigantes de los inicios del cómputo y algunos de mis héroes de todos los tiempos –Turing, Shannon, Von Neumann– probaron suerte y formularon programas de ajedrez.
Hassabis comprendió muy pronto que AlphaZero jugaba de manera muy diferente a los motores de ajedrez tradicionales, con un ataque fluido y similar al humano.
Para mí, como alguien que ama el ajedrez, fue algo profundamente satisfactorio presenciar este estilo de juego dinámico y estéticamente agradable. El juego aún tiene una gran cantidad de secretos por descubrir. AlphaZero es solo el principio para nosotros.
Matthew Sadler y Natasha Regan afirman que la rapidez con la que AlphaZero adquirió una tremenda fuerza en el ajedrez sin colaboración humana “abre la posibilidad de utilizar estas técnicas para aplicaciones en las que el conocimiento humano es limitado”. Como lo sabemos hoy, no se equivocaban Matthew Sadler y Natasha Regan respecto a la ayuda de la inteligencia artificial en temas científicos.
Poco después se dio a conocer que el programa AlphaFold, propiedad de DeepMind y Google, había logrado grandes avances en la resolución del desafío del plegamiento de las proteínas.9
Las proteínas se encuentran en todos los organismos vivos. Se forman con largas cadenas de aminoácidos y son indispensables para la estructura celular y para regular la química corporal.
Antes del aprendizaje profundo, “el problema del plegamiento de proteínas parecía increíblemente difícil y destinado a frustrar a los químicos computacionales durante muchas décadas”. (Aquí hay una pequeña introducción al funcionamiento de AlphaFold: https://www.youtube.com/watch?v=gg7WjuFs8F4&t=4s).
Y es que, al tiempo que AlphaZero derrotaba a todos sus contrincantes en juegos de jugador contra jugador e información completa, la compañía contrató a un puñado de científicos y creó un pequeño equipo multidisciplinario para abordar el tema de las proteínas.
En 2020, la nueva versión, Alphafold2, despertó enormes expectativas pues se veía a estos programas como los métodos de elección para determinar las estructuras de proteínas antes de recurrir a técnicas experimentales que requieren un trabajo minucioso y una instrumentación costosa.
Esta tarea parece ideal para AlphaFold, pues se necesita una gran capacidad de cálculo, pero sobre todo eliminar falsas disyuntivas. El reto se puede apreciar al comparar el número de todas las estructuras proteicas publicadas, aproximadamente mil, con los 180 millones de secuencias de ADN y proteínas depositadas en la base de datos universal de proteínas. AlphaFold ayudará a clasificar secuencias de ADN en busca de nuevas proteínas con estructuras y funciones únicas.
Según relata Will Douglas Heaven en Technology Review, la revista del Massachusetts Institute of Technology, cuando Hassabis presenciaba, tras bambalinas, el encuentro de AlphaGo contra Lee Sedol, campeón mundial de ese juego:
[...] se dio cuenta de que la tecnología de su empresa estaba lista para enfrentarse a uno de los acertijos más importantes y complicados de la biología, para el cual los investigadores llevaban 50 años intentado dar una respuesta: predecir la estructura de las proteínas.10
Hassabis le aseguró al periodista del MIT que AlphaFold2, “es lo más complejo que hemos hecho nunca”.
“Esta es la razón por la que creé DeepMind y, de hecho, por lo que he trabajado durante toda mi carrera en la inteligencia artificial”, confiesa Hassabis. Él ha estado pensando en las proteínas de forma intermitente durante 25 años, desde que conoció ese problema cuando era estudiante en la Universidad de Cambridge (Reino Unido), en la década de 1990.
El futuro parece promisorio. Según Hassabis:
Veremos un renacimiento en la ciencia, donde estas técnicas de IA se volverán cada vez más sofisticadas y se aplicarán a una amplia variedad de campos científicos. A medida que crece la ola de la inteligencia artificial, hay más problemas que se vuelven abordables.
No pude resistir la tentación de entrevistar a ChatGPT sobre estos temas. Respecto a la robótica, me dijo que las leyes postuladas por Isaac Asimov
[...] se han utilizado como punto de partida para la discusión sobre la ética y la seguridad en la robótica, y han influido en la forma en que se han diseñado los robots en la vida real. Sin embargo, hay muchos debates sobre si estas leyes son suficientes para garantizar una robótica segura y ética en el futuro.
–¿Sabes jugar ajedrez?
Sí, como modelo de lenguaje, puedo entender las reglas y la lógica detrás del ajedrez. También puedo ofrecer consejos y estrategias básicas para mejorar en el juego.
Es importante tener en cuenta que no tengo la capacidad de jugar ajedrez por mí mismo. Soy un modelo de lenguaje basado en software y no tengo la capacidad de interactuar con el mundo físico. Pero si tienes alguna pregunta específica sobre el ajedrez o necesitas ayuda con el juego, estaré encantado de ayudarte en la medida de mis posibilidades.
Le pregunté sobre la importancia del ajedrez para el desarrollo de la inteligencia artificial.
El ajedrez ha desempeñado un papel fundamental en el desarrollo de la inteligencia artificial desde sus primeros días. Durante décadas, el ajedrez ha sido una de las pruebas de referencia para la inteligencia artificial, ya que es un juego complejo que requiere una gran cantidad de análisis y estrategia.
–¿Cuál será el impacto de la inteligencia artificial en el ajedrez?
La inteligencia artificial ya está teniendo un impacto significativo en el ajedrez profesional. Los programas basados en la IA han mejorado drásticamente en los últimos años, lo que ha llevado a una mejora en la calidad del juego y a una mayor precisión en la evaluación de posiciones y movimientos. A medida que los programas de ajedrez basados en la IA continúan mejorando, es probable que tengan un impacto aún mayor en el ajedrez profesional.
Y concluyó así:
Sin embargo, es importante tener en cuenta que el ajedrez sigue siendo un juego basado en la creatividad y la intuición, y que los programas basados en inteligencia artificial no pueden replicar completamente el pensamiento humano y la capacidad de tomar decisiones en un contexto más amplio. Por lo tanto, es probable que el ajedrez profesional siga siendo un juego emocionante y desafiante para los jugadores y los aficionados, incluso en el mundo de la inteligencia artificial.
NOTAS
1 “¿Qué es una red neuronal?”, https://aws.amazon.com/es/what-is/neural-network/.
2 Ibid.
3 Hopfield JJ (1982). Neural networks and physical systems with emergent collective computational abilities. PNAS 79:2554-2558
4 Rodrigo Díaz López, “AlphaZero: la revolución del maching learning” (https://www.atsistemas.com/es/blog/alphazero-la-revolucin-del-machine-learning).
5 Silver D, Hubert T, Schrittwieser J et al. (2018). A general reinforcement learning algorithm that masters chess, shogi and go through self play. Science 362 (6419):1140-1144.
6 Ibid.
7 Knight W (2017). AlphaZero, la inteligencia artificial “alienígena” que domina tres juegos distintos. https://www.technologyreview.es//s/9846/alpha-zero-la-inteligencia-artificial-alienigena-que-domina-tres-juegos-distintos.
8 Garri Kaspárov (2018). Chess, a Drosophila of reasoning. Science 362 (6419):1087.
9 The Conversation (2020). Otro avance de la Inteligencia Artificial: predecir cómo se pliegan las proteínas. El Financiero, 2 de diciembre de 2020.
10 Ibid.