Recientemente se dio la noticia de orden mundial que el Campeón máximo de Go, el surcoreano Lee Sedol había sido derrotado sin ninguna contemplación por un programa o software informático de nombre AlphaGo. La misma empresa nos sorprende actualmente con el desarrollo de un monstruo de silicio de nombre AlphaZero, la versión del programa antes mencionado, pero para la disciplina del ajedrez.
El nombre de este programa tiene su razón de ser...
|
Recientemente se dio la noticia de orden mundial
que el Campeón máximo de Go, el surcoreano Lee Sedol había sido derrotado sin
ninguna contemplación por un programa o software informático de nombre AlphaGo. La misma empresa nos sorprende actualmente con el desarrollo de un monstruo de
silicio de nombre AlphaZero, la versión del programa antes mencionado, pero
para la disciplina del ajedrez.
El nombre de este programa tiene su razón de ser,
ya que prácticamente aprendió a jugar ajedrez desde cero es decir no fue
inducido por extensas bases de datos sino a partir de las reglas elementales
del juego.
¿Cómo es
posible esto?
Imagínense que expliquemos las reglas básicas del
ajedrez a un niño pequeño y sin más ni más, este desarrolla la capacidad
automática y autógena de jugar casi perfectamente el juego en poco tiempo,
solamente basándose en una experiencia teórica. Sería digno del argumento para
una película, y aunque existen leyendas en el ajedrez que nos hablan de
preclaros cultores y niños prodigios como Morphy, Capablanca, Reshesky y otros
aprehensores de poca edad que lograron dominar el ajedrez, sigue siendo algo
bastante místico este tipo de anécdotas.
Pero al parecer con los módulos o programas de
ajedrez la historia puede pasar a ser una absoluta y creíble verdad
Esto ha pasado según sus programadores con
AlphaZero, al cual se le introdujo en sus algoritmos de aprendizaje las reglas básicas
y fundamentales del ajedrez y después le dieron las instrucciones de que
aprendiera a jugar al ajedrez por si mismo.
Increíblemente, únicamente 24 horas le tomó a este
artificio de silicio saberlo todo (o casi todo) con referencia a este complejo lúdico. AlphaZero lo está demostrando cuando es capaz
de derrotar a los módulos de ajedrez más fuertes del mundo.
DeepMind, es la empresa (asociada a Google) que
hace posible esta historia creando el programa más fuerte del mundo de go y
ahora ha dirigido sus fuegos contra el ajedrez para anunciar al mundo entero y
a toda voz un sueño, que al parecer es una pesadilla para muchos ajedrecistas.
El culpable
se llama AlphaZero
AlphaGo y su versión para el ajedrez AlphaZero
emplean dos juegos de “redes neutras”, o "redes neuronales" que le permiten
procesar datos de una forma parecida a los humanos, desestimando millones de
movimientos potenciales inútiles (por lo menos es lo que hacen los jugadores
más fuertes del mundo). Los que trabajamos en el área del entrenamiento y de la
investigación científica del ajedrez sabemos que la mayoría de los errores
humanos en el juego del ajedrez se producen por la testaruda obsesión de los
jugadores en querer analizar una gran cantidad de jugadas a la vez,
desestimando conceptos básicos y la propiedad de eliminar lo accesorio, en este sentido podríamos decir que un jugador novato
"ve más que un Gran Maestro del ajedrez"; este último ha sido “instruccionado”
y “entrenado” en el arte de la lógica y de los movimientos prácticos, es decir
aquellos que en primera instancias satisfacen las exigencias de las posiciones,
de allí su fuerza en la valoración de planes y jugadas.
En sus tiempos el campeón Mundial Emmanuel Lasker
lo sugirió: "Entre un jugador bisoño y un gran Maestro de ajedrez no
existe ninguna diferencia, ambos ven lo mismo, es más, el jugador novato trata
de ver más que el Gran Maestro, la diferencia es que mientras el jugador de
bajo nivel trata de verlo todo, analizarlo todo, hacerlo todo, el gran maestro elimina lo accesorio,
simplifica las posiciones en modelos típicos y escoge sólo las jugadas más
productivas y funcionales"
Otra de sus grandes novedades es que estos
programas emplean algoritmos que le permiten aprender y mejorar a partir de una
experiencia pasada. Una reminiscencia del llamado "sistema preparador"
o la llamada IA (inteligencia artificial) elemento virtual muy trillado en películas
de ciencia ficción, aunque pocas personas saben como funciona esto en realidad
desde el punto de vista matemático y probabilístico.
El Diario EL COMERCIO ha sido el primero en darnos
una versión de esta historia extraordinaria sin duda:
AlphaZero al parecer juega de manera bastante
esquemática, pero encontrando nuevos caminos para adentrarse en la teoría. Juega
en base a planes más posicionales que tácticos, aunque sus jugadas pueden
sorprender en algunos casos y ser catalogados como muy tácticos, la verdad es
que se apartan de lo rutinario buscando sobre todo, ahogar al contrincante en un
abrazo mortal tipo boa constrictor, y al lograr sus objetivos de aventajar a su
oponente luego no tiene compasión alguna. Me gusta mucho la comparación del
juego de AlphaZero con jugadores como Karpov y en cierta manera es bien cierto.
Los módulos modernos suelen concentrar sus
esfuerzos sobre la base del principio de la actividad. Es decir material y
posición: cantidad de piezas sobre el tablero y que hacen dichas piezas sobre
el mismo (cantidad de casillas que dominan). En ellos han sido incorporados recientemente ciertos sistemas auto
dirigibles y de seguridad que evitan las posiciones de bloqueo, posiciones que
causan mucho daño a su programación y no se encuentran en sus algoritmos de
búsqueda continua.
En la posición del diagrama juegan las piezas blancas y la mayoría de los módulos por no decir todos, no puede avisorar la increíble jugada que Alpha Zero da como 1ra jugada candidata. Pues bien aunque 1.b4 parece ser una jugada lógica, tanto como 1.Cc3, conservando el aspecto lógico de la posición, AlphaZero se decide por una continuación casi imposible como 1.Ag5!? que en el horizonte de jugadas de todos los módulos incluso de los más fuertes reconocidos Houdini 6.0 y Stockfish 8.0 no aparece
Pero AlphaZero, al parecer no tiene esos complejos,
es capaz de decidir cuándo hacer tablas y cuando posee suficientes atributos de
actividad para optar por una victoria aunque esta aparezca muy alejada en su
horizonte de jugadas. AlphaZero al parecer "juega sin miedo" y sin
prejuicio teóricos. Posee giros sorprendentes en su "negada
heurística" y puede desarrollar cualquier tipo de estilo, según se adapta
a su oponente de turno.
DeepMind, es una empresa relacionada con el
monstruo de Google, y creó hace poco un programa muy fuerte de Go. Ahora ha creado una "horrible bestia de ajedrez"
que lejos de utilizar sólo fuerza bruta, se muestra con un don de inteligencia
artificial bastante poco ortodoxo. A AlphaZero, no se le enseñó ninguna partida
de ajedrez, ni elaboradas heurísticas para sus destrezas. Lo único que le
explicaron fueron las reglas de juego, nada más. El resultado fue algo
inesperado, único e inédito. Lo cierto es que con la nueva programación tanto el
programa de go, AlphaGo como Alpha Zero habían aprendido a jugar en pocos días.
Go en 3 días y AlphaZero en un solo día.
Hace veinte años DeepBlue venció a uno de los
genios más sorprendentes del ajedrez humano Garry Kasparov, y hoy en día los
ajedrecistas han visto nacer una nueva revolución. El algoritmo AlphaZero
desarrollado por Google y DeepMind necesitó solo de cuatro horas de jugar
contra sí mismo para sintetizar el conocimiento ajedrecístico
y volverse más fuerte que cualquier programa o módulo existente. La victima más
reciente ha sido el Campeón mundial de los módulos de análisis, el poderoso
Stockfish, al cual dejó parapléjico luego de propinarle 28 derrotas contra
ninguna en un match a 100 partidas.
El cofundador de DeepMind es Demis Hassabis, un ex
jugador bastante que llegó a ser considerado incluso como niño prodigio, el
cual se ha propuesto esclarecer los límites de los juegos más inteligentes y
complejos. Ya al parecer ha triunfado contra el Go y ahora al parecer dejará un
hoyo negro en el universo del ajedrez.
¿Pero que
hace a AlphaZero tan fuerte?
AlphaZero compensa su baja cantidad de evaluaciones
con el uso de una red neuronal, que
retoma de forma mucho más selectiva y efectiva las variantes más prometedoras, es decir, usando un enfoque un
poco más "humano", simplifica sus datos, observaciones y análisis.
El MCTS de AlphaZero ha escaldo con más efectividad
que Stockfish, Houdini, o que Komodo o Elmo, creando el cuestionamiento de si la búsqueda alfa-beta (La poda alfa beta es una técnica de búsqueda que reduce el número de nodos evaluados en un árbol de juego por el algoritmo Minimax. Se trata de una técnica muy utilizada en programas de juegos entre adversarios como el ajedrez, el tres en raya o el Go) es inherentemente
superior en todos sus dominios.
Durante su entrenamiento, AlphaGo tenía acceso a
"5.000 TPUs (unidades de procesamiento de tensor; en inglésː tensioner processing units o TPU, los cuales son circuitos integrados desarrollados específicamente para el aprendizaje de máquinas) de primera generación para generar partidas contra sí mismo y
64 TPUs de segunda generación para entrenar las redes neuronales". Las
TPUs, o unidades de procesamiento de tensor, ni siquiera están disponibles al
público, pues fueron desarrolladas por Google específicamente para manejar el
tipo de cálculos necesarios para el aprendizaje de las máquinas. El algoritmo
entrenado, por su parte, corrió en una sola máquina con cuatro TPUs, y DeepMind
enfatiza la eficiencia de su enfoque, pues AlphaZero genera 80.000 posiciones
comparadas con las 70 millones de Stockfish.
Demis Hassabis nos dice: "Ningún libro de
apertura, ninguna base de datos de finales, nada heurístico, ¡nada de nada! Un
paper más completo será presentado pronto, incluirá cosas como las partidas iniciales".
En cambio, el algoritmo fue fiel a su nombre y
comenzó de cero, solo con las reglas del juego. Luego comenzó a jugar usando un
algoritmo de Monte-Carlo, que usa jugadas aleatorias en un principio hasta que
una red neuronal comienza a aprender cuáles son las opciones más prometedoras.
El equipo de DeepMind logra de esta manera
demostrar que una versión genérica de su algoritmo, sin ningún conocimiento específico
más que las reglas del juego, puede entrenarse durante cuatro horas en el
ajedrez, dos horas en el shogi (ajedrez japonés) u ocho horas en Go y luego vencer
a los campeones reinantes de entre los módulos computacionales, es decir, los
más fuertes competidores de cada disciplina. En el caso del ajedrez, no fue
solo una paliza, sino que una gran demolición.
Stockfish es el campeón reinante entre los módulos
de ajedrez. En su match contra AlphaZero, sin embargo, perdió 28 partidas y no ganó
ninguna, sumando 72 empates. Con blancas, AlphaZero obtuvo 25 victorias y 25 empates,
mientras que con negras consiguió 3 victorias y 47 empates.
Siempre existirá el peligro que estas noticias obedezcan más a un boom publicitario con la esperanza de vender algún producto que a la autenticidad de la verdad científica (mucho de esto quedo en el ambiente después del sonado match entre Gary Kasparov y Deep Blue en la década de los 90, cuando las acciones de la IBM subieron como la espuma después de la derrota del Ogro de Bakú) y es aquí donde hemos hecho algunos análisis de las partidas ganadas por AlphaZero a su homólogo Stockfish con la esperanza de encontrar algo que no cuadre dentro de la programación habitual de Stockfish y su forma de juego, lo cual podría delatar que no jugó a nivel máximo mientrasque a su oponente se le otorgaron todos los beneficios de plataforma, núcleos, memoria e hilos para desarrollar todo su potencial, observedmos una de estas partidas y saquen Uds sus propias conclusiones.
VER PARTIDA ALPHAZERO vs. STOCKFISH
No hay comentarios.:
Publicar un comentario
BIENVENIDO A AJEDREZESMINUNDO. NOS GUSTARÍA QUE DEJARAS UN COMENTARIO SOBRE LA PÁGINA Y SOBRE LAS NOTAS ESCRITAS EN EL