ajedrezesmimundo: ALPHAZERO ¿UN DESTINO INCIERTO PARA EL AJEDREZ?

Recientemente se dio la noticia de orden mundial que el Campeón máximo de Go, el surcoreano Lee Sedol había sido derrotado sin ninguna contemplación por un programa o software informático de nombre AlphaGo. La misma empresa nos sorprende actualmente con el desarrollo de un monstruo de silicio de nombre AlphaZero, la versión del programa antes mencionado, pero para la disciplina del ajedrez.

El nombre de este programa tiene su razón de ser...

AlphaZero ¿un destino incierto para el ajedrez?

El nombre de este programa tiene su razón de ser, ya que prácticamente aprendió a jugar ajedrez desde cero es decir no fue inducido por extensas bases de datos sino a partir de las reglas elementales del juego.

¿Cómo es posible esto?

Imagínense que expliquemos las reglas básicas del ajedrez a un niño pequeño y sin más ni más, este desarrolla la capacidad automática y autógena de jugar casi perfectamente el juego en poco tiempo, solamente basándose en una experiencia teórica. Sería digno del argumento para una película, y aunque existen leyendas en el ajedrez que nos hablan de preclaros cultores y niños prodigios como Morphy, Capablanca, Reshesky y otros aprehensores de poca edad que lograron dominar el ajedrez, sigue siendo algo bastante místico este tipo de anécdotas.

Pero al parecer con los módulos o programas de ajedrez la historia puede pasar a ser una absoluta y creíble verdad

Esto ha pasado según sus programadores con AlphaZero, al cual se le introdujo en sus algoritmos de aprendizaje las reglas básicas y fundamentales del ajedrez y después le dieron las instrucciones de que aprendiera a jugar al ajedrez por si mismo.

Increíblemente, únicamente 24 horas le tomó a este artificio de silicio saberlo todo (o casi todo) con referencia a este complejo lúdico. AlphaZero lo está demostrando cuando es capaz de derrotar a los módulos de ajedrez más fuertes del mundo.

DeepMind, es la empresa (asociada a Google) que hace posible esta historia creando el programa más fuerte del mundo de go y ahora ha dirigido sus fuegos contra el ajedrez para anunciar al mundo entero y a toda voz un sueño, que al parecer es una pesadilla para muchos ajedrecistas.

El culpable se llama AlphaZero

AlphaGo y su versión para el ajedrez AlphaZero emplean dos juegos de “redes neutras”, o "redes neuronales" que le permiten procesar datos de una forma parecida a los humanos, desestimando millones de movimientos potenciales inútiles (por lo menos es lo que hacen los jugadores más fuertes del mundo). Los que trabajamos en el área del entrenamiento y de la investigación científica del ajedrez sabemos que la mayoría de los errores humanos en el juego del ajedrez se producen por la testaruda obsesión de los jugadores en querer analizar una gran cantidad de jugadas a la vez, desestimando conceptos básicos y la propiedad de eliminar lo accesorio, en este sentido podríamos decir que un jugador novato "ve más que un Gran Maestro del ajedrez"; este último ha sido “instruccionado” y “entrenado” en el arte de la lógica y de los movimientos prácticos, es decir aquellos que en primera instancias satisfacen las exigencias de las posiciones, de allí su fuerza en la valoración de planes y jugadas.

En sus tiempos el campeón Mundial Emmanuel Lasker lo sugirió: "Entre un jugador bisoño y un gran Maestro de ajedrez no existe ninguna diferencia, ambos ven lo mismo, es más, el jugador novato trata de ver más que el Gran Maestro, la diferencia es que mientras el jugador de bajo nivel trata de verlo todo, analizarlo todo, hacerlo todo, el gran maestro elimina lo accesorio, simplifica las posiciones en modelos típicos y escoge sólo las jugadas más productivas y funcionales"

Otra de sus grandes novedades es que estos programas emplean algoritmos que le permiten aprender y mejorar a partir de una experiencia pasada. Una reminiscencia del llamado "sistema preparador" o la llamada IA (inteligencia artificial) elemento virtual muy trillado en películas de ciencia ficción, aunque pocas personas saben como funciona esto en realidad desde el punto de vista matemático y probabilístico.

El Diario EL COMERCIO ha sido el primero en darnos una versión de esta historia extraordinaria sin duda:

http://www.elcomercio.com/guaifai/alphago-google-derrota-campeon-go.html.

AlphaZero al parecer juega de manera bastante esquemática, pero encontrando nuevos caminos para adentrarse en la teoría. Juega en base a planes más posicionales que tácticos, aunque sus jugadas pueden sorprender en algunos casos y ser catalogados como muy tácticos, la verdad es que se apartan de lo rutinario buscando sobre todo, ahogar al contrincante en un abrazo mortal tipo boa constrictor, y al lograr sus objetivos de aventajar a su oponente luego no tiene compasión alguna. Me gusta mucho la comparación del juego de AlphaZero con jugadores como Karpov y en cierta manera es bien cierto.

Los módulos modernos suelen concentrar sus esfuerzos sobre la base del principio de la actividad. Es decir material y posición: cantidad de piezas sobre el tablero y que hacen dichas piezas sobre el mismo (cantidad de casillas que dominan). En ellos han sido incorporados recientemente ciertos sistemas auto dirigibles y de seguridad que evitan las posiciones de bloqueo, posiciones que causan mucho daño a su programación y no se encuentran en sus algoritmos de búsqueda continua.

En la posición del diagrama juegan las piezas blancas y la mayoría de los módulos por no decir todos, no puede avisorar la increíble jugada que Alpha Zero da como 1ra jugada candidata. Pues bien aunque 1.b4 parece ser una jugada lógica, tanto como 1.Cc3, conservando el aspecto lógico de la posición, AlphaZero se decide por una continuación casi imposible como 1.Ag5!? que en el horizonte de jugadas de todos los módulos incluso de los más fuertes reconocidos Houdini 6.0 y Stockfish 8.0 no aparece

Pero AlphaZero, al parecer no tiene esos complejos, es capaz de decidir cuándo hacer tablas y cuando posee suficientes atributos de actividad para optar por una victoria aunque esta aparezca muy alejada en su horizonte de jugadas. AlphaZero al parecer "juega sin miedo" y sin prejuicio teóricos. Posee giros sorprendentes en su "negada heurística" y puede desarrollar cualquier tipo de estilo, según se adapta a su oponente de turno.

DeepMind, es una empresa relacionada con el monstruo de Google, y creó hace poco un programa muy fuerte de Go. Ahora ha creado una "horrible bestia de ajedrez" que lejos de utilizar sólo fuerza bruta, se muestra con un don de inteligencia artificial bastante poco ortodoxo. A AlphaZero, no se le enseñó ninguna partida de ajedrez, ni elaboradas heurísticas para sus destrezas. Lo único que le explicaron fueron las reglas de juego, nada más. El resultado fue algo inesperado, único e inédito. Lo cierto es que con la nueva programación tanto el programa de go, AlphaGo como Alpha Zero habían aprendido a jugar en pocos días. Go en 3 días y AlphaZero en un solo día.

Hace veinte años DeepBlue venció a uno de los genios más sorprendentes del ajedrez humano Garry Kasparov, y hoy en día los ajedrecistas han visto nacer una nueva revolución. El algoritmo AlphaZero desarrollado por Google y DeepMind necesitó solo de cuatro horas de jugar contra sí mismo para sintetizar el conocimiento ajedrecístico y volverse más fuerte que cualquier programa o módulo existente. La victima más reciente ha sido el Campeón mundial de los módulos de análisis, el poderoso Stockfish, al cual dejó parapléjico luego de propinarle 28 derrotas contra ninguna en un match a 100 partidas.

El cofundador de DeepMind es Demis Hassabis, un ex jugador bastante que llegó a ser considerado incluso como niño prodigio, el cual se ha propuesto esclarecer los límites de los juegos más inteligentes y complejos. Ya al parecer ha triunfado contra el Go y ahora al parecer dejará un hoyo negro en el universo del ajedrez.

¿Pero que hace a AlphaZero tan fuerte?

AlphaZero compensa su baja cantidad de evaluaciones con el uso de una red neuronal, que retoma de forma mucho más selectiva y efectiva las variantes más prometedoras, es decir, usando un enfoque un poco más "humano", simplifica sus datos, observaciones y análisis.

El MCTS de AlphaZero ha escaldo con más efectividad que Stockfish, Houdini, o que Komodo o Elmo, creando el cuestionamiento de si la búsqueda alfa-beta (La poda alfa beta es una técnica de búsqueda que reduce el número de nodos evaluados en un árbol de juego por el algoritmo Minimax. Se trata de una técnica muy utilizada en programas de juegos entre adversarios como el ajedrez, el tres en raya o el Go) es inherentemente superior en todos sus dominios.

Durante su entrenamiento, AlphaGo tenía acceso a "5.000 TPUs (unidades de procesamiento de tensor; en inglésː tensioner processing units o TPU, los cuales son circuitos integrados desarrollados específicamente para el aprendizaje de máquinas) de primera generación para generar partidas contra sí mismo y 64 TPUs de segunda generación para entrenar las redes neuronales". Las TPUs, o unidades de procesamiento de tensor, ni siquiera están disponibles al público, pues fueron desarrolladas por Google específicamente para manejar el tipo de cálculos necesarios para el aprendizaje de las máquinas. El algoritmo entrenado, por su parte, corrió en una sola máquina con cuatro TPUs, y DeepMind enfatiza la eficiencia de su enfoque, pues AlphaZero genera 80.000 posiciones comparadas con las 70 millones de Stockfish.

Demis Hassabis nos dice: "Ningún libro de apertura, ninguna base de datos de finales, nada heurístico, ¡nada de nada! Un paper más completo será presentado pronto, incluirá cosas como las partidas iniciales".

En cambio, el algoritmo fue fiel a su nombre y comenzó de cero, solo con las reglas del juego. Luego comenzó a jugar usando un algoritmo de Monte-Carlo, que usa jugadas aleatorias en un principio hasta que una red neuronal comienza a aprender cuáles son las opciones más prometedoras.

El equipo de DeepMind logra de esta manera demostrar que una versión genérica de su algoritmo, sin ningún conocimiento específico más que las reglas del juego, puede entrenarse durante cuatro horas en el ajedrez, dos horas en el shogi (ajedrez japonés) u ocho horas en Go y luego vencer a los campeones reinantes de entre los módulos computacionales, es decir, los más fuertes competidores de cada disciplina. En el caso del ajedrez, no fue solo una paliza, sino que una gran demolición.

Stockfish es el campeón reinante entre los módulos de ajedrez. En su match contra AlphaZero, sin embargo, perdió 28 partidas y no ganó ninguna, sumando 72 empates. Con blancas, AlphaZero obtuvo 25 victorias y 25 empates, mientras que con negras consiguió 3 victorias y 47 empates.

Siempre existirá el peligro que estas noticias obedezcan más a un boom publicitario con la esperanza de vender algún producto que a la autenticidad de la verdad científica (mucho de esto quedo en el ambiente después del sonado match entre Gary Kasparov y Deep Blue en la década de los 90, cuando las acciones de la IBM subieron como la espuma después de la derrota del Ogro de Bakú) y es aquí donde hemos hecho algunos análisis de las partidas ganadas por AlphaZero a su homólogo Stockfish con la esperanza de encontrar algo que no cuadre dentro de la programación habitual de Stockfish y su forma de juego, lo cual podría delatar que no jugó a nivel máximo mientrasque a su oponente se le otorgaron todos los beneficios de plataforma, núcleos, memoria e hilos para desarrollar todo su potencial, observedmos una de estas partidas y saquen Uds sus propias conclusiones.

VER PARTIDA ALPHAZERO vs. STOCKFISH

Descarga de Libros PAGOS Y GRATIS (PDF, Ebook, digitales, Clases, Temarios)

diciembre 12, 2017

ALPHAZERO ¿UN DESTINO INCIERTO PARA EL AJEDREZ?

No hay comentarios.:

Publicar un comentario