#1. Importacion de librerias necesarias para la construccion del juego 

In [2]:
import numpy as np 
np.__version__

'1.22.4'

## Como funciona el juego del TICTACTOE

¡Por supuesto! El Tic Tac Toe, también conocido como Tres en raya, es un juego de lápiz y papel para dos jugadores, que se juega en una cuadrícula de 3x3. El objetivo del juego es ser el primer jugador en conseguir tres símbolos en línea, ya sea de manera horizontal, vertical o diagonal.

Reglas del juego:

    El juego se juega en una cuadrícula de 3x3.

    Dos jugadores eligen un símbolo, generalmente una "X" y un "O", y se turnan para colocar su símbolo en un cuadrado vacío de la cuadrícula.

    El primer jugador que consiga colocar tres símbolos consecutivos en línea, ya sea horizontal, vertical o diagonal, gana el juego.

    Si se llenan todas las casillas y ningún jugador ha conseguido tres símbolos en línea, el juego termina en empate.

Cómo jugar:

    Dibuja una cuadrícula de 3x3 en una hoja de papel o en cualquier superficie plana.

    Elige un jugador para ser el primero en colocar su símbolo en la cuadrícula.

    El jugador seleccionado coloca su símbolo en cualquier casilla vacía de la cuadrícula.

    El otro jugador, a continuación, coloca su símbolo en cualquier otra casilla vacía.

    Los jugadores siguen alternando turnos hasta que uno de ellos consiga colocar tres símbolos consecutivos en línea, o se llenen todas las casillas y no haya ganador.

    Si un jugador consigue tres símbolos en línea, ese jugador gana el juego. Si se llenan todas las casillas y ningún jugador ha conseguido tres símbolos en línea, el juego termina en empate.

    Si quieres jugar otra ronda, comienza de nuevo con el otro jugador comenzando la partida.

Ejemplo de juego:

    Se dibuja una cuadrícula de 3x3.

| |
| |

| |

    El jugador 1 elige colocar su símbolo "X" en la casilla central.

| |
| X |

| |

    El jugador 2 coloca su símbolo "O" en una casilla vacía.

| |
| X |

| | O

    Los jugadores siguen alternando turnos hasta que uno de ellos consiga colocar tres símbolos consecutivos en línea, o se llenen todas las casillas y no haya ganador.

¡Eso es todo! Espero que hayas entendido las reglas y cómo jugar al Tic Tac Toe. ¡Diviértete jugando!

### Programacion del Mismo para luego entrenarlo al modelo 

In [7]:
# Creamos una clase llamada TresEnRaya
class TresEnRaya:
    # Inicializamos las variables de la clase
    def __init__(self):
        self.num_filas = 3  # número de filas del tablero
        self.num_columnas = 3  # número de columnas del tablero
        self.tamano_accion = self.num_filas * self.num_columnas  # número total de casillas en el tablero
        
    # Definimos una función para obtener el estado inicial del juego
    def obtener_estado_inicial(self):
        return np.zeros((self.num_filas, self.num_columnas))
    
    # Definimos una función para obtener el siguiente estado del juego después de una jugada
    def obtener_siguiente_estado(self, estado_actual, accion, jugador):
        fila = accion // self.num_columnas  # fila correspondiente a la casilla elegida
        columna = accion % self.num_columnas  # columna correspondiente a la casilla elegida
        estado_actual[fila, columna] = jugador  # colocamos el símbolo del jugador actual en la casilla elegida
        return estado_actual
    
    # Definimos una función para obtener las jugadas válidas en el estado actual del juego
    def obtener_jugadas_validas(self, estado_actual):
        return (estado_actual.reshape(-1) == 0).astype(np.uint8)
    
    # Definimos una función para comprobar si alguien ha ganado después de una jugada
    def comprobar_victoria(self, estado_actual, accion):
        fila = accion // self.num_columnas  # fila correspondiente a la casilla elegida
        columna = accion % self.num_columnas  # columna correspondiente a la casilla elegida
        jugador = estado_actual[fila, columna]  # símbolo del jugador actual
        
        # Comprobamos si el jugador actual ha ganado en alguna fila, columna o diagonal
        return (
            np.sum(estado_actual[fila, :]) == jugador * self.num_columnas
            or np.sum(estado_actual[:, columna]) == jugador * self.num_filas
            or np.sum(np.diag(estado_actual)) == jugador * self.num_filas
            or np.sum(np.diag(np.flip(estado_actual, axis=0))) == jugador * self.num_filas
        )
    
    # Definimos una función para obtener el valor del juego después de una jugada y si el juego ha terminado o no
    def obtener_valor_y_terminado(self, estado_actual, accion):
        if self.comprobar_victoria(estado_actual, accion):
            return 1, True  # el jugador actual ha ganado y el juego ha terminado
        if np.sum(self.obtener_jugadas_validas(estado_actual)) == 0:
            return 0, True  # el juego ha terminado en empate
        return 0, False  # el juego no ha terminado
    
    # Definimos una función para obtener el jugador opuesto al jugador actual
    def obtener_oponente(self, jugador):
        return -jugador

#### Para explicar el codigo hecho hasta ahora hay tres variables importantes que son las siguientes 


En este código, las variables son las siguientes:

    num_filas: Un entero que representa el número de filas en el tablero del juego.

    num_columnas: Un entero que representa el número de columnas en el tablero del juego.

    estado_actual: Una matriz que representa el estado actual del juego.

    accion: Un entero que representa la casilla elegida por el jugador actual para colocar su símbolo.

    jugador: Un entero que representa el jugador actual que está haciendo la jugada.

    obtener_estado_inicial: Una función que devuelve el estado inicial del juego.

    obtener_siguiente_estado: Una función que devuelve el siguiente estado del juego después de una jugada.

    obtener_jugadas_validas: Una función que devuelve una lista de jugadas válidas en el estado actual del juego.

    comprobar_victoria: Una función que comprueba si el jugador actual ha ganado después de hacer una jugada.

    obtener_valor_y_terminado: Una función que devuelve el valor del juego después de una jugada y si el juego ha terminado o no.

    obtener_oponente: Una función que devuelve el jugador opuesto al jugador actual.

In [8]:
# Creamos una instancia del juego de Tres en Raya
tres_en_raya = TresEnRaya()

# Inicializamos las variables
jugador_actual = 1  # el jugador 1 empieza primero
estado_actual = tres_en_raya.obtener_estado_inicial()

# Bucle principal del juego
while True:
    # Imprimimos el estado actual del juego
    print(estado_actual)
    
    # Obtenemos las jugadas válidas en el estado actual
    jugadas_validas = tres_en_raya.obtener_jugadas_validas(estado_actual)
    
    # Imprimimos las jugadas válidas
    print("jugadas válidas", [i for i in range(tres_en_raya.tamano_accion) if jugadas_validas[i] == 1])
    
    # Le pedimos al jugador actual que elija una jugada
    accion = int(input(f"Jugador {jugador_actual}:"))
    
    # Comprobamos si la jugada elegida es válida
    if jugadas_validas[accion] == 0:
        print("jugada no válida")
        continue  # si la jugada no es válida, volvemos a pedir al jugador actual que elija una jugada
    
    # Actualizamos el estado del juego después de la jugada
    estado_actual = tres_en_raya.obtener_siguiente_estado(estado_actual, accion, jugador_actual)
    
    # Obtenemos el valor del juego después de la jugada y si el juego ha terminado o no
    valor, terminado = tres_en_raya.obtener_valor_y_terminado(estado_actual, accion)
    
    # Si el juego ha terminado, imprimimos el estado final del juego y el resultado
    if terminado:
        print(estado_actual)
        if valor == 1:
            print(f"¡Jugador {jugador_actual} ha ganado!")
        else:
            print("¡Empate!")
        break  # salimos del bucle principal del juego
    
    # Si el juego no ha terminado, pasamos al jugador opuesto
    jugador_actual = tres_en_raya.obtener_oponente(jugador_actual)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
jugadas válidas [0, 1, 2, 3, 4, 5, 6, 7, 8]
Jugador 1:2
[[0. 0. 1.]
 [0. 0. 0.]
 [0. 0. 0.]]
jugadas válidas [0, 1, 3, 4, 5, 6, 7, 8]
Jugador -1:3
[[ 0.  0.  1.]
 [-1.  0.  0.]
 [ 0.  0.  0.]]
jugadas válidas [0, 1, 4, 5, 6, 7, 8]
Jugador 1:1
[[ 0.  1.  1.]
 [-1.  0.  0.]
 [ 0.  0.  0.]]
jugadas válidas [0, 4, 5, 6, 7, 8]
Jugador -1:4
[[ 0.  1.  1.]
 [-1. -1.  0.]
 [ 0.  0.  0.]]
jugadas válidas [0, 5, 6, 7, 8]
Jugador 1:8
[[ 0.  1.  1.]
 [-1. -1.  0.]
 [ 0.  0.  1.]]
jugadas válidas [0, 5, 6, 7]
Jugador -1:6
[[ 0.  1.  1.]
 [-1. -1.  0.]
 [-1.  0.  1.]]
jugadas válidas [0, 5, 7]
Jugador 1:0
[[ 1.  1.  1.]
 [-1. -1.  0.]
 [-1.  0.  1.]]
¡Jugador 1 ha ganado!


#### Desarrollamos mejor la interfaz de usuario para entende rlo que estamos haciendo vamos a explicar las variables claves del juego 


En este código, las variables son las siguientes:

    juego_tictactoe: Un objeto que representa el juego de Tic Tac Toe.

    jugador_actual: Un entero que representa el jugador que tiene el turno en ese momento. Puede ser 1 o 2.

    estado_actual: Una lista de 9 elementos que representa el estado actual del tablero del juego.

    jugadas_validas: Una lista de 9 elementos que indica las casillas donde se pueden colocar símbolos en el estado actual del juego.

    accion: Un entero que representa la casilla elegida por el jugador actual para colocar su símbolo.

    valor: Un entero que representa el resultado del juego. Puede ser 1 (si el jugador 1 ha ganado), -1 (si el jugador 2 ha ganado) o 0 (si el juego ha terminado en empate).

    terminado: Un booleano que indica si el juego ha terminado o no.

#### Una vez tenido el juego lo que tenemos que programar es el Algoritmo MCTS de Machine Learning 

El MCTS es un algoritmo de búsqueda utilizado en inteligencia artificial para encontrar la mejor jugada en un juego determinado. El algoritmo construye un árbol de búsqueda que representa todas las posibles jugadas que se pueden hacer en el juego, y utiliza simulaciones aleatorias para estimar la calidad de cada jugada.

El algoritmo se compone de cuatro fases principales:

    Selección: Se comienza en la raíz del árbol y se desciende por los nodos del árbol seleccionando aquellos que maximizan la relación exploración/explotación (balance entre explorar nuevas jugadas y explotar las mejores jugadas conocidas). Esta selección se realiza mediante la utilización de una función denominada UCT (Upper Confidence Bound applied to Trees).

    Expansión: Una vez se llega a un nodo hoja del árbol (un nodo que no tiene hijos), se expande el árbol añadiendo un nuevo nodo hijo que representa una jugada no explorada.

    Simulación: A partir del nuevo nodo hijo, se realiza una simulación aleatoria del juego hasta que se alcance un estado final (ganar, perder o empatar).

    Retropropagación: Se actualizan las estadísticas de cada nodo visitado durante la selección y expansión de acuerdo con el resultado de la simulación. Esto se hace propagando hacia arriba la información sobre el resultado de la simulación.

Después de varias iteraciones de estas cuatro fases, se obtiene un árbol de búsqueda que representa todas las posibles jugadas y su calidad estimada. La mejor jugada se elige en función de las estadísticas de los nodos del árbol, como la frecuencia de visitas y la calidad estimada.

En resumen, el MCTS es un algoritmo de búsqueda que utiliza simulaciones aleatorias para estimar la calidad de las jugadas en un juego determinado. Es utilizado en inteligencia artificial para encontrar la mejor jugada y construye un árbol de búsqueda que representa todas las posibles jugadas y su calidad estimada. El árbol es construido de forma incremental mediante la selección, expansión, simulación y retropropagación de estadísticas a lo largo de las iteraciones del algoritmo.

In [9]:
import numpy as np
import math

#### Tenemso que refactorizar la clase TicTacToe

In [27]:
class TresEnRaya:
  def __init__(self):
    # Inicializa el tamaño del juego de tres en raya con tres filas y tres columnas,
    # así como el tamaño de la acción (número total de casillas).
    self.filas = 3
    self.columnas = 3
    self.tamanio_accion = self.filas * self.columnas
    
  def get_estado_inicial(self):
    # Devuelve un estado inicial vacío (todos los valores son cero).
    return np.zeros((self.filas, self.columnas))

  def obtener_siguiente_estado(self, estado, accion, jugador):
    # Actualiza el estado con la acción tomada por el jugador y devuelve el nuevo estado.
    fila = accion // self.columnas
    columna = accion % self.columnas
    estado[fila, columna] = jugador
    return estado

  def obtener_movimientos_validos(self, estado):
    # Devuelve una matriz booleana que indica qué movimientos son válidos en el estado actual.
    return (estado.reshape(-1) == 0).astype(np.uint8)

  def verificar_victoria(self, estado, accion):
    # Verifica si la acción ha llevado a una victoria del jugador que ha realizado la acción.
    # Devuelve verdadero si es así, falso en caso contrario.
    if accion is None:
        return False
    
    fila = accion // self.columnas
    columna = accion % self.columnas
    jugador = estado[fila, columna]
    
    return (
        np.sum(estado[fila, :]) == jugador * self.columnas
        or np.sum(estado[:, columna]) == jugador * self.filas
        or np.sum(np.diag(estado)) == jugador * self.filas
        or np.sum(np.diag(np.flip(estado, axis=0))) == jugador * self.filas
    )

  def obtener_valor_y_terminado(self, estado, accion):
    # Devuelve el valor del juego (-1 para la derrota, 0 para el empate y 1 para la victoria) 
    # y un indicador booleano que indica si el juego ha terminado después de que se realizara la acción.
    if self.verificar_victoria(estado, accion):
        return 1, True
    if np.sum(self.obtener_movimientos_validos(estado)) == 0:
        return 0, True
    return 0, False

  def obtener_oponente(self, jugador):
    # Devuelve el jugador opuesto.
    return -jugador

  def obtener_valor_oponente(self, valor):
    # Devuelve el valor del oponente.
    return -valor

  def cambiar_perspectiva(self, estado, jugador):
    # Cambia de perspectiva según el jugador.
    return estado * jugador


Básicamente, esta clase representa el juego de Tres en Raya y tiene varias funciones para manejar el estado del juego. Los nombres de las variables son descriptivos de su función:

    tamano_fila y tamano_columna: representan el tamaño de la cuadrícula del juego.
    tamano_accion: representa el número total de acciones posibles en el juego.
    obtener_estado_inicial: devuelve el estado inicial del juego.
    obtener_siguiente_estado: toma un estado y una acción y devuelve el siguiente estado después de aplicar la acción.
    obtener_jugadas_validas: toma un estado y devuelve las acciones válidas en ese estado.
    comprobar_victoria: toma un estado y una acción y comprueba si la acción ha resultado en una victoria para el jugador que la ha realizado.
    obtener_valor_y_terminado: toma un estado y una acción y devuelve el valor del juego después de aplicar la acción y si el juego ha terminado o no.
    obtener_oponente: toma un jugador y devuelve el jugador opuesto.
    obtener_valor_oponente: toma un valor y devuelve su valor opuesto.
    cambiar_perspectiva: toma un estado y un jugador y devuelve el estado cambiado de perspectiva

In [28]:
class Nodo:
    def __init__(self, juego, args, estado, padre=None, accion=None):
        self.juego = juego
        self.args = args
        self.estado = estado
        self.padre = padre
        self.accion = accion
        
        self.hijos = []
        self.movimientos_expansibles = juego.obtener_movimientos_validos(estado)
        
        self.num_visitas = 0
        self.suma_valor = 0
        
    def esta_totalmente_expandido(self):
        return np.sum(self.movimientos_expansibles) == 0 and len(self.hijos) > 0
    
    def seleccionar_hijo(self):
        mejor_hijo = None
        mejor_ucb = -np.inf
        
        for hijo in self.hijos:
            ucb = self.obtener_ucb(hijo)
            if ucb > mejor_ucb:
                mejor_hijo = hijo
                mejor_ucb = ucb
                
        return mejor_hijo
    
    def obtener_ucb(self, hijo):
        valor_q = 1 - ((hijo.suma_valor / hijo.num_visitas) + 1) / 2
        return valor_q + self.args['C'] * math.sqrt(math.log(self.num_visitas) / hijo.num_visitas)
    
    def expandir(self):
        accion = np.random.choice(np.where(self.movimientos_expansibles == 1)[0])
        self.movimientos_expansibles[accion] = 0
        
        estado_hijo = self.estado.copy()
        estado_hijo = self.juego.obtener_siguiente_estado(estado_hijo, accion, 1)
        estado_hijo = self.juego.cambiar_perspectiva(estado_hijo, jugador=-1)
        
        hijo = Nodo(self.juego, self.args, estado_hijo, self, accion)
        self.hijos.append(hijo)
        return hijo
    
    def simular(self):
        valor, es_terminal = self.juego.obtener_valor_y_terminado(self.estado, self.accion)
        valor = self.juego.obtener_valor_oponente(valor)
        
        if es_terminal:
            return valor
        
        estado_rolout = self.estado.copy()
        jugador_rolout = 1
        while True:
            movimientos_validos = self.juego.obtener_movimientos_validos(estado_rolout)
            accion = np.random.choice(np.where(movimientos_validos == 1)[0])
            estado_rolout = self.juego.obtener_siguiente_estado(estado_rolout, accion, jugador_rolout)
            valor, es_terminal = self.juego.obtener_valor_y_terminado(estado_rolout, accion)
            if es_terminal:
                if jugador_rolout == -1:
                    valor = self.juego.obtener_valor_oponente(valor)
                return valor    
            
            jugador_rolout = self.juego.obtener_oponente(jugador_rolout)
            
    def retropropagar(self, valor):
        self.suma_valor += valor
        self.num_visitas += 1
        
        valor = self.juego.obtener_valor_oponente(valor)
        if self.padre is not None:
            self.padre.retropropagar(valor)

Esta es la clase Nodo que se utiliza en el algoritmo MCTS. Aquí se define un nodo en el árbol de búsqueda. Un nodo tiene un estado (representado como una matriz), un padre, una acción tomada para llegar al estado, una lista de hijos (que son otros nodos) y el recuento de visitas y valor acumulado para los nodos en este camino.

La función __init__() inicializa un nodo con el estado, el juego y los argumentos dados. Se establece la lista de hijos y movimientos aún no explorados en este nodo.

is_fully_expanded() verifica si el nodo tiene todos los movimientos disponibles explorados.

select() selecciona el hijo con el mejor valor de UCB (Upper Confidence Bound). El valor UCB se calcula en la función get_ucb() y se utiliza para equilibrar la exploración y explotación del árbol.

expand() agrega un nuevo nodo hijo al nodo actual y lo devuelve.

simulate() realiza una simulación (o rollout) desde el estado actual hasta el final del juego. Se utilizan jugadas aleatorias para avanzar en el juego y se devuelve el valor final del estado resultante.

backpropagate() actualiza los recuentos de visitas y el valor acumulado a lo largo del camino que llevó a este nodo y sus padres. Esto se hace recursivamente a través de la función backpropagate().

In [29]:
class MCTS:
    def __init__(self, juego, args):
        self.juego = juego
        self.args = args
        
    def buscar(self, estado):
        raiz = Nodo(self.juego, self.args, estado)
        
        for busqueda in range(self.args['num_searches']):
            nodo = raiz
            
            while nodo.esta_totalmente_expandido():
                nodo = nodo.seleccionar_hijo()
                
            valor, es_terminal = self.juego.obtener_valor_y_terminado(nodo.estado, nodo.accion)
            valor = self.juego.obtener_valor_oponente(valor)
            
            if not es_terminal:
                nodo = nodo.expandir()
                valor = nodo.simular()
                
            nodo.retropropagar(valor)    
            
            
        probabilidades_accion = np.zeros(self.juego.tamanio_accion)
        for hijo in raiz.hijos:
            probabilidades_accion[hijo.accion] = hijo.num_visitas
        probabilidades_accion /= np.sum(probabilidades_accion)
        return probabilidades_accion

La clase MCTS implementa el algoritmo Monte Carlo Tree Search (MCTS) para un juego dado. Este algoritmo se utiliza para encontrar la mejor jugada posible en un juego, utilizando una técnica de simulación de juegos repetitiva y la construcción de un árbol de búsqueda de todas las posibles jugadas.

La clase MCTS tiene un método llamado search, que toma un estado actual del juego y realiza un número de búsquedas (definido por num_searches en los argumentos) para construir el árbol de búsqueda. En cada búsqueda, el algoritmo recorre el árbol y selecciona un nodo que aún no esté completamente expandido. Luego, el algoritmo puede expandir el nodo seleccionado, simular un juego completo desde ese estado y propagar el resultado de la simulación hacia arriba a través del árbol.

Finalmente, después de completar todas las búsquedas, el método search devuelve una matriz de probabilidades de acciones, que representa la probabilidad de elegir cada posible acción desde el estado de entrada, dada la búsqueda realizada.

En resumen, la clase MCTS proporciona una forma sistemática de buscar y encontrar la mejor jugada posible en un juego dado.

In [30]:
tictactoe = TresEnRaya()
jugador = 1

args = {
    'C': 1.41,
    'num_searches': 1000
}

mcts = MCTS(tictactoe, args)

estado = tictactoe.get_estado_inicial()

while True:
    print(estado)
    
    if jugador == 1:
        movimientos_validos = tictactoe.obtener_movimientos_validos(estado)
        print("movimientos_validos", [i for i in range(tictactoe.tamanio_accion) if movimientos_validos[i] == 1])
        accion = int(input(f"{jugador}:"))

        if movimientos_validos[accion] == 0:
            print("acción no válida")
            continue
            
    else:
        estado_neutro = tictactoe.cambiar_perspectiva(estado, jugador)
        mcts_probs = mcts.buscar(estado_neutro)
        accion = np.argmax(mcts_probs)
        
    estado = tictactoe.obtener_siguiente_estado(estado, accion, jugador)
    
    valor, es_terminal = tictactoe.obtener_valor_y_terminado(estado, accion)
    
    if es_terminal:
        print(estado)
        if valor == 1:
            print(jugador, "ganó")
        else:
            print("empate")
        break
        
    jugador = tictactoe.obtener_oponente(jugador)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
movimientos_validos [0, 1, 2, 3, 4, 5, 6, 7, 8]
1:1
[[0. 1. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[ 0.  1.  0.]
 [ 0. -1.  0.]
 [ 0.  0.  0.]]
movimientos_validos [0, 2, 3, 5, 6, 7, 8]
1:8
[[ 0.  1.  0.]
 [ 0. -1.  0.]
 [ 0.  0.  1.]]
[[ 0.  1.  0.]
 [ 0. -1. -1.]
 [ 0.  0.  1.]]
movimientos_validos [0, 2, 3, 6, 7]
1:2
[[ 0.  1.  1.]
 [ 0. -1. -1.]
 [ 0.  0.  1.]]
[[ 0.  1.  1.]
 [-1. -1. -1.]
 [ 0.  0.  1.]]
-1 ganó


Este código implementa un juego de TresEnRaya en el que uno de los jugadores utiliza el algoritmo MCTS para seleccionar sus movimientos.

En la primera parte del código, se crea una instancia del juego TresEnRaya, se define que el jugador 1 empezará el juego y se establecen los parámetros para el algoritmo MCTS. Luego se crea una instancia de la clase MCTS utilizando la instancia del juego TresEnRaya y los parámetros definidos anteriormente. Se obtiene el estado inicial del juego utilizando el método get_initial_state del juego TresEnRaya.

Luego, en el bucle while, se imprime el estado actual del juego y se obtienen los movimientos válidos para el jugador actual. Si el jugador actual es el jugador 1, se imprimen los movimientos válidos y se le pide al usuario que seleccione uno. Si el movimiento no es válido, se imprime un mensaje de error y se continúa con el bucle while. Si el jugador actual es el jugador 2, se llama al método search de la instancia de la clase MCTS para obtener las probabilidades de los posibles movimientos a realizar. Luego, se selecciona el movimiento con la mayor probabilidad utilizando np.argmax.

A continuación, se actualiza el estado del juego utilizando el movimiento seleccionado por el jugador actual y se obtiene el valor y el estado terminal del juego después de realizar este movimiento utilizando el método get_value_and_terminated del juego TresEnRaya.

Si el juego ha terminado, se imprime el estado final del juego y se imprime si el jugador actual ha ganado o si ha habido un empate. Si el juego no ha terminado, se cambia al siguiente jugador utilizando el método get_opponent del juego TresEnRaya.

## Modelo con su correpsondiente red neuronal 

In [31]:
import numpy as np
print(np.__version__)
import math

import torch
print(torch.__version__)

import torch.nn as nn
import torch.nn.functional as F

1.22.4
1.13.1+cu116


In [None]:

class TresEnRaya:
    def __init__(self):
        self.num_filas = 3
        self.num_columnas = 3
        self.tam_tablero = self.num_filas * self.num_columnas
        
    def obtener_estado_inicial(self):
        return np.zeros((self.num_filas, self.num_columnas))
    
    def obtener_siguiente_estado(self, estado, accion, jugador):
        fila = accion // self.num_columnas
        columna = accion % self.num_columnas
        estado[fila, columna] = jugador
        return estado
    
    def obtener_movimientos_validos(self, estado):
        return (estado.reshape(-1) == 0).astype(np.uint8)
    
    def comprobar_victoria(self, estado, accion):
        if accion == None:
            return False
        
        fila = accion // self.num_columnas
        columna = accion % self.num_columnas
        jugador = estado[fila, columna]
        
        return (
            np.sum(estado[fila, :]) == jugador * self.num_columnas
            or np.sum(estado[:, columna]) == jugador * self.num_filas
            or np.sum(np.diag(estado)) == jugador * self.num_filas
            or np.sum(np.diag(np.flip(estado, axis=0))) == jugador * self.num_filas
        )
    
    def obtener_valor_y_terminado(self, estado, accion):
        if self.comprobar_victoria(estado, accion):
            return 1, True
        if np.sum(self.obtener_movimientos_validos(estado)) == 0:
            return 0, True
        return 0, False
    
    def obtener_oponente(self, jugador):
        return -jugador
    
    def obtener_valor_oponente(self, valor):
        return -valor
    
    def cambiar_perspectiva(self, estado, jugador):
        return estado * jugador
    
    def obtener_estado_codificado(self, estado):
        estado_codificado = np.stack(
            (estado == -1, estado == 0, estado == 1)
        ).astype(np.float32)
        
        return estado_codificado


In [None]:
class ResNet(nn.Module):
    def __init__(self, juego, num_bloques_residuales, num_ocultas):
        super().__init__()
        self.bloque_inicio = nn.Sequential(
            nn.Conv2d(3, num_ocultas, kernel_size=3, padding=1),
            nn.BatchNorm2d(num_ocultas),
            nn.ReLU()
        )
        
        self.espina_dorsal = nn.ModuleList(
            [BloqueResidual(num_ocultas) for i in range(num_bloques_residuales)]
        )
        
        self.cabeza_politica = nn.Sequential(
            nn.Conv2d(num_ocultas, 32, kernel_size=3, padding=1),
            nn.BatchNorm2d(32),
            nn.ReLU(),
            nn.Flatten(),
            nn.Linear(32 * juego.numero_filas * juego.numero_columnas, juego.tamaño_acción)
        )
        
        self.cabeza_valor = nn.Sequential(
            nn.Conv2d(num_ocultas, 3, kernel_size=3, padding=1),
            nn.BatchNorm2d(3),
            nn.ReLU(),
            nn.Flatten(),
            nn.Linear(3 * juego.numero_filas * juego.numero_columnas, 1),
            nn.Tanh()
        )
        
    def forward(self, x):
        x = self.bloque_inicio(x)
        for bloque_res in self.espina_dorsal:
            x = bloque_res(x)
        politica = self.cabeza_politica(x)
        valor = self.cabeza_valor(x)
        return politica, valor
    
class BloqueResidual(nn.Module):
    def __init__(self, num_ocultas):
        super().__init__()
        self.conv1 = nn.Conv2d(num_ocultas, num_ocultas, kernel_size=3, padding=1)
        self.bn1 = nn.BatchNorm2d(num_ocultas)
        self.conv2 = nn.Conv2d(num_ocultas, num_ocultas, kernel_size=3, padding=1)
        self.bn2 = nn.BatchNorm2d(num_ocultas)
        
    def forward(self, x):
        residual = x
        x = F.relu(self.bn1(self.conv1(x)))
        x = self.bn2(self.conv2(x))
        x += residual
        x = F.relu(x)
        return x

Clase ResNet

ResNet es una clase que hereda de la clase nn.Module de PyTorch. Representa una red neuronal convolucional que se utiliza para juegos y otros tipos de tareas. El objetivo de esta clase es construir una red neuronal que pueda aprender a jugar juegos mediante el aprendizaje por refuerzo. La arquitectura de esta red neuronal es una ResNet (red neuronal residual) que consiste en bloques residuales.

La clase ResNet tiene varios métodos. El método __init__ es el constructor que inicializa los parámetros de la red neuronal. Recibe tres argumentos: juego, num_bloques_residuales y num_ocultas. juego es un objeto que representa el juego en el que se entrenará la red neuronal. num_bloques_residuales es el número de bloques residuales que tendrá la red neuronal y num_ocultas es el número de características o canales de cada bloque.

El método forward realiza la propagación hacia adelante de la red neuronal. Recibe un tensor de entrada x y devuelve dos tensores: politica y valor. politica representa la política aprendida por la red neuronal y valor representa la estimación del valor del estado actual del juego.


Clase BloqueResidual

BloqueResidual es una clase que también hereda de nn.Module. Representa un bloque residual utilizado en la construcción de la red neuronal de la clase ResNet. El objetivo de esta clase es crear bloques residuales que permitan a la red neuronal aprender características más profundas y complejas.

La clase BloqueResidual tiene dos métodos: __init__ y forward. El método __init__ es el constructor que inicializa los parámetros del bloque residual. Recibe un argumento num_ocultas, que es el número de características o canales del bloque.

El método forward realiza la propagación hacia adelante del bloque residual. Recibe un tensor de entrada x y devuelve un tensor de salida x. El bloque residual se compone de dos capas de convolución y dos capas de normalización por lotes (batch normalization) que ayudan a estabilizar y acelerar el proceso de entrenamiento de la red neuronal.

En resumen, ResNet y BloqueResidual son clases que se utilizan para construir una red neuronal convolucional que puede aprender a jugar juegos mediante el aprendizaje por refuerzo. La clase ResNet representa la red neuronal y la clase BloqueResidual representa los bloques residuales que se utilizan para construirla. Juntas, estas dos clases permiten construir una red neuronal que puede aprender a jugar juegos y otros tipos de tareas.