Fórmula general del aprendizaje por diferencias temporales, TDL por sus siglas en inglés. El $\alpha$ es un amortiguador entre $0$ y $1$.

$$V(s) = V(s) + \alpha[V(s') - V(s)]$$

La idea es hacer una función que, a partir de esa ecuación, simule este algoritmo:

```
ambiente
agente
for episodio = 0, ..., max_episodio:
    estado = ambiente.reset()
    agente.reset()
    for t = 0, ..., T:
        accion = agente.accion(estado)
        estado, recompensa = ambiente.paso(accion)
        agente.actualizar(acction, estado, recompensa)
        si ambiente.fin():
            salir
```


In [3]:
class Agent:
    def __init__(self, state = 0, alpha = 0.25):
        self.state = state
        self.alpha = alpha
    
    def action(self, state, board, i):
        # state recibe estado del juego actual, o sea una instancia de Env
        # board es el tablero temporal con las posibles jugadas
        # i sirve para determinar cuántos valores se toman en adelante
        # Se calcula la función de valor de cada acción que se pueda realizar
        
        # Se obtienen las opciones disponibles marcadas con '' por posición en ps
        ps = []
        for p in board:
            if p == '':
                ps.append(p)
        # Lista de funciones de valor
        vs = []
        for p in ps:
            # Se eligen por orden las posibles jugadas
            t_board = board[p] = str(state.turn % 2)
            # Se calcula la función de valor actual en v como la probabilidad de elegir cierta casilla por la recompensa de la misma
            v = state.reward(t_board = t_board) / len(ps)
            # Si hay recursividad pendiente, se hace
            if i > 0:
                # Se actualiza de manera recursiva
                v = v + self.alpha * (self.action(state = state, board = t_board, i = i - 1)[1] + v)
            # Se agrega a la lista la tupla (posibiliad, valor)
            vs.append((p,v))
        # Se regresa el valor mayor
        return max(vs, key = lambda x: x[1])
    
    def reset(self):
        self.action = 0
        self.state = 0
        self.reward = 0

In [7]:
class Env: # Juego del Gato
    def __init__(self, board = [''] * 9, turn = 0):
        self.board = board
        self.turn = turn

    def reward(self, t_board):
        # t_board es el tablero con base en las posibles opciones
        # r es la recompensa
        r = 0
        # player es el jugador 0 o 1 con base en el turno. Es un simple módulo
        player = str(self.turn % 2)

        # Una victoria se puede dar cuando las casillas verticales, horizontales y diagonales tienen el mismo símbolo, distinto de ''
        # Cada turno se revisa si se gana. En ese caso, la recompensa es 1 si el turno coincide con el símbolo ganador. Si se pierde, es -1, en otro caso, 0
        
        # Victorias horizontales
        if self.board[0] != '' and self.board[0] == self.board[1] and self.board[0] == self.board[2]:
            if player == self.board[0]:
                r = 1
            else:
                r = -1
                
        elif self.board[3] != '' and self.board[3] == self.board[4] and self.board[3] == self.board[5]:
            if player == self.board[3]:
                r = 1
            else:
                r = -1
                
        elif self.board[6] != '' and self.board[6] == self.board[7] and self.board[6] == self.board[8]:
            if player == self.board[6]:
                r = 1
            else:
                r = -1
            
        # Victorias verticales
        elif self.board[0] != '' and self.board[0] == self.board[3] and self.board[0] == self.board[6]:
            if player == self.board[0]:
                r = 1
            else:
                r = -1
                
        elif self.board[1] != '' and self.board[1] == self.board[4] and self.board[1] == self.board[7]:
            if player == self.board[1]:
                r = 1
            else:
                r = -1
                
        elif self.board[2] != '' and self.board[2] == self.board[5] and self.board[2] == self.board[8]:
            if player == self.board[2]:
                r = 1
            else:
                r = -1
        
        # Victorias diagonales
        elif self.board[0] != '' and self.board[0] == self.board[4] and self.board[0] == self.board[8]:
            if player == self.board[0]:
                r = 1
        elif self.board[2] != '' and self.board[2] == self.board[4] and self.board[2] == self.board[6]:
            if player == self.board[2]:
                r = 1

        return r

    def reset(self):
        self.board = [''] * 9
        self.turn = 0

In [8]:
a = Agent()
e = Env()
print(e.board)

['', '', '', '', '', '', '', '', '']


In [10]:
reps = 10
ts = 10
playing = True
while playing:
    a.action(state = e, board = e.board, i = 1)
    e.board[t[0]] = str(e.turn % 2)
    # Se incrementa un turno
    e.turn += 1
    print(e.board)

TypeError: 'int' object is not callable