![](SARSA.png)

In [1]:
import numpy as np
import random
import matplotlib.pyplot as plt

In [3]:
dim = (4,4)
estado_inicial = (0,0)
estado_objetivo = (3,3)

In [4]:
acciones = [(0,-1), (0,1), (-1,0), (1,0)]

In [5]:
acciones_simbolos = ['↑','↓', '←', '→']

In [7]:
num_stados = dim[0] * dim[1]

16

In [8]:
num_acciones = len(acciones)
num_acciones

4

In [9]:
Q = np.zeros((num_stados, num_acciones))
Q

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [17]:
alpha = 0.1
gamma = 0.99
epsilon = 0.2
epochs = 1000

In [11]:
def estado_a_indice(estado):
    return estado[0] * dim[1] + estado[1]

In [24]:
def elegir_accion(estado):
    if random.uniform(0,1) < epsilon:
        return random.randint(0, num_acciones - 1)
    else:
        return np.argmax(Q[estado_a_indice(estado)])

In [25]:
def aplicar_accion(estado, accion_idx):
    accion = acciones[accion_idx]
    nuevo_estado = tuple(np.add(estado,accion) % np.array(dim))
    
    if nuevo_estado == estado_objetivo:
        reward = 1
    else:
        reward = -1
    return nuevo_estado, reward, nuevo_estado == estado_objetivo    
    

In [28]:
for e in range(epochs):
    estado = estado_inicial
    terminado = False
    
    while not terminado:
        idx_accion = elegir_accion(estado)
        
        # CORRECCIÓN: Capturar correctamente los 3 valores de retorno
        nuevo_estado, reward, terminado = aplicar_accion(estado, idx_accion)
        
        # Si el episodio terminó, no elegimos nueva acción
        if not terminado:
            nueva_accion_idx = elegir_accion(nuevo_estado)
        else:
            nueva_accion_idx = 0  # Valor por defecto (no se usará realmente)
        
        indice = estado_a_indice(estado)
        
        # Cálculo del target para Q-learning
        if terminado:
            target = reward
        else:
            target = reward + gamma * Q[estado_a_indice(nuevo_estado), nueva_accion_idx]
        
        # Actualización Q-learning
        Q[indice, idx_accion] += alpha * (target - Q[indice, idx_accion])
        
        estado = nuevo_estado

In [29]:
politica_simbolos = np.empty(dim, dtype='<U2')

In [30]:
politica_simbolos

array([['', '', '', ''],
       ['', '', '', ''],
       ['', '', '', ''],
       ['', '', '', '']], dtype='<U2')

In [31]:
for i in range(dim[0]):
    for j in range(dim[1]):
        estado = (i,j)
        mejor_accion = np.argmax(Q[estado_a_indice(estado)])
        politica_simbolos[i,j] = acciones_simbolos[mejor_accion]

politica_simbolos

array([['↑', '↓', '↓', '←'],
       ['↑', '↓', '→', '→'],
       ['↑', '←', '↓', '→'],
       ['↑', '↓', '↓', '↑']], dtype='<U2')