![](SARSA.png)

In [1]:
import numpy as np
import random
import matplotlib.pyplot as plt

In [2]:
dimensiones = (4, 4)
estado_inicial = (0, 0)
estado_objetivo = (3, 3)
acciones = [(0, -1), (0, 1), (-1, 0), (1, 0)]
acciones_simbolos = ['↑', '↓', '←', '→']

In [3]:
num_estados = dimensiones[0] * dimensiones[1]
num_estados

16

In [4]:
num_acciones = len(acciones)

In [7]:
Q = np.zeros((num_estados, num_acciones))
Q

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [9]:
alpha = 0.1
gamma = 0.99
epsilon = 0.2
episodios = 1000

In [10]:
def estado_a_indice(estado):
    return estado[0] * dimensiones[1] + estado[1]

In [11]:
def elegir_accion(estado):
    if random.uniform(0, 1) < epsilon:
        return random.randint(0, num_acciones - 1)
    else:
        return np.argmax(Q[estado_a_indice(estado)])

In [12]:
def aplicar_accion(estado, accion_idx):
    accion = acciones[accion_idx]
    nuevo_estado = tuple(np.add(estado, accion)  %  np.array(dimensiones))

    if nuevo_estado == estado_objetivo:
        recompensa = 1
    else:
        recompensa = -1

    return nuevo_estado, recompensa, nuevo_estado == estado_objetivo

In [17]:
for episodio in range(episodios):
    estado = estado_inicial
    accion_idx = elegir_accion(estado)
    terminado = False

    while not terminado:
        nuevo_estado, recompensa, terminado = aplicar_accion(estado, accion_idx)
        nueva_accion_idx =  elegir_accion(nuevo_estado)

        indice = estado_a_indice(estado)
        Q[indice, accion_idx] += alpha * (recompensa + gamma * Q[estado_a_indice(nuevo_estado), nueva_accion_idx] - Q[indice, accion_idx])

        estado, accion_idx = nuevo_estado, nueva_accion_idx

In [15]:
politica = np.empty(dimensiones, dtype='<U2')
politica

array([['', '', '', ''],
       ['', '', '', ''],
       ['', '', '', ''],
       ['', '', '', '']], dtype='<U2')

In [18]:
for i in range(dimensiones[0]):
    for j in range(dimensiones[1]):
        estado = (i, j)
        mejor_accion = np.argmax(Q[estado_a_indice(estado)])
        politica[i, j] = acciones_simbolos[mejor_accion]

politica

array([['←', '←', '↓', '←'],
       ['→', '↑', '←', '→'],
       ['↑', '↓', '→', '→'],
       ['↑', '↑', '↓', '↑']], dtype='<U2')