![](Bellman.png)

Q-Learning es un tipo de algoritmo de aprendizaje por refuerzo que le permite aprender a un "agente" a tomar decisiones óptimas y alcanzar un objetivo en ese entorno o ambiente determinado, el agente opera aprendiendo los valores que sean más convenientes para cada paso que tenga que dar, y a esos pasos los implementamos en un par de datos que definen la acción que tiene que tomar y el estado en el que queda.

In [1]:
import numpy as np
import random

In [2]:
dimensiones = (5, 5)
estado_inicial = (0, 0)
estado_objetivo = (4, 4)
obstaculos = [(1, 1), (1, 3), (2, 3), (3, 0)]
acciones = [(-1, 0), (1, 0), (0, -1), (0, 1)]

In [3]:
num_estados = dimensiones[0] * dimensiones[1]
num_estados

25

In [4]:
num_acciones = len(acciones)
num_acciones

4

In [5]:
Q = np.zeros((num_estados, num_acciones))
Q

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [6]:
def estado_a_indice(estado):
    return estado[0] * dimensiones[1] + estado[1]

In [7]:
ejemplo = estado_a_indice((1, 0))
ejemplo

5

In [8]:
alpha = 0.1
gamma = 0.99
epsilon = 0.2
episodios = 100

- **'alpha'**: controla cuanto se actualiza el valor Q en cada paso del aprendizaje, un valor de alpha más alto significa que la información más reciente tiene un peso mayor, y esto le permite un aprendizaje más rápido, pero también potencialmente menos estable.
- **'gamma'**: es un factor de descuento, lo que hace es determinar la importancia de las recompensas que va a obtener en el futuro, si tenemos un valor de gamma cercano a 1 hace que las recompensas futuras sean casi tan importantes como las recompensas inmediatas y de esta manera incentiva a nuestro agente a considerar consecuencias a largo plazo de sus acciones.
- **'epsilon'**: este valor sirve para que el agente no repita las mismas decisiones, definiendo la probabilidad de que el agente tome una acción aleatoria en lugar de la mejor decisión conocida hasta el momento según la tabla Q
- **'episodios'**: número de veces que se estará repitiendo este proceso de entrenamiento

In [9]:
def elegir_accion(estado):
    """
    Implementa la estrategia epsilon-greedy
    Exploración: elige una acción aleatoria
    Explotación: elige la mejor acción según la matriz Q
    """
    if random.uniform(0, 1) < epsilon:
        return random.choice(range(num_acciones))
    else:
        return np.argmax(Q[estado_a_indice(estado)])

In [10]:
def aplicar_accion(estado, accion_idx):
    """
    Aplica una acción basada en un índice de acción dado y actualiza el estado del agente en el grid.

    Parámetros:
    - estado (tuple): La posición actual del agente en el grid.
    - accion_idx (int): El índice de la acción a aplicar, que está basado en la lista 'acciones'.

    Retorna:
    - tuple: El nuevo estado del agente después de aplicar la acción.
    - int: La recompensa o penalización resultante de la acción.
    - bool: Un booleano que indica si el objetivo ha sido alcanzado.
    """
    accion = acciones[accion_idx]
    nuevo_estado = tuple(np.add(estado, accion) % dimensiones)

    if nuevo_estado in obstaculos or nuevo_estado == estado:
        return estado, -100, False
        
    if nuevo_estado == estado_objetivo:
        return nuevo_estado, 100, True
        
    return nuevo_estado, -1, False

In [11]:
for episodio in range(episodios):
    estado = estado_inicial
    terminado = False

    while not terminado:
        idx_estado = estado_a_indice(estado)
        accion_idx = elegir_accion(estado)
        nuevo_estado, recompensa, terminado = aplicar_accion(estado, accion_idx)
        idx_nuevo_estado = estado_a_indice(nuevo_estado)

        Q[idx_estado, accion_idx] = Q[idx_estado, accion_idx] + alpha * (recompensa + gamma * np.max(Q[idx_nuevo_estado]) - Q[idx_estado, accion_idx])

        estado = nuevo_estado

In [12]:
politica = np.zeros(dimensiones, dtype=int)
politica

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

In [13]:
for i in range(0, dimensiones[0]):
    for j in range(0, dimensiones[1]):
        estado = (i, j)
        idx_estado = estado_a_indice(estado)
        mejor_accion = np.argmax(Q[idx_estado])
        politica[i, j] = mejor_accion

print('Politica aprendida (0: arriba, 1: abajo, 2: izquierda, 3: derecha')
print(politica)

Politica aprendida (0: arriba, 1: abajo, 2: izquierda, 3: derecha
[[2 0 2 3 0]
 [0 0 2 0 0]
 [3 2 0 0 0]
 [0 1 3 2 0]
 [2 2 3 1 0]]
