# Q-Learning (Aprendizaje por Reforzamiento)

Q-learning es un tipo de algoritmo de aprendizaje por refuerzo que permite a un agente aprender a tomar decisiones óptimas en un entorno específico.

La "Q" en Q-learning se refiere a la calidad de las acciones que el agente puede tomar en cada estado.



In [1]:
import numpy as np 
import random 

In [2]:
dimensiones = (5, 5) #25 posiciones posibles
estado_inicial = (0, 0)
estado_objetivo = (4, 4)
obstaculos = [(1,1), (1,3), (2,3), (3,0)]
acciones = [(-1,0), (1,0), (0,-1), (0,1)]

In [3]:
num_estados = dimensiones[0]*dimensiones[1]
num_estados

25

In [4]:
num_acciones =len(acciones)
num_acciones

4

In [5]:
Q = np.zeros((num_estados, num_acciones))
Q

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [6]:
def estado_a_indice(estado): 
    return estado[0] * dimensiones[1]+estado[1]

In [7]:
ejemplo = estado_a_indice((1,0))
ejemplo

5

- epsilon se usa para definir la probabilidad de que el agente tome una acción aleatoria en lugar de la mejor acción conocida según la tabla Q, facilitando la exploración del entorno.

- alpha es el factor de tasa de aprendizaje que controla cuánto se actualiza el valor Q en cada paso del aprendizaje.

- gamma es el factor de descuento que determina la importancia de las recompensas futuras en comparación con las recompensas inmediatas.

- Un valor alto de epsilon (como 0.9) significa que hay una alta probabilidad de que el agente tome una acción aleatoria, promoviendo así la exploración.




In [8]:
alpha = 0.1 #Cuanto se actualiza Q en cada aprendizaje, establecemos un valor bajo (aprendizaje mas lento pero mas seguro) 
gamma = 0.99 #Factor de descuento, importancia de las recompensas, cercano a 1 
epsilon = 0.2 #Agente no repita las mismas decisiones y explore más alternativas
episodios = 100 #Número de veces que se repite el episodio (>episodio > aprendizaje)


In [9]:
def elegir_accion(estado):
    if random.uniform(0, 1) < epsilon:
        return random.choice(range(num_acciones))
    else:
        return np.argmax(Q[estado_a_indice(estado)])

In [13]:
#la función aplicar_accion devuelve el estado original y una penalización de -100.

def aplicar_accion(estado, accion_idx):
    accion = acciones[accion_idx]
    nuevo_estado = tuple(np.add(estado, accion) % dimensiones)
    
    if nuevo_estado in obstaculos or nuevo_estado == estado: 
        return estado, -100, False
    if nuevo_estado == estado_objetivo: 
        return nuevo_estado, 100, True
    return nuevo_estado, -1, False

In [14]:
for episodio in range(episodios):
    estado = estado_inicial
    terminado = False
    
    while not terminado:
        idx_estado = estado_a_indice(estado)
        accion_idx = elegir_accion(estado)
        nuevo_estado, recompensa, terminado = aplicar_accion(estado, accion_idx)
        idx_nuevo_estado = estado_a_indice(nuevo_estado)
        
        Q[idx_estado, accion_idx] = Q[idx_estado, accion_idx]+alpha+ (recompensa + gamma * np.max(Q[idx_nuevo_estado])-Q[idx_estado, accion_idx])
        
        estado = nuevo_estado

La matriz politica contiene la mejor acción que el agente debe tomar en cada estado basado en el conocimiento adquirido durante el entrenamiento.

In [15]:
politica = np.zeros(dimensiones, dtype=int)
politica

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

In [16]:
for i in range(dimensiones[0]):
    for j in range(dimensiones[1]):
        estado = (i,j)
        idx_estado = estado_a_indice(estado)
        mejor_accion = np.argmax(Q[idx_estado])
        politica[i,j] = mejor_accion 
        
print('Política aprendida (0: arriba, 1: abajo, 2:izquierda, 3:derecha)')
print(politica) #Conocimiento por el entorno

Política aprendida (0: arriba, 1: abajo, 2:izquierda, 3:derecha)
[[0 0 3 0 0]
 [0 0 2 0 0]
 [0 2 0 0 0]
 [0 1 2 0 1]
 [2 2 3 0 0]]
