![](Bellman.png)

### Ecuaci√≥n de actualizaci√≥n en Q-learning:

### ¬øQu√© significa?

Esta ecuaci√≥n **actualiza el valor de hacer una acci√≥n `a` en un estado `s`** con base en lo que el agente experimenta.
Cada vez que el agente se mueve y observa una recompensa, mejora su "tabla de decisiones" llamada **Q-table**.

### ¬øQu√© representa cada t√©rmino?

| S√≠mbolo              | Significado                                                                                                                   |
| -------------------- | ----------------------------------------------------------------------------------------------------------------------------- |
| `Q(s, a)`            | Valor actual estimado de hacer la acci√≥n `a` en el estado `s`.                                                                |
| `Œ±` (alfa)           | Tasa de aprendizaje: cu√°nto conf√≠as en lo nuevo que acabas de aprender (valor entre 0 y 1).                                   |
| `R(s, a)`            | Recompensa inmediata que obtuviste por hacer `a` en `s`.                                                                      |
| `Œ≥` (gamma)          | Factor de descuento: cu√°nto te importa el futuro. Si es 0, solo importa el presente. Si es cercano a 1, te importa el futuro. |
| `max_{a'} Q(s', a')` | Mejor valor posible desde el nuevo estado `s'`, mirando todas las acciones posibles `a'`.                                     |

---

### En palabras simples:

> ‚ÄúActualiza el valor de esta acci√≥n con lo que ya sab√≠as, **m√°s un pedacito de lo que aprendiste nuevo**: la recompensa obtenida y lo que esperas ganar en el futuro.‚Äù

- Permite a un agente imaginario aprender a tomar decisiones √≥ptomas y a alcanzar un objetivo en ese entorno o ambiente.
- Aprende con los valores que sean m√°s convenientes en cada paso. A estos pasos los implementamos en un par de datos que definen la acci√≥n que tiene que tomar y el estado en el que queda.

- Agente que debe identificar que pasos realizar
- Calidad de los pasos: Q

- Valores Q ayudan al agente a tomar una decisi√≥n en cada paso.

In [1]:
import numpy as np
import random

In [2]:
# Definici√≥n del entorno
# ----------------------

# Se establece una cuadr√≠cula de 5x5 donde se desarrollar√° el proceso de aprendizaje.
dimensiones = (5, 5)

# El agente comienza en la celda (0, 0).
estado_inicial = (0, 0)

# El objetivo es llegar a la celda (4, 4).
estado_objetivo = (4, 4)

# Algunas celdas est√°n bloqueadas por obst√°culos y no son transitables.
obstaculos = [(1, 1), (1, 3), (2, 3), (3, 0)]

# Acciones disponibles: arriba, abajo, izquierda, derecha.
# Cada acci√≥n es una tupla (Œîfila, Œîcolumna).
acciones = [(-1, 0), (1, 0), (0, -1), (0, 1)]

In [3]:
# Se calcula el n√∫mero total de estados (celdas).
num_estados = dimensiones[0] * dimensiones[1]
num_estados

25

In [4]:
# Y el n√∫mero total de acciones posibles por estado.
num_acciones = len(acciones)
num_acciones

4

### Inicializaci√≥n de la tabla Q
- Se crea una matriz de dimensiones (n√∫mero de estados) x (n√∫mero de acciones),
- donde cada celda Q[s, a] representa el valor esperado de tomar la acci√≥n 'a' en el estado 's'.


- Ejemplo:
  - Q[12, 2] te dir√≠a: ¬øCu√°l es el valor esperado de estar en la celda que representa el estado 12 y moverse, por ejemplo, a la izquierda (acci√≥n 2)?

In [5]:
# Crea una matriz Q de ceros, donde cada fila representa un estado y cada columna una acci√≥n.
# Esta matriz guardar√° los valores Q, es decir, la utilidad esperada de tomar una acci√≥n en un estado.
Q = np.zeros((num_estados, num_acciones))
Q

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

- Toma una tupla estado = (fila, columna) y devuelve un entero que representa el n√∫mero del estado en la Q-table.

In [7]:
# Funci√≥n de mapeo: estado a √≠ndice de la Q-table
# ------------------------------------------------
# Convierte un estado (fila, columna) en un √≠ndice entero correspondiente
# a la fila de la tabla Q. Esto permite representar la cuadr√≠cula 2D como una lista 1D.

def estado_a_indice(estado):
    return estado[0] * dimensiones[1] + estado[1]

In [8]:
ejemplo = estado_a_indice((0, 0))
print(ejemplo)

ejemplo = estado_a_indice((1, 0))
print(ejemplo)

ejemplo = estado_a_indice((0, 1))
print(ejemplo)

ejemplo = estado_a_indice((3, 3))
print(ejemplo)

0
5
1
18


- Alpha: 
  - Factor de la taza de aprendizaje. 
  - Cu√°nto se actualiza el valor Q en cada paso. 
  - Valor bajo es m√°s lento pero m√°s seguro
- Gamma:
  - Factor de descuento. 
  - Determinar la importancia de las recompensas que va a obtener en el futuro.
  - Cercano a 1 hace que las recompensas futuras sean casi tan importantes como las inmediatas, haciendo que el agente considera consecuencias a largo plazo de sus acciones.
  - Valos m√°s bajo, al agente va a valorar m√°s las consecuencias inmediatas.
- Epsilon:
  - Sirve para que el agente no repita siempre las mismas decisiones.
  - Se define la probabilidad de que el agente tome una acci√≥n aleatoria en lugar de que el agente tome una acci√≥n conocida en la tabla Q.
  - Permite que el agente explore el entorno.
- Episodios:
  - Define el n√∫mero total de veces que se va a repetir el proceso de entrenamiento.
  - Empieza con el agente en el estado inicial y termina cuando alcance el objetivo.

In [9]:
alpha = 0.1
gamma = 0.99
epsilon = 0.2
episodios = 100

- Esta funci√≥n aplica la estrategia Œµ-greedy, una t√©cnica muy com√∫n en Q-learning para balancear:
  - Exploraci√≥n (probar nuevas acciones para descubrir recompensas) 
  - y Explotaci√≥n (usar el conocimiento actual para tomar la mejor decisi√≥n).

In [10]:
# Funci√≥n para elegir una acci√≥n con estrategia Œµ-greedy
# ------------------------------------------------------
# Esta funci√≥n implementa el balance entre exploraci√≥n y explotaci√≥n.
# Con probabilidad 'epsilon', se elige una acci√≥n aleatoria (exploraci√≥n).
# Con probabilidad '1 - epsilon', se elige la mejor acci√≥n conocida
# (la de mayor valor Q en la tabla para ese estado).
# La funci√≥n devuelve el √≠ndice de la acci√≥n elegida (0, 1, 2 o 3), seg√∫n si el agente explora o explota.

def elegir_accion(estado):
    if random.uniform(0, 1) < epsilon:
        return random.choice(range(0, num_acciones)) # Si explora (elige aleatoriamente)
    else:
        return np.argmax(Q[estado_a_indice(estado)]) # Si explota (elige la mejor conocida). Retorna el √≠ndice de la acci√≥n con mayor valor Q

In [11]:
def aplicar_accion(estado, accion_idx):
    
    accion = acciones[accion_idx] # Se convierte el √≠ndice en una tupla que representa el movimiento.

    # Calcula la nueva posici√≥n (fila, columna) del agente despu√©s de aplicar una acci√≥n.
    # np.add(estado, accion): Suma elemento a elemento la posici√≥n actual y el movimiento. np.add((2, 2), (1, 0)) ‚Üí array([3, 2])
    # % dimensiones hace que si te pasas del l√≠mite de filas o columnas, vuelvas al otro lado del tablero. np.add((2, 2), (1, 0)) % (5, 5) ‚Üí array([3, 2])  (sigue dentro)
    # Convierte el resultado final de np.array a una tupla de Python
    nuevo_estado = tuple(np.add(estado, accion) % dimensiones)

    # Si el nuevo estado es un obst√°culo o si el movimiento result√≥ en quedarse en el mismo lugar, entonces:
    # No se mueve (estado se mantiene),
    # Recibe una penalizaci√≥n fuerte: -100,
    # El episodio no termina a√∫n (False).
    if nuevo_estado in obstaculos or nuevo_estado == estado:
        return estado, -100, False

    # Si el agente alcanza el estado objetivo:
    # Se actualiza el estado correctamente,
    # Recibe una gran recompensa de +100,
    # Y se termina el episodio (True).
    if nuevo_estado == estado_objetivo:
        return nuevo_estado, 100, True
    
    # Caso general
    # Movimiento v√°lido, pero no lleg√≥ al objetivo.
    # Penalizaci√≥n leve -1 para motivar que no se quede dando vueltas innecesarias.
    # El episodio contin√∫a (False).
    return nuevo_estado, -1, False


- Esta parte es el motor del algoritmo, donde el agente explora, se equivoca, acierta y va mejorando la tabla Q.

In [None]:
for episodio in range(episodios): # Repetir por cada episodio (ciclo de entrenamiento)

    estado = estado_inicial
    terminado = False

    while not terminado:
        
        # Convierte la posici√≥n (fila, columna) al √≠ndice num√©rico que corresponde a la fila en Q.
        idx_estado = estado_a_indice(estado) 

        # Decide si explorar o explotar (Œµ-greedy), y elige una acci√≥n (√≠ndice 0 a 3).
        accion_idx = elegir_accion(estado)

        # Aplicar acci√≥n y obtener resultados
        nuevo_estado, recompensa, terminado = aplicar_accion(estado, accion_idx)

        # Calcular √≠ndice del nuevo estado. Necesario para actualizar Q con base en lo que viene.
        idx_nuevo_estado = estado_a_indice(nuevo_estado)

        # Actualizar la tabla Q. Se est√° aprendiendo cu√°nto vale tomar esa acci√≥n desde ese estado.
        Q[idx_estado, accion_idx] = Q[idx_estado, accion_idx] + alpha * (recompensa + gamma * np.max(Q[idx_nuevo_estado]) - Q[idx_estado, accion_idx])
        
        #  Moverse al nuevo estado
        estado = nuevo_estado

In [13]:
def mostrar_q_table():
    print("Tabla Q (valores por estado y acci√≥n):")
    for fila in range(dimensiones[0]):
        for col in range(dimensiones[1]):
            estado = (fila, col)
            idx = estado_a_indice(estado)
            print(f"Estado {estado} ({idx}): {Q[idx]}")

mostrar_q_table()

Tabla Q (valores por estado y acci√≥n):
Estado (0, 0) (0): [97.93321383 -0.15760053 18.60181009  9.70406378]
Estado (0, 1) (1): [  0.66303064 -18.30815603  42.73183634   0.        ]
Estado (0, 2) (2): [-0.1 -0.1  0.   0. ]
Estado (0, 3) (3): [0. 0. 0. 0.]
Estado (0, 4) (4): [71.75704635  1.55984524  0.          0.        ]
Estado (1, 0) (5): [ -0.1         -0.19         3.75857798 -10.        ]
Estado (1, 1) (6): [0. 0. 0. 0.]
Estado (1, 2) (7): [-0.1 -0.1  0.   0. ]
Estado (1, 3) (8): [0. 0. 0. 0.]
Estado (1, 4) (9): [24.5296263   0.         -7.95784019  0.        ]
Estado (2, 0) (10): [ -0.16072032 -19.          -0.1         -0.1099    ]
Estado (2, 1) (11): [-10.      -0.1     -0.1999  -0.1   ]
Estado (2, 2) (12): [-0.1 -0.1 -0.1  0. ]
Estado (2, 3) (13): [0. 0. 0. 0.]
Estado (2, 4) (14): [-0.1  0.   0.   0. ]
Estado (3, 0) (15): [0. 0. 0. 0.]
Estado (3, 1) (16): [ -0.19  -0.1  -10.    -0.1 ]
Estado (3, 2) (17): [-0.1    -0.1    -0.1099  0.    ]
Estado (3, 3) (18): [0. 0. 0. 0.]
Esta

In [14]:
def mostrar_politica():
    simbolos_accion = {
        0: '‚Üë',   # (-1, 0)
        1: '‚Üì',   # (1, 0)
        2: '‚Üê',   # (0, -1)
        3: '‚Üí'    # (0, 1)
    }

    print("\nPol√≠tica aprendida (mejor acci√≥n por estado):\n")
    for fila in range(dimensiones[0]):
        linea = ""
        for col in range(dimensiones[1]):
            estado = (fila, col)
            if estado in obstaculos:
                linea += " ‚õî "  # obst√°culo
            elif estado == estado_objetivo:
                linea += " üéØ "  # objetivo
            else:
                idx = estado_a_indice(estado)
                mejor_accion = np.argmax(Q[idx])
                linea += f" {simbolos_accion[mejor_accion]}  "
        print(linea)

mostrar_politica()


Pol√≠tica aprendida (mejor acci√≥n por estado):

 ‚Üë   ‚Üê   ‚Üê   ‚Üë   ‚Üë  
 ‚Üê   ‚õî  ‚Üê   ‚õî  ‚Üë  
 ‚Üê   ‚Üì   ‚Üí   ‚õî  ‚Üì  
 ‚õî  ‚Üì   ‚Üí   ‚Üë   ‚Üë  
 ‚Üê   ‚Üê   ‚Üí   ‚Üë   üéØ 


In [15]:
politica = np.zeros(dimensiones, dtype=int)

for i in range(dimensiones[0]):
    for j in range(dimensiones[1]):
        estado = (i, j)
        idx_estado = estado_a_indice(estado)
        mejor_accion = np.argmax(Q[idx_estado])
        
        politica[i, j] = mejor_accion

print("Politica aprendida (0:arriba, 1:abajo, 2:izquierda, 3:derecha):")
print(politica)

Politica aprendida (0:arriba, 1:abajo, 2:izquierda, 3:derecha):
[[0 2 2 0 0]
 [2 0 2 0 0]
 [2 1 3 0 1]
 [0 1 3 0 0]
 [2 2 3 0 0]]


### Ejercicios

In [16]:
import numpy as np
import random

# Par√°metros globales para la funci√≥n elegir_accion
epsilon = 0.1
num_acciones = 4
Q = np.zeros((25, num_acciones))  # Ejemplo de matriz Q
dimensiones = (5, 5)

def estado_a_indice(estado):
    # Convierte el estado en un √≠ndice para la matriz Q
    return estado[0] * dimensiones[1] + estado[1]

def elegir_accion(estado):
    # Implementa la estrategia epsilon-greedy
    if random.uniform(0,1) < epsilon:
        return random.choice(range(0, num_acciones))
    else:
        return np.argmax(Q[estado_a_indice(estado)])

    