# Actualización del Valor Q

## Ejemplo Generico

La actualización del valor Q es el núcleo del algoritmo de Q-Learning. Este paso ajusta los valores en la tabla de Q-Learning según la recompensa obtenida y la estimación del mejor resultado futuro. Utiliza la siguiente fórmula:

$
Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]
$

Donde:
- $ Q(s, a) $: Valor Q actual para el estado $s$ y la acción $a$.
- $\alpha $: Tasa de aprendizaje (controla cuánto se ajustan los valores).
- $ r $: Recompensa inmediata obtenida tras tomar la acción $a$ desde el estado $s$.
- $\gamma $: Factor de descuento (pondera la importancia de recompensas futuras).
- $ \max_{a'} Q(s', a') $: Máximo valor Q posible desde el próximo estado $s'$.
- $ Q(s, a) \leftarrow $: Actualización del valor Q.

---

### **Ejemplo Simple**

Supongamos un agente en un entorno de 4 estados $ S = \{A, B, C, D\} $ y 2 acciones posibles $ A = \{1, 2\} $.

**Paso 1: Configuración Inicial**
1. Inicializamos la tabla Q con valores de cero:

   
   | Estado | Acción 1 | Acción 2 |
   |--------|----------|----------|
   | A      | 0        | 0        |
   | B      | 0        | 0        |
   | C      | 0        | 0        |
   | D      | 0        | 0        |

**Paso 2: Iteración del agente**
1. El agente comienza en el estado $ A $ y decide tomar la acción $ 1 $.
2. Tras la acción, el agente se mueve al estado $ B $ y recibe una recompensa inmediata de $ r = 5 $.

**Paso 3: Actualización del valor $ Q(A, 1) $**
1. Supongamos que la tasa de aprendizaje es $ \alpha = 0.1 $ y el factor de descuento es $ \gamma = 0.9 $.
2. El valor máximo $ Q(B, a') $ para el estado $ B $ se calcula. Como todos los valores Q son $ 0 $ inicialmente, $ \max_{a'} Q(B, a') = 0 $.
3. Sustituimos en la fórmula:

$
Q(A, 1) \leftarrow Q(A, 1) + \alpha \left[ r + \gamma \max_{a'} Q(B, a') - Q(A, 1) \right]
$

$
Q(A, 1) \leftarrow 0 + 0.1 \left[ 5 + 0.9 \cdot 0 - 0 \right]
$

$
Q(A, 1) \leftarrow 0.1 \cdot 5 = 0.5
$

**Paso 4: Actualizar la tabla**
La tabla de valores Q queda ahora:

   | Estado | Acción 1 | Acción 2 |
   |--------|----------|----------|
   | A      | **0.5**  | 0        |
   | B      | 0        | 0        |
   | C      | 0        | 0        |
   | D      | 0        | 0        |

---

### **Interpretación**
- El valor $ Q(A, 1) = 0.5 $ indica que tomar la acción $ 1 $ desde el estado $ A $ parece ser una buena decisión, dado el historial de recompensas hasta ahora.
- En iteraciones posteriores, el agente ajustará más valores en la tabla según las recompensas obtenidas y las estimaciones futuras.

Este proceso se repite durante varias iteraciones hasta que la tabla Q converge, es decir, los valores reflejan la estrategia óptima para maximizar las recompensas acumuladas.

## Ejemplo concreto:

Vamos a adaptar el ejemplo a un **entorno de 3x3**, donde el agente tiene que llegar desde la posición inicial $[0,0]$ al destino final en $[2,2]$.

---

### **Descripción del Entorno**
1. **Espacio de estados:** Cada celda del mapa $ 3 \times 3 $ representa un estado. Hay 9 estados en total, definidos por su posición $[x, y]$.
2. **Acciones disponibles:** El agente puede moverse en cuatro direcciones:
   - **Arriba $( \text{UP} $)**: $[x-1, y]$ (si no está en el borde superior).
   - **Abajo ($ \text{DOWN} $)**: $[x+1, y]$ (si no está en el borde inferior).
   - **Izquierda ($ \text{LEFT} $)**: $[x, y-1]$ (si no está en el borde izquierdo).
   - **Derecha ($ \text{RIGHT} $)**: $[x, y+1]$ (si no está en el borde derecho).
3. **Recompensas:**
   - Llegar al destino $[2,2]$ otorga  $+10$.
   - Cada movimiento normal tiene una recompensa de $-1$ (para incentivar un camino más corto).

---

### **Paso a Detallar: Actualización del Valor Q**

Inicializamos la tabla Q para todos los estados y acciones con $ 0 $.

| Estado/Acción | UP   | DOWN | LEFT | RIGHT |
|---------------|-------|------|------|-------|
| [0,0]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [0,1]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [0,2]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [1,0]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [1,1]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [1,2]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [2,0]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [2,1]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [2,2]         | 0.0   | 0.0  | 0.0  | 0.0   |

#### **Ejemplo de Iteración**

El agente comienza en el estado $[0,0]$. Vamos a detallar una actualización del valor $ Q $ para la acción **RIGHT** en este estado.

1. **Paso 1: El agente elige la acción**  
   Elige ir a la derecha (**RIGHT**), moviéndose al estado $[0,1]$.

2. **Paso 2: Recibe la recompensa inmediata**  
   Moverse cuesta $ -1 $, por lo que $ r = -1 $.

3. **Paso 3: Identificar el estado siguiente $[0,1]$**  
   Supongamos que todos los valores Q del estado $[0,1]$ aún son $ 0 $. Entonces:
   $
   \max_{a'} Q([0,1], a') = 0
   $

4. **Paso 4: Actualizar $ Q([0,0], \text{RIGHT}) $ usando la fórmula**
   $
   Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]
   $
   Sustituyendo valores:
   - $ s = [0,0] $, $ a = \text{RIGHT} $
   - $ Q([0,0], \text{RIGHT}) = 0 $ (inicialmente)
   - $ r = -1 $
   - $ \gamma = 0.9 $ (factor de descuento)
   - $ \alpha = 0.1 $ (tasa de aprendizaje)

   $
   Q([0,0], \text{RIGHT}) \leftarrow 0 + 0.1 \left[ -1 + 0.9 \cdot 0 - 0 \right]
   $

   $
   Q([0,0], \text{RIGHT}) \leftarrow 0 + 0.1 \cdot (-1) = -0.1
   $

5. **Paso 5: Actualizar la tabla Q**

| Estado/Acción | UP   | DOWN | LEFT | RIGHT |
|---------------|-------|------|------|-------|
| [0,0]         | 0.0   | 0.0  | 0.0  | **-0.1** |
| [0,1]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [0,2]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [1,0]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [1,1]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [1,2]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [2,0]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [2,1]         | 0.0   | 0.0  | 0.0  | 0.0   |
| [2,2]         | 0.0   | 0.0  | 0.0  | 0.0   |

---

### **Notas Finales**
1. Este proceso se repetirá mientras el agente explora el entorno.
2. A medida que el agente encuentre el estado objetivo $[2,2]$ y reciba la recompensa $ +10 $, los valores Q de los estados anteriores comenzarán a reflejar el mejor camino hacia el objetivo.
3. Con suficientes iteraciones, la tabla $ Q $ convergerá, permitiendo que el agente siga una política óptima para llegar al destino.