<a href="https://colab.research.google.com/github/GunpowderGuy/lab10/blob/master/Lab_10_Reinforcement_Learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Reinforcement Learning**

**Equipo:**
* Integrante 1 (XX%)
* Integrante 2 (XX%)
* Integrante 3 (XX%)
* Integrante 4 (XX%)

### **Objetivo:**

Comprender de forma integral el proceso de modelado y resolución de un MDP sencillo (diseñado por ti mismo) mediante el algoritmo de **Value Iteration**, obteniendo la función de valor óptima $V_*(s)$ y la política óptima $\pi_*$

### **Tareas:**

1. Recordar la definición formal de un **Proceso de Decisión de Markov (MDP)**.
2. Formular un problema realista como un MDP: *estados*, *acciones*, *transiciones* y *recompensas*.
3. Implementar el algoritmo de **Value Iteration** para obtener la función de valor óptima $V_*(s)$.
4. Derivar una política óptima $\pi_*$ a partir de $V_*(s)$ y discutir los resultados.

### **Entregables**

1. **Canvas**: Notebook completo con tu MDP definido, código ejecutado y reflexiones respondidas.
2. **Foro**: Publicar su MDP y compartir sus reflexiones.
3. Se calificará la **claridad** del modelado, la **correctitud** del algoritmo y la **profundidad** de la discusión (no la complejidad del MDP).

## **0. Contexto del problema**

En esta práctica **tú** modelarás, programarás y resolverás un MDP a partir de la siguiente narrativa:

> Eres el diseñador/a de un **robot mensajero** que se desplaza por un pequeño pasillo de 4 casillas numeradas \(0,1,2,3\).  
> * El robot **siempre empieza** en la casilla 0.  
> * En la casilla 3 hay una estación de entrega que otorga **recompensa +1** y **termina** el episodio.  
> * Cada vez que el robot ejecuta una acción que **no** llega a la estación, recibe **recompensa −0.1** (costo de energía).  
> * **Acciones disponibles** (en cada estado que no sea terminal):  
>   • **"avanza"**: intenta moverse +1 casilla.  
>   • **"retrocede"**: intenta moverse −1 casilla (si ya está en 0 se queda).  
>   • **"espera"**: permanece en la misma casilla.  
> * Debido a fallos de motor, **cada acción tiene un 10 % de probabilidad de no ejecutarse** y deja al robot en la misma casilla (sin recompensa extra).  
> * El algoritmo debe usar un **descuento $\gamma = 0.9$**.

Tu **tarea** es **formalizar** esa narrativa como un MDP (listas de `states`, `actions`, `recompensas`, y matriz `P` de transiciones estocásticas) y luego implementar *Value Iteration* para hallar $V_*(s)$ y la política óptima $\pi_*$.

## **1. Define tu MDP**
Abajo encontrarás un esqueleto con TODOs: rellena las listas de estados y acciones, y completa la función `build_P()` que devuelve el diccionario `P` con la estructura:

```python
P[state][action] = [(probabilidad, estado_siguiente, recompensa), ...]
```

In [None]:
# 1️⃣ ESTADOS
states = # TODO
terminal_states = # TODO

# 2️⃣ ACCIONES
actions = # TODO

# 3️⃣ TRANSICIONES

def build_P():
    """Devuelve un diccionario P[s][a] = [(p, s', r), ...]."""
    P = {s: {a: [] for a in actions} for s in states}

    # Añade transiciones para *todas* las combinaciones (s,a).

    return P

P = build_P()

# Sanity‑check rápido — muestra una transición cualquiera
from pprint import pprint
print("Ejemplo de P[0][\"avanza\"] (debería existir):")
pprint(P[0]["avanza"])

## 2. Algoritmo: Value Iteration
Recordemos la ecuación de Bellman para la función de valor óptima:
$$
    V_*(s) = \max_{a \in \mathcal{A}} \sum_{s'} p(s'\,|\,s,a)\,\big[r(s,a,s') + \gamma \, V_*(s')\big].
$$
El algoritmo itera hasta que el cambio máximo entre dos iteraciones es menor que un umbral $\theta$.

In [None]:
import numpy as np
from tabulate import tabulate

gamma = 0.9   # descuento (mantén 0.9 salvo que quieras experimentar)
theta = 1e-6  # tolerancia a la convergencia por defecto

# Inicializa V(s) = 0 para todos los estados
V = {s: 0.0 for s in states}

iteration = 0
while True:
    delta = 0.0
    for s in states:
        # TODO
    iteration += 1
    if delta < theta:
        break

print(f"Converged in {iteration} iterations\n")
print(tabulate([[s, round(V[s],4)] for s in states], headers=["Estado","V*(s)"]))

## **3. Derivación de la política óptima**
Una vez que cuentas con $V_*(s)$, basta con seleccionar en cada estado la acción que maximiza el retorno esperado:

In [None]:
def greedy_policy(state: int):
    if state in terminal_states:
        return None
    best_a, best_val = None, -np.inf
    # TODO: Return the best action

policy = {s: greedy_policy(s) for s in states}
print("Política óptima:")
print(tabulate([[s, policy[s]] for s in states], headers=["Estado","π*(s)"]))

## **4. Preguntas para reflexionar**
1. **Modelado:** ¿Cómo representa tu MDP la probabilidad de fallo? ¿Por qué asignaste −0.1 como costo por paso?
2. **Convergencia:** ¿Cuántas iteraciones tomó? Prueba con $\gamma = 0.5$ y 0.99, ¿qué varía y por qué?
3. **Comparación:** Ajusta la probabilidad de fallo al 20 % y observa cómo cambia $V$ y la política. Explica intuitivamente.
4. **Escalabilidad:** ¿Qué obstáculos ves para aplicar Value Iteration cuando el número de casillas crece a 100?