# Programación Dinámica

La **Programación Dinámica (PD)** es una familia de métodos que resuelve procesos de decisión secuenciales (deterministas o estocásticos) cuando el modelo del entorno se conoce por completo:

* **Probabilidades de transición** $P(s' \mid s, a)$

  * $1$ en el caso determinista.
  * Una distribución de probabilidad sobre los posibles sucesores $s'$ en el caso estocástico.
* **Recompensas inmediatas esperadas** $R(s, a, s')$.

Donde:

* $S$: conjunto de estados.
* $A$: conjunto de acciones.
* $P(s' \mid s, a)$: probabilidad de pasar de $s$ a $s'$ al ejecutar $a$.
* $R(s, a, s')$: recompensa inmediata esperada al transitar de $s$ a $s'$ con la acción $a$.
* $\gamma$: factor de descuento $(0 \le \gamma \le 1)$ que pondera las recompensas futuras.

El objetivo es hallar una política que maximice la recompensa acumulada esperada. Para ello se resuelven recursivamente las **ecuaciones de Bellman**.

* **Ecuaciones de Bellman**:

  $$
  v_\pi(s) \;=\; \sum_{a} \pi(a \mid s) \sum_{s'} P(s' \mid s, a)\,\bigl[R(s, a, s') + \gamma\,v_\pi(s')\bigr].
  $$
* **Recompensa acumulada**: $v_\pi(s)$ es el valor esperado al seguir la política $\pi$ desde el estado $s$.
* **Objetivo**: encontrar la política óptima $\pi^{*}$ tal que

  $$
  v_{\pi^{*}}(s) \;\ge\; v_\pi(s), \qquad \forall\,s \in S,\;\forall\,\pi.
  $$




## Ejemplo — MinObras

El Ministerio de Transporte (MinTransporte) cuenta con un presupuesto de **100 millones de pesos** para ejecutar obras de infraestructura vial, con el fin de generar desarrollo en Bogotá. D.C.

MinTransporte le va a proporcionar datos que contiene información sobre:

- **Costo de ejecución** de cada proyecto (en millones de pesos)
- **Número de empleos generados** (en miles)
- **Ubicación geográfica** del proyecto (latitud y longitud)

El objetivo del Ministerio es **maximizar la cantidad total de empleos generados**, respetando el límite presupuestal.

**Datos de entrada**

| ID | Ciudad       | Costo ejecución (\$c\_i\$) \[millones] | Empleos generados (\$e\_i\$) \[miles] | Latitud   | Longitud   |
| -- | ------------ | -------------------------------------- | ------------------------------------- | --------- | ---------- |
| 1  | Bogotá       | 9                                      | 13                                    | 4.710989  | -74.072090 |
| 2  | Medellín     | 3                                      | 6                                     | 6.244203  | -75.581215 |
| 3  | Cartagena    | 1                                      | 3                                     | 10.391049 | -75.479426 |
| 4  | Barranquilla | 6                                      | 9                                     | 10.963889 | -74.796387 |
| 5  | Cali         | 10                                     | 15                                    | 3.451647  | -76.531985 |
| 6  | Palomino     | 3                                      | 5                                     | 11.259400 | -73.569200 |

<br>
<img src="assets/proyectos_colombia_map.png" alt="Proyectos por Ciudad en Colombia" width="500"/>

**Parámetros del modelo**

- Conjunto de obras disponibles:  
  $O = \{1, 2, 3, 4, 5, 6\}$

- Costo de ejecución de cada obra (en millones):  
  $c = \{c_1 = 9,\; c_2 = 3,\; c_3 = 1,\; c_4 = 6,\; c_5 = 10,\; c_6 = 3\}$

- Empleos generados por cada obra (en miles):  
  $e = \{e_1 = 13,\; e_2 = 6,\; e_3 = 3,\; e_4 = 9,\; e_5 = 15,\; e_6 = 5\}$

- Presupuesto total disponible:  
  $p = 20$

**Objetivo del problema**

Maximizar la cantidad total de empleos generados.

### Modelo - Programación Dinámica

#### 1. Estados (¿en qué situación estamos?)

* **Qué es un estado:** un par **(k, b)**.

  * **k** = número de la **próxima obra** que falta por decidir.
    *En este ejemplo las obras están numeradas del 1 al 6, así que k puede valer 1, 2, 3, 4, 5 o 6. Cuando k pasa a 7 significa que ya evaluamos todas y hemos llegado al final.*
  * **b** = **presupuesto que queda** en millones (puede ser 0 … 20).

> Ejemplo: el estado **(3, 14)** se lee así:
> “La siguiente obra por estudiar es la # 3 y aún contamos con 14 millones”.

#### 2. Acciones (las decisiones posibles)

En cualquier estado con **k (obra) ≤ 6** tienes dos opciones:

1. **Ejecutar** la obra k

   * Solo si su costo **cₖ** no excede el presupuesto disponible *b*.
   * Costos reales: c = {9, 3, 1, 6, 10, 3} millones.

2. **Omitir** la obra k

   * Siempre posible; simplemente pasas a la siguiente obra sin gastar nada.

Cuando **k = 7** ya no hay acciones: se terminó.

#### 3. Transición (cómo cambia el estado y cuántos empleos ganamos)

Las reglas son **deterministas** (sin azar):

| Acción tomada en (k, b) | Nuevo estado    | Recompensa inmediata |
| ----------------------- | --------------- | -------------------- |
| **Ejecutar**            | (k + 1, b – cₖ) | eₖ miles de empleos  |
| **Omitir**              | (k + 1, b)      | 0                    |

Los empleos reales son e = {13, 6, 3, 9, 15, 5} (miles).

> Ejemplo: Estás en (2, 11).
>
> * Si ejecutas la obra 2 (cuesta 3), pasarás a (3, 8) y obtendrás **6 miles de empleos**.
> * Si la omites, pasarás a (3, 11) y obtendrás **0 empleos** en ese paso.

#### 4. Recompensa (lo que te importa maximizar)

* **Ejecutar** obra k ⇒ ganas eₖ miles de empleos.
* **Omitir** ⇒ ganas 0 en ese momento.

La **suma** de recompensas a lo largo de los 6 pasos es el **total de empleos** que logres crear.

#### 5. Factor de descuento γ

* Usamos **γ = 1**.
* Razón: el problema dura solo 6 decisiones y **no preferimos** empleos “prontos” frente a “tardíos”. Cada empleo vale lo mismo sin importar cuándo se consiga dentro de la secuencia.

#### 6. Estado inicial

* Arrancamos siempre en **(1, 20)**:

  > “Aún no hemos decidido ninguna obra y disponemos de los 20 millones completos”.

#### 7. Estados terminales

* Cualquier estado con **k = 7** (hemos avanzado más allá de la obra 6).
* En ese punto ya no quedan obras por evaluar, el presupuesto que sobre no se usa y se concluye.

#### Resumen:

1. Empiezas con la obra 1 y 20 millones.
2. Para cada obra decides “hacerla” (si alcanza la plata) o “saltarla”.
3. Si la haces, restas su costo del presupuesto y sumas sus empleos.
4. Avanzas secuencialmente hasta la obra 6. (última).
5. Al terminar, tu objetivo es que la **suma total de empleos** sea la mayor posible sin pasarte del presupuesto.


| **Símbolo**                          | **Definición (problema de asignación de obras)**                                                                                                                                                 | **Comentarios**                                                                                                    |
| ------------------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | ------------------------------------------------------------------------------------------------------------------ |
| **Estados $\mathcal{S}$**            | Par ordenado $s = (i,b)$ donde:<br>• $i \in \{1,\dots,n\}$ es el índice de la **próxima** obra por decidir (con (n = O     )).<br>• $b \in \{1,\dots,p\}$ es el **presupuesto restante** (en millones). | Contiene toda la información relevante: cuántas obras faltan por evaluar y cuánto presupuesto queda.               |
| **Acciones $\mathcal{A}(s)$**        | Para $i < n$:<br>• **Ejecutar** la obra $i$ (solo si $c_i \le b$).<br>• **Omitir** la obra $i$.<br>Para $i = n$ no hay acciones (estado terminal).           | Al **ejecutar** se avanza al siguiente índice y se descuenta su costo; al **omitir** solo se avanza el índice.     |
| **Transición $p(s',r \mid s,a)$**    | **Determinista**. Desde $(i,b)$:<br>– Si **ejecutar**: $s' = (i+1,\,b-c_i)$, recompensa $r = e_i$.<br>– Si **omitir**: $s' = (i+1,\,b)$, recompensa $r = 0$. | No existe incertidumbre: las transiciones y recompensas quedan completamente determinadas por la acción.           |
| **Recompensa $\mathcal{R}(s,a)$**    | Empleos inmediatos generados por la obra si se ejecuta; $0$ si se omite.                                                                                     | La **suma total de recompensas** a lo largo del episodio equivale al número total de empleos obtenidos (en miles). |
| **Factor de descuento $\gamma$**     | $\gamma = 1$                                                                                                                                                 | El horizonte es finito (máximo $n$ decisiones) y no se prefiere empleos “tempranos” sobre “tardíos”.               |
| **Distribución inicial $p_0(s)$**    | Único estado inicial $s_0 = (1,p)$.                                                                                                                          | Se parte con ninguna obra seleccionada y el presupuesto total disponible.                                          |
| **Estados terminales $\mathcal{T}$** | Todos los estados con $i = n$.                                                                                                                               | Tras evaluar las $n$ obras ya no quedan decisiones; el episodio concluye.                                          |


## Policy Evaluation

```text
# Calcula Vπ para una política fija π
# Entradas:
#   S          : conjunto de estados
#   π(s)       : política dada (acción para cada s)
#   p(s',r|s,a): modelo de transición y recompensa
#   γ          : factor de descuento (0 ≤ γ ≤ 1)
#   θ          : umbral de convergencia
# Salida:
#   Vπ(s)      : valor esperado para cada estado bajo π
# -----------------------------------------------------

# Inicialización
V(s) ← 0  para todo s ∈ S

# Evaluación iterativa
repetir
    Δ ← 0
    para cada estado s ∈ S:
        v ← V(s)                                    # valor anterior
        a ← π(s)                                    # acción dictada por la política
        V(s) ← Σ_{s',r} p(s',r | s,a) · [ r + γ · V(s') ]
        Δ ← max(Δ, |v − V(s)|)
hasta que Δ < θ

return V
```

### Definición de política

En cada paso del proceso secuencial se decide **tomar** la obra actual si el presupuesto lo permite, o **saltar** de lo contrario.
La política determinista se define como:

$$
\pi(i, b) =
\begin{cases}
\text{tomar}, & c_i \leq b \\ 
\text{saltar}, & \text{en otro caso}
\end{cases}
$$

donde:  
- $i$ es el índice de la **obra evaluada** (del 1 al 7, siendo 7 el estado final sin obras por evaluar).  
- $b$ es el **presupuesto restante** (en millones).

#### Espacio de estados

- Presupuesto total:  $p = 20$
- Cada estado se representa como una tupla:  $(i, b)$
  con:  
    -  $i \in \{1, 2, 3, 4, 5, 6, 7\}$
    - $b \in \{0, 1, 2, \dots, 20\}$
- Número total de estados:  $7 \times 21 = 147$

#### Ejemplos de la política $\pi(s)$

| Ejemplo | Estado $(i, b)$ | Descripción                                                   | Costo $c_i$ | ¿$c_i \le b$? | Acción $\pi(s)$ |
|---------|-----------------|---------------------------------------------------------------|-------------|---------------|-----------------|
| 1       | $(1, 20)$       | Primera obra, 20 millones disponibles                         | $c_1 = 9$   | Sí            | **tomar**       |
| 2       | $(2, 11)$       | Tras tomar la obra 1, quedan 11 millones                      | $c_2 = 3$   | Sí            | **tomar**       |
| 3       | $(3, 8)$        | Tras tomar las obras 1 y 2, quedan 8 millones                 | $c_3 = 1$   | Sí            | **tomar**       |
| 4       | $(5, 1)$        | Tras tomar las obras 1–4, queda 1 millón; se evalúa la obra 5 | $c_5 = 10$  | No            | **saltar**      |
| 5       | $(6, 1)$        | Se evalúa la obra 6 con 1 millón restante                     | $c_6 = 3$   | No            | **saltar**      |

#### Trayectoria paso a paso

| Paso | Estado $(i,b)$ antes de decidir | ¿Se toma? | Nuevo presupuesto $b'$ | Empleos obtenidos en el paso |
|------|---------------------------------|-----------|------------------------|------------------------------|
| 1    | $(1,20)$                        | Sí ($9\le20$)  | $20-9 = 11$ | 13 |
| 2    | $(2,11)$                        | Sí ($3\le11$)  | $11-3 = 8$  | 6  |
| 3    | $(3,8)$                         | Sí ($1\le8$)   | $8-1 = 7$   | 3  |
| 4    | $(4,7)$                         | Sí ($6\le7$)   | $7-6 = 1$   | 9  |
| 5    | $(5,1)$                         | No ($10>1$)    | $1$         | 0  |
| 6    | $(6,1)$                         | No ($3>1$)     | $1$         | 0  |
| —    | **Final $(7,1)$**               | —              | —           | —  |

*Resultados de la política*

- **Obras seleccionadas:** 1, 2, 3 y 4  
- **Costo total:** 9 + 3 + 1 + 6 = 19 millones  
- **Empleos generados:** 13 + 6 + 3 + 9 = **31 miles**  
- **Presupuesto sin usar:** 1 millón


### Pseudocódigo

Este algoritmo calcula de forma iterativa el valor esperado de cada estado bajo una política dada $\pi$. El procedimiento estima la función de valor $V(s)$ para todos los estados $s \in \mathcal{S}$ hasta que la aproximación sea suficientemente precisa.

##### Entradas
- $\pi$: política fija que se desea evaluar
- $\mathcal{S}$: conjunto de todos los estados posibles
- $p(s', r \mid s, a)$: probabilidad de transición y recompensa al ejecutar la acción $a$ en el estado $s$
- $\gamma$: factor de descuento ($0 \leq \gamma < 1$)
- $\theta$: umbral de convergencia (pequeño número positivo)

##### Inicialización
- Se asigna $V(s) = 0$ para todo $s \in \mathcal{S}$

##### Algoritmo
Se repiten las siguientes actualizaciones hasta que los cambios en los valores de los estados sean menores que el umbral $\theta$:

1. Inicializar $\Delta \leftarrow 0$  
2. Para cada estado $s \in \mathcal{S}$:
    - Guardar el valor actual: $v \leftarrow V(s)$  
    - Actualizar $V(s)$ según la política $\pi$ y el modelo del entorno:  
      $$
      V(s) \leftarrow \sum_a \pi(a \mid s) \sum_{s', r} p(s', r \mid s, a)\,\left[ r + \gamma V(s') \right]
      $$
    - Actualizar la diferencia máxima:  
      $$
      \Delta \leftarrow \max\left(\Delta,\; |v - V(s)|\right)
      $$

3. Repetir hasta que $\Delta < \theta$

##### Salida
- Se retorna la función $V$ que aproxima el valor esperado de cada estado bajo la política $\pi$:  
  $$
  V \approx v_\pi
  $$


### Ejecución

Se ilustra el cálculo del valor esperado $V(s)$ de cada estado bajo la política voraz: *“tomar la obra si su costo cabe en el presupuesto restante; de lo contrario, saltarla”.*  Se usa $\gamma = 1$ (sin descuento) y evaluación iterativa con umbral $\theta = 0{.}01$.

**Iteración 0 – inicialización**

$V(s) = 0$ para todo estado $(i,b)$.

**Iteración 1**

Se recorre la trayectoria que genera la política (presupuesto inicial 20 M):

| Paso | Estado $s$ | Acción $\pi(s)$ | Recompensa $r$ | Siguiente estado $s'$ | $V_{\text{nuevo}}(s)=r+V(s')$ |
|------|------------|-----------------|----------------|-----------------------|--------------------------------|
| 0 | $(1,\,20)$ | tomar (obra 1) | 13 | $(2,\,11)$ | 13 |
| 1 | $(2,\,11)$ | tomar (obra 2) | 6  | $(3,\,8)$  | 6  |
| 2 | $(3,\,8)$  | tomar (obra 3) | 3  | $(4,\,7)$  | 3  |
| 3 | $(4,\,7)$  | tomar (obra 4) | 9  | $(5,\,1)$  | 9  |
| 4 | $(5,\,1)$  | saltar (obra 5) | 0 | $(6,\,1)$  | 0  |
| 5 | $(6,\,1)$  | saltar (obra 6) | 0 | $(7,\,1)$ | 0 |

* Cualquier $(7,b)$ es terminal ⇒ $V=0$.

*Valores tras la primera pasada*  
    - $V(6,1)=0$ <br>
    - $V(5,1)=0$ <br>
    - $V(4,7)=9$ <br>
    - $V(3,8)=3$ <br>
    - $V(2,11)=6$ <br>
    - $V(1,20)=13$ <br>

**Iteración 2 – propagación detallada**

Se actualiza nuevamente cada estado *usando ya los valores recién calculados* de su sucesor:

| Paso (de atrás hacia delante) | Estado $s$ | $r$ | $V\_{\text{ant}}(s')$ | Cálculo $r+V(s')$ | $V\_{\text{nuevo}}(s)$ |
|-------------------------------|------------|-----|----------------------|-------------------|------------------------|
| 5 | $(6,1)$ | 0 | $V(7,1)=0$ | $0+0$ | *0* (sin cambio) |
| 4 | $(5,1)$ | 0 | $V(6,1)=0$ | $0+0$ | *0* (sin cambio) |
| 3 | $(4,7)$ | 9 | $V(5,1)=0$ | $9+0$ | *9* (sin cambio) |
| 2 | $(3,8)$ | 3 | $V(4,7)=9$ | $3+9$ | *12* (sube de 3) |
| 1 | $(2,11)$| 6 | $V(3,8)=12$| $6+12$| *18* (sube de 6) |
| 0 | $(1,20)$|13 | $V(2,11)=18$|$13+18$| *31* (sube de 13)|

*Valores tras la segunda pasada* 
    - $V(6,1)=0$ <br>
    - $V(5,1)=0$ <br>
    - $V(4,7)=9$ <br>
    - $V(3,8)=12$ <br>
    - $V(2,11)=18$ <br>
    - $V(1,20)=31$ <br>

**Iteración 3**

Al repetir los cálculos se obtienen exactamente los mismos valores ⇒ $\Delta=0<\theta$.  
*Convergencia alcanzada.*

**Valor resultante por estado visitado**

| Estado $s$ | $V(s)$ (miles de empleos) |
|------------|---------------------------|
| $(1,\,20)$ | **31** |
| $(2,\,11)$ | 18 |
| $(3,\,8)$  | 12 |
| $(4,\,7)$  | 9 |
| $(5,\,1)$  | 0 |
| $(6,\,1)$  | 0 |
| $(7,\,b)$  | 0 |

Desde el estado inicial la política produce un *valor esperado de 31 000 empleos*.


### Análisis

**Qué representa el tablero**

* Es un mapa de calor de 7 filas × 21 columnas.  
  * Cada **fila** (eje vertical) indica la obra que se está pensando construir: $i = 1, 2, \dots, 7$.  
  * Cada **columna** (eje horizontal) indica el dinero que queda: $b = 0, 1, \dots, 20$ millones.  

**Cómo leer los colores**

* Cada cuadrito muestra el valor esperado $V(s)$ (empleos en miles) si empezaras en ese estado $s = (i, b)$ y aplicaras la regla:  
  > *“Toma la obra si su costo cabe; si no, sáltala”*  
* **Verde claro** ⇒ pocos empleos futuros.  
* **Verde oscuro** ⇒ muchos empleos futuros.  

**Los números dentro de cada celda**

* El número impreso es el $V(s)$ exacto.  
* Ejemplo: $31$ en la esquina superior‑derecha significa *31 000 empleos* si arrancas en la obra 1 con 20 millones.  

**La ruta roja con círculos**

1. Empieza en $(1,\,20)$ (arriba a la derecha).  
2. Desciende por los círculos $(2,\,11)$, $(3,\,8)$, $(4,\,7)$.  
3. Con solo 1 millón restante, la regla **salta** las obras 5 y 6 → $(5,\,1)$ y $(6,\,1)$.  
4. Llega a $(7,\,1)$, un estado terminal (sin obras pendientes).  

Esa línea muestra exactamente las decisiones que toma la política con tu presupuesto inicial.  

**Resultado de la política en esa trayectoria**

* **Empleos logrados**: 31 000.  
* **Obras construidas**: 1, 2, 3 y 4.  
* **Dinero gastado**: 19 millones (queda 1 millón sin usar).  

**¿Por qué hay valores en celdas que no se pisan?**

El algoritmo también calcula $V(s)$ para estados que nunca visitas.  
Sirve para saber *qué pasaría* si comenzaras con otro dinero o si hubieras tomado/omitido obras distintas.  

**Idea clave**

El gráfico muestra cuánto valen todas las combinaciones obra‑presupuesto y cómo se desplaza la política voraz para sacar la mayor cantidad de empleos posible sin rebasar los 20 millones.  

<br>
<img src="assets/policy_evaluation_v.png" alt="Policy Evaluation V" width="1000"/>

**Qué muestra el diagrama**

Es un grafo dirigido que contiene *todos* los estados posibles $(i,b)$ y *todas* las transiciones legales entre ellos.
Cada nodo es un estado; cada flecha indica cómo cambia el estado al decidir *tomar* o *saltar* la obra actual.

**Cómo están acomodados los nodos**

* Las columnas van de izquierda a derecha con el índice de obra $i$: primera columna $i{=}1$, segunda $i{=}2$ … hasta $i{=}7$.
* Dentro de cada columna los nodos se apilan por el presupuesto restante $b$; arriba está $b{=}20$ y abajo $b{=}0$.
* Así, moverse una columna a la derecha siempre significa “pasar a la siguiente obra”.

**Colores de los nodos**

* **Verde** = estados por los que realmente pasa la política cuando ejecuta las obras 1–4.
* **Azul** = estados de “saltar” (obras 5 y 6) que también son visitados.
* **Gris claro** = todos los demás estados teóricos que *existen* pero la política nunca toca.

**Grosor de las flechas**

* Las flechas finas muestran *todas* las transiciones posibles si uno aplicara la regla en cada estado.
* La **línea negra gruesa** marca la ruta exacta seguida desde el estado inicial $(1,20)$ hasta el final $(7,1)$.

**Cómo leer la ruta resaltada**

1. Arranca en el nodo verde superior de la primera columna $(1,20)$.
2. La política decide *tomar* la obra 1 ⇒ se salta al nodo $(2,11)$ (línea gruesa hacia la derecha‑abajo).
3. Repite el patrón para las obras 2, 3 y 4 → nodos verdes hasta $(5,1)$.
4. Con 1 millón restante los costos ya no caben ⇒ la línea gruesa va horizontal (saltos) de $(5,1)$ a $(6,1)$ y luego a $(7,1)$.
5. $(7,1)$ no tiene hijos: fin del recorrido y del episodio.

**Lectura rápida**

* **Obras construidas**: 1, 2, 3, 4 (cada vez que la flecha baja es un “tomar”).
* **Obras saltadas**: 5, 6 (flechas horizontales).
* **Empleos logrados**: 31 000 (coincide con el valor calculado).
* **Dinero sobrante**: 1 millón (por eso el nodo final sigue teniendo $b{=}1$).

**Para qué sirven los nodos grises**

Aunque la política voraz no los visite, ayudan a visualizar cómo *podría* evolucionar el sistema si en algún momento tomáramos decisiones distintas (por ejemplo, saltar la obra 3 o arrancar con otro presupuesto). Así el grafo muestra todo el espacio de posibilidades mientras la línea negra ilustra la única secuencia elegida por la política.


<br>
<img src="assets/policy_evaluation_dag.png" alt="Policy Evaluation DAG" width="1000"/>

## Policy Iteration



```text
# Alterna evaluación y mejora hasta que la política se estabiliza
# Entradas:
#   S, A(s), p(s',r|s,a), γ, θ
# Salidas:
#   π*  : política óptima
#   V*  : función de valor óptima
# -------------------------------------------

# 1. Inicialización
π(s) ← acción cualquiera  para todo s ∈ S
V(s) ← 0

bucle:
    # 2. Evaluar la política actual π  (igual que el bloque anterior)
    repetir
        Δ ← 0
        para cada s ∈ S:
            v ← V(s)
            a ← π(s)
            V(s) ← Σ_{s',r} p(s',r | s,a) · [ r + γ · V(s') ]
            Δ ← max(Δ, |v − V(s)|)
    hasta que Δ < θ

    # 3. Mejorar la política
    policy_stable ← true
    para cada s ∈ S:
        old ← π(s)
        π(s) ← argmax_a Σ_{s',r} p(s',r | s,a) · [ r + γ · V(s') ]
        si old ≠ π(s):
            policy_stable ← false

    si policy_stable:
        break

return π, V
```

### Pseudocódigo

El siguiente algoritmo encuentra una política óptima en un problema de decisión resolviendo iterativamente dos etapas: **evaluación de política** y **mejora de política**. La política y la función de valor se actualizan hasta que la política deje de cambiar.

##### Entradas
- $\mathcal{S}$: conjunto de estados
- $\mathcal{A}(s)$: conjunto de acciones disponibles en cada estado $s$
- $p(s', r \mid s, a)$: probabilidad de transición y recompensa
- $\gamma$: factor de descuento
- $\theta$: umbral de convergencia para la evaluación de política

##### 1. Inicialización
Asignar de manera arbitraria:
- Una política inicial $\pi(s) \in \mathcal{A}(s)$  
- Una función de valor $V(s) \in \mathbb{R}$ para todo $s \in \mathcal{S}$

##### 2. Evaluación de la política
Repetir hasta convergencia:

1. Inicializar $\Delta \leftarrow 0$  
2. Para cada estado $s \in \mathcal{S}$:  
   - Guardar el valor actual: $v \leftarrow V(s)$  
   - Actualizar según la política actual:  
     $$
     V(s) \leftarrow \sum_{s', r} p(s', r \mid s, \pi(s)) \left[ r + \gamma V(s') \right]
     $$
   - Actualizar el cambio máximo:  
     $$
     \Delta \leftarrow \max(\Delta,\; |v - V(s)|)
     $$

Finalizar cuando $\Delta < \theta$

##### 3. Mejora de la política
1. Inicializar: $policy\text{-}stable \leftarrow \text{true}$  
2. Para cada estado $s \in \mathcal{S}$:  
   - Almacenar la acción actual: $a \leftarrow \pi(s)$  
   - Actualizar la política eligiendo la mejor acción según $V$:  
     $$
     \pi(s) \leftarrow \arg\max_a \sum_{s', r} p(s', r \mid s, a) \left[ r + \gamma V(s') \right]
     $$
   - Si $a \ne \pi(s)$ entonces:  
     $policy\text{-}stable \leftarrow \text{false}$

##### 4. Verificación de convergencia**
- Si $policy\text{-}stable$ es verdadero:  
  Detener y retornar $(V, \pi)$  
- De lo contrario: volver a la etapa de evaluación de política (paso 2)


### Ejecución

#### Iteración 1 — Evaluar π₀

Para claridad solo barreremos *los estados que realmente aparecen* al ejecutar la política:

| Paso | $s=(i,b)$ antes | Acción π₀ | Recompensa r | $s'$ después | Nuevo V(s)=r+V(s') |
|-----|-----------------|-----------|-------------|--------------|--------------------|
| 6 | (6,1) | skip | 0 | (7,1) | 0 |
| 5 | (5,1) | skip | 0 | (6,1) | 0 |
| 4 | (4,7) | take | 9 | (5,1) | 9+0 = 9 |
| 3 | (3,8) | take | 3 | (4,7) | 3+9 = 12 |
| 2 | (2,11)| take | 6 | (3,8) | 6+12 = 18 |
| 1 | (1,20)| take | 13| (2,11)|13+18 = 31 |

Resultado parcial: $V_{\pi_0}(1,20)=31$  
y así sucesivamente:
$
\begin{aligned}
V_{\pi_0}(2,11)&=18,\;
V_{\pi_0}(3,8)=12,\;
V_{\pi_0}(4,7)=9,\;
V_{\pi_0}(5,1)=0,\;
V_{\pi_0}(6,1)=0.
\end{aligned}
$

#### Iteración 1 — Mejora con los valores de $V_{\pi_0}$  

**Qué hay que comparar:**

Para cada estado $s=(i,b)$ se calculan dos números:

* **Value (take)** = recompensa inmediata + valor futuro tras restar el costo  
  $$take = e_i \;+\; V_{\pi_0}\bigl(i+1,\; b-c_i\bigr)$$

* **Value (skip)** = valor futuro si solo se avanza sin gastar  
  $$skip = V_{\pi_0}\bigl(i+1,\; b\bigr)$$

* Luego se elige la acción con el valor más alto.  


A continuación se muestran **todos** los estados accesibles desde $(1,20)$ bajo $\pi_0$ y, donde hace falta, los estados “saltados” que no se visitaron pero son necesarios para la comparación.

| Estado $s=(i,b)$ | Datos para “take” | Cálculo Value(take) | Datos para “skip” | Cálculo Value(skip) | Acción que maximiza |
|------------------|-------------------|---------------------|-------------------|---------------------|---------------------|
| (1,20) | $e_1=13$, sucesor $(2,11)$ con $V=18$ | $13+18 = 31$ | sucesor $(2,20)$ con $V=33$ | $33$ | **skip** ← cambia |
| (2,11) | $e_2=6$, sucesor $(3,8)$ con $V=12$  | $6+12 = 18$ | sucesor $(3,11)$ con $V=17$ | $17$ | take (se queda igual) |
| (2,20)\* | $e_2=6$, sucesor $(3,17)$ con $V=27$ | $6+27 = 33$ | sucesor $(3,20)$ con $V=30$\* | $30$ | take (se queda igual) |
| (3,8) | … | ya calculado en evaluación | … | — | sin cambio |
| (3,17)\* | … | análogo | … | — | sin cambio |
| (4,7) | … | análogo | … | — | sin cambio |
| (5,1) | … | análogo | … | — | sin cambio |

\*Estados marcados con asterisco *no aparecían en la trayectoria de evaluación*, pero sus valores se obtienen aplicando la misma política voraz a partir de ellos (se requiere para completar la tabla de comparación). Secuencia usando la misma política desde $(2,20)$:

$$
(2,20)\xrightarrow{+6}(3,17)\xrightarrow{+3}(4,16)\xrightarrow{+9}(5,10)\xrightarrow{+15}(6,0)\xrightarrow{+0}(7,0)
$$

$$
V_{\pi_0}(2,20)=6+3+9+15\,=\,33.
$$


* **En (1,20):**  
  * Tomar la obra 1 da 13 miles ahora y deja $(2,11)$ con valor 18 ⇒ 31.  
  * Saltarla deja $(2,20)$ con valor 33 ⇒ 33.  
  * **33 > 31** → conviene *saltar*.  
  La política se actualiza a *skip* en este único caso.

* **En (2,11):**  
  * Tomar la obra 2 → 6 miles + V(3,8)=12 ⇒ 18.  
  * Saltarla           → V(3,11)=17.  
  * **18 > 17** → se mantiene *take*.

* **En todos los demás estados** comparados los valores
coinciden con lo que la política voraz ya hacía, así que no se modifica nada.

**Resultado de la mejora:**  
La nueva política $\pi_1$ solo difiere de $\pi_0$ en un punto:
> *Si estás en la obra 1 con los 20 millones completos, mejor “salta” la obra 1.*
En cualquier otro estado las acciones siguen siendo las mismas que en la política voraz.

#### Iteración 2 — Evaluar π₁

Ahora la trayectoria con 20 M es distinta:

| Paso | $s$ | π₁ | r | $s'$ | V(s)=r+V(s') |
|------|-----|----|---|------|--------------|
| 6 | (6,0) | skip | 0 | (7,0) | 0 |
| 5 | (5,10)| take |15 | (6,0) |15+0=15 |
| 4 | (4,16)| take | 9 | (5,10)| 9+15=24|
| 3 | (3,17)| take | 3 | (4,16)| 3+24=27|
| 2 | (2,20)| take | 6 | (3,17)| 6+27=33|
| 1 | (1,20)| skip | 0 | (2,20)| 0+33=33|

$V_{\pi_1}(1,20)=33$.

#### Iteración 2 — Mejorar con $V_{\pi_1}$

Al recalcular value(take) vs value(skip) para **todos** los estados, ninguno supera la acción que ya elige π₁. $policy-stable$ se mantiene en $true$ → **convergencia**.


#### Resultado final

*Obras construidas desde (1,20)*: 2, 3, 4, 5  
*Costo total*: 3 + 1 + 6 + 10 = 20 M  
*Empleos logrados*: 6 + 3 + 9 + 15 = **33 000**

Tabla‑resumen de acciones óptimas:

| Estado | Acción óptima |
|--------|---------------|
| (1,20) | skip |
| (2,20) | take |
| (3,17) | take |
| (4,16) | take |
| (5,10) | take |



### Análisis

**Qué representa el tablero**

* Mapa de calor de 7 filas × 21 columnas.  
  * **Filas** (eje vertical): obra que se está evaluando, $i = 1, 2, \dots, 7$.  
  * **Columnas** (eje horizontal): dinero restante, $b = 0, 1, \dots, 20$ millones.

**Cómo leer los colores**

* Cada cuadrito muestra el valor óptimo $V^{*}(s)$ (empleos en miles) si empiezas en ese estado $s = (i,b)$ y sigues la **política óptima**.  
  * **Verde claro** → pocos empleos futuros.  
  * **Verde oscuro** → muchos empleos futuros.

**Los números dentro de cada celda**

* Número impreso = $V^{*}(s)$ exacto.  
* Ejemplo: $33$ en la esquina superior‑derecha significa *33 000 empleos* si arrancas en la obra 1 con 20 millones aplicando la política óptima.

**La trayectoria roja con círculos**  (lo que ocurre desde $(1,20)$)

1. Parte en $(1,\,20)$ y **salta** la obra 1.  
2. Llega a $(2,\,20)$ y **toma** la obra 2 → $(3,\,17)$.  
3. **Toma** la obra 3 → $(4,\,16)$.  
4. **Toma** la obra 4 → $(5,\,10)$.  
5. **Toma** la obra 5 → $(6,\,0)$.  
6. Sin dinero para la obra 6, **salta** → $(7,\,0)$ (terminal).

**Resultado de la política óptima en esa trayectoria**

* **Empleos logrados**: 33 000.  
* **Obras construidas**: 2, 3, 4, 5.  
* **Dinero gastado**: 20 millones (presupuesto completamente usado).

**¿Por qué aparecen celdas no visitadas?**

El algoritmo calcula $V^{*}(s)$ para **todos** los estados, incluso aquellos que la ruta óptima nunca pisa.  
Así se sabe *cuánto valdría* empezar con otro dinero u otra obra sin cambiar de política.

**Idea clave**

El gráfico muestra:

* La **ganancia máxima** en cada combinación obra‑presupuesto (según el color).  
* El **camino óptimo** (línea roja) que usa el dinero de la forma más eficiente: saltar la obra 1 y construir 2‑5, elevando el resultado de 31 000 → 33 000 empleos sin exceder los 20 millones.

<br>
<img src="assets/policy_iteration_v.png" alt="Policy Iteration V" width="900"/>


**Qué muestra el diagrama**

Es un grafo dirigido que contiene *todos* los estados posibles $(i,b)$ y *todas* las transiciones legales entre ellos.  
Cada nodo es un estado; cada flecha indica cómo cambia el estado al decidir *tomar* o *saltar* la obra actual **siguiendo la política óptima** obtenida con iteración de políticas.

**Cómo están acomodados los nodos**

* Las columnas van de izquierda a derecha con el índice de obra $i$: primera columna $i{=}1$, segunda $i{=}2$ … hasta $i{=}7$.  
* Dentro de cada columna los nodos se apilan por el presupuesto restante $b$; arriba está $b{=}20$ y abajo $b{=}0$.  
* Moverse una columna a la derecha siempre significa “pasar a la siguiente obra”.

**Colores de los nodos**

* **Verde** = estados por los que realmente pasa la política cuando **toma** las obras 2 – 5.  
* **Azul** = estados donde la política **salta** (la obra 1 al inicio y la obra 6 cuando ya no queda dinero).  
* **Gris claro** = todos los demás estados teóricos que existen pero la política óptima nunca toca.

**Grosor de las flechas**

* Flechas finas = *todas* las transiciones posibles según las reglas del problema.  
* Línea negra gruesa = ruta exacta seguida desde el estado inicial $(1,20)$ hasta el final $(7,0)$.

**Cómo leer la ruta resaltada**

1. Arranca en el nodo azul superior de la primera columna $(1,20)$ y **salta** la obra 1 → flecha horizontal hasta $(2,20)$.  
2. A partir de ahí **toma** las obras 2, 3, 4 y 5: nodos verdes $(2,20)\!\to\!(3,17)\!\to\!(4,16)\!\to\!(5,10)$.  
3. Con presupuesto $0$, la obra 6 ya no cabe → flecha horizontal (salto) a $(7,0)$.  
4. $(7,0)$ no tiene hijos: fin del episodio.

**Lectura rápida**

* **Obras construidas**: 2, 3, 4, 5.  
* **Obras saltadas**: 1, 6.  
* **Empleos logrados**: 33 000 (6 + 3 + 9 + 15).  
* **Dinero sobrante**: 0 millones (se usa todo el presupuesto).

**Para qué sirven los nodos grises**

Aunque la trayectoria óptima no los visite, ilustran cómo *podría* moverse el sistema con decisiones distintas (p. ej. saltar la obra 3 o empezar con otro presupuesto).  
El grafo muestra todo el espacio de posibilidades mientras la línea negra señala la secuencia elegida por la política óptima.

<br>
<img src="assets/policy_iteration_dag.png" alt="Policy Iteration DAG" width="1000"/>


## Value Iteration

### Pseudocódigo

Este algoritmo aproxima de manera iterativa la función de valor óptima $V^*$ resolviendo la ecuación de Bellman de forma sucesiva. Una vez que la función de valor ha convergido, se extrae una política óptima $\pi^*$ de forma determinista.

##### Entradas
- $\mathcal{S}$: conjunto de estados
- $\mathcal{A}(s)$: conjunto de acciones disponibles en cada estado $s$
- $p(s', r \mid s, a)$: probabilidad de transición y recompensa al aplicar $a$ en $s$
- $\gamma$: factor de descuento ($0 \leq \gamma < 1$)
- $\theta$: umbral de convergencia

##### 1. Inicialización
Asignar arbitrariamente valores iniciales a la función $V$  
(por ejemplo: $V(s) = 0$ para todo $s \in \mathcal{S}$)

##### 2. Iteración de Bellman
Repetir:

1. Inicializar $\Delta \leftarrow 0$  
2. Para cada estado $s \in \mathcal{S}$:
   - Guardar el valor actual: $v \leftarrow V(s)$  
   - Actualizar el valor de $s$ usando la mejor acción posible:  
     $$
     V(s) \leftarrow \max_a \sum_{s', r} p(s', r \mid s, a) \left[ r + \gamma V(s') \right]
     $$
   - Actualizar la diferencia máxima:  
     $$
     \Delta \leftarrow \max\left( \Delta,\; |v - V(s)| \right)
     $$

Repetir hasta que $\Delta < \theta$

##### 3. Extracción de la política
Una vez que $V$ ha convergido, definir una política determinista $\pi$ como:
$$
\pi(s) = \arg\max_a \sum_{s', r} p(s', r \mid s, a) \left[ r + \gamma V(s') \right]
$$

##### Salida
- La función de valor $V$ aproximada  
- Una política determinista $\pi$ que es óptima con respecto a $V$


### Ejecusción

#### Inicialización

$V_0(i,b)=0\qquad\forall\,i\in\{1,\dots,7\},\;b\in\{0,\dots,20\}.$
* Ejemplos concretos: $V_0(1,20)=0,\;V_0(2,11)=0,\;V_0(6,0)=0$.

#### Iteración 1

Para cada estado se calcula **dos posibles valores** —uno por la acción *take* y otro por la acción *skip*— y se elige el mayor.

$$
V_1(i,b) \;=\; \max\!\Bigl\{\,\underbrace{e_i + V_0\bigl(i\!+\!1,\;b-c_i\bigr)}_{\text{valor\_take}},\;
\underbrace{V_0\bigl(i\!+\!1,\,b\bigr)}_{\text{valor\_skip}}\Bigr\}
$$

**Significado de cada término**

* $e_i$  — empleos (en miles) que genera la obra actual \(i\) si se construye.  
* $c_i$  — costo (en millones) de esa obra.  
* \(b\)  — presupuesto que queda antes de decidir.  
* $(i+1,\;b-c_i)$  — estado sucesor si se **toma** la obra.  
* $(i+1,\,b)$  — estado sucesor si se **salta** la obra.  

1. **Comprueba si la obra cabe**:  
   *Si* \(c_i \le b\) → la acción *take* es factible; calcula ambas expresiones.  
   *Si* \(c_i > b\) → la obra no cabe; descarta la opción *take*.

2. **Calcula los dos valores**  

3. **Elige el máximo**  
   $$V_1(i,b) = \max\{\,\text{valor\_take},\,\text{valor\_skip}\,\}$$

> Nota: En la primera iteración $V_0(\cdot)=0$, así que
> *valor\_take* se reduce a \(e_i\) y *valor\_skip* se reduce a \(0\).  

Eso explica por qué, la primera vez, \(V_1\) simplemente copia los empleos inmediatos de cada acción factible. Es decir, como $V_0\equiv0$, sólo cuenta la recompensa inmediata:

| Estado $s$ | take ($e_i$) | skip | $V_1(s)$ |
|------------|-------------|------|----------|
| $(5,10)$ | $15$ | $0$ | **15** |
| $(4,16)$ | $9$  | $0$ | **9** |
| $(3,17)$ | $3$  | $0$ | **3** |
| $(2,20)$ | $6$  | $0$ | **6** |
| $(1,20)$ | $13$ | $0$ | **13** |

(Demás combinaciones se quedan en $0$).  
Δ (máx. cambio) = 15

#### Iteración 2  (con $V_1$ como base)

| Estado $s$ | Sucesor take | Sucesor skip | take (eₙ + V₁) | skip (V₁) | V₂(s) |
|------------|-------------|--------------|---------------|-----------|-------|
| (5,10) | (6,0)  | (6,10) | 15 + 0  | 0  | **15** |
| (4,16) | (5,10) | (5,16) | 9 + 15  | 15 | **24** |
| (3,17) | (4,16) | (4,17) | 3 + 9   | 9  | **12** |
| (2,20) | (3,17) | (3,20) | 6 + 3   | 3  | **9**  |
| (1,20) | (2,11) | (2,20) | 13 + 6  | 9  | **19** |

Δ = 15 (el mayor salto fue de 9 → 24).

**Interpretación de los sucesores**

* **Sucesor take** = $(i+1,\;b-c_i)$ — el índice de obra avanza y se descuenta el costo.  
* **Sucesor skip** = $(i+1,\;b)$ — solo avanza el índice; el presupuesto no cambia.  

#### Iteración 3

| Estado $s$ | Sucesor take | Sucesor skip | take (eₙ + V₂) | skip (V₂) | V₃(s) |
|------------|-------------|--------------|---------------|-----------|-------|
| (5,10) | (6,0)  | (6,10) | 15 + 0  | 0  | 15 |
| (4,16) | (5,10) | (5,16) | 9 + 15 | 15 | 24 |
| (3,17) | (4,16) | (4,17) | 3 + 24 | 24 | **27** |
| (2,20) | (3,17) | (3,20) | 6 + 12 | 27 | **27** |
| (1,20) | (2,11) | (2,20) | 13 + 6 | 27 | **27** |

Δ = 8 (máx. cambio 19 → 27).

#### Iteración 4

| Estado $s$ | take (eₙ + V₃) | skip (V₃) | V₄(s) |
|------------|---------------|-----------|-------|
| (5,10) | 15 | 0   | 15 |
| (4,16) | 24 | 15  | 24 |
| (3,17) | 27 | 24  | 27 |
| (2,20) | 6 + 27 = **33** | 27 | 33 |
| (1,20) | 13 + 18 = 31 | 33 | **33** |

No cambia ningún número relevante ⇒ Δ = 0 < θ  
**Convergencia tras cuatro barridos** (0 → 1 → 2 → 3 → 4).

Valores relevantes:

$$
V^{*}(1,20)=33,\;
V^{*}(2,20)=33,\;
V^{*}(3,17)=27,\;
V^{*}(4,16)=24,\;
V^{*}(5,10)=15,\;
V^{*}(6,0)=0.
$$

#### Derivación de la política óptima 

Para cada estado se comparan:

$$
\begin{aligned}
Q(s,\text{take}) &= e_i + V^{*}(i+1,\,b-c_i),\\
Q(s,\text{skip}) &= V^{*}(i+1,b).
\end{aligned}
$$

| Estado | $Q_{\text{take}}$ | $Q_{\text{skip}}$ | Acción óptima |
|--------|------------------|-------------------|---------------|
| $(1,20)$ | $31$ | $33$ | **skip** |
| $(2,20)$ | $33$ | $27$ | **take** |
| $(3,17)$ | $27$ | $24$ | **take** |
| $(4,16)$ | $24$ | $15$ | **take** |
| $(5,10)$ | $15$ | $0$  | **take** |
| $(6,0)$  | $0$  | $0$  | skip |

Regla final: *take si $c_i\le b$, skip si no;* excepto en $(1,20)$ donde se garantiza **skip** para saltar la obra 1.

#### Resultado global

| Métrica | Valor |
|---------|-------|
| Obras construidas | 2, 3, 4, 5 |
| Costo total | 3+1+6+10 = 20 M |
| Empleos logrados | 6+3+9+15 = 33,000) |
| Iteraciones (Δ < θ) | 4 |
