In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Ejercicio 4: Programación Dinámica

Un robot reciclador tiene que buscar latas que recoger (cada lata define una recompensa para el robot). El robot puede decidir quedarse donde está para guardar batería y esperar que alguien traiga una lata (esto le entrega menos recompensa en promedio).

El robot tiene dos niveles de batería, alto y bajo.

En el nivel alto el robot puede buscar o esperar.

En el estado bajo el robot puede buscar, esperar o recargar.

Las transiciones estado-acción son probabilísticas y dependen de $\alpha$ y $\beta$.

El problema puede verse como un proceso de decisiones de Markov con dos estados alto y bajo correspondiente al nivel de batería.

$\mathcal{S}$ = {alto , bajo}

$\mathcal{A}(alto)$ = {buscar, esperar}

$\mathcal{A}(bajo)$ = {buscar, esperar, recargar}

La acción buscar tiene como promedio de recompensa $\mathcal{R}^\text{search}$,  la acción esperar tiene como promedio de recompensa  $\mathcal{R}^\text{wait}$, la acción recargar no trae recompensa pero permite llegar al estado alto.

Si el robot decide buscar en el estado bajo, hay una probabilidad $1 - \beta$ que su bateria termine vacia requiriendo intervención humana. Esto se castiga con una recompensa de -3.

|s	|s’	|a	|p(s’ / s, a)	|r(s, a, s’)|
|:---|:---|:---|:---|:---
|alto	|alto	|buscar	|$\alpha$	    |$\mathcal{R}^\text{buscar}$
|alto	|bajo	|buscar	|$1 - \alpha$	|$\mathcal{R}^\text{buscar}$
|bajo	|alto	|buscar	|$1 - \beta$	|−3
|bajo	|bajo	|buscar	|$\beta$	    |$\mathcal{R}^\text{buscar}$
|alto	|alto	|esperar	  |1	          |$\mathcal{R}^\text{esperar}$
|alto	|bajo	|esperar	  |0	          |$\mathcal{R}^\text{esperar}$
|bajo	|alto	|esperar	  |0	          |$\mathcal{R}^\text{esperar}$
|bajo	|bajo	|esperar	  |1	          |$\mathcal{R}^\text{esperar}$
|bajo	|alto	|recargar	|1	|0
|bajo	|bajo	|recargar	|0	|0


El objetivo de este ejercicio es encontrar la estrategia óptima $\pi^*$, es decir encontrar por cada esta la acción que debe ser ejecutada para obtener mayor recompensa en el largo plazo.

Vamos a aplicar dos métodos de programación dinámica: iteración de estrategias e iteración de valores para resolver las ecuaciones de Bellman.

La ecuación de Bellman para la funcion de estados:

$V^\pi(s) = \sum_a \pi(s,a) \sum_{s'} p(s'|a,s') [r(s,a,s') + \gamma V^\pi(s')] $

**Pregunta 1**: En papel adapte las ecuaciones de Bellman al problema. Primero, por cada estado s y posible acción a, encuentre el valor óptimo de cada acción en cada estado:

$Q^\pi (s,a) = f(V^\pi (alto), V^\pi (bajo), \alpha, \beta, \gamma, \mathcal{R}^\text{buscar},\mathcal{R}^\text{esperar} )$

Deduzca la ecuación de Bellman para los dos estados $V^\pi(\text{alto})$ y $V^\pi (\text{bajo})$ que dependa de los valores de Q obtenidos:

$V(s)=\sum_a \pi(s,a)Q(s,a)$






**Respuesta:**

$Q^\pi (alto,buscar) = ...$

$Q^\pi(alto,esperar) = ...$

$Q^\pi(bajo,buscar) = ...$

$Q^\pi(bajo,esperar) = ...$

$Q^\pi(bajo,recargar) = ...$

$V^\pi(alto) = ...$

$V^\pi(bajo) = ...$


**Iteración de estrategias**
Podemos resolver las ecuaciones usando evaluación de estrategias iterativa para una estrategia $\pi$.

Primero ajustemos los parámetros del proceso de Markov. En el resto del ejercicio estudiaremos los efectos de estos parámetros.

In [None]:
# Transiciones
alpha = 0.3
beta = 0.2

# Descuento
gamma = 0.7

# Recompensas
r_buscar = 6.0
r_esperar = 2.0

Usaremos un diccionario para representar las acciones

In [None]:
nb_states = 2
nb_actions = 3

s = {'alto': 0, 'bajo': 1}
a = {'buscar': 0, 'esperar': 1, 'recargar': 2}

Ahora inicializaremos los arreglos en que almacenaremos V y Q. V tendrá dos elementos, para bajo y alto. Q será una matriz de 2x3 con un elemento por cada par estado-acción.

In [None]:
V = np.zeros(nb_states)
Q = np.zeros((nb_states, nb_actions))

Puede acceder a los valores individuales con V[s['alto']] or Q[s['bajo'], a['esperar']].

Ahora podemos evaluar una estrategia $\pi$. Para usar programación dinámica usaremos una estrategia deterministica.

Para implementar la estrategia solo necesitamos asignar el indice de una acción a cada estado, $\pi(s)$. A continuación crearemos una estrategia inicial $\pi$ en la que el agente busca en ambos estados.

In [None]:
pi = np.array([a['buscar'], a['buscar']], dtype=int)



**Pregunta 1:** Evaluar esta estrategia usando evaluacion iterativa.

$V(s) = \sum_a \pi(s,a) \sum p(s'|s,a) [r(s,a,s') + \gamma V(s')]$

Sugerencia: el código sera mas simple si primero actualiza los valores Q de los 5 pares estado-accion:

$Q(s,a) = \sum p(s'|s,a) [r(s,a,s') + \gamma V(s')]$

$V(s) = \sum_a \pi(s,a)Q(s,a)$

Estos ajustes deberian ser realizadas hasta converger, pero por ahora solo los repetiremos 50 veces.






In [None]:
V = np.zeros(nb_states)
Q = np.zeros((nb_states, nb_actions))

V_high_history = []
V_low_history = []

for k in range(50):

    Q[s['alto'], a['buscar']] = 0 #TODO
    Q[s['alto'], a['esperar']] = 0 #TODO

    Q[s['bajo'], a['buscar']] = 0 #TODO
    Q[s['bajo'], a['esperar']] = 0 #TODO
    Q[s['bajo'], a['recargar']] = 0 #TODO

    V[s['alto']] = #TODO
    V[s['bajo']] = #TODO

    V_alto_history.append(V[s['alto']])
    V_bajo_history.append(V[s['bajo']])

print(Q)

plt.figure(figsize=(10, 6))
plt.plot(V_alto_history, label="alto")
plt.plot(V_bajo_history, label="bajo")
plt.legend()
plt.show()

**Pregunta 2:** ¿Convergen los valores Q? ¿Qué tan rápido? Cambie los valores de $\gamma$ y concluya sobre su importancia (no se olvide de reiniciar los valores de V y Q a 0).

**Pregunta 3:** Imprima los valores de Q al final del proceso de evaluación. ¿Cómo sería una estrategia golosa con respecto a estos valores Q?

**Pregunta 4:** Cambie la estrategia a la obtenida en la pregunta anterior y evalue. ¿Que ocurre? Compare los valores finales. ¿Cual es mejor?



# Iteración de estrategias

Para mejorar una estrategia podemos mirar los valores Q en cada- estado y luego cambiar la estrategia para que escoga la acción con mayor Q. Si esto no cambia la estrategia (escogemos la misma acción) entonces encontramos la estrategia óptima y podemos deternos.

**Pregunta 5:** Implemente la iteración de estrategias.

No se olvide de reiniciar los arreglos V y Q y la estrategia





In [None]:
V = np.zeros(nb_states)
Q = np.zeros((nb_states, nb_actions))

pi = np.array([a['buscar'], a['buscar']], dtype=int)

V_alto_history = []
V_bajo_history = []

t = 1
while True:
    # Policy evaluation
    for k in range(50):

        Q[s['alto'], a['buscar']] = 0 #TODO
        Q[s['alto'], a['esperar']] = 0 #TODO

        Q[s['bajo'], a['buscar']] = 0 #TODO
        Q[s['bajo'], a['esperar']] = 0 #TODO
        Q[s['bajo'], a['recargar']] = 0 #TODO

        V[s['alto']] = 0 #TODO
        V[s['bajo']] = 0 #TODO

        V_alto_history.append(V[s['alto']])
        V_bajo_history.append(V[s['bajo']])

    # Mejora de la estrategia
    pi_old = pi.copy()
    pi[s['alto']] = 0 #TODO
    pi[s['bajo']] = 0 #TODO

    print('Estrategia golosa después de la iteracion ', t)
    print('pi(alto)=', pi[s['alto']])
    print('pi(bajo)=', pi[s['bajo']])
    print('-')

    # Terminar si la estrategia ya no cambia
    if pi[s['alto']] == pi_old[s['alto']] and pi[s['bajo']] == pi_old[s['bajo']]:
        break
    t += 1

plt.figure(figsize=(10, 6))
plt.plot(V_alto_history, label="alto")
plt.plot(V_bajo_history, label="bajo")
plt.legend()
plt.show()

# Iteración de Valores

En la iteración de valores, unimos la evaluación de estrategias y la mejora en una sola regla:

$V(s) = \max_a \sum_s p(s'|s,a)[r(s,a,s')+\gamma V^\pi(s')]$

**Pregunta 6:** Modifique el código anterior para implementar iteración de valores.. Use una cantidad fija de iteraciones (50). Muestre la evolución de los valores de V e imprima la estrategia golosa después de cada iteración. Concluya.


In [None]:
V = np.zeros(nb_states)
Q = np.zeros((nb_states, nb_actions))

pi = np.array([a['buscar'], a['buscar']], dtype=int)

V_alto_history = []
V_bajo_history = []

for k in range(50):

    # Policy evaluation
    Q[s['alto'], a['buscar']] = 0 #TODO
    Q[s['alto'], a['esperar']] = 0 #TODO

    Q[s['bajo'], a['buscar']] = 0 #TODO
    Q[s['bajo'], a['esperar']] = 0 #TODO
    Q[s['bajo'], a['recargar']] = 0 #TODO

    V[s['alto']] = 0 #TODO
    V[s['bajo']] = 0 #TODO

    V_alto_history.append(V[s['alto']])
    V_bajo_history.append(V[s['bajo']])

    # Compute the greedy policy
    pi_old = pi.copy()
    pi[s['alto']] = 0 #TODO
    pi[s['bajo']] = 0 #TODO

print('Greedy policy after iteration', k)
print('pi(high)=', pi[s['alto']])
print('pi(low)=', pi[s['bajo']])
print("V=", V)
print("Q=", Q)

plt.figure(figsize=(10, 6))
plt.plot(V_high_history, label="alto")
plt.plot(V_low_history, label="bajo")
plt.legend()
plt.show()

**Pregunta 7:** Cambie el valor de $\gamma =0.3$ para que el agente valore mas las recompensas recientes. ¿Cambia la estrategia?

**Pregunta 8:** Cambie $\gamma$ a 0.99 ¿Que cambia y por qué?




In [None]:
#Escriba su codigo aqui

**Pregunta 9:** Cambie los parametros a:

$\alpha = 0.01$
$\beta = 0.2$
$\gamma = 0.7$
$\mathcal{R}^\text{buscar} = 6$
$\mathcal{R}^\text{esperar} = 5$


In [None]:
#Escriba su codigo aqui

**Pregunta 10:** Encuentre un conjunto de parametros donde sea optima la acción buscar estando en el estado bajo.