In [1]:
# Librerias que contienen la dinámica del entorno gridworld
from types import MethodType
from gridworld import GridWorld, pygame
import copy
import random

pygame 2.2.0 (SDL 2.0.22, Python 3.8.16)
Hello from the pygame community. https://www.pygame.org/contribute.html


## Introducción

El presente informe presenta la implementació del método de value iteration para la variación con viento hacia la derecha sobre las acciones posibles. Se presenta una explicación detallada en el cálculo de la función de valor v(s) realizada en cada iteración del algoritmo, así como la implementación por pasos intermedios del calculo del valor de estado v(s) hasta convergencia para el GridWorld del enunciado.

Para esto se tuvo en cuenta un MDP basado en el GridWorld de 4x4 (16 estados), donde los estados terminales con valor de estado v(st)=0 para los estados (0,0),(3,3) es siempre 0, y la recompensa de todas las transiciones $r-trans=R(s,a,s')=-1$ en todas las transiciones. Las acciones posibles son Norte 'N', Sur 'S', East 'E', Weast 'W'. Del mismo modo, la dinámica del MDP $p(s'|s,a)$ es la siguiente: la probabilidad de llegar al estado (estado1) realizar la acción indicada  es 0.8, mientras que con probabilidad 0.2 llega al estado de la derecha del estado1. Si el estado de llegada en el segundo caso es por fuera del MDP, entonces se queda en el estado1.

A partir de los resultados se observa que no hay cambios significativos después de un horizonte temporal H de 6 iteraciones(hay convergencia aproximada de $v(s)$ después de 6 iteraciones). Del mismo modo se presentan los resultados del cálculo de la función de valor de estado $v(s)$ para las primeras 7 iteraciones, junto con el cambio de la política hasta asegurar convergencia.

Finalmente se presenta el cálculo de la función de valor de estado $v(s)$ mediante el método de value iteration y la política óptima encontrada para un horizonte temporal H de 30 iteraciones, para el Escenario 1 con tasa de descuento $\gamma=0.9$ y  , para el Escenario 1 con tasa de descuento $\gamma=1$. 

## Escenario 1: Tasa de descuento $\gamma=0.9$


El valor del estado hasta convergencia aproximada para todos los estados del MDP calculados son los siguientes:

* Valor de estado v((0, 0))=  0.0
* Valor de estado v((0, 1))=  -1.4353120000000001
* Valor de estado v((0, 2))=  -2.4797861463414637
* Valor de estado v((0, 3))=  -2.71
* Valor de estado v((1, 0))=  -1.2583561600000002
* Valor de estado v((1, 1))=  -2.3244102868292686
* Valor de estado v((1, 2))=  -2.4184
* Valor de estado v((1, 3))=  -1.9
* Valor de estado v((2, 0))=  -2.3244102868292686
* Valor de estado v((2, 1))=  -2.4184
* Valor de estado v((2, 2))=  -1.72
* Valor de estado v((2, 3))=  -1.0
* Valor de estado v((3, 0))=  -2.4184
* Valor de estado v((3, 1))=  -1.72
* Valor de estado v((3, 2))=  -1.0
* Valor de estado v((3, 3))=  0.0


La política óptima para el MDP del GridWorld con variación de viento hacia la derecha es la siguiente:

{(0, 0): 'N',
 (0, 1): 'W',
 (0, 2): 'W',
 (0, 3): 'S',
 (1, 0): 'N',
 (1, 1): 'W',
 (1, 2): 'S',
 (1, 3): 'S',
 (2, 0): 'N',
 (2, 1): 'S',
 (2, 2): 'S',
 (2, 3): 'S',
 (3, 0): 'E',
 (3, 1): 'E',
 (3, 2): 'E',
 (3, 3): 'N'}


## Escenario 2: Tasa de descuento $\gamma=1$

El valor del estado hasta convergencia aproximada para todos los estados del MDP calculados son los siguientes:

* Valor de estado v((0, 0))=  0.0
* Valor de estado v((0, 1))=  -1.528
* Valor de estado v((0, 2))=  -2.7780000000000005
* Valor de estado v((0, 3))=  -3.0000000000000004
* Valor de estado v((1, 0))=  -1.3056
* Valor de estado v((1, 1))=  -2.5556
* Valor de estado v((1, 2))=  -2.6399999999999997
* Valor de estado v((1, 3))=  -2.0
* Valor de estado v((2, 0))=  -2.5556
* Valor de estado v((2, 1))=  -2.6399999999999997
* Valor de estado v((2, 2))=  -1.8
* Valor de estado v((2, 3))=  -1.0
* Valor de estado v((3, 0))=  -2.6399999999999997
* Valor de estado v((3, 1))=  -1.8
* Valor de estado v((3, 2))=  -1.0
* Valor de estado v((3, 3))=  0.0

La política óptima para el MDP del GridWorld con variación de viento hacia la derecha es la siguiente:

{(0, 0): 'N',
 (0, 1): 'W',
 (0, 2): 'W',
 (0, 3): 'S',
 (1, 0): 'N',
 (1, 1): 'W',
 (1, 2): 'S',
 (1, 3): 'S',
 (2, 0): 'N',
 (2, 1): 'S',
 (2, 2): 'S',
 (2, 3): 'S',
 (3, 0): 'E',
 (3, 1): 'E',
 (3, 2): 'E',
 (3, 3): 'N'}


A partir de los resultados se observa que para los Escenarios 1 y 2 el algoritmo de value iteration alcanza convergencia (aproximada) después de la 6 iteración en $v_6(s)$ porque no hay diferencias apreciables en el cálculo de la función de valor de estado $v(s)$ ni de la política óptima en convergencia aproximada después de la 6 iteración en adelante. Finalmente la política óptima encontrada en ambos escenarios es la misma.



In [19]:
# crear MDP
# parametros:
gw = GridWorld(rows=4, cols=4, walls=[], pits=[], goals=[(0,0),(3,3)], live_reward=0.0)
gw

<gridworld.GridWorld at 0x1d205a7ba00>

## Value Iteration: Variación con viento hacia la derecha (East)

Si el horizonte es $H=2$, 

Para estados terminales $S_t$, el valor de estado $v(s)=0$ SIEMPRE

Para estados no terminales:
$$V_{2}^{*}(s)=\max_a \sum_{s'} P(s'|s,a)(R(s,a,s')+\gamma V_{1}^{*}(s'))$$

Por ejemplo, si el agente está en (1,1), que corresponde al estado 5 del enunciado del examen, y se tiene un descuento $\gamma=0.90$:

* Si pretende ejecutar 'N':
    * Si efectivamente se ejecuta 'N':  $ P(s'|s,a)(R(s,a,s')+\gamma V_{1}^{*}(s')) = 0.8(-1.0+\gamma V_1(0,1))$
    * Si, por el viento hacia la derecha, se ejecuta 'E':  $ P(s'|s,a)(R(s,a,s')+\gamma V_{1}^{*}(s')) = 0.2(-1.0+\gamma V_1(0,2))$

* Si pretende ejecutar 'S':
    * Si efectivamente se ejecuta 'S':  $ P(s'|s,a)(R(s,a,s')+\gamma V_{1}^{*}(s')) = 0.8(-1.0+\gamma V_1(2,1))$
    * Si, por el viento hacia la derecha, se ejecuta 'E':  $ P(s'|s,a)(R(s,a,s')+\gamma V_{1}^{*}(s')) = 0.2(-1.0+\gamma V_1(2,2))$

* Si pretende ejecutar 'E':
    * Si efectivamente se ejecuta 'E':  $ P(s'|s,a)(R(s,a,s')+\gamma V_{1}^{*}(s')) = 0.8(-1.0+\gamma V_1(1,2))$
    * Si, por el viento hacia la derecha, se ejecuta 'EE':  $ P(s'|s,a)(R(s,a,s')+\gamma V_{1}^{*}(s')) = 0.2(-1.0+\gamma V_1(1,3))$

* Si pretende ejecutar 'W':
    * Si efectivamente se ejecuta 'W':  $ P(s'|s,a)(R(s,a,s')+\gamma V_{1}^{*}(s')) = 0.8(-1.0+\gamma V_1(1,0))$
    * Si, por el viento hacia la derecha, se ejecuta 'E':  $ P(s'|s,a)(R(s,a,s')+\gamma V_{1}^{*}(s')) = 0.2(-1.0+\gamma V_1(1,1))$

Finalmente el valor de estado $v(1,1)$ es el valor de estado de la acción que es máxima, y ésta acción se escoge como óptima para la interación actual del algoritmo. 

Este proceso se realiza para todos los estados del MDP, para una secuencia de iteraciones definidas por el horizonte temporal H hasta asegurar convergencia.


## Explicación detallada del algoritmo implementado

El algoritmo de value iteration es una aplicación de Programación Dinámica de Policy Iteration (Policy evaluation(predicción) y Policy Improvement), en el que la etapa de predicción  Policy evaluation es truncada a 1 iteración, para una secuencia de iteraciones hasta asegurar convergencia, mientras que la política se mejora a partir del cálculo de la función de valor de estados $v(s)$ de la iteración anterior. 

A partir de la dinámica (probabilidades de transición), la recompensa de la transición, la tasa de descuento ($\gamma=0.9$) y la definición del MDP del Gridworld con variación de viento hacia la derecha, se procede a implementar el algoritmo de value iterarion. Lo anterior se desarrolló de la siguiente manera:

En primer lugar se definió que para estados terminales (0,0),(3,3) el valor de estado $v(s)$ es SIEMPRE 0. 

En seguida se iteró sobre todos los estados del MDP (a través del horizonte temporal), en cada iteración se da un paso en la dirección de la acción que se pretende ejecutar. En seguida, se define el estado siguiente para la acción que pretende tomar (estado1) y el estado al que llega si hay viento (estado2) que es a la derecha del estado1. En caso de que el estado2 esté por fuera del Gridworld (ej: estado no existe en MDP), entonces el estado2 es igual al estado1 es decir se queda en el mismo estado si no hubiese sido afectado por el viento en la dinámica del MDP.

Finalmente, para calcular la función de valor de estados, se aplican las ecuaciones detalladas anteriormente (en donde se realizó el ejemplo para el cálculo del valor de estado (1,1) en H=2 ), se escoge la acción con máximo valor de estado calculado y se asigna como valor de estado en la iteración actual, y se escoge esta política (acción) como óptima en la iteración actual.

El algoritmo itera sobre estados a lo largo de una secuencia de iteraciones definidas por el horizonte temporal H, hasta asegurar convergencia, donde se tiene el valor de estado óptimo $v(s)_*$ y la política óptima $\pi_*$ que resuelve el MDP

In [16]:

# def: método de PD: value iteration para calcular v(s) y política óptima
# parametros: gw=MDP GridWorld (Taller 2), gamma=tasa de descuento (0.9)

def value_iteration(gw, gamma):
    
    new_values = dict.fromkeys(gw.states , 0.0) # inicializa vector de valores de estado v0(s)=0 
    r_trans = -1 # recompensa de transicion
    
    # iterar sobre estados
    for state in gw.states: 
        if state in gw.goals:
            #new_values[state] = 0
            pass
        else:
            
            v = dict.fromkeys(gw.get_allowed_actions(state), 0.0) # inicializa vector de valores de estado v0(s)=0
            
            # definir estados finales para todas las accciones posibles ['N','S','E','W'] 
            # accion Norte 
            N, reward, _, done = gw.step(state, 'N', random=False)
            if N in gw.goals: # si estado final es terminal (goal)
                NE=(N[0],N[1]+1) # estado con viento es estado final +1 a la derecha
                if NE not in gw.states: # si estado con viento no esta en MDP
                    NE=N # se queda en el mismo estado 
                else:
                    pass
            else:  # si estado final es no terminal
                NE, reward, _, done = gw.step(N, 'E', random=False) # estado con viento es estado final dando un paso a la derecha
                    
            # accion Sur       
            S, reward, _, done = gw.step(state, 'S', random=False)         
            if S in gw.goals: # si estado final es terminal (goal)
                SE=(S[0],S[1]+1)# estado con viento es estado final +1 a la derecha
                if SE not in gw.states: # si estado con viento no esta en MDP
                    SE=S # se queda en el mismo estado 
                else:
                    pass
            else: # si estado final es no terminal
                SE, reward, _, done = gw.step(S, 'E', random=False) # estado con viento es estado final dando un paso a la derecha
                
            # accion East       
            E, reward, _, done = gw.step(state, 'E', random=False)         
            if E in gw.goals:# si estado final es terminal (goal)
                EE=(E[0],E[1]+1)# estado con viento es estado final +1 a la derecha
                if EE not in gw.states:# si estado con viento no esta en MDP
                    EE=E# se queda en el mismo estado 
                else:
                    pass
            else: # si estado final es no terminal
                EE, reward, _, done = gw.step(E, 'E', random=False) # estado con viento es estado final dando un paso a la derecha
                
            # accion Weast       
            W, reward, _, done = gw.step(state, 'W', random=False)         
            if W in gw.goals:# si estado final es terminal (goal)
                WE=(S[0],S[1]+1)# estado con viento es estado final +1 a la derecha
                if WE not in gw.states:# si estado con viento no esta en MDP
                    WE=W# se queda en el mismo estado 
                else:
                    pass
            else: # si estado final es no terminal
                WE, reward, _, done = gw.step(W, 'E', random=False) # estado con viento es estado final dando un paso a la derecha

            # calcular v(s') para todas las acciones posibles  ['N','S','E','W'] 
            v['N']= gw.action_probabilities2[0]*(r_trans+gamma*gw.state_values[N])+gw.action_probabilities2[1]*(r_trans+gamma*gw.state_values[NE])
            v['S']= gw.action_probabilities2[0]*(r_trans+gamma*gw.state_values[S])+gw.action_probabilities2[1]*(r_trans+gamma*gw.state_values[SE])
            v['E']= gw.action_probabilities2[0]*(r_trans+gamma*gw.state_values[E])+gw.action_probabilities2[1]*(r_trans+gamma*gw.state_values[EE])
            v['W']= gw.action_probabilities2[0]*(r_trans+gamma*gw.state_values[W])+gw.action_probabilities2[1]*(r_trans+gamma*gw.state_values[WE])
            
            # actualizar politica (accion) en estado state como la accion con el valor de estado v(s') máximo 
            # actualizar v(s) como el valor de estado v(s') máximo
            gw.policy[state], new_values[state] = gw.key_max(v)
              
    gw.state_values = copy.deepcopy(new_values)
    
    

# Escenario 1: Tasa de descuento $\gamma=0.9$

## Pasos intermedios: $V_1(s)-V_5(s)$

A continuación se presenta el cálculo intermedio de la función de valor $v_i(s)$ de manera secuencia en cada una de las iteraciones hasta alcanzar convergencia (aproximada). Del mismo modo en cada iteración se presenta la política mejorada por el algoritmo para la i-ésima iteración. El algoritmo alcanza convergencia (aproximada) después de 6 iteraciones, en las que no hay diferencias apreciables en el cálculo de la función de valor $v(s)$ de todos los estados ni de la política óptima a partir de la iteracion 6 y en adelante.

Finalmente se presenta la función de valor para todos los estados y la política (óptima) en un horizonte temporal H=30

In [24]:
# crear MDP
# parametros:
gw = GridWorld(rows=4, cols=4, walls=[], pits=[], goals=[(0,0),(3,3)], live_reward=0.0)
gw

gamma=0.9
H=30
init_state=(3,0)
gw.value_iteration = MethodType(value_iteration, gw)
gw.solve_value_iteration(gamma=gamma, horizon=H, init_state=init_state )

## Valor de estado0: $V0(s)$ y política
<center>
    <img src="images/v0_gamma1.jpg" alt="centered image" width=250/>
</center>


## Valor de estado1: $V1(s)$ y política
<center>
    <img src="images/v1_gamma1.jpg" alt="centered image" width=250/>
</center>

## Valor de estado2: $V2(s)$ y política
<center>
    <img src="images/v2_gamma1.jpg" alt="centered image" width=250/>
</center>

## Valor de estado3: $V3(s)$ y política
<center>
    <img src="images/v3_gamma1.jpg" alt="centered image" width=250/>
</center>

## Valor de estado4: $V4(s)$ y política
<center>
    <img src="images/v4_gamma1.jpg" alt="centered image" width=250/>
</center>

## Valor de estado5: $V5(s)$ y política 
<center>
    <img src="images/v5_gamma1.jpg" alt="centered image" width=250/>
</center>

## Valor de estado 6: $V6(s)$ y política 
<center>
    <img src="images/v6_gamma1.jpg" alt="centered image" width=250/>
</center>

## Valor de estado 7:  $V7(s)$ y política 
<center>
    <img src="images/v7_gamma1.jpg" alt="centered image" width=250/>
</center>

## Resultados    

## Valor de estado 30:  $V30(s)$ y política
## Horizonte temporal H=30 
<center>
    <img src="images/vfin_gamma1.jpg" alt="centered image" width=250/>
</center>

## Valor de estado en convergencia (aproximada) $v(s)$

In [25]:
for state in gw.states:
    print("Valor de estado v("+str(state)+')= ', gw.state_values[state] )

Valor de estado v((0, 0))=  0.0
Valor de estado v((0, 1))=  -1.4353120000000001
Valor de estado v((0, 2))=  -2.4797861463414637
Valor de estado v((0, 3))=  -2.71
Valor de estado v((1, 0))=  -1.2583561600000002
Valor de estado v((1, 1))=  -2.3244102868292686
Valor de estado v((1, 2))=  -2.4184
Valor de estado v((1, 3))=  -1.9
Valor de estado v((2, 0))=  -2.3244102868292686
Valor de estado v((2, 1))=  -2.4184
Valor de estado v((2, 2))=  -1.72
Valor de estado v((2, 3))=  -1.0
Valor de estado v((3, 0))=  -2.4184
Valor de estado v((3, 1))=  -1.72
Valor de estado v((3, 2))=  -1.0
Valor de estado v((3, 3))=  0.0


## Política óptima

In [26]:
gw.policy

{(0, 0): 'N',
 (0, 1): 'W',
 (0, 2): 'W',
 (0, 3): 'S',
 (1, 0): 'N',
 (1, 1): 'W',
 (1, 2): 'S',
 (1, 3): 'S',
 (2, 0): 'N',
 (2, 1): 'S',
 (2, 2): 'S',
 (2, 3): 'S',
 (3, 0): 'E',
 (3, 1): 'E',
 (3, 2): 'E',
 (3, 3): 'N'}

# Escenario 2: Tasa de descuento $\gamma=1$

In [27]:
# crear MDP
# parametros:
gw = GridWorld(rows=4, cols=4, walls=[], pits=[], goals=[(0,0),(3,3)], live_reward=0.0)
gw

gamma=1
H=30
init_state=(3,0)
gw.value_iteration = MethodType(value_iteration, gw)
gw.solve_value_iteration(gamma=gamma, horizon=H, init_state=init_state )

## Resultados

## Valor de estado 30:  $V30(s)$ y política
## Horizonte temporal H=30 
<center>
    <img src="images/vfin_gamma2.jpg" alt="centered image" width=250/>
</center>

## Valor de estado en convergencia (aproximada) $v(s)$

In [28]:
for state in gw.states:
    print("Valor de estado v("+str(state)+')= ', gw.state_values[state] )

Valor de estado v((0, 0))=  0.0
Valor de estado v((0, 1))=  -1.528
Valor de estado v((0, 2))=  -2.7780000000000005
Valor de estado v((0, 3))=  -3.0000000000000004
Valor de estado v((1, 0))=  -1.3056
Valor de estado v((1, 1))=  -2.5556
Valor de estado v((1, 2))=  -2.6399999999999997
Valor de estado v((1, 3))=  -2.0
Valor de estado v((2, 0))=  -2.5556
Valor de estado v((2, 1))=  -2.6399999999999997
Valor de estado v((2, 2))=  -1.8
Valor de estado v((2, 3))=  -1.0
Valor de estado v((3, 0))=  -2.6399999999999997
Valor de estado v((3, 1))=  -1.8
Valor de estado v((3, 2))=  -1.0
Valor de estado v((3, 3))=  0.0


## Política óptima

In [29]:
gw.policy

{(0, 0): 'N',
 (0, 1): 'W',
 (0, 2): 'W',
 (0, 3): 'S',
 (1, 0): 'N',
 (1, 1): 'W',
 (1, 2): 'S',
 (1, 3): 'S',
 (2, 0): 'N',
 (2, 1): 'S',
 (2, 2): 'S',
 (2, 3): 'S',
 (3, 0): 'E',
 (3, 1): 'E',
 (3, 2): 'E',
 (3, 3): 'N'}