In [42]:
import numpy as np
import sys
if "../" not in sys.path:
  sys.path.append("../") 
from lib.envs.gridworld import GridworldEnv

In [43]:
env = GridworldEnv()

Grid World es el ambiente del libro de Sutton del capítulo 4. Un agente está en una grilla de MxN y el objetivo es llegar al estado terminal esquina superior izquierda o esquina inferior derecha.

Por ejemplo, una grilla de 4x4 se ve así:

T  o  o  o <br>
o  o  o  o <br>
o  x  o  o <br>
o  o  o  T

x es la posición del agente. T son los estados terminales.

El agente puede ir hacia arriba(0), la derecha(1), abajo(2), izquierda(3). Si se choca con las paredes se queda estático. Cada movimiento 'cuesta' una unidad de reward.

In [44]:
env.reset()
env._render()

T  o  o  o
o  o  o  o
o  o  x  o
o  o  o  T


In [45]:
env.step(2)
env._render()

T  o  o  o
o  o  o  o
o  o  o  o
o  o  x  T


El objetivo de este ejercicio es evaluar la política aleatoria (que se mueve en las cuatro direcciones con la misma probabilidad).

Recordar las ecuaciones y el algoritmo (de Sutton capítulo 4):

<img src="ecuacion 4.5.PNG">
<img src="algoritmo de evaluacion.PNG">


In [46]:
import math
def policy_eval(policy, env, discount_factor=1.0, theta=0.00001):
    """
    Evaluar una política dado un ambiente y una descripción completa
    de la dinámica del ambiente.
    
    Argumentos:
        política: matriz de tamaño [S, A] representando la política.
        env: ambiente de OpenAI representadno las probabilidades de transición
        del ambiente. 
        env.P[s][a] es una lista de tuplas (probabilidad, próximo_estado, recompensa, done) dado que estoy en s y tomo a
        env.nS es el número de estados en el ambiente
        env.nA es el número de acciones en el ambiente
        theta: para la evaluación de la política una vez que la función de valor cambia menos que
        theta para todos los estados
        discount_factor: factor de descuento gama.
        
    Retorna:
        Vector de longitud env.nS que representa la función de valor.
    """
    # Empezar con función de valor nula
    V = np.zeros(env.nS)

    while True:
        # TODO: Implementar!
        #TIP: enumerate(lista) permite iterar sobre indice, elemento
        delta = 0
        for estado in range(env.nS):
            v = 0
            for accion in range(env.nA):
                for tupla in env.P[estado][accion]:
                    v = v + policy[estado][accion]*tupla[0]*(tupla[2] + discount_factor*V[tupla[1]])
            delta = max(abs(V[estado] - v),delta)
            #print(env.P)
            V[estado] = v
            #print(V)
        if delta < theta:
            break
        # por cada estado en el env [0,1,...,nS-1]:
          # inicializar en 0 la funcion valor para ese estado
          # por cada accion posible:
            # por cada posible transicion dado ese estado-accion:
              # usar la formula para sumar el termino a la funcion valor del estado
          
          # usar una variable para guardar el cambio maximo de nueva funcion valor vs anterior funcion valor
          # guardar funcion valor para el estado
            
        # si el cambio maximo en el update de la funcion valor para todos los estados es menor a theta, parar
    return np.array(V)

In [47]:
random_policy = np.ones([env.nS, env.nA]) / env.nA
v = policy_eval(random_policy, env)

In [48]:
# Verificar que la evaluación de la política funcionó como esperábamos
expected_v = np.array([0, -14, -20, -22, -14, -18, -20, -20, -20, -20, -18, -14, -22, -20, -14, 0])
# si el próximo assert no genera ningún error entonces la evaluación de la política fue correcta
np.testing.assert_array_almost_equal(v, expected_v, decimal=2)

Podemos definir otra política y calcular la función de valor:

In [53]:
otra_politica = np.array([1.0,0,0,0.0]*16)
otra_politica = np.reshape(otra_politica,[16,4])

In [54]:
print(otra_politica)

[[1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]]


Esta política es determinística. El agente siempre se mueve para arriba en todas las circunstancias. Si el factor de descuento es 1.0 el algoritmo no converge, y por eso pones 0.5 como factor de descuento.

In [55]:
v_otra = policy_eval(otra_politica,env,discount_factor=0.5)
print(v_otra)

[ 0.         -1.99999237 -1.99999237 -1.99999237 -1.         -1.99999619
 -1.99999619 -1.99999619 -1.5        -1.99999809 -1.99999809 -1.99999809
 -1.75       -1.99999905 -1.99999905  0.        ]


Pensar en cómo se interpretan estos valores.

Podemos definir otra política no determinística. En este caso el agente se mueve en todas las situaciones para arriba con probabilidad 1/8 y para cualquiera las otras direcciones con probabilidad 7/24.

In [56]:
otra_politica = np.array([0.125,0.2916666666666667,0.2916666666666667,0.2916666666666667]*16)
otra_politica = np.reshape(otra_politica,[16,4])

In [57]:
otra_politica

array([[0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667],
       [0.125     , 0.29166667, 0.29166667, 0.29166667]])

In [58]:
v_otra = policy_eval(otra_politica,env,discount_factor=1.0)
print(v_otra)

[  0.         -13.80749015 -18.45834526 -19.47950473 -18.67870582
 -19.53557013 -18.65948559 -17.07210798 -22.39845487 -20.29485346
 -16.02842138 -11.02442646 -22.66769046 -19.35453299 -12.20982148
   0.        ]
