In [8]:
import numpy as np
import sys
if "../" not in sys.path:
  sys.path.append("../") 
from lib.envs.gridworld import GridworldEnv

In [9]:
env = GridworldEnv()

Grid World es el ambiente del libro de Sutton del capítulo 4. Un agente está en una grilla de MxN y el objetivo es llegar al estado terminal esquina superior izquierda o esquina inferior derecha.

Por ejemplo, una grilla de 4x4 se ve así:

T  o  o  o <br>
o  o  o  o <br>
o  x  o  o <br>
o  o  o  T

x es la posición del agente. T son los estados terminales.

El agente puede ir hacia arriba(0), la derecha(1), abajo(2), izquierda(3). Si se choca con las paredes se queda estático. Cada movimiento 'cuesta' una unidad de reward.

In [10]:
env.reset()
env._render()

T  o  o  x
o  o  o  o
o  o  o  o
o  o  o  T


In [11]:
env.step(2)
env._render()

T  o  o  o
o  o  o  x
o  o  o  o
o  o  o  T


El objetivo de este ejercicio es evaluar la política aleatoria (que se mueve en las cuatro direcciones con la misma probabilidad).

Recordar las ecuaciones y el algoritmo (de Sutton capítulo 4):

<img src="ecuacion 4.5.PNG">
<img src="algoritmo de evaluacion.PNG">

In [12]:
def policy_eval(policy, env, discount_factor=1.0, theta=0.00001):
    """
    Evaluar una política dado un ambiente y una descripción completa
    de la dinámica del ambiente.
    
    Argumentos:
        policy: matriz de tamaño [S, A] representando la política.
        env: ambiente de OpenAI representadno las probabilidades de transición
        del ambiente. 
        env.P[s][a] es una lista de tuplas (probabilidad, próximo_estado, recompensa, done)
        env.nS es el número de estados en el ambiente
        env.nA es el número de acciones en el ambiente
        theta: para la evaluación de la política una vez que la función de valor cambia menos que
        theta para todos los estados
        discount_factor: factor de descuento gama.
        
    Retorna:
        Vector de longitud env.nS que representa la función de valor.
    """
    # Empezar con función de valor nula
    V = np.zeros(env.nS)
    while True:
        delta = 0
        # por cada estado en el env [0,1,...,nS-1]:
        for s in range(env.nS):
            # inicializar en 0 la funcion valor para ese estado
            v = 0
            # por cada accion posible:
            for a, action_prob in enumerate(policy[s]):
                # por cada posible transicion dado ese estado-accion:
                for  prob, next_state, reward, done in env.P[s][a]:
                    # usar la formula para sumar el termino a la funcion valor del estado
                    v += action_prob * prob * (reward + discount_factor * V[next_state])
            # usar una variable para guardar el cambio maximo de nueva funcion valor vs anterior funcion valor
            # guardar funcion valor para el estado
            delta = max(delta, np.abs(v - V[s]))
            V[s] = v
        # si el cambio maximo en el update de la funcion valor para todos los estados es menor a theta, parar
        if delta < theta:
            break
    return np.array(V)

In [13]:
random_policy = np.ones([env.nS, env.nA]) / env.nA
v = policy_eval(random_policy, env)

In [14]:
print("Value Function:")
print(v)
print("")

print("Reshaped Grid Value Function:")
print(v.reshape(env.shape))
print("")

Value Function:
[  0.         -13.99993529 -19.99990698 -21.99989761 -13.99993529
 -17.9999206  -19.99991379 -19.99991477 -19.99990698 -19.99991379
 -17.99992725 -13.99994569 -21.99989761 -19.99991477 -13.99994569
   0.        ]

Reshaped Grid Value Function:
[[  0.         -13.99993529 -19.99990698 -21.99989761]
 [-13.99993529 -17.9999206  -19.99991379 -19.99991477]
 [-19.99990698 -19.99991379 -17.99992725 -13.99994569]
 [-21.99989761 -19.99991477 -13.99994569   0.        ]]



In [15]:
# Verificar que la evaluación de la política funcionó como esperábamos
expected_v = np.array([0, -14, -20, -22, -14, -18, -20, -20, -20, -20, -18, -14, -22, -20, -14, 0])
np.testing.assert_array_almost_equal(v, expected_v, decimal=2)