In [1]:
# en caso de correrlo en google colab
# de esta manera podremos tener la carpeta lib (donde se encuentra en ambiente Gridworld)

# import sys
#if "../" not in sys.path:
#  sys.path.append("../") 

# !git clone https://github.com/julianfm7/cursoRL-FIUBA

# necesario en google colab para que sys.path busque
# y encuentre la carpeta lib donde se encuentra el ambiente Gridworld

# !mv cursoRL-FIUBA cursoRLFIUBA

In [2]:
import numpy as np
from lib.envs.gridworld import GridworldEnv

In [3]:
env = GridworldEnv()

Grid World es el ambiente del libro de Sutton del capítulo 4. Un agente está en una grilla de MxN y el objetivo es llegar al estado terminal esquina superior izquierda o esquina inferior derecha.

Por ejemplo, una grilla de 4x4 se ve así:

T  o  o  o <br>
o  o  o  o <br>
o  x  o  o <br>
o  o  o  T

x es la posición del agente. T son los estados terminales.

El agente puede ir hacia arriba(0), la derecha(1), abajo(2), izquierda(3). Si se choca con las paredes se queda estático. Cada movimiento 'cuesta' una unidad de reward.

In [4]:
env.reset()
env._render()

T  o  o  o
o  o  o  o
o  o  o  x
o  o  o  T


In [5]:
env.step(2)
env._render()

T  o  o  o
o  o  o  o
o  o  o  o
o  o  o  x


El objetivo de este ejercicio es evaluar la política aleatoria (que se mueve en las cuatro direcciones con la misma probabilidad).

Recordar las ecuaciones y el algoritmo (de Sutton capítulo 4):

<img src="https://github.com/julianfm7/cursoRL-FIUBA/blob/master/clase3-RL/Python/ecuacion%204.5.PNG?raw=1">
<img src="https://github.com/julianfm7/cursoRL-FIUBA/blob/master/clase3-RL/Python/algoritmo%20de%20evaluacion.PNG?raw=1">
<img src="https://github.com/julianfm7/cursoRL-FIUBA/blob/master/clase3-RL/Python/evaluacion.png?raw=1">




In [4]:

def policy_eval(policy, env, discount_factor=1.0, theta=0.00001):
    """
    Evaluar una política dado un ambiente y una descripción completa
    de la dinámica del ambiente.
    https://github.com/julianfm7/cursoRL-FIUBA/blob/master/clase3-RL/Python/evaluacion.png?raw=1
    Argumentos:
        política: matriz de tamaño [S, A] representando la política.
        env: ambiente de OpenAI representando las probabilidades de transición
        del ambiente. 
        env.P[s][a] es una lista de tuplas (probabilidad, próximo_estado, recompensa, done)
        env.nS es el número de estados en el ambiente
        env.nA es el número de acciones en el ambiente
        theta: para la evaluación de la política una vez que la función de valor cambia menos que
        theta para todos los estados
        discount_factor: factor de descuento gama.
        
    Retorna:
        Vector de longitud env.nS que representa la función de valor.
    """
    # Empezar con función de valor nula
    V = np.zeros(env.nS)
    while True:
        # TODO: Implementar!
        delta = 0
        for estado in range(env.nS):
            v=0
#             for accion in env.P[estado]:
#                 for probabilidad, proximo_estado, recompensa, _ in env.P[estado][accion]:
#                     v += policy[estado,accion]*probabilidad*(recompensa + discount_factor*V[proximo_estado])
            for accion,ac_prob in enumerate(policy[estado]):
                for probabilidad, proximo_estado, recompensa, _ in env.P[estado][accion]:
                    v += ac_prob*probabilidad*(recompensa + discount_factor*V[proximo_estado])

            delta = max(delta,abs(v-V[estado]))
            V[estado] = v
        if delta < theta:
            break
    return V



In [5]:
random_policy = np.ones([env.nS, env.nA]) / env.nA
v = policy_eval(random_policy, env)

In [6]:
# Verificar que la evaluación de la política funcionó como esperábamos
expected_v = np.array([0, -14, -20, -22, -14, -18, -20, -20, -20, -20, -18, -14, -22, -20, -14, 0])
np.testing.assert_array_almost_equal(v, expected_v, decimal=2)