# Evaluación y mejora

<img src="evaluacionymejora.png">
<img src="mejora.png">

# Iteración de política:(del libro de Sutton)

<img src="iteracion de politica.PNG">

Implementar el algoritmo de mejora de iteración de política.

In [None]:
# en caso de correrlo en google colab
# de esta manera podremos tener la carpeta lib (donde se encuentra en ambiente Gridworld)

import sys
#if "../" not in sys.path:
#  sys.path.append("../") 

!git clone https://github.com/julianfm7/cursoRL-FIUBA

# necesario en google colab para que sys.path busque
# y encuentre la carpeta lib donde se encuentra el ambiente Gridworld

!mv cursoRL-FIUBA cursoRLFIUBA

In [1]:
import numpy as np
import pprint

from lib.envs.gridworld import GridworldEnv

In [2]:
pp = pprint.PrettyPrinter(indent=2)
env = GridworldEnv()

In [3]:
def policy_eval(policy, env, discount_factor=1.0, theta=0.00001):
    """
    Evaluar una política dado un ambiente y una descripción completa
    de la dinámica del ambiente.
    
    Argumentos:
        política: matriz de tamaño [S, A] representando la política.
        env: ambiente de OpenAI representadno las probabilidades de transición
        del ambiente. 
        env.P[s][a] es una lista de tuplas (probabilidad, próximo_estado, recompensa, done)
        env.nS es el número de estados en el ambiente
        env.nA es el número de acciones en el ambiente
        theta: para la evaluación de la política una vez que la función de valor cambia menos que
        theta para todos los estados
        discount_factor: factor de descuento gama.
        
    Retorna:
        Vector de longitud env.nS que representa la función de valor.
    """
    # Empezar con función de valor nula
    V = np.zeros(env.nS)
    P = env.P
    gamma = discount_factor
    
    while True:
        
        delta = 0
        # por cada estado en el env [0,1,...,nS-1]:
        for s in range(env.nS):
            v = V[s]
            # inicializar en 0 la funcion valor para ese estado
            V[s] = 0
            # por cada accion posible:
            for a, transicion in P[s].items():
                # por cada posible transicion dado ese estado-accion:
                for tupla in transicion:
                    # usar la formula para sumar el termino a la funcion valor del estado
                    # guardar funcion valor para el estado
                    # V(s) += π(a|s) * p_{s,s'} * ( r + gamma * V(s') )
                    V[s] += policy[s][a]*tupla[0]*(tupla[2] + gamma*V[tupla[1]])
            # usar una variable para guardar el cambio maximo de nueva funcion valor vs anterior 
            # funcion valor
            delta = max(delta, abs(v - V[s]), 0)
        # si el cambio maximo en el update de la funcion valor para todos los estados es menor
        # a theta, parar
        if delta < theta:
            break
    return np.array(V)

In [4]:
def policy_improvement(env, policy_eval_fn=policy_eval, discount_factor=1.0):
    """
    Algoritmo de mejora de una política. Evalúa iterativamente y mejora una política 
    hasta que encuentra la política óptima.
    
    Args:
        env: ambiente de OpenAI.
        policy_eval_fn: función de evaluación de política que toma 3 argumentos: policy, env, discount_factor
        discount_factor: factor de descuento gama
        
    Retorna:
        Un tuple (policy, V)
        A tuple (policy, V). 
        policy es la política óptima, una matriz de tamaño [S, A] en que cada estado s contiene una distribución de probabilidad 
        valida sobre el espacio de acciones.
        V es la función de valor para la política óptima.
        
    """
    # Comenzar con política aleatoria
    policy = np.ones([env.nS, env.nA]) / env.nA
    gamma = discount_factor
    while True:
        # Implementar
        
        # evaluar (i.e. calcular V, la función de valor de) la política actual
        V = policy_eval_fn(policy, env)

        # mantener una variable que indique si la política es estable (no cambió en este paso)
        stable = True
        # por cada estado:
        for s in range(env.nS):
            # encontrar cuál es la acción que tomaría la política actual con más 
            # alta probabilidad
            most_likely_a = policy[s].argmax()
            if all(policy[s] == policy[most_likely_a][0]):
                most_likely_a = -1                

            # calcular el valor esperado de cada acción utilizando la función de valor actual 
            # haciendo 'one-step look-ahead'
            # encontrar la acción con mayor valor esperado dado del cálculo anterior
            posibles_retornos = []
            for a, lista_transiciones in env.P[s].items():
                valor_retorno = 0
                for transicion in lista_transiciones:
                    valor_retorno += transicion[0]*(transicion[2] + gamma*V[transicion[1]])
                posibles_retornos.append(valor_retorno)
            accion_optima = np.array(posibles_retornos).argmax()
            
            politica_optima_s = np.array([1 if a == accion_optima else 0 for a in range(env.nA)])
            
            # si la acción de la política actual no coincide con la mejor calculada
            if most_likely_a != accion_optima or\
                    any(politica_optima_s != policy[s]):
                # actualizar la política
                policy[s] = politica_optima_s
                # marcar que la política no fue estable en este paso
                stable = False
    
        # si la política es estable, devolver la política óptima y la función de valor de esa política
        if stable is True:
            return policy, V

In [5]:
a = np.array([1,2])
b = np.array([1,2])

In [6]:
policy, v = policy_improvement(env)
print("Distribución de probabilidad de la política:")
print(policy)
print("")

print("Política exhibida la grilla: (0=arriba, 1=derecha, 2=abajo, 3=izquierda)")
print(np.reshape(np.argmax(policy, axis=1), env.shape))
print("")

print("Función de valor:")
print(v)
print("")

print("Función de valor exhibida en la grilla:")
print(v.reshape(env.shape))
print("")



Distribución de probabilidad de la política:
[[1. 0. 0. 0.]
 [0. 0. 0. 1.]
 [0. 1. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 1. 0. 0.]
 [1. 0. 0. 0.]]

Política exhibida la grilla: (0=arriba, 1=derecha, 2=abajo, 3=izquierda)
[[0 3 1 0]
 [0 0 0 0]
 [0 0 1 2]
 [0 1 1 0]]

Función de valor:
[ 0. -1. -2. -1. -1. -2. -3. -2. -2. -3. -2. -1. -3. -2. -1.  0.]

Función de valor exhibida en la grilla:
[[ 0. -1. -2. -1.]
 [-1. -2. -3. -2.]
 [-2. -3. -2. -1.]
 [-3. -2. -1.  0.]]



In [7]:
# Test de la función de valor
expected_v = np.array([ 0, -1, -2, -3, -1, -2, -3, -2, -2, -3, -2, -1, -3, -2, -1,  0])
np.testing.assert_array_almost_equal(v, expected_v, decimal=2)

AssertionError: 
Arrays are not almost equal to 2 decimals

Mismatched elements: 1 / 16 (6.25%)
Max absolute difference: 2.
Max relative difference: 0.66666667
 x: array([ 0., -1., -2., -1., -1., -2., -3., -2., -2., -3., -2., -1., -3.,
       -2., -1.,  0.])
 y: array([ 0, -1, -2, -3, -1, -2, -3, -2, -2, -3, -2, -1, -3, -2, -1,  0])