![Banner](Banner.jpg)

# Evaluación de MDPs utilizando Iteración de Políticas

En este tutorial vamos a implementar el primer método de solución para los Procesos de Decisión de Markov (MDPs). El método a implementar es la iteración de políticas, la cual está basada en la fórmula: 

$$
V_{0}^\pi(s) = 0 \\
V_{k+1}^\pi(s) \leftarrow \sum_{s'} T(s, \pi(s), s')[R(s, \pi(s), s') + \gamma V_k^\pi(s')]
$$

La solución de los MDPs se basa en poder dar un valor a cada uno de los estados a partir de una política dada $\pi$ (siguiendo la fórmula) para ayudar al agente a llegar al objetivo del problema.

## Definición del ambiente

Para poder resolver los MDPs, necesitamos un ambiente. Como ejemplo reutilizaremos el ambiente de Gridworld creado en los tutoriales anteriores.

Para tener encuenta la función de ruido, vamos a definir la función `get_possible_states` a la definición del MDP, la función retorna la probabilidad de pasar a un estado `s'` desde un estado `s` ejecutando la acción `a`. Adicionalmente, junto con la probabilidad se retorna el estado de llegada `s'`. Vamos a definir el ruido para nuestro ambiente que con probabilidad de 0.8 ejecuta la acción `a`, con probabilidad de 0.1 ejecuta la acción a la izquierda de `a` y con probabilidad de 0.1 ejecuta la acción a la derecha de `a`. Dentro de esta funcion usamos la función `get_action_index`, una función auxiliar para poder calcular fácilmente las acciones izquierda y derecha de la acción dada.

Finalmente debemos definir la acción `simulate_action` que se comporta como la función `do_action` sin generar el cambio en el estado actual del ambiente. 

In [None]:
# your code here
raise NotImplementedError

## Implementación del algoritmo de iteración de políticas

De la misma forma que en los tutoriales anteriores, vamos a definir el algoritmo de solución de iteración de políticas incrementalmente, sobre el código de base a continuación y dando la descripción de cada una de las funciones y sus casos de prueba progresivamente.

#### Creación del agente 

Implemente la classe `PolicyIteration` que define cinco atributos. 
Igual que con `ValueIteration` tenemos los atributos:
- `mdp` que corresponde al MDP a resolver (e.g., Gridworld)
- `discount` que corresponde al factor de descuento a utilizar.
- `iterations` que corresponde a el número de iteraciones a realizar
- `values` que corresponde a un mapa con los valores calculados para los estados del MDP. Los estados se definen como una tupla de los valores posibles del estado. En el caso de Gridworld, la tupla es la posición de cada casilla. Inicialmente definiremos el mapa como un mapa vacío, el cual poblaremos con los estados descubiertos durante cada iteración.

Adicionalmente debemos agregar el atributo:
- `policy` que lleva la política calculada. Este atributo se define como un mapa que para cada estado del ambiente tiene la acción a ejecutar. el atributo se debe inicializar con una política aleatoria (únicamente para las casillas válidas, las casillas prohibidas deben tener una política `None`).

Al momento de crear la clase `PolicyIteration`, esta debe recibir por parámetro, un `MDP`, el valor de descuento `discount` (inicializado por defecto en 0.9 si no se pasa ningún valor) y la cantidad de iteraciones a ejecutar `iterations` (con un valor de 64 por defecto).

Tenga en cuenta que la técnica de iteración de políticas se define en dos partes, la evaluación de la política `policy_evaluation` y la mejora de la política `policty_improvement`, definidas como las dos funciones principales de la clase.


In [None]:
# Definición de las librerías a utilizar

import random

#PolicyIteration
class PolicyIteration():
    #1
    def __init__(self, mdp:Gridworld, discount:float =0.9, iterations:int =64):
        # your code here
        raise NotImplementedError
    
    def get_policy(self, state:tuple[int,int]) -> str:
        # your code here
        raise NotImplementedError
    
    def get_value(self, state:tuple[int,int]) -> float:
        # your code here
        raise NotImplementedError
    
    def get_action(self, state:tuple[int,int]) -> float:
        # your code here
        raise NotImplementedError

    def compute_new_action(self, state:tuple[int,int]) -> str:
        # your code here
        raise NotImplementedError

    def value_evaluation(self, state:tuple[int,int], action:str) -> float:
        # your code here
        raise NotImplementedError
        
    def compute_new_value(self, state:tuple[int,int]) -> float:
        # your code here
        raise NotImplementedError
    
    def policy_convergence(self, new_policy:dict[tuple[int,int],float]) -> bool:
        # your code here
        raise NotImplementedError
    
    def policy_improvement(self) -> tuple[bool, dict[tuple[int,int],float]]:
        # your code here
        raise NotImplementedError

    def run_policy_iteration(self) -> tuple[dict[tuple[int,int],float], dict[tuple[int,int],str]]:
        done = False
        i = 1
        policy = {}
        while not done and i <= self.iterations:
            done, policy = self.policy_improvement()
            i += 1
        if done:
            print(f"La política converge en {i} iteraciones")
            print(policy)
        return self.values, self.policy        
        

In [None]:
# your code here
raise NotImplementedError

In [None]:
#Pruebas estructura del agente
### BEGIN TESTS

a = PolicyIteration(gridworld, 0.8, 50)

try:
    a.mdp
except:
    raise Exception("El atributo mdp no está definido")
try:
    a.discount
except:
    raise Exception("El atributo discount no está definido")
try:
    a.iterations
except:
    raise Exception("El atributo iterations no está definido")

try:
    a.values
except:
    raise Exception("El atributo values no está definido")

assert a.mdp == gridworld, "El valor de mdp no se inicializa correctamente al MDP dado por parámetro"
assert a.discount == 0.8, "El valor de discount no se asigna al valor pasado por parámetro 0.8"
assert a.iterations == 50, "El valor de iterations no se asigna al valor pasado por parámetro 50"

a = PolicyIteration(gridworld)
assert a.discount == 0.9, "El valor de discount no se esta asignando por defecto a 0.9"
assert a.iterations == 64, "El valor de iterations no se asigna al valor pasado por parámetro 64"

assert a.values == {}, "El valor de values no es vacio para comenzar"
assert type(a.policy) == dict, "La política se debe inicializar como un mapa, con una acción aleatoria para cada estado"
### END TESTS

#### Política del agente

Implemente la función `get_policy` que recibe un estado por parámetro y retorna la acción (política) actuales para dicho estado.

In [None]:
#Pruebas política

import inspect
### BEGIN TESTS

a = PolicyIteration(gridworld, 0.8, 50)

try:
    a.get_policy
except:
    print("La función get_policy no está definida")

assert len(inspect.signature(a.get_policy).parameters) == 1, "La función get_policy no recibe un parámetro"
assert a.get_policy((2,2)) == None, "Las casillas prohibidas no deberían tener una política asignada, las acciones en estos estados deben ser None"
assert a.get_policy((0,3)) == 'exit', "Las casillas de salida deben tener una política de salida, dado que es la única acción posible en esas casillas"
assert a.get_policy((0,2)) in ["up", "right", "down", "left"], "La política en los estados debe ser una de las acciones posibles para los estados"
### END TESTS

#### Valor de estados

Implemente la función `get_value` que recibe un estado como parámetro y retorna el valor correspondiente para dicho estado. Si el estado no ha sido visitado, supondremos que su valor es 0.

In [None]:
#Pruebas de get_value

a = PolicyIteration(gridworld, 0.8, 50)

### BEGIN TESTS
try:
    a.get_value
except:
    print("La función get_value no está definida")

a.values[(0,3)] = 1
a.values[(1,3)] = -1

assert a.get_value((0,3)) == 1, f"la función get_value no esta retornando el valor guardado en el mapa responde {a.get_value((0,3))} y no 1"
assert a.get_value((0,0)) == 0, f"la función get_value no devuelve el valor de 0 para los estados no visitados, devuelve {a.get_value((0,0))}"

### END TESTS

#### Evaluación de valores 

Defina la función `value_evaluation` tiene como propósito calcular el valor de un estado (sin modificar el atributo de valores), dada una acción.
Esta función recibe por parámetro un estado y una acción a ejecutar en el estado y retorna el valor calculado para dicho estado.  

Note que para poder realizar este cálculo requerimos la nueva función del ambiente `get_possible_states`. La nueva función recibe la acción a ejecutar para el estado a evaluar del ambiente y retorna una lista con las probabilidades de transiciones entre los estados, una lista de recompensas y una lista de los estados de llegada del estado actual.

In [None]:
#Pruebas de value_evaluation

a = PolicyIteration(gridworld, 0.8, 50)

### BEGIN TESTS
try:
    a.value_evaluation
except:
    print("La función value_evaluation no está definida")

a.values[(3,0)] = 0.5
a.values[(2,1)] = 1
a.values[(3,2)] = 0.5

value_up = a.value_evaluation((3,1), 'up')
value_down = a.value_evaluation((3,1), 'down')
assert value_up > value_down, f"la función value_evaluation no esta calculando el valor correctamente los valores segun la fórmula ((3,1), up) debe ser 0.7200000000000002 y no {value_up}"


### END TESTS

#### Cálculo de valor 

Defina la función `compute_new_value` que de forma similar a `value_evaluation` calcula el valor para el estado. La diferencia con la función anterior, es que `compute_new_value` calcula el valor máximo de todas las acciones posibles, dado un estado y no solo el valor de una única acción. 
Esta función recibe un estado como parámetro y calcula el nuevo valor para el estado siguiendo la fórmula de iteración de políticas. Esta función calcula el nuevo valor para el estado actual del agente (`s`) a partir de los estados, las recompensas y los valores de los posibles estados de llegada (`s'`) de acuerdo a la función de transición (o ruido), obteniendo el valor máximo de todas las posibles acciones en el estado de entrada.

Adicional al valor máximo, esta función debe retornar la acción que nos lleva a ese máximo valor.

In [None]:
#Pruebas de compute_new_value

a = PolicyIteration(gridworld, 0.8, 50)

### BEGIN TESTS
try:
    a.compute_new_value
except:
    print("La función compute_new_value no está definida")

a.values[(3,0)] = 0.5
a.values[(2,1)] = 1
a.values[(3,2)] = 0.5

value, action1 = a.compute_new_value((3,1))
assert abs(value - 0.7200000000000002) < 0.000001, f"la función compute_new_value no esta calculando el valor correctamente obtiene el valor {value} y no 0.7200000000000002"
assert action1 == 'up', f"la función compute_new_value no esta calculando la acción del mejor valor correctamente, obtiene {action1} y no up"
value, action2 = a.compute_new_value((0,1))
assert abs(value - 0.0) < 0.000001, f"la función compute_new_value no esta calculando el valor correctamente obtiene el valor {value} y no 0.0"
assert action2 == 'left', f"la función compute_new_value no esta calculando la acción del mejor valor correctamente, obtiene {action2} y no left"
### END TESTS

#### Acción para un estado 

Implemente la función `get_action` que retorna la mejor acción a realizar para un estado dado por parámetro. Está acción corresponde a la acción actual de la política.


In [None]:
#Pruebas de get_action

a = PolicyIteration(gridworld, 0.8, 50)

### BEGIN TESTS
try:
    a.get_action
except:
    print("La función get_action no está definida")


assert a.get_action((2,2)) == None, f"la función get_action debe retornar None para las casillas prohibidas, retorna {a.get_action((2,2))}"
assert a.get_action((2,3)) == a.policy[(2,3)], f"la función get_action debe retornar la acción correspondiente a la política actual"

### END TESTS

#### Calculo de acciones

Implemente la función `compute_new_action` que retorna la nueva mejor acción a realizar luego de ejecutar el cálculo del nuevo valor para un estado. La función recibe un estado como parámetro y retorna la mejor acción a ejecutar para ese estado (actualizando la política).


In [None]:
#Pruebas de compute_new_action

a = PolicyIteration(gridworld, 0.8, 50)

### BEGIN TESTS
try:
    a.compute_new_action
except:
    print("La función compute_new_action no está definida")

a.values[(3,0)] = 0.5
a.values[(2,1)] = 1
a.values[(3,2)] = 0.5
a.policy[(3,1)] = 'right'

assert a.compute_new_action((2,2)) == None, f"la función compute_new_action no debe variar para las casillas prohibidas"
assert a.compute_new_action((0,3)) == 'exit', f"la función compute_new_action no debe variar para las casillas de salida"

assert a.compute_new_action((3,1)) == 'up', f"la función compute_new_action debe retornar la acción correspondiente a la política actual"

### END TESTS

#### Evaluación de convergencia de la política

Implemente la función `policy_convergence` recibe la nueva política calculada como parámetro y evalúa si existió algún cambio. en caso de tener un cambio con la política actual, la función retorna `True`, de lo contrario retorna `False`.

In [None]:
#Pruebas de policy_evaluation

a = PolicyIteration(gridworld, 0.8, 50)

### BEGIN TESTS
try:
    a.policy_convergence
except:
    print("La función policy_convergence no está definida")

for i in range(gridworld.nrows):
    for j in range(gridworld.ncols):
        a.policy[(i,j)] = 'down'
a.policy[(1,1)] = ''
a.policy[(2,2)] = ''
a.policy[(0,3)] = 'exit'
a.policy[(1,3)] = 'exit'

policy1 = a.policy
policy2 = {}
for i in range(gridworld.nrows):
    for j in range(gridworld.ncols):
        policy2[(i,j)] = random.choice(['up', 'right', 'down', 'left'])
policy2[(1,1)] = ''
policy2[(2,2)] = ''
policy2[(0,3)] = 'exit'
policy2[(1,3)] = 'exit'



assert a.policy_convergence(policy1) == False, f"la función policy_evaluation no retorna False si no hay cambio en la política"
assert a.policy_convergence(policy2) == True, f"la función policy_evaluation no retorna True si hay un cambio en la política"


### END TESTS

#### Mejora de políticas

Implemente la función `policy_improvement` encargada de ejecutar la iteración de políticas en tres pasos. 
1. Primero se realiza el cálculo de los nuevos valores. esto quiere decir que para cada uno de los estados del ambiente se calcula su nuevo valor utilizando la política actual.
2. Segundo, para los nuevos valores se revisa la mejora de la política calculando la mejor acción posible para cada uno de los estados (usando función `compute_new_action`). 
3. Tercero, se evalúa la política calculada de las nuevas acciones en el paso anterior, actualizando la política si se encontraron mejores acciones. Si no hay una mejor acción, función debe retornar la política calculada y un indicador que hay convergencia para detener la iteración.

La función debe retornar `True` si la política converge y `False` si no lo hace, junto con la política calculada 

In [None]:
#Pruebas de policy_improvement

a = PolicyIteration(gridworld, 0.8, 50)

### BEGIN TESTS
try:
    a.policy_improvement
except:
    raise Exception("La función policy_improvement no está definida")


a.values[(3,0)] = 0.5
a.values[(2,1)] = 1
a.values[(3,2)] = 0.5
for i in range(gridworld.nrows):
    for j in range(gridworld.ncols):
        a.policy[(i,j)] = 'down'
a.policy[(1,1)] = ''
a.policy[(2,2)] = ''
a.policy[(0,3)] = 'exit'
a.policy[(1,3)] = 'exit'

res, policy = a.policy_improvement()
assert res == False, f"la función policy_improvement no debe estabilizarce en tan solo una iteración teniendo en cuenta la política dada"
assert policy[(3,1)] == 'left', f"La política para el estado (3,1) debe cambiar de 'down' a 'left', no {policy[(3,1)]}"
### END TESTS


#### Ejecución del agente 

Finalmente definimos la función `run_policy_iteration` que no recibe ningún parámatro y ejecuta el algoritmo de solución del MDP.

Esta función ejecuta el número de iteraciones dadas a la clase. Para cada una de las iteraciones se debe calcular el nuevo valor para cada uno de los estados `(i,j)` del ambiente y la nueva política. 

Tenga en cuenta que el cálculo de los nuevos valores se debe realizar con los valores anteriores y únicamente se deben actualizar los valores cuando se actualicen los valores para todos los estados.

In [None]:
#Pruebas de ejecución del agente

a = PolicyIteration(gridworld, 0.8, 100)

### BEGIN TESTS
try:
    a.run_policy_iteration
except:
    print("La función run_policy_iteration no está definida")


a.run_policy_iteration()

### END TESTS