# Iteración de Políticas

En este ejercicio vamos a implementar el segundo método para solucionar Procesos de Decisión de Markov (MDPs). El método a implementar es la iteración de políticas.

La iteración de políticas esta basada en la fórmula:

![policy_iteration](https://raw.githubusercontent.com/FLAGlab/isis4222-rl/a502e264157729fcb8cc00d484e4a8e8e4734a15/week4/img/policy.png)

Para resolver los MDPs crearemos un archivo `value_iteration.py` el cual utilizaremos para solucionar el ambiente de Gridworld.

**Task 2**
1.	Implemente la classe `PolicyIteration` basada en `ValueIteration`, implementada anteriormente. Teniendo en cuenta los cambios relevantes que deba implementar. Tenga en cuenta que tanto `policy_evaluation` como `policty_iteration` deben ser funciones independientes.

# Entrega

Para esta tarea debe entregar: 
- La implementación de la iteración de políticas para solucionar MDPs (`policy_iteration.py`).
- Un documento de análisis respondiendo a las siguientes preguntas (con screenshots de la solución y las explicaciones correspondientes del comportamiento observado).
  -	Ejecute su implementación de iteración de políticas sobre Gridworld y Bridge. ¿Cuando convergen las políticas?
  -	Pruebe la implementación sobre el ambiente de Bridge utilizando factores de descuento 0.9 y 0.1. ¿Qué cambios observa (si algúno) y como puede explicarlos. 
  
  Recuerde que el ambiente del puente se define con la matriz de `3x7` donde las filas 1 y 3 tienen recompensa -100 entre las columnas 2 y 6. La fila 2 corresponde a el puente, con entrada en la casilla `(2,1)` y salida en la casilla `(2,7)` con recompensa 100, como se muestra en la figura

  ![bridge](https://raw.githubusercontent.com/FLAGlab/isis4222-rl/a502e264157729fcb8cc00d484e4a8e8e4734a15/week4/img/bridge.png)


In [1]:

from assignment_agent_iteration.grid_world import EnvironmentWorld
import pandas as pd

from assignment_agent_iteration.policy_iteration import PolicyIteration

pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

grid_world = EnvironmentWorld([
    ['S'] + [' '] * 9,
    [' '] * 10,
    [' ', '#', '#', '#', '#', ' ', '#', '#', '#', ' '],
    [' ', ' ', ' ', ' ', '#', ' ', ' ', ' ', ' ', ' '],
    [' ', ' ', ' ', ' ', '#', '-1', ' ', ' ', ' ', ' '],
    [' ', ' ', ' ', ' ', '#', '+1', ' ', ' ', ' ', ' '],
    [' ', ' ', ' ', ' ', '#', ' ', ' ', ' ', ' ', ' '],
    [' ', ' ', ' ', ' ', '#', '-1', '-1', ' ', ' ', ' '],
    [' '] * 10,
    [' '] * 10
])

bridge_world = EnvironmentWorld([
    ['#', '-100', '-100', '-100', '-100', '-100', '#'],
    ['+1', 'S', ' ', ' ', ' ', ' ', '+100'],
    ['#', '-100', '-100', '-100', '-100', '-100', '#'],
])

print(grid_world)
print('\n\n')
print(bridge_world)

    0  1  2  3  4   5   6  7  8  9
0  SC                             
1                                 
2      #  #  #  #       #  #  #   
3               #                 
4               #  -1             
5               #  +1             
6               #                 
7               #  -1  -1         
8                                 
9                                 



    0     1     2     3     4     5     6
0   #  -100  -100  -100  -100  -100     #
1  +1    SC                          +100
2   #  -100  -100  -100  -100  -100     #


In [2]:
policy_iterator_grid_world = PolicyIteration(grid_world)
iterations_to_converge_grid = policy_iterator_grid_world.run_policy_iteration()
print('Grid World Values')
print(policy_iterator_grid_world)
print('Grid World Policy')
print(policy_iterator_grid_world.get_full_policy().map(lambda action: action.name if action else 'NONE'))
print(f'Iterations to converge: {iterations_to_converge_grid}\n')

policy_iterator_bridge_world = PolicyIteration(bridge_world)
iterations_to_converge_bridge = policy_iterator_grid_world.run_policy_iteration()
print('Bridge World Values')
print(policy_iterator_bridge_world)
print('Bridge World Policy')
print(policy_iterator_bridge_world.get_full_policy().map(lambda action: action.name if action else 'NONE'))
print(f'Iterations to converge: {iterations_to_converge_bridge}\n')

Grid World Values
          0         1         2         3         4         5         6         7         8         9
0  0.192268  0.298091  0.416345  0.548492  0.685885  0.813113  0.667277  0.489809  0.438292  0.535297
1  0.192957  0.334264  0.478574  0.654671  0.866203  1.118372  0.807745  0.572559  0.574757  0.769046
2  0.116213       NaN       NaN       NaN       NaN  1.544084       NaN       NaN       NaN  1.099033
3  0.055296  0.026462  0.023817  0.032569       NaN  1.923278  2.182248  2.060910  1.746832  1.395578
4  0.027455  0.033723  0.051120  0.071865       NaN  3.415325  2.809101  2.475173  2.006513  1.571647
5  0.046320  0.074524  0.106644  0.139814       NaN  3.770681  3.675020  2.859822  2.237047  1.738443
6  0.088253  0.138485  0.192448  0.244485       NaN  3.821483  3.302734  2.753050  2.242061  1.790945
7  0.134615  0.214156  0.304928  0.391780       NaN  2.493228  2.428174  2.135222  1.876962  1.589826
8  0.159552  0.266935  0.409744  0.593576  0.828451  1.132087  1

In [4]:
policy_iterator_grid_world.get_action((5,4))

<Action.UP: 'up'>