# Métodos de Monte Carlo

En este ejercicio vamos a implementar la primera solución para los problemas de aprendizaje por refuerzo, los métodos de Monte Carlo. 

Recuerde que el método de Monte Carlo consiste en la colección de muestras calculando los valores para la secuencia completa de los estados hasta el estado final. Una vez se han coleccionado "suficientes" muestras, el valor de los estados se toma como el valor promedio de las muestras sobre las cuales apareció el estado.

Para resolver problemas de aprendizaje por refuerzo utilizando el método de Monte Carlo crearemos un archivo `mcm.py`. Inicialmente utilizaremos este archivo para solucionar el problema sobre el ambiente de Gridworld (suponiendo un ruido de `0.25` para las acciones, es decir que la probabilidad de ejecutar la acción deseada es de 0.75 y una acción aleatoria (dividida en partes iguales) con probabilidad de 0.25).

**Task 1**
1.	Implemente la classe `MCM` para solucionar Gridworld sin conocer los detalles del modelo de MDP para el problema. Es decir, en este caso, nuestro agente de `MCM` no tendrá acceso al `mdp` como era el caso para la iteración de valores o iteración de políticas.

2. El comportamiento del agente (de Monte Carlo) esta dado por dos momentos. El proceso de recolección de muestras y el proceso de explotación de las mismas, es decir, el cálculo de la política del agente. Usted debe implementar el comportamiento del agente dado que, ejecutando episodios como muestras, sea capaz de calcular los valores para los estados.

Para la implementación de `MCM` responda las siguientes preguntas. Tenga en cuenta que debe ejecutar su agente múltiples veces para poder observar el comportamiento (una sola instancia no nos puede llevar a ninguna conclución).
Justifique su respuestas con análisis de la ejejcución y gráficas del comportamiento.
1. ¿Cuantas muestras debe tomar el agente? Su implementación no debe utilizar este número como un parámetro o tenerlo como un factor predeterminado del agente.
2. ¿Cómo se comparan los valores de `MCM` con respecto a los valores obtenidos en el ejercicio de iteración de valores `value_iteration`? ¿Porqué se da la diferencia si existe alguna, o porqué no existe ninguna diferencia?   
3. ¿Cómo se compara la política obtenida utilizando `MCM` con respecto a la política obtenida en el jercicio de iteración de políticas `policy_iteration`? ¿Porqué se da la diferencia si existe alguna, o porqué no existe ninguna diferencia?
4. ¿Cuál es el efecto de del factor de descuento sobre el método de Monte Carlo, calcule la solución de Gridworld con diferentes valores?


In [1]:
import pandas as pd

from mcm import MonteCarloAgent
from environment_world import EnvironmentWorld

grid_world = EnvironmentWorld([
    ['S'] + [' '] * 9,
    [' '] * 10,
    [' ', '#', '#', '#', '#', ' ', '#', '#', '#', ' '],
    [' ', ' ', ' ', ' ', '#', ' ', ' ', ' ', ' ', ' '],
    [' ', ' ', ' ', ' ', '#', '-1', ' ', ' ', ' ', ' '],
    [' ', ' ', ' ', ' ', '#', '+1', ' ', ' ', ' ', ' '],
    [' ', ' ', ' ', ' ', '#', ' ', ' ', ' ', ' ', ' '],
    [' ', ' ', ' ', ' ', '#', '-1', '-1', ' ', ' ', ' '],
    [' '] * 10,
    [' '] * 10
])

In [5]:
montecarlo_agent = MonteCarloAgent(grid_world, discount_factor=1, initial_epsilon=0.9, epsilon_decay=0.999)

In [None]:
montecarlo_agent.learn(max_episodes=10000, convergence_check_frequency=100, convergence_patience=10)

Episodes:   5%|▌         | 541/10000 [00:25<12:46, 12.33it/s]

In [7]:
policy = [[None for i in range(grid_world.num_rows)] for j in range(grid_world.num_cols)] 
for x in range(grid_world.num_rows):
    for y in range(grid_world.num_cols):
        for action in grid_world.ACTIONS:
            if montecarlo_agent.policy[(x, y)][action]:
                policy[y][x] = action.value
                break

print(pd.DataFrame(policy))

montecarlo_agent.policy[(4,5)]

       0      1     2      3      4     5      6      7      8     9
0  right   down  left     up     up    up     up  right     up    up
1     up  right    up  right  right    up  right     up     up    up
2     up   None  None   None   None    up   None   None   None  down
3     up     up    up     up   None    up  right  right  right  down
4  right     up    up     up   None  None     up   down   down  left
5   down     up    up   down   None  None   left   left   left    up
6  right     up  left   down   None    up  right     up   left  left
7     up   left    up     up   None  None   None     up     up  left
8     up   left    up  right  right  left   left     up     up    up
9     up     up  left     up     up    up     up     up   left    up


defaultdict(float,
            {<Action.UP: 'up'>: 0.0,
             <Action.RIGHT: 'right'>: 0.0,
             <Action.DOWN: 'down'>: 0.0,
             <Action.LEFT: 'left'>: 0.0})