# Métodos de Monte Carlo

En este ejercicio vamos a implementar la primera solución para los problemas de aprendizaje por refuerzo, los métodos de Monte Carlo. 

Recuerde que el método de Monte Carlo consiste en la colección de muestras calculando los valores para la secuencia completa de los estados hasta el estado final. Una vez se han coleccionado "suficientes" muestras, el valor de los estados se toma como el valor promedio de las muestras sobre las cuales apareció el estado.

Para resolver problemas de aprendizaje por refuerzo utilizando el método de Monte Carlo crearemos un archivo `mcm.py`. Inicialmente utilizaremos este archivo para solucionar el problema sobre el ambiente de Gridworld (suponiendo un ruido de `0.25` para las acciones, es decir que la probabilidad de ejecutar la acción deseada es de 0.75 y una acción aleatoria (dividida en partes iguales) con probabilidad de 0.25).

**Task 1**
1.	Implemente la classe `MCM` para solucionar Gridworld sin conocer los detalles del modelo de MDP para el problema. Es decir, en este caso, nuestro agente de `MCM` no tendrá acceso al `mdp` como era el caso para la iteración de valores o iteración de políticas.

2. El comportamiento del agente (de Monte Carlo) esta dado por dos momentos. El proceso de recolección de muestras y el proceso de explotación de las mismas, es decir, el cálculo de la política del agente. Usted debe implementar el comportamiento del agente dado que, ejecutando episodios como muestras, sea capaz de calcular los valores para los estados.

Para la implementación de `MCM` responda las siguientes preguntas. Tenga en cuenta que debe ejecutar su agente múltiples veces para poder observar el comportamiento (una sola instancia no nos puede llevar a ninguna conclución).
Justifique su respuestas con análisis de la ejejcución y gráficas del comportamiento.
1. ¿Cuantas muestras debe tomar el agente? Su implementación no debe utilizar este número como un parámetro o tenerlo como un factor predeterminado del agente.
2. ¿Cómo se comparan los valores de `MCM` con respecto a los valores obtenidos en el ejercicio de iteración de valores `value_iteration`? ¿Porqué se da la diferencia si existe alguna, o porqué no existe ninguna diferencia?   
3. ¿Cómo se compara la política obtenida utilizando `MCM` con respecto a la política obtenida en el jercicio de iteración de políticas `policy_iteration`? ¿Porqué se da la diferencia si existe alguna, o porqué no existe ninguna diferencia?
4. ¿Cuál es el efecto de del factor de descuento sobre el método de Monte Carlo, calcule la solución de Gridworld con diferentes valores?


In [5]:

from environment_world import EnvironmentWorld
from mcm import MonteCarloAgent

grid_world = EnvironmentWorld([
    ['S'] + [' '] * 9,
    [' '] * 10,
    [' ', '#', '#', '#', '#', ' ', '#', '#', '#', ' '],
    [' ', ' ', ' ', ' ', '#', ' ', ' ', ' ', ' ', ' '],
    [' ', ' ', ' ', ' ', '#', '-1', ' ', ' ', ' ', ' '],
    [' ', ' ', ' ', ' ', '#', '+1', ' ', ' ', ' ', ' '],
    [' ', ' ', ' ', ' ', '#', ' ', ' ', ' ', ' ', ' '],
    [' ', ' ', ' ', ' ', '#', '-1', '-1', ' ', ' ', ' '],
    [' '] * 10,
    [' '] * 10
], noise=0.25)

In [2]:
montecarlo_agent = MonteCarloAgent(grid_world, discount_factor=0.9, initial_epsilon=0.9, epsilon_decay=0.999)
montecarlo_agent.learn(max_episodes=1000, convergence_check_frequency=10000, convergence_patience=1)
montecarlo_agent.print_policy()

Episodes: 100%|██████████| 1000/1000 [10:32<00:00,  1.58it/s]

       0      1      2      3      4      5      6      7      8     9
0   down  right  right  right  right  right  right  right  right  down
1  right     up   left   left   left   left     up  right     up  down
2     up   None   None   None   None     up   None   None   None  down
3     up     up  right     up   None     up  right   down   left  down
4     up   left   left   left   None   None   down   down   down  left
5     up   left     up   left   None   None   left   left   left    up
6     up   left     up     up   None     up     up     up     up    up
7     up   left   left     up   None   None   None  right  right    up
8     up   left   left   left   left   left   down  right  right  left
9   left     up   left   left   left   left  right  right  right    up





In [3]:
montecarlo_agent = MonteCarloAgent(grid_world, discount_factor=0.5, initial_epsilon=0.9, epsilon_decay=0.999)
montecarlo_agent.learn(max_episodes=1000, convergence_check_frequency=10, convergence_patience=1)
montecarlo_agent.print_policy()

Episodes: 100%|██████████| 1000/1000 [00:47<00:00, 20.98it/s]

      0     1     2     3     4      5      6      7      8      9
0  down    up  left    up    up  right  right  right   down   down
1    up  down    up    up  left   left   down  right  right   down
2  left  None  None  None  None     up   None   None   None   down
3  left  down    up  left  None     up  right  right   down   down
4  left    up  left  left  None   None   down   down   down   down
5    up  left  left    up  None   None   left   left   left   left
6    up  left  left    up  None     up     up     up     up     up
7  left    up  left    up  None   None   None  right  right     up
8    up  down    up    up  down   down   down   down  right   down
9  down  left  left  left  left   left  right  right   down  right





In [4]:
montecarlo_agent = MonteCarloAgent(grid_world, discount_factor=1, initial_epsilon=0.9, epsilon_decay=0.999)
montecarlo_agent.learn(max_episodes=1000, convergence_check_frequency=10, convergence_patience=1)
montecarlo_agent.print_policy()

Episodes: 100%|██████████| 1000/1000 [00:05<00:00, 181.80it/s]

       0      1      2     3      4      5      6     7      8      9
0   down   left  right  left   down   down   left    up  right   down
1  right  right   left    up  right  right   left  down   down   down
2   down   None   None  None   None   left   None  None   None   down
3     up   left     up  down   None  right   down  down   left  right
4     up   down  right  left   None   None   down  down  right   down
5     up   down     up  down   None   None   left  left  right   left
6     up   left     up  down   None     up  right    up   left  right
7  right   down  right  left   None   None   None    up   left     up
8   left     up  right  down   left   left  right  down     up   left
9     up   down     up  left   left     up   left    up  right     up





In [10]:
def print_value_iteration(value_iteration, previous_values=None, previous_iterations=None):
    print(f'\n{"_" * 8} iterations={value_iteration.iterations} discount={value_iteration.discount} {"_" * 8}')
    current_value = pd.DataFrame(value_iteration.values)
    if previous_values is not None:
        average_square_error = ((current_value - previous_values) ** 2).fillna(0).values.sum() / (
                current_value.count().sum() * (value_iteration.iterations - previous_iterations))
        print(f'average_square_error (measure of convergence) = {average_square_error}')
    print("___values___")
    print(value_iteration)
    print("___policy___")
    print(value_iteration.get_full_policy().map(lambda action: action.name if action else 'NONE'))

In [11]:
from assignment_montecarlo.value_iteration import ValueIteration
import pandas as pd

previous_values = None
previous_iterations = 0
grid_value_iteration = ValueIteration(grid_world, discount=0.9)
for iteration_number in [10] * 10:
    grid_value_iteration.run_value_iteration(iterations=iteration_number)
    print_value_iteration(grid_value_iteration, previous_values, previous_iterations)
    previous_values = pd.DataFrame(grid_value_iteration.values)
    previous_iterations += iteration_number


________ iterations=100 discount=0.9 ________
___values___
              0             1             2             3         4         5  \
0 -1.259558e-10 -1.357687e-09  9.394524e-02  1.299479e-01  0.223583  0.246648   
1 -2.719390e-10  7.633054e-02  1.126215e-01  2.135490e-01  0.245981  0.320064   
2 -1.295890e-11  0.000000e+00  0.000000e+00  0.000000e+00  0.000000  0.362799   
3 -6.694781e-13 -1.405904e-11 -6.034699e-11 -3.134467e-10  0.000000  0.424487   
4 -2.343173e-11 -1.274357e-10 -1.172151e-09 -4.079587e-09  0.000000  0.000000   
5 -1.855355e-10 -2.310449e-09 -1.407781e-08 -6.738875e-08  0.000000  0.000000   
6 -2.504977e-09 -2.038024e-08 -1.847121e-07 -1.051710e-06  0.000000  0.836791   
7 -1.528886e-08 -1.814655e-07 -1.958662e-06  4.606123e-02  0.000000  0.000000   
8 -7.450628e-08 -9.685962e-07  4.606192e-02  4.701256e-02  0.138915  0.101828   
9 -6.377817e-08 -3.665784e-07 -4.481108e-06  1.055245e-01  0.126061  0.259679   

          6         7         8         9  
0  0

1. ¿Cuántas muestras debe tomar el agente? Su implementación no debe utilizar este número como un parámetro o tenerlo como un factor predeterminado del agente.
    - En el caso del metodo de monte carlo el agente converge a una estrategia en alrededor de 1000 iteraciones; sin embargo, hay ciertas estrategias que no consigue (más adelante en el archivo se explica por qué)
2. ¿Cómo se comparan los valores de `MCM` con respecto a los valores obtenidos en el ejercicio de iteración de valores `value_iteration`? ¿Por qué se da la diferencia si existe alguna, o por qué no existe ninguna diferencia?
La diferencia es que el agente MCM no encuentra la estrategia pasando por el estrecho en las coordenadas (5, 3) esto es debido a que la estrategia es muy sensible a errores, por lo tanto, si el epsilon es alto la estrategia no será efectiva en las simulaciones. Por otro lado, si el epsilon es muy bajo no se encontrará la estrategia porque el agente no explorar ese espacio.
3. ¿Cómo se compara la política obtenida utilizando `MCM` con respecto a la política obtenida en el ejercicio de iteración de políticas `policy_iteration`? ¿Por qué se da la diferencia si existe alguna, o por qué no existe ninguna diferencia?
Los resultados difieren en la misma forma que lo hace la iteration de valores por las mismas razones
4. ¿Cuál es el efecto de del factor de descuento sobre el método de Monte Carlo, calcule la solución de Gridworld con diferentes valores?
En el caso de un descuento de uno el agente ya no busca los caminos más cortos, sino los más seguros, es decir optimiza evitar los -1s más que acercarse. en el caso del descuento muy bajo el agente se arriesga más para llegar más rapido al objetivo