## El objetivo de este ejercicio es calcular la función de valor de una política dada usando Diferencias Temporales.
<img src="Prediccion_TD.PNG">

In [1]:
%matplotlib inline

import gym
import matplotlib
import numpy as np

from collections import defaultdict
import itertools

# en caso de correrlo en google colab
# de esta manera podremos tener la carpeta lib (donde se encuentra en ambiente Gridworld)

import sys
#if "../" not in sys.path:
#  sys.path.append("../") 

#!git clone https://github.com/julianfm7/cursoRL-FIUBA

# necesario en google colab para que sys.path busque
# y encuentre la carpeta lib donde se encuentra el ambiente Gridworld

#!mv cursoRL-FIUBA cursoRLFIUBA

#import numpy as np
from lib.envs.gridworld import GridworldEnv

from lib import plotting

matplotlib.style.use('ggplot')

In [2]:
env = GridworldEnv()

In [15]:
def td_prediction(policy, env, num_episodes, discount_factor=1.0, alpha=0.01):
    """
    Algoritmo de predicción por diferencias temporales.
    Calcula la función de valor dada una política utilizando diferencias temporales para los updates.
    
    Argumentos:
        policy: Una función que dada una observación toma una acción
        env: ambiente de OpenAI gym.
        num_episodes: número de episodios para samplear en total.
        discount_factor: factor de descuento gama.
    
    Returns:
    Retorna:
        Un diccionario que mapea de estado -> valor
    """
    # la función de valor final
    V = defaultdict(float)
    
    # por cada episodio desde 1 hasta el número de episodios
    for num_episode in range(num_episodes):
        # hacer print del número de episodio si es múltiplo de 1000 para observar el avance
        if num_episode % 1000 == 0:
            print("\rEpisodio {}/{}.".format(num_episode, num_episodes), end="")
            sys.stdout.flush()
            
        episode = []
        # resetear el ambiente, obtener el primer estado
        state = env.reset()
        
        # mientras no lleguemos estado terminal
        while (state not in [0, 15]): # estados terminales 0 y 15
            # obtener la próxima acción según la política
            action = policy(state)
            
            # tomar la acción en el ambiente
            new_state, reward, done, _ = env.step(action)
            
            # actualizar V según la fórmula de diferencias temporales
            V[state] = V[state] + alpha*(reward + discount_factor*V[new_state] - V[state])
            
            # pasar al próximo estado
            state = new_state
            
            
            
    # devolver la función de valor
    return V    

In [16]:
def sample_policy(observation):
    """
    Política aleatoria
    """
    return np.random.choice(4)

In [17]:
V = td_prediction(sample_policy, env, num_episodes=500000)

Episodio 499000/500000.

In [18]:
print(V)

defaultdict(<class 'float'>, {1: -15.457973915843407, 2: -20.857866422785612, 5: -18.587483136660236, 0: 0.0, 11: -12.452316749376825, 7: -20.29437517462741, 15: 0.0, 10: -17.752916674528354, 6: -20.343652686530433, 14: -13.3305793102983, 13: -20.03385962319272, 12: -21.79774640707365, 8: -20.00411611194708, 4: -14.157780521552041, 9: -20.06907477377183, 3: -22.434779205584373})


In [20]:
for i in range(16):
    print(V[i])

0.0
-15.457973915843407
-20.857866422785612
-22.434779205584373
-14.157780521552041
-18.587483136660236
-20.343652686530433
-20.29437517462741
-20.00411611194708
-20.06907477377183
-17.752916674528354
-12.452316749376825
-21.79774640707365
-20.03385962319272
-13.3305793102983
0.0


In [None]:
# deberia ser:
np.array([0, -14, -20, -22, -14, -18, -20, -20, -20, -20, -18, -14, -22, -20, -14, 0])