<div style="width: 100%; clear: both;">
<div style="float: left; width: 50%;">
<img src="http://www.uoc.edu/portal/_resources/common/imatges/marca_UOC/UOC_Masterbrand.jpg", align="left">
</div>
<div style="float: right; width: 50%;">
<p style="margin: 0; padding-top: 22px; text-align:right;">M2.883 · Aprendizaje por refuerzo</p>
<p style="margin: 0; text-align:right;">Máster universitario en Ciencia de datos (<i>Data science</i>)</p>
<p style="margin: 0; text-align:right; padding-button: 100px;">Estudios de Informática, Multimedia y Telecomunicación</p>
</div>
</div>
<div style="width:100%;">&nbsp;</div>


# Módulo 1: ejemplos de OpenAI Gym

En este _notebook_ cargaremos algunos de los escenarios de OpenAI Gym y veremos la interacción entre algunos agentes y estos escenarios o entornos.

## 1. CartPole
En este primer ejemplo vamos a cargar el entorno CartPole y realizaremos algunas pruebas.

### 1.1. Carga de datos

El siguiente código carga los paquetes necesarios para el ejemplo, crea el entorno mediante el método `make` e imprime por pantalla la dimensión del espacio de acciones (dos acciones: 0 = izquierda y 1 = derecha), del espacio de observaciones (cuatro observaciones: posición del carro, velocidad del carro, ángulo del poste y velocidad del poste en la punta) y el rango de la variable de recompensa (de menos infinito a más infinito).

In [1]:
import gym
import numpy as np

env = gym.make('CartPole-v1')
print("Action space is {} ".format(env.action_space))
print("Observation space is {} ".format(env.observation_space))
print("Reward range is {} ".format(env.reward_range))

Action space is Discrete(2) 
Observation space is Box([-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], [4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38], (4,), float32) 
Reward range is (-inf, inf) 


  "Initializing wrapper in old step API which returns one bool instead of two. It is recommended to set `new_step_api=True` to use new step API. This will be the default behaviour in future."
  "Initializing environment in old step API which returns one bool instead of two. It is recommended to set `new_step_api=True` to use new step API. This will be the default behaviour in future."


Seguidamente, reseteamos el entorno (acción que hay que realizar siempre después de la creación de éste) e inicializamos las variables que guardarán el número de pasos ejecutados (t), la recompensa acumulada (`total_reward`) y la variable que nos indicará cuándo finaliza un episodio (done).

In [2]:
# Environment reset
obs = env.reset()
t, total_reward, done = 0, 0, False

### 1.2. Ejecución de un episodio

A continuación, realizaremos la ejecución de un episodio del entorno CartPole utilizando un agente que selecciona las acciones de forma aleatoria.

El siguiente código realiza la ejecución de un episodio del entorno (este finaliza cuando la variable `done` toma el valor `True`). El agente se implementa mediante el método  `env.action_space.sample()` que selecciona una acción al azar. Se imprime por pantalla para cada paso (_time step_) la observación que genera el entorno (los cuatro valores comentados anteriormente), la acción seleccionada y la recompensa obtenida en ese paso (+ 1 en cada acción hasta que finaliza el episodio).

In [3]:
while not done:
    
    # Render the environment (Doesn't work in Google Colab) 
    #env.render() # --- Uncomment if you want to see the episode
    
    # Get random action (this is the implementation of the agent)
    action = env.action_space.sample()
    
    # Execute action and get response
    new_obs, reward, done, info = env.step(action)
    print("Obs: {} -> Action: {} and reward: {}".format(np.round(obs, 3), action, reward))
    
    obs = new_obs
    total_reward += reward
    t += 1
    
total_reward += reward
t += 1
print("Obs: {} -> Action: {} and reward: {}".format(np.round(obs, 3), action, reward))

Obs: [ 0.029 -0.002  0.013 -0.027] -> Action: 0 and reward: 1.0
Obs: [ 0.029 -0.198  0.012  0.269] -> Action: 0 and reward: 1.0
Obs: [ 0.025 -0.393  0.017  0.566] -> Action: 0 and reward: 1.0
Obs: [ 0.018 -0.588  0.029  0.864] -> Action: 1 and reward: 1.0
Obs: [ 0.006 -0.394  0.046  0.58 ] -> Action: 1 and reward: 1.0
Obs: [-0.002 -0.199  0.058  0.303] -> Action: 1 and reward: 1.0
Obs: [-0.006 -0.005  0.064  0.029] -> Action: 0 and reward: 1.0
Obs: [-0.006 -0.201  0.064  0.341] -> Action: 1 and reward: 1.0
Obs: [-0.01  -0.007  0.071  0.069] -> Action: 1 and reward: 1.0
Obs: [-0.01   0.187  0.072 -0.201] -> Action: 0 and reward: 1.0
Obs: [-0.007 -0.009  0.068  0.114] -> Action: 1 and reward: 1.0
Obs: [-0.007  0.185  0.071 -0.156] -> Action: 0 and reward: 1.0
Obs: [-0.003 -0.011  0.068  0.158] -> Action: 1 and reward: 1.0
Obs: [-0.003  0.183  0.071 -0.113] -> Action: 0 and reward: 1.0
Obs: [ 0.    -0.013  0.068  0.201] -> Action: 1 and reward: 1.0
Obs: [ 0.     0.181  0.072 -0.069] -> Ac

Finalmente, imprimimos los resultados y cerramos el entorno.

In [4]:
print("Episode finished after {} timesteps and reward was {} ".format(t, total_reward))
env.close()

Episode finished after 53 timesteps and reward was 53.0 


### 1.3. Simulando varios episodios

El siguiente fragmento de código repite el proceso del apartado anterior para el número de episodios definido en la variable `num_episodes`.

In [5]:
num_episodes = 10

for episode in range(num_episodes):

    # Environment reset
    obs = env.reset()
    t, total_reward, done = 0, 0, False
    
    print('Running episode {} '.format(episode+1))
    
    while not done:
    
        # Render the environment (Doesn't work in Google Colab)
        #env.render() # --- Uncomment if you want to see the episode
    
        # Get random action (this is the implementation of the agent)
        action = env.action_space.sample()
    
        # Execute action and get response
        new_obs, reward, done, info = env.step(action)
        print("Obs: {} -> Action: {} and reward: {}".format(np.round(obs, 3), action, reward))
    
        obs = new_obs
        total_reward += reward
        t += 1
        
    total_reward += reward
    t += 1
    print("Obs: {} -> Action: {} and reward: {}".format(np.round(obs, 3), action, reward))
    print("Episode {} finished after {} timesteps and reward was {} ".format(episode+1, t, total_reward))
    print('')
    
env.close()

Running episode 1 
Obs: [-0.032  0.021 -0.019  0.018] -> Action: 1 and reward: 1.0
Obs: [-0.032  0.217 -0.018 -0.281] -> Action: 0 and reward: 1.0
Obs: [-0.027  0.022 -0.024  0.006] -> Action: 0 and reward: 1.0
Obs: [-0.027 -0.173 -0.024  0.291] -> Action: 1 and reward: 1.0
Obs: [-0.03   0.022 -0.018 -0.009] -> Action: 1 and reward: 1.0
Obs: [-0.03   0.218 -0.018 -0.307] -> Action: 0 and reward: 1.0
Obs: [-0.026  0.023 -0.024 -0.02 ] -> Action: 0 and reward: 1.0
Obs: [-0.025 -0.172 -0.025  0.264] -> Action: 0 and reward: 1.0
Obs: [-0.029 -0.367 -0.02   0.549] -> Action: 1 and reward: 1.0
Obs: [-0.036 -0.171 -0.009  0.25 ] -> Action: 1 and reward: 1.0
Obs: [-0.039  0.024 -0.004 -0.045] -> Action: 0 and reward: 1.0
Obs: [-0.039 -0.171 -0.004  0.247] -> Action: 0 and reward: 1.0
Obs: [-0.042 -0.366  0.     0.538] -> Action: 0 and reward: 1.0
Obs: [-0.05  -0.561  0.011  0.831] -> Action: 1 and reward: 1.0
Obs: [-0.061 -0.366  0.028  0.542] -> Action: 1 and reward: 1.0
Obs: [-0.068 -0.172  

## 2. Frozen Lake
En este segundo ejemplo vamos a cargar el entorno FrozenLake y volveremos a realizar algunas pruebas.

### 2.1. Carga de datos

De la misma forma que en el ejemplo inicial, el siguiente código carga los paquetes necesarios para el ejemplo, crea el entorno mediante el método `make` e imprime por pantalla la dimensión del espacio de acciones (0 = izquierda, 1 = derecha, 2 = abajo y 3 = arriba), el espacio de observaciones (un número del 0 al 15 que indica la posición del agente en el entorno) y el rango de la variable de recompensa (0 para cualquier acción excepto si se llega a la casilla de destino, en cuyo caso la recompensa es 1).

In [6]:
import time

env = gym.make('FrozenLake-v1')
print("Action space is {} ".format(env.action_space))
print("Observation space is {} ".format(env.observation_space))
print("Reward range is {} ".format(env.reward_range))

Action space is Discrete(4) 
Observation space is Discrete(16) 
Reward range is (0, 1) 


### 2.2. Ejecución de un episodio

A continuación, realizaremos la ejecución de un episodio del entorno FrozenLake utilizando un agente que selecciona las acciones de forma aleatoria.

En el siguiente código inicializamos el entorno, definimos el máximo número de pasos por episodio (`max_steps`) y realizamos la ejecución de un episodio del entorno (este finaliza cuando la variable 'done' toma el valor 'True' o cuando se alcanza el número máximo de pasos estipulado). De nuevo, utilizamos un agente que implementa una política completamente aleatoria (`env.action_space.sample()`). Mediante el método `env.render()` podemos ir viendo la evolución del agente en el entorno desde la casilla de salida S hasta que llega a la casilla de destino G o cae en un agujero H.

In [7]:
# Environment reset
obs = env.reset()
t, total_reward, done = 0, 0, False
max_steps = 100

# Render the environment (Doesn't work in Google Colab)
#env.render() # --- Uncomment if you want to see the episode
#print('') # --- Uncomment if you want to see the episode
#time.sleep(0.1) # --- Uncomment if you want to see the episode

while t < max_steps:
    # Get random action (this is the implementation of the agent)
    action = env.action_space.sample()
    
    # Execute action and get response
    obs, reward, done, info = env.step(action)
    
    # Render the environment (Doesn't work in Google Colab)
    #env.render() # --- Uncomment if you want to see the episode
    #print('') # --- Uncomment if you want to see the episode
        
    t += 1
    if done:
        break
    time.sleep(0.1)

print("Episode finished after {} timesteps and reward was {} ".format(t, reward))
env.close()

Episode finished after 11 timesteps and reward was 0.0 


### 2.3. Simulando varios episodios

El siguiente fragmento de código repite el proceso del apartado anterior para el número de episodios definido en la variable `num_episodes`.

In [8]:
num_episodes = 10

for episode in range(num_episodes):

    # Environment reset
    obs = env.reset()
    t, done = 0, False
    
    print('Running episode {} '.format(episode+1))

    # Render the environment (Doesn't work in Google Colab)
    #env.render() # --- Uncomment if you want to see the episode
    #print('') # --- Uncomment if you want to see the episode
    #time.sleep(0.1) # --- Uncomment if you want to see the episode

    while t < max_steps:
        # Get random action (this is the implementation of the agent)
        action = env.action_space.sample()
    
        # Execute action and get response
        obs, reward, done, info = env.step(action)
        
        # Render the environment (Doesn't work in Google Colab)
        #env.render() # --- Uncomment if you want to see the episode
        #print('') # --- Uncomment if you want to see the episode
       
        t += 1
        if done:
            break
        time.sleep(0.1)
      
    print("Episode {} finished after {} timesteps and reward was {} ".format(episode+1, t, reward))
    print('')

Running episode 1 
Episode 1 finished after 7 timesteps and reward was 0.0 

Running episode 2 
Episode 2 finished after 28 timesteps and reward was 0.0 

Running episode 3 
Episode 3 finished after 28 timesteps and reward was 0.0 

Running episode 4 
Episode 4 finished after 12 timesteps and reward was 0.0 

Running episode 5 
Episode 5 finished after 3 timesteps and reward was 0.0 

Running episode 6 
Episode 6 finished after 2 timesteps and reward was 0.0 

Running episode 7 
Episode 7 finished after 2 timesteps and reward was 0.0 

Running episode 8 
Episode 8 finished after 15 timesteps and reward was 1.0 

Running episode 9 
Episode 9 finished after 3 timesteps and reward was 0.0 

Running episode 10 
Episode 10 finished after 4 timesteps and reward was 0.0 



### 2.4. Calculando la recompensa total de varios episodios

Para medir la eficiencia del agente, podemos calcular la recompensa total de varios episodios. Dado que en cada episodio la recompensa acumulada es 0 si no se llega a la celda de destino y 1 si se consigue el objetivo, medir la recompensa total acumulada de un número de episodios nos da una medida del porcentaje de éxito de nuestro agente.

El siguiente fragmento de código repite el proceso del apartado anterior para el número de episodios definido en la variable `num_episodes` y calcula el porcentaje de acierto del agente. Se omite la renderización del entorno con el objetivo de agilizar la ejecución.

In [9]:
num_episodes = 1000
total_reward = 0

for episode in range(num_episodes):

    # Environment reset
    obs = env.reset()
    t, done = 0, False
    
    #env.render() --- Uncomment if you want to see the path of the agen  

    while t < max_steps:
        # Get random action (this is the implementation of the agent)
        action = env.action_space.sample()
    
        # Execute action and get response
        obs, reward, done, info = env.step(action)
        
        # Render the environment (Doesn't work in Google Colab)
        #env.render() --- Uncomment if you want to see the path of the agent
        
        total_reward += reward
        t += 1
        if done:
            break
    
success_rate = total_reward*100/num_episodes
print("{} successes in {} episodes: {} % of success".format(total_reward, num_episodes, success_rate))

7.0 successes in 1000 episodes: 0.7 % of success


### 2.5. Entrenando a un agente

Tal y como hemos podido ver en el apartado anterior, como el agente utilizado elige las acciones al azar, es casi imposible llegar a la casilla de destino G con esta política (el porcentaje de éxito está en un 1 % o 2 %). Vamos a entrenar un agente utilizando el método Q-Learning. Este método (que se estudiará en módulos posteriores) puede implementarse mediante una tabla que va actualizándose a partir de la interacción del agente con el entorno.
El siguiente código implementa este método y realiza el entrenamiento del agente a partir de la ejecución de varios episodios.

__Nota__: recordad que las simulaciones ejecutadas tienen un componente aleatorio y los porcentajes pueden variar de una ejecución a otra.

Empezamos importando algunos paquetes:

In [10]:
import pickle

Inicializamos algunas variables del método que queremos implementar, entre las que se encuentran el número de episodios (`num_episodes`) y el número máximo de pasos por cada episodio (`max_steps`).

In [11]:
epsilon = 0.9
num_episodes = 100000
max_steps = 100

learning_rate = 0.81
gamma = 0.96

Inicializamos a cero todos los valores de la tabla de la función Q (de dieciseis estados por cuatro acciones cada estado), que acabará dándonos una idea de cuál es la mejor acción para cada estado.

In [12]:
Q = np.zeros((env.observation_space.n, env.action_space.n))
print(Q)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


El siguiente código define las funciones que caracterizan al agente (se estudiarán en módulos posteriores de este curso).

In [13]:
def choose_action(state):
    action=0
    if np.random.uniform(0, 1) < epsilon:
        action = env.action_space.sample()
    else:
        action = np.argmax(Q[state, :])
    return action

def learn(state, new_state, reward, action):
    predict = Q[state, action]
    target = reward + gamma * np.max(Q[new_state, :])
    Q[state, action] = Q[state, action] + learning_rate * (target - predict)

El siguiente código realiza tantas partidas del juego como se indican en la variable `num_episodes`. En cada partida (episodio), el agente va interactuando con el entorno y, como fruto de esa interacción, va actualizando los valores de la tabla _Q_. En el código se ha comentado el método `env.render()` con el objetivo de no saturar la pantalla. Así mismo, se imprimen por pantalla aquellos episodios en los que el agente alcanza la casilla de destino.

In [14]:
# Start
for episode in range(num_episodes):
    state = env.reset()
    t = 0
    
    while t < max_steps:
        # Render the environment (Doesn't work in Google Colab)
        #env.render() --- Uncomment if you want to see the path of the agent
        action = choose_action(state)  
        state2, reward, done, info = env.step(action)  
        learn(state, state2, reward, action)
        state = state2
        t += 1
       
        if done:
            break

    if reward == 1:
        print("Episode {} finished after {} timesteps and reward was {} ".format(episode+1, t, reward)) 

Episode 123 finished after 18 timesteps and reward was 1.0 
Episode 162 finished after 12 timesteps and reward was 1.0 
Episode 181 finished after 11 timesteps and reward was 1.0 
Episode 233 finished after 12 timesteps and reward was 1.0 
Episode 266 finished after 12 timesteps and reward was 1.0 
Episode 303 finished after 10 timesteps and reward was 1.0 
Episode 318 finished after 24 timesteps and reward was 1.0 
Episode 470 finished after 10 timesteps and reward was 1.0 
Episode 471 finished after 22 timesteps and reward was 1.0 
Episode 593 finished after 6 timesteps and reward was 1.0 
Episode 621 finished after 17 timesteps and reward was 1.0 
Episode 645 finished after 11 timesteps and reward was 1.0 
Episode 703 finished after 15 timesteps and reward was 1.0 
Episode 883 finished after 15 timesteps and reward was 1.0 
Episode 1117 finished after 12 timesteps and reward was 1.0 
Episode 1130 finished after 6 timesteps and reward was 1.0 
Episode 1236 finished after 18 timesteps

Podemos ver los valores finales de la tabla _Q_ después del entrenamiento.

In [15]:
print(Q)

[[0.60914313 0.6036489  0.60341024 0.59212931]
 [0.11184102 0.13405641 0.59705267 0.58502692]
 [0.71895501 0.68935786 0.74716417 0.67973866]
 [0.1177315  0.57166217 0.1288273  0.68683919]
 [0.64167295 0.65788212 0.62246572 0.10217031]
 [0.         0.         0.         0.        ]
 [0.59849695 0.13287383 0.73062636 0.63710679]
 [0.         0.         0.         0.        ]
 [0.14062162 0.71533457 0.60162717 0.81023108]
 [0.86985035 0.78738961 0.16524961 0.69895524]
 [0.89293204 0.82945428 0.644098   0.11821629]
 [0.         0.         0.         0.        ]
 [0.         0.         0.         0.        ]
 [0.02554859 0.90868185 0.87274828 0.03394444]
 [0.84717489 0.87715154 0.87797147 0.83611933]
 [0.         0.         0.         0.        ]]


### 2.6. Comprobando la mejora
En este último apartado comprobaremos que el agente diseñado consigue mejores prestaciones que el agente aleatorio.

El código es muy parecido al que hemos utilizado mientras entrenábamos al agente, pero se omite la parte de aprendizaje de este. Para ello, simularemos varios episodios utilizando los valores de la tabla _Q_ obtenida en el entrenamiento. Concretamente, el agente selecciona el valor máximo de la tabla _Q_ para cada estado:

In [16]:
def choose_action_max(state):
    action = np.argmax(Q[state, :])
    return action

De nuevo, calculamos la recompensa total de varios episodios y se calcula el porcentaje de acierto que, como puede comprobarse, es superior al del agente aleatorio.

Se ofrece la oportunidad en el código de visualizar (de forma distinta a la vista hasta este momento) los últimos episodios de la simulación (indicados en la variable `num_shows`).

In [17]:
from IPython.display import clear_output

num_episodes = 1000
total_reward = 0
num_shows = 5
show_episode = False

# start
for episode in range(num_episodes):

    if (num_episodes - episode) <= num_shows:
        show_episode = False # Set to 'False' in Google Colab
        
    state = env.reset()
    
    if show_episode == True:
        print('')
        print('')
        print("*** Episode: ", episode+1)
        print('')
        print('')
        time.sleep(0.8)
        clear_output(wait=True)
        env.render()
    
    t = 0
    while t < 100:
        action = choose_action_max(state)  
        state, reward, done, info = env.step(action)  
        
        if show_episode == True:
            time.sleep(0.5)
            clear_output(wait=True)
            env.render()
        if done:
            break

    if show_episode == True:
        time.sleep(0.8)
        clear_output(wait=True)
        print('')
        print('')
        print('Reward = {}'.format(reward))
        print('')
        print('')
        time.sleep(0.8)
        clear_output(wait=True)
    
    total_reward += reward
    
success_rate = total_reward*100/num_episodes
print("{} successes in {} episodes: {} % of success".format(total_reward, num_episodes, success_rate))

50.0 successes in 1000 episodes: 5.0 % of success
