<div style="width: 100%; clear: both;">
<div style="float: left; width: 50%;">
<img src="http://www.uoc.edu/portal/_resources/common/imatges/marca_UOC/UOC_Masterbrand.jpg", align="left">
</div>
<p style="margin: 0; padding-top: 22px; text-align:right;">M2.883 · Aprenentatge per reforç</p>
<p style="margin: 0; text-align:right;">Màster universitari de Ciència de Dades</p>
<p style="margin: 0; text-align:right; padding-button: 100px;">Estudis d'Informàtica, Multimèdia i Telecomunicació</p>
</div>
</div>
<div style="width:100%;">&nbsp;</div>


# Mòdul 1: exemples d'OpenAI Gym

En aquest _notebook_ carregarem alguns dels escenaris d'OpenAI Gym i veurem la interacció entre alguns agents i aquests escenaris o entorns.

## 1. CartPole
En aquest primer exemple carregarem l'entorn CartPole i farem algunes proves.

### 1.1. Càrrega de dades

El codi següent carrega els paquets necessaris per a l'exemple, crea l'entorn mitjançant el mètode `make` i imprimeix per pantalla la dimensió de l'espai d'accions (dues accions: 0 = esquerra i 1 = dreta), de l'espai d'observacions (quatre observacions: posició del carretó, velocitat del carretó, angle del pal i velocitat del pal en la punta) i el rang de la variable de recompensa (de menys infinit a més infinit).

In [1]:
import gym
import numpy as np

env = gym.make('CartPole-v1')
print("Action space is {} ".format(env.action_space))
print("Observation space is {} ".format(env.observation_space))
print("Reward range is {} ".format(env.reward_range))

Action space is Discrete(2) 
Observation space is Box([-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], [4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38], (4,), float32) 
Reward range is (-inf, inf) 


  "Initializing wrapper in old step API which returns one bool instead of two. It is recommended to set `new_step_api=True` to use new step API. This will be the default behaviour in future."
  "Initializing environment in old step API which returns one bool instead of two. It is recommended to set `new_step_api=True` to use new step API. This will be the default behaviour in future."


Seguidament, reinicialitzem l'entorn (acció que cal fer sempre després de la creació d'aquest entorn) i inicialitzem les variables que guardaran el nombre de passos executats (`t`), la recompensa acumulada (`total_reward`) i la variable que ens indicarà quan finalitza un episodi (`done`).

In [2]:
# Environment reset
obs = env.reset()
t, total_reward, done = 0, 0, False

### 1.2. Execució d'un episodi

A continuació, farem l'execució d'un episodi de l'entorn CartPole utilitzant un agent que selecciona les accions de manera aleatòria.

El codi següent fa l'execució d'un episodi de l'entorn (aquest finalitza quan la variable `done` pren el valor `True`). L'agent s'implementa mitjançant el mètode  `env.action_space.sample()`, que selecciona una acció a l'atzar. Per a cada pas (_time step_), s'imprimeixen per pantalla l'observació que genera l'entorn (els quatre valors esmentats anteriorment), l'acció seleccionada i la recompensa obtinguda en aquest pas (+1 en cada acció fins que finalitza l'episodi).

In [3]:
while not done:
    
    # Render the environment (Doesn't work in Google Colab) 
    #env.render() # --- Uncomment if you want to see the episode
    
    # Get random action (this is the implementation of the agent)
    action = env.action_space.sample()
    
    # Execute action and get response
    new_obs, reward, done, info = env.step(action)
    print("Obs: {} -> Action: {} and reward: {}".format(np.round(obs, 3), action, reward))
    
    obs = new_obs
    total_reward += reward
    t += 1
    
total_reward += reward
t += 1
print("Obs: {} -> Action: {} and reward: {}".format(np.round(obs, 3), action, reward))

Obs: [ 0.049 -0.03   0.023  0.042] -> Action: 1 and reward: 1.0
Obs: [ 0.049  0.164  0.023 -0.244] -> Action: 0 and reward: 1.0
Obs: [ 0.052 -0.031  0.019  0.056] -> Action: 0 and reward: 1.0
Obs: [ 0.051 -0.227  0.02   0.355] -> Action: 0 and reward: 1.0
Obs: [ 0.047 -0.422  0.027  0.654] -> Action: 0 and reward: 1.0
Obs: [ 0.038 -0.617  0.04   0.955] -> Action: 1 and reward: 1.0
Obs: [ 0.026 -0.423  0.059  0.675] -> Action: 1 and reward: 1.0
Obs: [ 0.018 -0.229  0.072  0.401] -> Action: 0 and reward: 1.0
Obs: [ 0.013 -0.425  0.081  0.716] -> Action: 1 and reward: 1.0
Obs: [ 0.005 -0.231  0.095  0.449] -> Action: 1 and reward: 1.0
Obs: [-0.    -0.037  0.104  0.188] -> Action: 1 and reward: 1.0
Obs: [-0.001  0.156  0.108 -0.07 ] -> Action: 1 and reward: 1.0
Obs: [ 0.002  0.35   0.106 -0.327] -> Action: 0 and reward: 1.0
Obs: [ 0.009  0.153  0.1   -0.003] -> Action: 0 and reward: 1.0
Obs: [ 0.012 -0.043  0.1    0.32 ] -> Action: 1 and reward: 1.0
Obs: [0.012 0.151 0.106 0.06 ] -> Action

Finalment, imprimim els resultats i tanquem l'entorn.

In [4]:
print("Episode finished after {} timesteps and reward was {} ".format(t, total_reward))
env.close()

Episode finished after 32 timesteps and reward was 32.0 


### 1.3. Simulació de diversos episodis

El fragment de codi següent repeteix el procés de l'apartat anterior per al nombre d'episodis definit en la variable `num_episodes`.

In [5]:
num_episodes = 10

for episode in range(num_episodes):

    # Environment reset
    obs = env.reset()
    t, total_reward, done= 0, 0, False
    
    print('Running episode {} '.format(episode+1))
    
    while not done:
    
        # Render the environment (Doesn't work in Google Colab)
        #env.render() # --- Uncomment if you want to see the episode
    
        # Get random action (this is the implementation of the agent)
        action = env.action_space.sample()
    
        # Execute action and get response
        new_obs, reward, done, info = env.step(action)
        print("Obs: {} -> Action: {} and reward: {}".format(np.round(obs, 3), action, reward))
    
        obs = new_obs
        total_reward += reward
        t += 1
        
    total_reward += reward
    t += 1
    print("Obs: {} -> Action: {} and reward: {}".format(np.round(obs, 3), action, reward))
    print("Episode {} finished after {} timesteps and reward was {} ".format(episode+1, t, total_reward))
    print('')
    
env.close()

Running episode 1 
Obs: [ 0.049 -0.04  -0.015  0.032] -> Action: 0 and reward: 1.0
Obs: [ 0.048 -0.235 -0.015  0.32 ] -> Action: 0 and reward: 1.0
Obs: [ 0.043 -0.43  -0.008  0.608] -> Action: 1 and reward: 1.0
Obs: [ 0.035 -0.234  0.004  0.313] -> Action: 0 and reward: 1.0
Obs: [ 0.03  -0.429  0.01   0.607] -> Action: 0 and reward: 1.0
Obs: [ 0.021 -0.625  0.022  0.903] -> Action: 0 and reward: 1.0
Obs: [ 0.009 -0.82   0.04   1.203] -> Action: 1 and reward: 1.0
Obs: [-0.008 -0.626  0.064  0.923] -> Action: 0 and reward: 1.0
Obs: [-0.02  -0.822  0.083  1.235] -> Action: 1 and reward: 1.0
Obs: [-0.036 -0.628  0.108  0.97 ] -> Action: 1 and reward: 1.0
Obs: [-0.049 -0.434  0.127  0.712] -> Action: 1 and reward: 1.0
Obs: [-0.058 -0.241  0.141  0.462] -> Action: 0 and reward: 1.0
Obs: [-0.063 -0.438  0.151  0.796] -> Action: 0 and reward: 1.0
Obs: [-0.071 -0.635  0.166  1.132] -> Action: 1 and reward: 1.0
Obs: [-0.084 -0.442  0.189  0.896] -> Action: 1 and reward: 1.0
Obs: [-0.093 -0.25   

## 2. FrozenLake
En aquest segon exemple carregarem l'entorn FrozenLake i tornarem a fer algunes proves.

### 2.1. Càrrega de dades

De la mateixa forma que en l'exemple inicial, el codi següent carrega els paquets necessaris per a l'exemple, crea l'entorn mitjançant el mètode `make` i imprimeix per pantalla la dimensió de l'espai d'accions (0 = esquerra, 1 = dreta, 2 = a baix i 3 = a dalt), l'espai d'observacions (un número del 0 al 15 que indica la posició de l'agent en l'entorn) i el rang de la variable de recompensa (0 per a qualsevol acció excepte si s'arriba a la casella de destinació, i en aquest cas la recompensa és 1).

In [6]:
import time

env = gym.make('FrozenLake-v1')
print("Action space is {} ".format(env.action_space))
print("Observation space is {} ".format(env.observation_space))
print("Reward range is {} ".format(env.reward_range))

Action space is Discrete(4) 
Observation space is Discrete(16) 
Reward range is (0, 1) 


### 2.2. Execució d'un episodi

A continuació, executarem un episodi de l'entorn FrozenLake utilitzant un agent que selecciona les accions de manera aleatòria.

En el codi següent inicialitzem l'entorn, definim el màxim nombre de passos per a episodi (`max_steps`) i fem l'execució d'un episodi de l'entorn (aquest finalitza quan la variable 'done' pren el valor 'True' o quan s'aconsegueix el nombre màxim de passos estipulat). De nou, utilitzem un agent que implementa una política completament aleatòria (`env.action_space.sample()`). Mitjançant el mètode `env.render()`, podem anar veient l'evolució de l'agent en l'entorn des de la casella de sortida S fins que arriba a la casella de destinació G o cau en un forat H.

In [7]:
# Environment reset
obs = env.reset()
t, total_reward, done = 0, 0, False
max_steps = 100

# Render the environment (Doesn't work in Google Colab)
#env.render() # --- Uncomment if you want to see the episode
#print('') # --- Uncomment if you want to see the episode
#time.sleep(0.1) # --- Uncomment if you want to see the episode

while t < max_steps:
    # Get random action (this is the implementation of the agent)
    action = env.action_space.sample()
    
    # Execute action and get response
    obs, reward, done, info = env.step(action)
    
    # Render the environment (Doesn't work in Google Colab)
    #env.render() # --- Uncomment if you want to see the episode
    #print('') # --- Uncomment if you want to see the episode
        
    t += 1
    if done:
        break
    time.sleep(0.1)

print("Episode finished after {} timesteps and reward was {} ".format(t, reward))
env.close()

Episode finished after 3 timesteps and reward was 0.0 


### 2.3. Simulació de diversos episodis

El fragment de codi següent repeteix el procés de l'apartat anterior per al nombre d'episodis definit en la variable `num_episodes`.

In [8]:
num_episodes = 10

for episode in range(num_episodes):

    # Environment reset
    obs = env.reset()
    t, done = 0, False
    
    print('Running episode {} '.format(episode+1))

    # Render the environment (Doesn't work in Google Colab)
    #env.render() # --- Uncomment if you want to see the episode
    #print('') # --- Uncomment if you want to see the episode
    #time.sleep(0.1) # --- Uncomment if you want to see the episode
    
    while t < max_steps:
        # Get random action (this is the implementation of the agent)
        action = env.action_space.sample()
    
        # Execute action and get response
        obs, reward, done, info = env.step(action)
        
        # Render the environment (Doesn't work in Google Colab)
        #env.render() # --- Uncomment if you want to see the episode
        #print('') # --- Uncomment if you want to see the episode
        
        t += 1
        if done:
            break
        time.sleep(0.1)
      
    print("Episode {} finished after {} timesteps and reward was {} ".format(episode+1, t, reward))
    print('')

Running episode 1 
Episode 1 finished after 4 timesteps and reward was 0.0 

Running episode 2 
Episode 2 finished after 2 timesteps and reward was 0.0 

Running episode 3 
Episode 3 finished after 25 timesteps and reward was 0.0 

Running episode 4 
Episode 4 finished after 5 timesteps and reward was 0.0 

Running episode 5 
Episode 5 finished after 6 timesteps and reward was 0.0 

Running episode 6 
Episode 6 finished after 13 timesteps and reward was 0.0 

Running episode 7 
Episode 7 finished after 4 timesteps and reward was 0.0 

Running episode 8 
Episode 8 finished after 8 timesteps and reward was 0.0 

Running episode 9 
Episode 9 finished after 2 timesteps and reward was 0.0 

Running episode 10 
Episode 10 finished after 9 timesteps and reward was 0.0 



### 2.4. Càlcul de la recompensa total de diversos episodis

Per mesurar l'eficiència de l'agent, podem calcular la recompensa total de diversos episodis. Atès que en cada episodi la recompensa acumulada és 0 si no s'arriba a la cel·la de destinació i 1 si s'aconsegueix l'objectiu, mesurar la recompensa total acumulada d'un nombre d'episodis ens dona una mesura del percentatge d'èxit del nostre agent.

El fragment de codi següent repeteix el procés de l'apartat anterior per al nombre d'episodis definit en la variable `num_episodes` i calcula el percentatge d'encert de l'agent. S'omet la renderització de l'entorn amb l'objectiu d'agilitar l'execució.

In [9]:
num_episodes = 1000
total_reward = 0

for episode in range(num_episodes):

    # Environment reset
    obs = env.reset()
    t, done = 0, False

    # Render the environment (Doesn't work in Google Colab)
    #env.render() --- Uncomment if you want to see the path of the agen  

    while t < max_steps:
        # Get random action (this is the implementation of the agent)
        action = env.action_space.sample()
    
        # Execute action and get response
        obs, reward, done, info = env.step(action)
        
        # Render the environment (Doesn't work in Google Colab)
        #env.render() --- Uncomment if you want to see the path of the agent
        
        total_reward += reward
        t += 1
        if done:
            break
    
success_rate = total_reward*100/num_episodes
print("{} successes in {} episodes: {} % of success".format(total_reward, num_episodes, success_rate))

15.0 successes in 1000 episodes: 1.5 % of success


### 2.5. Entrenament d'un agent

Tal com hem pogut veure en l'apartat anterior, com que l'agent utilitzat tria les accions a l'atzar, és gairebé impossible arribar a la casella de destinació G amb aquesta política (el percentatge d'èxit està en l'1 % o el 2 %). Entrenarem un agent utilitzant el mètode Q-Learning. Aquest mètode (que s'estudiarà en mòduls posteriors) es pot implementar mitjançant una taula que va actualitzant-se a partir de la interacció de l'agent amb l'entorn.
El codi següent implementa aquest mètode i fa l'entrenament de l'agent a partir de l'execució de diversos episodis.

__Nota__: recordeu que les simulacions executades tenen un component aleatori i els percentatges poden variar d'una execució a una altra.

Comencem important alguns paquets:

In [10]:
import pickle

Inicialitzem algunes variables del mètode que volem implementar, entre les quals hi ha el nombre d'episodis (`num_episodes`) i el nombre màxim de passos per cada episodi (`max_steps`).

In [11]:
epsilon = 0.9
num_episodes = 100000
max_steps = 100

learning_rate = 0.81
gamma = 0.96

Inicialitzem a zero tots els valors de la taula de la funció Q (de setze estats per quatre accions cada estat), que acabarà donant-nos una idea de quina és la millor acció per a cada estat.

In [12]:
Q = np.zeros((env.observation_space.n, env.action_space.n))
print(Q)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


El codi següent defineix les funcions que caracteritzen l'agent (s'estudiaran en mòduls posteriors d'aquest curs).

In [13]:
def choose_action(state):
    action=0
    if np.random.uniform(0, 1) < epsilon:
        action = env.action_space.sample()
    else:
        action = np.argmax(Q[state, :])
    return action

def learn(state, new_state, reward, action):
    predict = Q[state, action]
    target = reward + gamma * np.max(Q[new_state, :])
    Q[state, action] = Q[state, action] + learning_rate * (target - predict)

El codi següent fa tantes partides del joc com s'indiquen en la variable `num_episodes`. En cada partida (episodi), l'agent va interactuant amb l'entorn i, com a fruit d'aquesta interacció, va actualitzant els valors de la taula _Q_. En el codi s'ha comentat el mètode `env.render()` amb l'objectiu de no saturar la pantalla. Així mateix, s'imprimeixen per pantalla els episodis en els quals l'agent aconsegueix la casella de destinació.

In [14]:
# Start
for episode in range(num_episodes):
    state = env.reset()
    t = 0
    
    while t < max_steps:
        # Render the environment (Doesn't work in Google Colab)
        #env.render() --- Uncomment if you want to see the path of the agent
        action = choose_action(state)  
        state2, reward, done, info = env.step(action)  
        learn(state, state2, reward, action)
        state = state2
        t += 1
       
        if done:
            break

    if reward == 1:
        print("Episode {} finished after {} timesteps and reward was {} ".format(episode+1, t, reward)) 

Episode 69 finished after 10 timesteps and reward was 1.0 
Episode 70 finished after 18 timesteps and reward was 1.0 
Episode 77 finished after 15 timesteps and reward was 1.0 
Episode 115 finished after 11 timesteps and reward was 1.0 
Episode 142 finished after 7 timesteps and reward was 1.0 
Episode 173 finished after 13 timesteps and reward was 1.0 
Episode 205 finished after 16 timesteps and reward was 1.0 
Episode 273 finished after 9 timesteps and reward was 1.0 
Episode 281 finished after 20 timesteps and reward was 1.0 
Episode 282 finished after 10 timesteps and reward was 1.0 
Episode 313 finished after 16 timesteps and reward was 1.0 
Episode 321 finished after 9 timesteps and reward was 1.0 
Episode 355 finished after 9 timesteps and reward was 1.0 
Episode 447 finished after 15 timesteps and reward was 1.0 
Episode 468 finished after 10 timesteps and reward was 1.0 
Episode 569 finished after 11 timesteps and reward was 1.0 
Episode 580 finished after 16 timesteps and rew

Podem veure els valors finals de la taula _Q_ després de l'entrenament.

In [15]:
print(Q)

[[0.68296761 0.71151608 0.66107699 0.65795428]
 [0.68474148 0.55834308 0.61673975 0.66176882]
 [0.60052908 0.76175355 0.70772255 0.5247728 ]
 [0.45156021 0.02512681 0.10133812 0.5170073 ]
 [0.74754982 0.58196421 0.57342739 0.12703511]
 [0.         0.         0.         0.        ]
 [0.85021097 0.14005627 0.13218101 0.10211635]
 [0.         0.         0.         0.        ]
 [0.50166346 0.66579607 0.79552404 0.73287467]
 [0.85490349 0.89437967 0.15004272 0.02764449]
 [0.9332429  0.90943365 0.1787017  0.59826097]
 [0.         0.         0.         0.        ]
 [0.         0.         0.         0.        ]
 [0.1368286  0.91451286 0.88491137 0.84849991]
 [0.90040333 0.96374961 0.99046933 0.95392564]
 [0.         0.         0.         0.        ]]


### 2.6. Comprovació de la millora
En aquest últim apartat comprovarem que l'agent dissenyat aconsegueix millors prestacions que l'agent aleatori.

El codi és molt semblant al que hem utilitzat mentre entrenàvem l'agent, però s'omet la part d'aprenentatge d'aquest agent. Per a això, simularem diversos episodis utilitzant els valors de la taula _Q_ obtinguda en l'entrenament. Concretament, l'agent selecciona el valor màxim de la taula _Q_ per a cada estat:

In [16]:
def choose_action_max(state):
    action = np.argmax(Q[state, :])
    return action

De nou, calculem la recompensa total de diversos episodis i calculem el percentatge d'encert, que, com es pot comprovar, és superior al de l'agent aleatori.

En el codi s'ofereix l'oportunitat de visualitzar (de manera diferent a la vista fins a aquest moment) els últims episodis de la simulació (indicats en la variable `num_shows`). Aquesta opció no està disponible a Google Colab.

In [17]:
from IPython.display import clear_output

num_episodes = 1000
total_reward = 0
num_shows = 5
show_episode = False

# start
for episode in range(num_episodes):

    if (num_episodes - episode) <= num_shows:
        show_episode = False # Set to 'False' in Google Colab
        
    state = env.reset()
    
    if show_episode == True:
        print('')
        print('')
        print("*** Episode: ", episode+1)
        print('')
        print('')
        time.sleep(0.8)
        clear_output(wait=True)
        env.render()
    
    t = 0
    while t < 100:
        action = choose_action_max(state)  
        state, reward, done, info = env.step(action)  
        
        if show_episode == True:
            time.sleep(0.5)
            clear_output(wait=True)
            env.render()
        if done:
            break

    if show_episode == True:
        time.sleep(0.8)
        clear_output(wait=True)
        print('')
        print('')
        print('Reward = {}'.format(reward))
        print('')
        print('')
        time.sleep(0.8)
        clear_output(wait=True)
    
    total_reward += reward
    
success_rate = total_reward*100/num_episodes
print("{} successes in {} episodes: {} % of success".format(total_reward, num_episodes, success_rate))

60.0 successes in 1000 episodes: 6.0 % of success
