<div style="width: 100%; clear: both;">
<div style="float: left; width: 50%;">
<img src="http://www.uoc.edu/portal/_resources/common/imatges/marca_UOC/UOC_Masterbrand.jpg", align="left">
</div>
<p style="margin: 0; padding-top: 22px; text-align:right;">M2.883 · Aprenentatge per reforç</p>
<p style="margin: 0; text-align:right;">Màster universitari de Ciència de Dades</p>
<p style="margin: 0; text-align:right; padding-button: 100px;">Estudis d'Informàtica, Multimèdia i Telecomunicació</p>
</div>
</div>
<div style="width:100%;">&nbsp;</div>


# Mòdul 1: exemples d'OpenAI Gym

En aquest _notebook_ carregarem alguns dels escenaris d'OpenAI Gym i veurem la interacció entre alguns agents i aquests escenaris o entorns.

## 1. CartPole
En aquest primer exemple carregarem l'entorn CartPole i farem algunes proves.

### 1.1. Càrrega de dades

El codi següent carrega els paquets necessaris per a l'exemple, crea l'entorn mitjançant el mètode `make` i imprimeix per pantalla la dimensió de l'espai d'accions (dues accions: 0 = esquerra i 1 = dreta), de l'espai d'observacions (quatre observacions: posició del carretó, velocitat del carretó, angle del pal i velocitat del pal en la punta) i el rang de la variable de recompensa (de menys infinit a més infinit).

In [1]:
import gym
import numpy as np

env = gym.make('CartPole-v1')
print("Action space is {} ".format(env.action_space))
print("Observation space is {} ".format(env.observation_space))
print("Reward range is {} ".format(env.reward_range))

Action space is Discrete(2) 
Observation space is Box([-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], [4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38], (4,), float32) 
Reward range is (-inf, inf) 


Seguidament, reinicialitzem l'entorn (acció que cal fer sempre després de la creació d'aquest entorn) i inicialitzem les variables que guardaran el nombre de passos executats (`t`), la recompensa acumulada (`total_reward`) i la variable que ens indicarà quan finalitza un episodi (`done`).

In [5]:
# Environment reset
obs, probability = env.reset()
t, total_reward, done = 0, 0, False

print(f"Initial observation is {obs}")
print(f"Initial probability is {probability}")

Initial observation is [ 0.04583836 -0.01699799 -0.00056203 -0.00280737]
Initial probability is {}


### 1.2. Execució d'un episodi

A continuació, farem l'execució d'un episodi de l'entorn CartPole utilitzant un agent que selecciona les accions de manera aleatòria.

El codi següent fa l'execució d'un episodi de l'entorn (aquest finalitza quan la variable `done` pren el valor `True`). L'agent s'implementa mitjançant el mètode  `env.action_space.sample()`, que selecciona una acció a l'atzar. Per a cada pas (_time step_), s'imprimeixen per pantalla l'observació que genera l'entorn (els quatre valors esmentats anteriorment), l'acció seleccionada i la recompensa obtinguda en aquest pas (+1 en cada acció fins que finalitza l'episodi).

In [7]:
while not done:
    
    # Render the environment (Doesn't work in Google Colab) 
    #env.render() # --- Uncomment if you want to see the episode
    
    # Get random action (this is the implementation of the agent)
    action = env.action_space.sample()
    
    # Execute action and get response
    new_obs, reward, done, truncated, info = env.step(action)
    print("Obs: {} -> Action: {} and reward: {}".format(np.round(obs, 3), action, reward))
    
    obs = new_obs
    total_reward += reward
    t += 1
    
total_reward += reward
t += 1
print("Obs: {} -> Action: {} and reward: {}".format(np.round(obs, 3), action, reward))

Obs: [ 0.046 -0.017 -0.001 -0.003] -> Action: 0 and reward: 1.0
Obs: [ 0.041 -0.407  0.005  0.582] -> Action: 0 and reward: 1.0
Obs: [ 0.033 -0.602  0.017  0.876] -> Action: 0 and reward: 1.0
Obs: [ 0.021 -0.798  0.034  1.174] -> Action: 0 and reward: 1.0
Obs: [ 0.005 -0.993  0.058  1.478] -> Action: 1 and reward: 1.0
Obs: [-0.015 -0.799  0.087  1.204] -> Action: 0 and reward: 1.0
Obs: [-0.031 -0.995  0.111  1.522] -> Action: 1 and reward: 1.0
Obs: [-0.051 -0.801  0.142  1.266] -> Action: 1 and reward: 1.0
Obs: [-0.067 -0.608  0.167  1.021] -> Action: 0 and reward: 1.0
Obs: [-0.079 -0.805  0.188  1.362] -> Action: 1 and reward: 1.0
Obs: [-0.095 -0.613  0.215  1.133] -> Action: 1 and reward: 1.0


Finalment, imprimim els resultats i tanquem l'entorn.

In [8]:
print("Episode finished after {} timesteps and reward was {} ".format(t, total_reward))
env.close()

Episode finished after 11 timesteps and reward was 11.0 


### 1.3. Simulació de diversos episodis

El fragment de codi següent repeteix el procés de l'apartat anterior per al nombre d'episodis definit en la variable `num_episodes`.

In [10]:
num_episodes = 10

for episode in range(num_episodes):

    # Environment reset
    obs, probability = env.reset()
    t, total_reward, done= 0, 0, False
    
    print('Running episode {} '.format(episode+1))
    
    while not done:
    
        # Render the environment (Doesn't work in Google Colab)
        #env.render() # --- Uncomment if you want to see the episode
    
        # Get random action (this is the implementation of the agent)
        action = env.action_space.sample()
    
        # Execute action and get response
        new_obs, reward, done, truncated, info = env.step(action)
        print("Obs: {} -> Action: {} and reward: {}".format(np.round(obs, 3), action, reward))
    
        obs = new_obs
        total_reward += reward
        t += 1
        
    total_reward += reward
    t += 1
    print("Obs: {} -> Action: {} and reward: {}".format(np.round(obs, 3), action, reward))
    print("Episode {} finished after {} timesteps and reward was {} ".format(episode+1, t, total_reward))
    print('')
    
env.close()

Running episode 1 
Obs: [-0.012 -0.034  0.006 -0.024] -> Action: 1 and reward: 1.0
Obs: [-0.013  0.161  0.005 -0.315] -> Action: 0 and reward: 1.0
Obs: [-0.01  -0.034 -0.001 -0.021] -> Action: 1 and reward: 1.0
Obs: [-0.011  0.161 -0.001 -0.314] -> Action: 0 and reward: 1.0
Obs: [-0.007 -0.034 -0.008 -0.022] -> Action: 0 and reward: 1.0
Obs: [-0.008 -0.229 -0.008  0.269] -> Action: 0 and reward: 1.0
Obs: [-0.013 -0.424 -0.003  0.559] -> Action: 1 and reward: 1.0
Obs: [-0.021 -0.229  0.008  0.265] -> Action: 1 and reward: 1.0
Obs: [-0.026 -0.034  0.014 -0.025] -> Action: 1 and reward: 1.0
Obs: [-0.026  0.161  0.013 -0.313] -> Action: 0 and reward: 1.0
Obs: [-0.023 -0.034  0.007 -0.016] -> Action: 1 and reward: 1.0
Obs: [-0.024  0.161  0.007 -0.307] -> Action: 0 and reward: 1.0
Obs: [-0.021 -0.034  0.001 -0.012] -> Action: 0 and reward: 1.0
Obs: [-0.021 -0.23   0.     0.281] -> Action: 1 and reward: 1.0
Obs: [-0.026 -0.034  0.006 -0.012] -> Action: 1 and reward: 1.0
Obs: [-0.027  0.161  

## 2. FrozenLake
En aquest segon exemple carregarem l'entorn FrozenLake i tornarem a fer algunes proves.

### 2.1. Càrrega de dades

De la mateixa forma que en l'exemple inicial, el codi següent carrega els paquets necessaris per a l'exemple, crea l'entorn mitjançant el mètode `make` i imprimeix per pantalla la dimensió de l'espai d'accions (0 = esquerra, 1 = dreta, 2 = a baix i 3 = a dalt), l'espai d'observacions (un número del 0 al 15 que indica la posició de l'agent en l'entorn) i el rang de la variable de recompensa (0 per a qualsevol acció excepte si s'arriba a la casella de destinació, i en aquest cas la recompensa és 1).

In [11]:
import time

env = gym.make('FrozenLake-v1')
print("Action space is {} ".format(env.action_space))
print("Observation space is {} ".format(env.observation_space))
print("Reward range is {} ".format(env.reward_range))

Action space is Discrete(4) 
Observation space is Discrete(16) 
Reward range is (0, 1) 


### 2.2. Execució d'un episodi

A continuació, executarem un episodi de l'entorn FrozenLake utilitzant un agent que selecciona les accions de manera aleatòria.

En el codi següent inicialitzem l'entorn, definim el màxim nombre de passos per a episodi (`max_steps`) i fem l'execució d'un episodi de l'entorn (aquest finalitza quan la variable 'done' pren el valor 'True' o quan s'aconsegueix el nombre màxim de passos estipulat). De nou, utilitzem un agent que implementa una política completament aleatòria (`env.action_space.sample()`). Mitjançant el mètode `env.render()`, podem anar veient l'evolució de l'agent en l'entorn des de la casella de sortida S fins que arriba a la casella de destinació G o cau en un forat H.

In [13]:
# Environment reset
obs, probability = env.reset()
t, total_reward, done = 0, 0, False
max_steps = 100

# Render the environment (Doesn't work in Google Colab)
#env.render() # --- Uncomment if you want to see the episode
#print('') # --- Uncomment if you want to see the episode
#time.sleep(0.1) # --- Uncomment if you want to see the episode

while t < max_steps:
    # Get random action (this is the implementation of the agent)
    action = env.action_space.sample()
    
    # Execute action and get response
    obs, reward, done, truncated, info = env.step(action)
    
    # Render the environment (Doesn't work in Google Colab)
    #env.render() # --- Uncomment if you want to see the episode
    #print('') # --- Uncomment if you want to see the episode
        
    t += 1
    if done:
        break
    time.sleep(0.1)

print("Episode finished after {} timesteps and reward was {} ".format(t, reward))
env.close()

Episode finished after 8 timesteps and reward was 0.0 


### 2.3. Simulació de diversos episodis

El fragment de codi següent repeteix el procés de l'apartat anterior per al nombre d'episodis definit en la variable `num_episodes`.

In [14]:
num_episodes = 10

for episode in range(num_episodes):

    # Environment reset
    obs, probability = env.reset()
    t, done = 0, False
    
    print('Running episode {} '.format(episode+1))

    # Render the environment (Doesn't work in Google Colab)
    #env.render() # --- Uncomment if you want to see the episode
    #print('') # --- Uncomment if you want to see the episode
    #time.sleep(0.1) # --- Uncomment if you want to see the episode
    
    while t < max_steps:
        # Get random action (this is the implementation of the agent)
        action = env.action_space.sample()
    
        # Execute action and get response
        obs, reward, done, truncated, info = env.step(action)
        
        # Render the environment (Doesn't work in Google Colab)
        #env.render() # --- Uncomment if you want to see the episode
        #print('') # --- Uncomment if you want to see the episode
        
        t += 1
        if done:
            break
        time.sleep(0.1)
      
    print("Episode {} finished after {} timesteps and reward was {} ".format(episode+1, t, reward))
    print('')

Running episode 1 
Episode 1 finished after 17 timesteps and reward was 0.0 

Running episode 2 
Episode 2 finished after 12 timesteps and reward was 0.0 

Running episode 3 
Episode 3 finished after 17 timesteps and reward was 0.0 

Running episode 4 
Episode 4 finished after 16 timesteps and reward was 0.0 

Running episode 5 
Episode 5 finished after 11 timesteps and reward was 0.0 

Running episode 6 
Episode 6 finished after 4 timesteps and reward was 0.0 

Running episode 7 
Episode 7 finished after 3 timesteps and reward was 0.0 

Running episode 8 
Episode 8 finished after 22 timesteps and reward was 0.0 

Running episode 9 
Episode 9 finished after 11 timesteps and reward was 0.0 

Running episode 10 
Episode 10 finished after 2 timesteps and reward was 0.0 



### 2.4. Càlcul de la recompensa total de diversos episodis

Per mesurar l'eficiència de l'agent, podem calcular la recompensa total de diversos episodis. Atès que en cada episodi la recompensa acumulada és 0 si no s'arriba a la cel·la de destinació i 1 si s'aconsegueix l'objectiu, mesurar la recompensa total acumulada d'un nombre d'episodis ens dona una mesura del percentatge d'èxit del nostre agent.

El fragment de codi següent repeteix el procés de l'apartat anterior per al nombre d'episodis definit en la variable `num_episodes` i calcula el percentatge d'encert de l'agent. S'omet la renderització de l'entorn amb l'objectiu d'agilitar l'execució.

In [15]:
num_episodes = 1000
total_reward = 0

for episode in range(num_episodes):

    # Environment reset
    obs, probability = env.reset()
    t, done = 0, False

    # Render the environment (Doesn't work in Google Colab)
    #env.render() --- Uncomment if you want to see the path of the agen  

    while t < max_steps:
        # Get random action (this is the implementation of the agent)
        action = env.action_space.sample()
    
        # Execute action and get response
        obs, reward, done, truncated, info = env.step(action)
        
        # Render the environment (Doesn't work in Google Colab)
        #env.render() --- Uncomment if you want to see the path of the agent
        
        total_reward += reward
        t += 1
        if done:
            break
    
success_rate = total_reward*100/num_episodes
print("{} successes in {} episodes: {} % of success".format(total_reward, num_episodes, success_rate))

11.0 successes in 1000 episodes: 1.1 % of success


### 2.5. Entrenament d'un agent

Tal com hem pogut veure en l'apartat anterior, com que l'agent utilitzat tria les accions a l'atzar, és gairebé impossible arribar a la casella de destinació G amb aquesta política (el percentatge d'èxit està en l'1 % o el 2 %). Entrenarem un agent utilitzant el mètode Q-Learning. Aquest mètode (que s'estudiarà en mòduls posteriors) es pot implementar mitjançant una taula que va actualitzant-se a partir de la interacció de l'agent amb l'entorn.
El codi següent implementa aquest mètode i fa l'entrenament de l'agent a partir de l'execució de diversos episodis.

__Nota__: recordeu que les simulacions executades tenen un component aleatori i els percentatges poden variar d'una execució a una altra.

Comencem important alguns paquets:

In [16]:
import pickle

Inicialitzem algunes variables del mètode que volem implementar, entre les quals hi ha el nombre d'episodis (`num_episodes`) i el nombre màxim de passos per cada episodi (`max_steps`).

In [17]:
epsilon = 0.9
num_episodes = 100000
max_steps = 100

learning_rate = 0.81
gamma = 0.96

Inicialitzem a zero tots els valors de la taula de la funció Q (de setze estats per quatre accions cada estat), que acabarà donant-nos una idea de quina és la millor acció per a cada estat.

In [18]:
Q = np.zeros((env.observation_space.n, env.action_space.n))
print(Q)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


El codi següent defineix les funcions que caracteritzen l'agent (s'estudiaran en mòduls posteriors d'aquest curs).

In [19]:
def choose_action(state):
    action=0
    if np.random.uniform(0, 1) < epsilon:
        action = env.action_space.sample()
    else:
        action = np.argmax(Q[state, :])
    return action

def learn(state, new_state, reward, action):
    predict = Q[state, action]
    target = reward + gamma * np.max(Q[new_state, :])
    Q[state, action] = Q[state, action] + learning_rate * (target - predict)

El codi següent fa tantes partides del joc com s'indiquen en la variable `num_episodes`. En cada partida (episodi), l'agent va interactuant amb l'entorn i, com a fruit d'aquesta interacció, va actualitzant els valors de la taula _Q_. En el codi s'ha comentat el mètode `env.render()` amb l'objectiu de no saturar la pantalla. Així mateix, s'imprimeixen per pantalla els episodis en els quals l'agent aconsegueix la casella de destinació.

In [21]:
# Start
for episode in range(num_episodes):
    state, probability = env.reset()
    t = 0
    
    while t < max_steps:
        # Render the environment (Doesn't work in Google Colab)
        #env.render() --- Uncomment if you want to see the path of the agent
        action = choose_action(state)  
        state2, reward, done, truncated, info = env.step(action)  
        learn(state, state2, reward, action)
        state = state2
        t += 1
       
        if done:
            break

    if reward == 1:
        print("Episode {} finished after {} timesteps and reward was {} ".format(episode+1, t, reward)) 

Episode 101 finished after 18 timesteps and reward was 1.0 
Episode 139 finished after 14 timesteps and reward was 1.0 
Episode 149 finished after 12 timesteps and reward was 1.0 
Episode 196 finished after 11 timesteps and reward was 1.0 
Episode 198 finished after 10 timesteps and reward was 1.0 
Episode 439 finished after 7 timesteps and reward was 1.0 
Episode 451 finished after 9 timesteps and reward was 1.0 
Episode 464 finished after 17 timesteps and reward was 1.0 
Episode 469 finished after 7 timesteps and reward was 1.0 
Episode 477 finished after 16 timesteps and reward was 1.0 
Episode 501 finished after 15 timesteps and reward was 1.0 
Episode 530 finished after 12 timesteps and reward was 1.0 
Episode 567 finished after 18 timesteps and reward was 1.0 
Episode 678 finished after 12 timesteps and reward was 1.0 
Episode 732 finished after 17 timesteps and reward was 1.0 
Episode 787 finished after 11 timesteps and reward was 1.0 
Episode 833 finished after 21 timesteps and

Podem veure els valors finals de la taula _Q_ després de l'entrenament.

In [22]:
print(Q)

[[5.58585196e-01 6.36868149e-01 6.36958188e-01 5.30142932e-01]
 [4.65427218e-01 1.01610646e-01 9.91895138e-02 5.48062560e-01]
 [5.95945427e-01 5.18235675e-01 5.37270174e-01 5.41457950e-01]
 [5.41937689e-01 8.12674360e-02 4.41492554e-01 5.26887411e-01]
 [6.81318119e-01 6.88506185e-01 6.77927473e-01 6.11561839e-01]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00]
 [1.08137994e-01 6.23318151e-01 1.23524857e-01 7.52138646e-04]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00]
 [5.72444596e-01 1.40474345e-01 1.36346397e-01 7.09455368e-01]
 [5.98568667e-01 7.70147116e-01 1.40467319e-01 1.66812600e-01]
 [9.14641791e-01 1.37283263e-01 1.26226606e-01 7.39524353e-01]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00]
 [6.52641536e-01 7.69332695e-01 7.52961926e-01 8.00751802e-01]
 [7.89959593e-01 9.90481281e-01 8.95394505e-01 9.07312038e-01]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.000000

### 2.6. Comprovació de la millora
En aquest últim apartat comprovarem que l'agent dissenyat aconsegueix millors prestacions que l'agent aleatori.

El codi és molt semblant al que hem utilitzat mentre entrenàvem l'agent, però s'omet la part d'aprenentatge d'aquest agent. Per a això, simularem diversos episodis utilitzant els valors de la taula _Q_ obtinguda en l'entrenament. Concretament, l'agent selecciona el valor màxim de la taula _Q_ per a cada estat:

In [23]:
def choose_action_max(state):
    action = np.argmax(Q[state, :])
    return action

De nou, calculem la recompensa total de diversos episodis i calculem el percentatge d'encert, que, com es pot comprovar, és superior al de l'agent aleatori.

En el codi s'ofereix l'oportunitat de visualitzar (de manera diferent a la vista fins a aquest moment) els últims episodis de la simulació (indicats en la variable `num_shows`). Aquesta opció no està disponible a Google Colab.

In [24]:
from IPython.display import clear_output

num_episodes = 1000
total_reward = 0
num_shows = 5
show_episode = False

# start
for episode in range(num_episodes):

    if (num_episodes - episode) <= num_shows:
        show_episode = False # Set to 'False' in Google Colab
        
    state, probability = env.reset()
    
    if show_episode == True:
        print('')
        print('')
        print("*** Episode: ", episode+1)
        print('')
        print('')
        time.sleep(0.8)
        clear_output(wait=True)
        env.render()
    
    t = 0
    while t < 100:
        action = choose_action_max(state)  
        state, reward, done, truncated, info = env.step(action)  
        
        if show_episode == True:
            time.sleep(0.5)
            clear_output(wait=True)
            env.render()
        if done:
            break

    if show_episode == True:
        time.sleep(0.8)
        clear_output(wait=True)
        print('')
        print('')
        print('Reward = {}'.format(reward))
        print('')
        print('')
        time.sleep(0.8)
        clear_output(wait=True)
    
    total_reward += reward
    
success_rate = total_reward*100/num_episodes
print("{} successes in {} episodes: {} % of success".format(total_reward, num_episodes, success_rate))

101.0 successes in 1000 episodes: 10.1 % of success
