**ML5 - QLEARNING**
Víctor Álvarez Provencio

In [None]:
#Instalación de OpenAI Gymm Library para el entorno de colab
!pip install gym

In [None]:
import numpy as np
import gym
import random 

In [None]:
# Creamos el entorno
env = gym.make("Taxi-v3")
env.render()

+---------+
|R: | : :[34;1mG[0m|
| : | :[43m [0m: |
| : : : : |
| | : | : |
|Y| : |[35mB[0m: |
+---------+



In [None]:
# Necesitamos calcular estas dos variables para saber cuantas filas y columnas se necesitan
action_size = env.action_space.n
state_size = env.observation_space.n
print("El numero de columnas es:" , action_size)
print("El numero de filas es:", state_size)

El numero de columnas es: 6
El numero de filas es: 500


In [None]:
# De igual manera se puede dibujar con una matriz rellena de 0
qtable = np.zeros((state_size, action_size))
print(qtable)

[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 ...
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]


Que efectivamente se corresponde con 6 columnas y 500 filas

Una vez calculadas estas variables necesarias, se establecen los ***hiperpárametros***

In [None]:
# Cogiendo los valores del repositorio de ejemplo
total_episodes = 50000
total_test_episodes = 100
max_steps  = 99

learning_rate = 0.7
gamma = 0.618

# Igual con los parámetros de exploración
epsilon = 1.0
max_epsilon = 1.0
min_epsilon = 0.01
decay_rate = 0.01

Se implementa el algoritmo QLearning para Taxi-V3. Está plenamente basado en el repositorio que se pone de ejemplo en ML5 




In [None]:
for episode in range(total_episodes):
    
    state = env.reset()
    step = 0
    done = False
    
    for step in range(max_steps):
        # Randomizando
        exp_exp_tradeoff = random.uniform(0,1)
        
   
        if exp_exp_tradeoff > epsilon:
            action = np.argmax(qtable[state,:])
        
      
        else:
            action = env.action_space.sample()
        
        # Take the action (a) and observe the outcome state(s') and reward (r)
        new_state, reward, done, info = env.step(action)

      
        qtable[state, action] = qtable[state, action] + learning_rate * (reward + gamma * 
                                    np.max(qtable[new_state, :]) - qtable[state, action])

        state = new_state
        

        if done == True: 
            break
    
   
    epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-decay_rate*episode)

In [None]:
env.reset()
rewards = []

for episode in range(total_test_episodes):
    state = env.reset()
    step = 0
    done = False
    total_rewards = 0

    for step in range(max_steps):
        # Para que se visualice el juego a medida que avanzan los episodes.
        env.render()
        
        action = np.argmax(qtable[state,:])
        
        new_state, reward, done, info = env.step(action)
        
        total_rewards += reward
        
        if done:
            rewards.append(total_rewards)
            #print ("Score", total_rewards)
            break
        state = new_state
env.close()
print ("Score over time: " +  str(sum(rewards)/total_test_episodes))

[1;30;43mSe han truncado las últimas 5000 líneas del flujo de salida.[0m
|R: | : :[34;1m[43mG[0m[0m|
| : | : : |
| : : : : |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (East)
+---------+
|R: | : :[42mG[0m|
| : | : : |
| : : : : |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (Pickup)
+---------+
|R: | : :G|
| : | : :[42m_[0m|
| : : : : |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (South)
+---------+
|R: | : :G|
| : | :[42m_[0m: |
| : : : : |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (West)
+---------+
|R: | : :G|
| : | : : |
| : : :[42m_[0m: |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (South)
+---------+
|R: | : :G|
| : | : : |
| : :[42m_[0m: : |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (West)
+---------+
|R: | : :G|
| : | : : |
| :[42m_[0m: : : |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (West)
+---------+
|R: | : :G|
| : | : : |
|[42m_[0m: : : : |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (West)
+---------+
|R: | : :G|
| : | : : 

Si se cambian los valores de epsilon lo que cambia es el margen en el que el agente entrá en explotación o no.
Que entre en explotación significa que obtiene más recompensas inmediatamente, aunque sea un comportamiento subóptimo. Como es un algoritmo de aprendizaje, lo suyo es que el comportamiento sea lo más óptimo posible. 
Esto se consigue con valores de exploración (epsilon) adecuados.

Cuando el agente explora, puede mejorar su conocimiento actual y obtener mejores recompensas a largo plazo.

El learning_rate viene claramente derivado de estos conceptos y su variación afectará de manera importante sobre el agente y su aprendizaje.

Poniendo otro ejemplo, con learning_rate de 0.5 y veremos como el agente es capaz de "jugar" mas/menos tiempo. (no siempre serán los mismos valores)


In [None]:
learning_rate = 0.5
for episode in range(total_episodes):
    
    state = env.reset()
    step = 0
    done = False
    
    for step in range(max_steps):
        # Randomizando
        exp_exp_tradeoff = random.uniform(0,1)
        
   
        if exp_exp_tradeoff > epsilon:
            action = np.argmax(qtable[state,:])
        
      
        else:
            action = env.action_space.sample()
        
        # Take the action (a) and observe the outcome state(s') and reward (r)
        new_state, reward, done, info = env.step(action)

      
        qtable[state, action] = qtable[state, action] + learning_rate * (reward + gamma * 
                                    np.max(qtable[new_state, :]) - qtable[state, action])

        state = new_state
        

        if done == True: 
            break
    
   
    epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-decay_rate*episode)

In [None]:
env.reset()
rewards = []

for episode in range(total_test_episodes):
    state = env.reset()
    step = 0
    done = False
    total_rewards = 0

    for step in range(max_steps):
        # Para que se visualice el juego a medida que avanzan los episodes.
        # Para entender mejor lo que significa cambiar el learning_rate, descomentar esto para ver el desarrollo del aprendizaje completo 
        #env.render()
        
        action = np.argmax(qtable[state,:])
        
        new_state, reward, done, info = env.step(action)
        
        total_rewards += reward
        
        if done:
            rewards.append(total_rewards)
            #print ("Score", total_rewards)
            break
        state = new_state
env.close()
print ("Score over time: " +  str(sum(rewards)/total_test_episodes))

Score over time: 8.48
