<center>
    <h1>Tema 5: Aprendizaje por Refuerzo</h1>
    <h1>Q Learning</h1>
    <h1></h1>
    <h5>Prof. Wladimir Rodriguez</h5>
    <h5>wladimir@ula.ve</h5>
    <h5>Departamento de Computaci√≥n</h5>
</center>

`Q-learning` es un algoritmo de aprendizaje por refuerzo sin modelo para aprender el valor de una acci√≥n en un estado particular. No requiere un modelo del ambiente (por lo tanto, "sin modelo"), y puede manejar problemas con transiciones estoc√°sticas y recompensas sin requerir adaptaciones.

Para cualquier proceso de decisi√≥n de Markov finito (PDMF), `Q-learning` encuentra una pol√≠tica √≥ptima en el sentido de maximizar el valor esperado de la recompensa total en todos y cada uno de los pasos sucesivos, comenzando desde el estado actual. `Q-learning` puede identificar una pol√≠tica de selecci√≥n de acciones √≥ptima para cualquier PDMF dado, con un tiempo de exploraci√≥n infinito y una pol√≠tica parcialmente aleatoria.`Q` se refiere a la funci√≥n que calcula el algoritmo: las recompensas esperadas por una acci√≥n realizada en un estado determinado.

- El `Q-Learning` es el algoritmo Aprendizaje por Refuerzo que:
   - Entrena una `funci√≥n Q`, que contiene, como memoria interna, una `tabla Q` la cual contiene todos los valores del par estado-acci√≥n.
    
   - Dado un estado y una acci√≥n, nuestra `funci√≥n Q` buscar√° en su tabla Q el valor correspondiente.

<center>
    <img src='../figuras/tablaQ.png'/>
</center>

  - Cuando finaliza el entrenamiento, tenemos una `funci√≥n Q` √≥ptima, por lo tanto, una `tabla Q` √≥ptima.
    
- Y si tenemos una `funci√≥n Q` √≥ptima, tenemos una pol√≠tica √≥ptima, ya que sabemos para cada estado, cu√°l es la mejor acci√≥n a tomar.

$$\pi^*(s) = \underset{a}{argmaxQ^*}(s,a)$$

Pero, al principio,¬†nuestra `tabla Q` es in√∫til, ya que da un valor arbitrario para cada par estado-acci√≥n¬†(la mayor√≠a de las veces inicializamos la `tabla q` con 0). Pero, a medida que exploremos el ambiente y actualicemos nuestra `tabla Q`, nos dar√° mejores y mejores aproximaciones.

<center>
    <img src='../figuras/frozenlakeQ.png'/>
</center>

## Ejemplo de `Q learning` utilizando el ambiente `Frozen Lake` de la librer√≠a `Gym'

`Frozen Lake` es un ambiente simple compuesto por mosaicos, donde el agente tiene que pasar de un mosaico inicial a uno objetivo. Los mosaicos pueden ser un lago congelado seguro o un agujero que te atrapa para siempre. El agente, tiene 4 acciones posibles: ir  a la IZQUIERDA, a ABAJO, a la DERECHA o ARRIBA. El agente debe aprender a sortear los agujeros para llegar a la meta en un n√∫mero m√≠nimo de acciones. De forma predeterminada, el ambiente siempre tiene la misma configuraci√≥n. En el c√≥digo del ambiente, cada mosaico est√° representado por una letra de la siguiente manera

```
S F F F       (S: punto de entrada, seguro)
F H F H       (F: superficie congelada, seguro)
F F F H       (H: hueco, atrapado para siempre forever)
H F F G       (G: meta, seguro)
```

### Importar dependencias

In [1]:
import numpy as np
import gym

from tqdm.notebook import tqdm

### Crear ambiente

In [2]:
ambiente = gym.make("FrozenLake-v1", map_name="4x4", is_slippery=False)
ambiente.reset()
ambiente.render()


[41mS[0mFFF
FHFH
FFFH
HFFG


En `Frozen Lake` hay 16 mosaicos, lo que significa que nuestro agente se puede encontrar en 16 posiciones diferentes, llamadas estados. Para cada estado, hay 4 acciones posibles: ir ‚óÄÔ∏èIZQUIERDA, üîΩABAJO, ‚ñ∂Ô∏èDERECHA y üîºARRIBA.

#### Espacio de Estados/Observaciones

In [3]:
ambiente.reset()
print("_____ESPACIO DE OBSERVACIONES_____ \n")
print("Forma del Espacio de Observaciones", ambiente.observation_space)
print("Ejemplo de Observaci√≥n", ambiente.observation_space.sample())

_____ESPACIO DE OBSERVACIONES_____ 

Forma del Espacio de Observaciones Discrete(16)
Ejemplo de Observaci√≥n 2


Vemos con `Forma del Espacio de Observaciones(16)` que la observaci√≥n es un valor que representa la posici√≥n actual del **agente como fila_actual * numero_fila + columna_actual (donde tanto la fila como la columna comienzan en 0)**.

Por ejemplo, la posici√≥n del objetivo en el mapa 4x4 se puede calcular de la siguiente manera: 3 * 4 + 3 = 15. El n√∫mero de observaciones posibles depende del tama√±o del mapa. **Por ejemplo, el mapa 4x4 tiene 16 posibles observaciones.**


Por ejemplo, as√≠ es como se ve estado = 0:

<center>
    <img src='../figuras/frozenlake.png'/>
<center>

#### Espacio de Acciones

In [4]:
print("\n _____ESPACIO DE ACCIONES_____ \n")
print("Forma del Espacio de Acciones", ambiente.action_space.n)
print("Ejemplo de Acci√≥n", ambiente.action_space.sample())


 _____ESPACIO DE ACCIONES_____ 

Forma del Espacio de Acciones 4
Ejemplo de Acci√≥n 1


El espacio de acci√≥n (el conjunto de acciones posibles que puede realizar el agente) es discreto con 4 acciones disponibles:
- 0: IR A LA IZQUIERDA
- 1: ABAJO
- 2: IR A LA DERECHA
- 3: ARRIBA

Funci√≥n de recompensa:
- Alcanzar la meta: +1
- Alcanzar hoyo: 0
- Alcanzar congelado: 0

In [5]:
espacio_de_estados = ambiente.observation_space.n
print("Existen ", espacio_de_estados, " posibles estados")

espacio_de_accion = ambiente.action_space.n
print("Existen ", espacio_de_accion, " posibles acciones")

Existen  16  posibles estados
Existen  4  posibles acciones


#### Crear la `tabla Q` y llenarla con ceros.

In [6]:
def inicializar_tabla_q(espacio_de_estados, espacio_de_accion):
  tablaQ = np.zeros((espacio_de_estados, espacio_de_accion))
  return tablaQ

In [7]:
frozenlake_tablaQ = inicializar_tabla_q(espacio_de_estados, espacio_de_accion)
frozenlake_tablaQ

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### Definir la Pol√≠tica `Epsilon-Avara`

`Epsilon-Avara` es la pol√≠tica de entrenamiento que maneja el compromiso entre exploraci√≥n/explotaci√≥n.

La idea con `Epsilon Avara`:

Con probabilidad $1‚Ää-‚Ää\epsilon$: hacemos explotaci√≥n (es decir, nuestro agente selecciona la acci√≥n con el valor de par estado-acci√≥n m√°s alto).

Con probabilidad $\epsilon$: hacemos exploraci√≥n (intentando acciones aleatorias).

Y a medida que avanza el entrenamiento vamos reduciendo progresivamente el valor de √©psilon ya que cada vez necesitaremos menos exploraci√≥n y m√°s explotaci√≥n.

In [8]:
def politica_epsilon_avara(tablaQ, estado, epsilon):
  # Generar un n√∫mero aleatorio entre 0 y 1
  numero_aleatorio = random.uniform(0,1)
  # si numero_aleatorio > mayor que epsilon --> explotaci√≥n
  if numero_aleatorio > epsilon:
    # Tomar la acci√≥n con el valor mayor dado el estado
    accion = np.argmax(tablaQ[estado])
  # else --> exploraci√≥n
  else:
    accion = ambiente.action_space.sample()
  
  return accion

### Definir los hiperpar√°metros

Los hiperpar√°metros relacionados con la exploraci√≥n son algunos de los m√°s importantes.

- Necesitamos asegurarnos de que nuestro agente **explore lo suficiente el espacio de estado** para aprender una buena aproximaci√≥n de valor, para hacer eso necesitamos tener un decaimiento progresivo del √©psilon.
- Si disminuye el √©psilon demasiado r√°pido (tasa de decaimiento demasiado alta), **corre el riesgo de que su agente se quede atascado**, ya que su agente no explor√≥ lo suficiente el espacio de estado y, por lo tanto, no puede resolver el problema.

In [9]:
# Par√°metros de Entrenamientos
n_episodios_entrenamiento = 10000  # Total de episodios de entrenamiento
tasa_de_aprendizaje = 0.7          # Tasa de aprendizaje

# Par√°metros de Evaluaci√≥n
n_episodios_evaluacion = 100       # Total de episodios de prueba

# Par√°metros del Ambiente
nombre_ambiente = "FrozenLake-v1" # Nombre del ambiente
max_pasos = 99                    # M√°ximo n√∫mero de pasos por episodio
gamma = 0.95                      # Taza de Descuento
semilla_evaluacion = []           # Semilla de evaluacion del ambiente

# Par√°metros Exploraci√≥n
max_epsilon = 1.0             # Exploration probability at start
min_epsilon = 0.05            # Minimum exploration probability 
tasa_decaimiento = 0.0005   

#### Crear la funcion de entrenamiento

In [10]:
def entrenamiento(n_episodios_entrenamiento, min_epsilon, max_epsilon, tasa_decaimiento, ambiente, max_pasos, tablaQ):
  for episodio in tqdm(range(n_episodios_entrenamiento)):
    # Reducir epsilon (porque necesitamos menos y menos exploraci√≥n)
    epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-tasa_decaimiento*episodio)
    # Reiniciar el ambiente
    estado = ambiente.reset()
    paso = 0
    listo = False

    for paso in range(max_pasos):
      # Seleccionar la acci√≥n usando la epsilon de politica avara
      accion = politica_epsilon_avara(tablaQ, estado, epsilon)

      # Tomar la acci√≥n y observar el nuevo estado  y la recompensa
      nuevo_estado, recompensa, listo, info = ambiente.step(accion)

      # Actualizar Q(s,a):= Q(s,a) + lr [R(s,a) + gamma * max Q(s',a') - Q(s,a)]
      tablaQ[estado][accion] = tablaQ[estado][accion] + tasa_de_aprendizaje * (recompensa + gamma * np.max(tablaQ[nuevo_estado]) - tablaQ[estado][accion])   

      # Si listo, terminar el episodio
      if listo:
        break
      
      # Nuestro estadp es el nuevo estado
      estado = nuevo_estado
  return tablaQ

#### Entrenar el agente `Q Learning`

In [11]:
frozenlake_tablaQ = entrenamiento(n_episodios_entrenamiento, min_epsilon, max_epsilon, tasa_decaimiento, ambiente, max_pasos, frozenlake_tablaQ)

  0%|          | 0/10000 [00:00<?, ?it/s]

#### Observar la `tabla Q` resultante del entrenamiento

In [12]:
frozenlake_tablaQ

array([[0.73509189, 0.77378094, 0.77378094, 0.73509189],
       [0.73509189, 0.        , 0.81450625, 0.77378094],
       [0.77378094, 0.857375  , 0.77378094, 0.81450625],
       [0.81450625, 0.        , 0.77378094, 0.77378094],
       [0.77378094, 0.81450625, 0.        , 0.73509189],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.9025    , 0.        , 0.81450625],
       [0.        , 0.        , 0.        , 0.        ],
       [0.81450625, 0.        , 0.857375  , 0.77378094],
       [0.81450625, 0.9025    , 0.9025    , 0.        ],
       [0.857375  , 0.95      , 0.        , 0.857375  ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.9025    , 0.95      , 0.857375  ],
       [0.9025    , 0.95      , 1.        , 0.9025    ],
       [0.        , 0.        , 0.        , 0.        ]])

#### Definir la funci√≥n de evaluaci√≥n

In [15]:
def evaluar_agente(ambiente, max_pasos, n_episodios_evaluacion, Q, semilla):

  recompensa_episodio = []
  for episode in tqdm(range(n_episodios_evaluacion)):
    if semilla:
      estado = ambiente.reset(seed=semilla[episodio])
    else:
      estado = ambiente.reset()
    paso = 0
    listo = False
    recompensa_total_episodio = 0
    
    for paso in range(max_pasos):
      # Take the action (index) that have the maximum expected future reward given that state
      accion = np.argmax(Q[estado][:])
      nuevo_estado, recompensa, listo, info = ambiente.step(accion)
      recompensa_total_episodio += recompensa
      if n_episodios_evaluacion == 1:
          print(nuevo_estado)  
      if listo:
        break
      estado = nuevo_estado
    recompensa_episodio.append(recompensa_total_episodio)
  recompensa_media = np.mean(recompensa_episodio)
  recompensa_desviacion_estandar = np.std(recompensa_episodio)

  return recompensa_media, recompensa_desviacion_estandar

### Evaluar a nuestro agente `Q-Learning` 

- Normalmente deber√≠as tener una recompensa media de 1.0
- Es relativamente f√°cil ya que el espacio de estado es realmente peque√±o (16)

In [27]:
recompensa_media, recompensa_desviacion_estandar = evaluar_agente(ambiente, max_pasos, n_episodios_evaluacion, frozenlake_tablaQ, semilla_evaluacion)
print(f"Recompensa media={recompensa_media:.2f} +/- {recompensa_desviacion_estandar:.2f}")

  0%|          | 0/100 [00:00<?, ?it/s]

Recompensa media=1.00 +/- 0.00


In [16]:
recompensa_media, recompensa_desviacion_estandar = evaluar_agente(ambiente, max_pasos, 1, frozenlake_tablaQ, semilla_evaluacion)
print(f"Recompensa media={recompensa_media:.2f} +/- {recompensa_desviacion_estandar:.2f}")

  0%|          | 0/1 [00:00<?, ?it/s]

4
8
9
13
14
15
Recompensa media=1.00 +/- 0.00


<center>
    <img src='../figuras/frozenlakeRun.png'/>
</center>