# TAR: Taller de Aprendizaje por Refuerzo 2025
## Laboratorio 4: Introdución a Gymnasium
### ¿Qué es Gymnasium?

**Gymnasium** es una librería ampliamente utilizada en el campo del aprendizaje por refuerzos. Proporciona una colección de entornos estandarizados, como simulaciones de juegos, tareas físicas y otros desafíos, que nos permiten evaluar y entrenar agentes en una variedad de escenarios. La simplicidad y flexibilidad de Gymnasium lo convierten en una herramienta ampliamente utilizada. Documentación https://gymnasium.farama.org/index.html

*Ejecutar esta celda solo la primera vez (si estan usando un entorno local) para descargar e instalar los paquetes necesarios. Si ejecutan el notebook en colab tendran que ejecutarla cada vez que reinicien el kernel*

In [None]:
!apt install swig cmake
!pip install -r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit1/requirements-unit1.txt

#### IMPORTS

In [None]:
import gymnasium as gym
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm

## Ejercicio 1. Frozen lake

En este ejercicio nos enfrentamos al problema de [Frozen Lake](https://gymnasium.farama.org/environments/toy_text/frozen_lake/), donde el agente aprenderá a navegar desde el **estado inicial (S)** hasta una **meta (G)**, evadiendo los **agujeros (H)** y caminando solamente sobre los bloques de **hielo (F)**.

Podemos tener dos tamaños de entorno:
- map_name="4x4": una versión de cuadrícula 4x4
- map_name="8x8": una versión de cuadrícula 8x8


El entorno tiene dos modos:
- is_slippery=False: El agente siempre se mueve en la dirección deseada  (determinístico).
- is_slippery=True: El agente puede no moverse siempre en la dirección deseada debido al hielo resbaladizo (estocástico).

Trabajaremos con la versión 8x8, y determinística.

### Implementaremos un agente basado en Q-learning
¿Que tipo de metodo es este?

##### RESPUESTA -->

#### 1.1 Definir el ambiente.

In [None]:
#TODO Definir el ambiente `FrozenLake-v1` y renderizarlo en modo rgb_array
#env =

# Reiniciar el entorno y renderizar la imagen inicial
env.reset()
image = env.render()

# Mostrar la imagen del entorno con matplotlib
plt.imshow(image)
plt.axis('off')
plt.show()

#TODO Imprimir la cantidad de posibles estados y la cantidad de acciones posibles
state_space = #....
print("Hay ", state_space, " estados posibles")

action_space = #....
print("Hay ", action_space, " acciones posibles")

Cada uno de los estados es representado por un entero, de izquierda a derecha y de arriba a abajo. El estado inicial es $S = **$ y el estado final $G = **$.

El espacio de acciones es discreto, con 4 acciones disponibles:
- 0: ...
- 1: ...
- 2: ...
- 3: ...

Función de recompensa:
- ...

### Definición de las políticas de decisión

Como Q-learning es un algoritmo off-policy, se utiliza una política de decisión para actuar y otra diferente para actualizar la tabla Q.
Se utilizarán:
- Política greedy (política de actualización)
- Política epsilon-greedy (política de actuación)

#### 1.2 Crear una función que implemente la política greedy. Las entradas son la tabla Q y el estado actual, y la salida es la acción a tomar.

In [None]:
#TODO crear una funcion que implemente la politica greedy.

#### 1.3 Crear otra función que implemente la política epsilon-greedy. 
Además de los parámetros de entrada de la función anterior, agregar $ϵ$, que es la variable que controla la relación exploración/explotación a la hora de decidir que acción tomar.

In [None]:
#TODO crear una funcion que implemente la politica epsilon greedy.

Una vez creadas las funciones anteriores, solamente falta crear la función de entrenamiento. La misma debe seguir el siguiente pseudo-código:

```
Para cada episodio en el total de episodios de entrenamiento:

Reducir epsilon (ya que necesitamos cada vez menos exploración)
Reiniciar el entorno

  Para cada paso en el máximo número de timesteps:
    Elegir la acción At utilizando la política epsilon-greedy
    Realizar la acción (a) y observar el nuevo estado (s') y la recompensa (r)
    Actualizar el valor de Q(s,a) usando la ecuación de Bellman
    Si el episodio ha terminado, finalizarlo

```

**Actualización de la Tabla Q**
  
La función de valor Q se actualiza utilizando la ecuación de Bellman:  
  
$$ Q(s, a) \leftarrow Q(s, a) + \alpha \left[ R + \gamma \max_{a'} Q(s', a') - Q(s, a) \right] $$
  
donde:  
- $ \alpha $ es la tasa de aprendizaje.  
- $ \gamma $ es el factor de descuento.  
- $ R $ es la recompensa recibida.  
- $ s' $ es el nuevo estado.  
- $ a' $ es la acción que maximiza el valor Q en el nuevo estado.

**Observación**: Es importante que la variable `epsilon` varie entre un valor máximo y mínimo, y que vaya decayendo de manera exponencial según el `decay_rate` y el número de episodio en el que se esté.

**Observación 2**: Almacenar la ganacia acumulada para cada episodio para poder graficar la evolución de entrenamiento

#### 1.4 Crear la función de entrenamiento

In [None]:
def train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, gamma, learning_rate, Qtable):
  rewards = []
  #....
  return Qtable, rewards

#### 1.5 Definir los hiperparámetros, inicializar la tabla Q llena de ceros y entrenar el agente

In [None]:
# Parámetros de entrenamiento
n_training_episodes = #....  # Total de episodios de entrenamiento
learning_rate = #....          # Tasa de aprendizaje

# Parámetros del entorno
max_steps = #....              # Máximo de pasos por episodio
gamma = #....                 # Tasa de descuento

# Parámetros de exploración
max_epsilon = #....           # Probabilidad de exploración al inicio
min_epsilon = #....           # Probabilidad mínima de exploración
decay_rate = #....          # Tasa de decaimiento de epsilon

# inicializar la tabla Q con ceros
Qtable_frozenlake = #....

In [None]:
Qtable_frozenlake, rewards = train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, gamma, learning_rate, Qtable_frozenlake)

#### 1.6 El siguente código grafica el promedio de recompensas por cada bloque de 1000 episodios. Observar y explicar su comportamiento.

In [None]:
# Calculamos el promedio de recompensas por cada bloque de 1000 episodios
reward_per_thousand_episodes = np.split(np.array(rewards), n_training_episodes/1000)
count = 1000
avg_rewards = []

for r in reward_per_thousand_episodes:
    avg_rewards.append(sum(r/1000))
    count += 1000

# Visualizamos el promedio de recompensas
plt.plot(avg_rewards)
plt.xlabel('Bloques de 1000 episodios')
plt.ylabel('Promedio de Recompensas')
plt.title('Promedio de Recompensas por Episodio durante el Entrenamiento')
plt.grid()
plt.show()

#### 1.7 Simular un juego y obtener la ganancia (reward) total acumulada. Ver si el agente logró llegar a la meta (si el roward total es positivo).

En caso contrario variar los hiperparámetros.


In [None]:
total_reward = 0

# Jugar una vez con la tabla Q entrenada y obtener la ganancia acumulada
#....

if total_reward > 0:
  print('Llgegaste a la meta!')
print('total_reward ', total_reward)

#### 1.8 Qué impacto tiene en la solución obtenida los diferentes hiperparámetros? Qué sucede al variar el `decay_rate` y `max_epsilon` y `min_epsilon`?

##### RESPUESTA -->

#### 1.9 Si se quisiera un agente que tome el camino más corto, ¿qué solución/es se le ocurre? Implementarla/s

##### RESPUESTA -->

La siguente función toma la tabla Q entrenada y simula un juego, guardando los frames y generando un video.

In [None]:
from matplotlib import animation
def generate_frames(q_table, env, max_steps=100):
    """Genera una lista de frames para crear la animación"""
    state, _ = env.reset()
    frames = [env.render()]  # Render del estado inicial
    for step in range(max_steps):
        action = greedy_policy(q_table, state)
        next_state, reward, done, _, _ = env.step(action)
        frames.append(env.render())  # Guardar el nuevo estado como frame

        state = next_state

        if done:
            break
    return frames

def save_video(frames, filename='q_learning_frozenlake.mp4'):
    """Guardar el video de los frames en un archivo .mp4"""
    fig = plt.figure()
    patch = plt.imshow(frames[0])
    plt.axis('off')

    def animate(i):
        patch.set_data(frames[i])

    anim = animation.FuncAnimation(fig, animate, frames=len(frames), interval=300)

    # Guardar animación
    anim.save(filename, writer='ffmpeg', fps=5)
    plt.close()

In [None]:
# Generar los frames a partir de la tabla Q
frames = generate_frames(Qtable_frozenlake, env)

# Guardar el video
save_video(frames)

## Ejercicio 2. Ta-te-ti usando Q-learning

En esta sección, vamos a entrenar un agente de aprendizaje por refuerzo utilizando el algoritmo de **Q-Learning** para jugar al juego de **Ta-Te-Ti**. El objetivo es que el agente aprenda a tomar decisiones óptimas en cada estado del juego para maximizar su recompensa y ganar la mayor cantidad de partidas posible.

En el archivo ta-te-ti_env.py se define el entorno del **Ta-Te-Ti** que utilizaremos para entrenar nuestro agente de Q-Learning. Buscamos crear un entorno compatible con las interfaces de Gym, lo que significa que debe incluir métodos como `reset`, `render`, `step`, así como propiedades como `observation_space` y `action_space`. Es importante leer y entender la definición del ambiente antes de continuar.

El entorno de **Ta-Te-Ti** consta de un tablero de $3\times3$, para el cual se utiliza un vector de $9$ valores para definir su estado. Este vector se rellena con valores $0$ para los lugares disponibles, con $1$ para  indicar las posiciones donde juega el agente y con $-1$ para indicar las posiciones del oponente.
El environment permite recibir como parámetros de inicialización los reward para el caso donde el agente gana, pierde o empata.

In [None]:
import gymnasium as gym
import numpy as np
import matplotlib.pyplot as plt

from ta_te_ti_env import TaTeTiEnv, play_against_agent

env = TaTeTiEnv()

#### 2.1. Observar la cantidad de posibles estados y posibles acciones a tomar.

In [1]:
# state_space = #....
# print("Hay ", state_space, " estados posibles")

# action_space = #....
# print("Hay ", action_space, " acciones posibles")

#### 2.2. Definir los hiperparámetros y entrenar el agente utilizando las mismas funciones creadas para la parte 2. Variar los diferentes hiperparámetros y diferentes rewards para mejorar la tabla Q obtenida.

In [None]:
win_reward = #....
draw_reward = #....
loss_reward = #....
env = TaTeTiEnv(win_reward, draw_reward, loss_reward) # Se define el entorno

# Parámetros de entrenamiento
n_training_episodes = #....  # Total de episodios de entrenamiento
learning_rate = 0.7          # Tasa de aprendizaje

# Parámetros del entorno
max_steps = 9               # Máximo de pasos por episodio
gamma = #....                # Tasa de descuento
eval_seed = []               # La semilla de evaluación del entorno

# Parámetros de exploración
max_epsilon = #....            # Probabilidad de exploración al inicio
min_epsilon = #....           # Probabilidad mínima de exploración
decay_rate = #....         # Tasa de decaimiento de epsilon

Qtable = np.zeros((env.observation_space.n, env.action_space.n)) # Inicializamos la tabla Q
Qtable, rewards = train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, learning_rate, gamma, Qtable) # Entrenamos el agente

Se observa a continuación la evolución de la recompensa a medida que se avanza el entrenamiento

In [None]:
# Calculamos el promedio de recompensas por cada bloque de 1000 episodios
reward_per_thousand_episodes = np.split(np.array(rewards), n_training_episodes/1000)
count = 1000
avg_rewards = []

for r in reward_per_thousand_episodes:
    avg_rewards.append(sum(r/1000))
    count += 1000

# Visualizamos el promedio de recompensas
plt.plot(avg_rewards)
plt.xlabel('Bloques de 1000 episodios')
plt.ylabel('Promedio de Recompensas')
plt.title('Promedio de Recompensas por Episodio durante el Entrenamiento')
plt.grid()
plt.show()

#### 2.3 Jugar contra el agente, y observar donde y cuando falla. Ajustar hiperparámetros y rewards para mejorar su rendimiento

En particular, experimentar con distintos valores de recompensa. Es interesante visualizar que pasa para los casos donde la recompensa negativa (cuando el agente pierde) es más fuerte que para cuando gana.

In [None]:
play_against_agent(Qtable, env)