# Lab: Aprendizaje por refuerzo (I)
# 1 - Gymnasium y entorno FrozenLake-v2

En esta sesión vamos a ver Gymnasium, una librería de referencia para probar algoritmos de aprendizaje por refuerzo que incluye algunos entornos y además define una interfaz común para integrar entornos nuevos basada en el bucle del agente inteligente que ya hemos visto en clase de teoría.

## Configuración y dependencias

In [2]:
# Declaración de constantes
SLIPPERY = False
NUM_EPISODES = 50

In [3]:
!pip install gymnasium seaborn numpy pygame

Collecting gymnasium
  Downloading gymnasium-1.1.1-py3-none-any.whl.metadata (9.4 kB)
Collecting seaborn
  Downloading seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Collecting numpy
  Downloading numpy-2.2.4-cp313-cp313-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (62 kB)
Collecting pygame
  Downloading pygame-2.6.1-cp313-cp313-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting cloudpickle>=1.2.0 (from gymnasium)
  Using cached cloudpickle-3.1.1-py3-none-any.whl.metadata (7.1 kB)
Collecting farama-notifications>=0.0.1 (from gymnasium)
  Using cached Farama_Notifications-0.0.4-py3-none-any.whl.metadata (558 bytes)
Collecting pandas>=1.2 (from seaborn)
  Downloading pandas-2.2.3-cp313-cp313-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (89 kB)
Collecting matplotlib!=3.6.1,>=3.4 (from seaborn)
  Downloading matplotlib-3.10.1-cp313-cp313-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (11 kB)
Collecting contourpy>=1.0.1 (from matplot

In [4]:
import gymnasium as gym
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

## Entorno FrozenLake-v1

Vamos a hacer pruebas con el entorno FrozenLake-v1. En el enlace [https://gymnasium.farama.org/environments/toy_text/frozen_lake/](https://gymnasium.farama.org/environments/toy_text/frozen_lake/) tenéis una descripción detallada del entorno. Dedicadle unos minutos a leerlo con calma para poder entender el efecto de los diferentes algoritmos sobre el proceso de aprendizaje.

Lo primero que vamos a hacer es ejecutar el entorno con una política totalmente aleatoria. Cuando ejecutéis la siguiente celda aparecerá una ventana con el entorno. Puede que se oculte detrás de las demás ventanas por lo que quizá tendréis que buscarla. 

In [6]:
import gymnasium as gym
env = gym.make("FrozenLake-v1", desc=None, map_name="4x4", render_mode="human", is_slippery=False) 
env.reset()
env.render()
is_done = False
t = 0

while not is_done:
   action = env.action_space.sample()
   state, reward, is_done, truncated, _ = env.step(action)
   env.render()
   t +=1
        
print("\nlast state  =", state)
print("reward =     ", reward)
print("terminated = ", is_done)
print("truncated  = ", truncated)
print("time steps = ", t)


last state  = 12
reward =      0.0
terminated =  True
truncated  =  False
time steps =  23


Como vemos, con la función `step()` del entorno ejecutamos una acción. En este caso, con la llamada a `env.action_space.sample()` estamos obteniendo una acción aleatoria del espacio de acciones (el elemento `A` de la tupla del MDP). Como resultado de ejecutar la acción, recibimos:

* `state`: el nuevo estado en el que está el agente.
* `reward`: la recompensa obtenida al haber llegado al nuevo estado desde el anterior mediante la acción ejecutada.
* `terminated`: un booleano que representa si hemos llegado a un estado final.
* `truncated`: un booleano que nos dice si el entorno se ha detenido de manera inesperada (e.g. por un hipotético límite de tiempo).
* `info`: una estructura con metadatos y monitorización, que no usaremos en esta sesión.

Vamos ahora a encapsular esta política en una clase que representará nuestro agente y que iremos evolucionando y modificando:

In [7]:
class RandomAgent:
    def __init__(self, env):
        self.env = env

    def select_action(self):
        return self.env.action_space.sample()

Vamos a definir también el entorno que vamos a usar en el resto de ejemplos:

In [None]:
env = gym.make("FrozenLake-v1", desc=None, map_name="4x4", render_mode="human", is_slippery=SLIPPERY)

Replicamos ahora el resultado de antes, pero ahora con la clase RandomAgent:

In [None]:
env.reset()
env.render()
is_done = False
t = 0
agent = RandomAgent(env)
while not is_done:
   action = agent.select_action()
   state, reward, is_done, truncated, _ = env.step(action)
   env.render()
   t += 1
        
print("\nlast state  =", state)
print("reward =     ", reward)
print("terminated = ", is_done)
print("truncated  = ", truncated)
print("time steps = ", t)

Obviamente parece que el agente no va a resolver esta tarea (a menos que hayáis tenido muchísima suerte). Vamos a realizar unas cuantas ejecuciones para sacar resultados empíricos:

In [None]:
def test_episode(agent, env):
    env.reset()
    is_done = False

    while not is_done:
        action = agent.select_action()
        state, reward, is_done, truncated, info = env.step(action)
    return state, reward, is_done, truncated, info

agent = RandomAgent(env)

solved = 0
rewards = []
for episode in range(50):
    state, reward, is_done, truncated, _ = test_episode(agent, env)
    rewards.append(reward)
    if state == 15:
        solved += 1

print("Solved", solved, "times (", solved * 2, "%)")  

In [None]:
data = pd.DataFrame({'Episode': range(1, len(rewards) + 1), 'Reward': rewards})
plt.figure(figsize=(10, 6))
sns.lineplot(x='Episode', y='Reward', data=data)

plt.title('Rewards Over Episodes')
plt.xlabel('Episode')
plt.ylabel('Reward')
plt.grid(True)
plt.tight_layout()

plt.show()

En el siguiente notebook vamos a comenzar a aplicar algoritmos más fiables.