<a href="https://colab.research.google.com/github/SSolanoRuniandes/Notebooks-Aprendizaje-por-Refuerzo-Profundo/blob/main/TareaSemana3_v2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![MAIA banner](https://raw.githubusercontent.com/MAIA4361-Aprendizaje-refuerzo-profundo/Notebooks_Tareas/main/Images/Aprendizaje_refuerzo_profundo_Banner_V1.png)

# <h1><center>Tarea Tutorial - Semana 3 <a href="https://colab.research.google.com/github/SSolanoRuniandes/Notebooks-Aprendizaje-por-Refuerzo-Profundo/blob/main/TareaSemana3_v2.ipynb"><img src="https://colab.research.google.com/assets/colab-badge.svg" width="140" align="center"/></a></center></h1>

<center><h1>Deep Q Networks</h1></center>

En este notebook se presenta una introducción práctica en detalle al algoritmo de DQN y sus variantes, como Doble DQN y QRDQN. Para ello se va a abordar un problema que se ha convertido en un estándar para la prueba de algoritmos de aprendizaje por refuerzo: jugar videojuegos de Atari. En este tutorial aprenderás sobre cómo se pueden utilizar redes neuronales convolucionales para entrenar algoritmos directamente a partir de imágenes, y sobre algunas técnicas o estrategias que se han desarrollado para mejorar el aprendizaje. Nos concentraremos específicamente en el juego <i>Freeway</i>, encontrado dentro de las librería Gymnasium, y las implementaciones de DQN ofrecidas por Stable-Baselines3.


# Tabla de Contenidos
1. [Objetivos de Aprendizaje](#scrollTo=Objetivos_de_Aprendizaje)  
2. [Marco Teórico](#scrollTo=Marco_Te_rico)  
3. [Instalación de Librerías](#scrollTo=Instalaci_n_de_Librer_as)  
4. [Familiarización con el Entorno de Gym](#scrollTo=Familiarizaci_n_con_el_Entorno_de_Gym)  
5. [DQN](#scrollTo=DQN)
6. [Doble DQN](#scrollTo=Doble_DQN)  
7. [Prioritized Experience Replay](#scrollTo=Prioritized_Experience_Replay)  
8. [Reflexiones Finales](#scrollTo=Reflexiones_Finales)  
9. [Referencias](#scrollTo=Referencias)

# Objetivos de Aprendizaje  

A través de los ejercicios de este tutorial se busca:
  

*   Evidenciar el uso de redes neuronales convolucionales para aprender directamente de imágenes en un entorno/problema de Aprendizaje por Refuerzo.
*   Comprender las bases teóricas del funcionamiento del algoritmo de Deep Q-Networks (DQN).
*   Experimental con algunas modificaciones útiles que se aplican al algoritmo de DQN, como Doble DQN, Quantile Regression DQN (QR-DQN) o Prioritized Experience Replay, y observar sus ventajas.




# Marco Teórico  

Anteriormente, se abordó el método tabular de Q-Learning, un algoritmo de aprendizaje off-policy. En el año 2015, Minh et al. [1] publicaron un artículo donde modificaban este algoritmo para utilizar aproximación de funciones haciendo uso de redes neuronales convolucionales. Este paper introdujo así el algoritmo de Deep Q-Networks (DQN), y lo usó de forma exitosa en juegos de Atari. El algoritmo de DQN se muestra en la Figura 1 a continuación.

![DQNdF](https://raw.githubusercontent.com/MAIA4361-Aprendizaje-refuerzo-profundo/Notebooks_Tareas/main/Images/DQN_dF.png)


<center>Figura 1. Algoritmo de DQN.</center>


Minh et al. utilizaron este algoritmo usando como entradas de la red neuronal convolucional imágenes de 84x84 pixeles en escala de grises, correspondientes a la secuencia de distintos juegos de Atari. La salida de la red era el valor de la función Q para cada una de las posibles acciones que puede tomar el jugador con los controles disponibles. Este paper marcó un antes y un después en el Aprendizaje por Refuerzo profundo, porque en este caso se está aprendiendo directamente a partir de las imágenes, mientras que anteriormente se empleaban representaciones lineales más sencillas o modelos diseñados específicamente para cada problema. En este caso, una misma red neuronal, modelo y parámetros se pueden utilizar para distintos juegos sin tener conocimiento previo de los mismos. Adicionalmente, en este artículo se introducen estrategias importantes como el uso de minibatches y Experience Replay. El Experience Replay consiste en guardar las experiencias pasadas del agente y usarlas posteriormente de diferentes partes del entrenamiento, rompiendo la correlación temporal de los datos. De esta manera, Minh et al. logran obtener resultados mejores en distintos juegos de Atari a comparación de métodos pasados y también logran superar en algunos casos a jugadores humanos expertos. [1]

No obstante, el algoritmo de DQN luego pasó por una serie de mejoras y cambios sugeridos en otras publicaciones. El avance más importante probablemente fue la implementación de Doble Doble DQN, en el artículo de Van Hasselt [2] del mismo año 2015. En Q-Learning tradicional y también en DQN, el algoritmo tiende a sobreestimar los valores de las acciones debido al sesgo de maximización, que aparece al tomar el máximo sobre acciones en la actualización de la función Q. Esta sobreestimación puede llevar a encontrar peores políticas. Para corregir este problema, en el artículo se generaliza el Doble Q-Learning (versión tabular) al algoritmo de DQN. Para ello recurren a dos redes neuronales: una red online para seleccionar las acciones, y otra red para realizar la evaluación, denominada target network. Con esto se consigue reducir la sobreestimación y mejorar la estabilidad del entrenamiento, resultando generalmente en mejores puntajes en los mismos juegos de Atari.

Otra modificación importante consiste en utilizar un Experience Replay priorizado (Prioritized Experience Replay). Esta estrategia fue propuesta por Schaul et al. [3] en 2016. Básicamente, en el Experience Replay original el agente guarda trancisiones como experiencia y las guarda al azar para romper las correlaciones temporales, pero no todas las experiencias son igual de útiles, y la repetición de trancisiones poco informativas termina realentizando el aprendizaje. Con Prioritized Experience Repaly, se utiliza la magnitud del error TD como medida de importancia, priorizando las trancisiones con mayor error TD, reproduciendo más a menudo estas experiencias para aprender más rápido. Esta priorización puede hacerse de forma proporcional al error TD o basada en la posición en un ranking.

El algoritmo de Doble DQN, con Prioritized Experience Replay proporcional, se muestra en la Figura 2.

![DobleDQNdF](https://raw.githubusercontent.com/MAIA4361-Aprendizaje-refuerzo-profundo/Notebooks_Tareas/main/Images/DobleDQN_dF.png)

<center>Figura 2. Algoritmo de Doble DQN con Prioritized Experience Replay proporcional.</center>


Finalmente, en 2017 Dabney et al. [4] proponen otra técnica llamada Quantile Regression DQN (QR-DQN). En este algoritmo no se predice únicamente el valor esperado de la recompensa, sino que se estima la distribución completa de posibles recompensas que el agente puede recibir. En general esta técnica puede llegar a ser más robusta y estable, ya que captura mejor la variabilidad e incertidumbre del entorno, pero también puede requerir mayores tiempos de entrenamiento.



# Instalación de Librerías  

Para este tutorial, siguiendo la metodología de los papers anteriormente mencionados, se va a recurrir a un juego de Atari 2600: <i>Freeway</i>. Este videojuego ya se encuentra incluido en los ambientes de Atari de la librería Gymnasium. También se utilizarán las implementaciones de DQN encontradas dentro de Stable-Baselines3. A continuación se instalan todas estas librerías y demás herramientas necesarias.


In [None]:
#Descarga librerías no incluidas en Colab usando pip
!pip install stable_baselines3 #Stable Baselines3 -> Framework de Reinforcement Learning
!pip install sb3-contrib #SB3-Contrib es un repositorio aparte con otros algoritmos
!pip install ale-py #ALE se utiliza para el ambiente de Atari
!pip install "gymnasium[atari,accept-rom-license]" stable-baselines3 autorom renderlab -q #Gymnasium, envs de Atari y ROM
!AutoROM --accept-license
!pip install renderlab #usado para renderizar gym

#Importa estas librerías
import stable_baselines3 #importa Stable Baselines3
from stable_baselines3 import DQN #importa el agente/algoritmo de DQN
from stable_baselines3.common.logger import configure #importa herramientas de logger/debug
from stable_baselines3.common.logger import Logger, CSVOutputFormat, HumanOutputFormat #importa herramientas de logger/debug
from stable_baselines3.common.evaluation import evaluate_policy #importa herramienta de evaluación automática
from sb3_contrib import QRDQN #importa el agente/algoritmo de QRDQN
import gymnasium #importa la libreria de gymnasium con las simulaciones
import renderlab #importa renderlab para los videos
import ale_py #importa ale para los ambientes de Atari
from gymnasium.wrappers import TimeLimit #importa timelimit para acortar los episodios

#!Importante:
gymnasium.register_envs(ale_py) #Hay que registrar los entornos de ALE manualmente!!!

#Importa otras librerías básicas
import numpy as np
import matplotlib.pyplot as plt
import random
import math
import pandas as pd
import sys

#Limpia los registros generados
from IPython.display import clear_output
clear_output()
print("Todas las librerías han sido instaladas correctamente.")

Todas las librerías han sido instaladas correctamente.


# Familiarización con el Entorno de Gym

In [None]:
mode=0
difficulty=0

env_render = gymnasium.make("ALE/Freeway-v5", render_mode="rgb_array", mode=mode, difficulty=difficulty) #Se crea el ambiente. Para este tutorial, utilice gymnasium si va a renderizar.
env_render = renderlab.RenderFrame(env_render, "./output") #Se crea una copia que se pueda renderizar con renderlab

terminated = False #Inicializa una condición para el loop
truncated = False #Inicializa una condición para el loop
total_reward=0 #Inicializa contador del retorno

obs , info = env_render.reset() #Se reinicia el estado para comenzar. En obs se almacena el estado observado (continuo, 2 dimensiones)

while not (terminated or truncated): #Simula hasta que el carro salga del valle o hasta que pasen 200 episodios
  action = 1
  #print(action)
  obs, reward, terminated, truncated, info = env_render.step(action)
  total_reward+=reward

print("Recompensa obtenida en el episodio:",total_reward) #Se imprime la recompensa obtenida
print("\n\n")

env_render.play() #Con esta función se obtiene el video de la simulación

Recompensa obtenida en el episodio: 21.0



Moviepy - Building video temp-{start}.mp4.
Moviepy - Writing video temp-{start}.mp4





Moviepy - Done !
Moviepy - video ready temp-{start}.mp4


In [None]:
mode=7
difficulty=1

env_render = gymnasium.make("ALE/Freeway-v5", render_mode="rgb_array", mode=mode, difficulty=difficulty) #Se crea el ambiente. Para este tutorial, utilice gymnasium si va a renderizar.
env_render = renderlab.RenderFrame(env_render, "./output") #Se crea una copia que se pueda renderizar con renderlab

terminated = False #Inicializa una condición para el loop
truncated = False #Inicializa una condición para el loop
total_reward=0 #Inicializa contador del retorno

obs , info = env_render.reset() #Se reinicia el estado para comenzar. En obs se almacena el estado observado (continuo, 2 dimensiones)

while not (terminated or truncated): #Simula hasta que el carro salga del valle o hasta que pasen 200 episodios
  action = 1
  #print(action)
  obs, reward, terminated, truncated, info = env_render.step(action)
  total_reward+=reward

print("Recompensa obtenida en el episodio:",total_reward) #Se imprime la recompensa obtenida
print("\n\n")

env_render.play() #Con esta función se obtiene el video de la simulación

Recompensa obtenida en el episodio: 5.0



Moviepy - Building video temp-{start}.mp4.
Moviepy - Writing video temp-{start}.mp4





Moviepy - Done !
Moviepy - video ready temp-{start}.mp4


In [None]:
# Simulación

# =====================================================
# COMPLETAR ===========================================
#

# =====================================================

<OrderEnforcing<PassiveEnvChecker<AtariEnv<ALE/Freeway-v5>>>>


#DQN

# **DQN - Intento 1**
No hay pasos muertos al principio.

Sin doble q-learning ni prrioritized experience replay

Ejemplo: modo 0 y dificultad 0, aprende, da buen puntaje, pero siempre va es derecho

Pruebe:

*modo 0 y dificultad 1

*modo 7 y dificultad 1

In [None]:
from stable_baselines3.common.env_util import make_atari_env
from stable_baselines3.common.vec_env import DummyVecEnv, VecFrameStack

modo=0
dificultad=0

env = make_atari_env(
    "ALE/Freeway-v5",
    n_envs=1,
    seed=0,
    env_kwargs={"mode": modo, "difficulty": dificultad}
)

env = VecFrameStack(env, n_stack=4)  # apila 4 frames para dar percepción del movimiento

#Útil: Limitar el tiempo del episodio
#env = TimeLimit(env, max_episode_steps=512)

#Importante: Limitar el buffer por las limitaciones de Colab
#Útil: learning_Starts para ganar algo de experiencia (2 episodios)
model = DQN(
    "CnnPolicy",
    env,
    learning_rate=0.0001,
    buffer_size=50_000,         #original: 100_000
    learning_starts=1024,       #original: 100
    batch_size=32,
    gamma=0.99,
    train_freq=4,
    target_update_interval=10000,
    exploration_fraction=0.7,   #original: 0.1
    exploration_initial_eps=1.0,
    exploration_final_eps=0.05,  #original: 0.05
    policy_kwargs=None,
    verbose=1)

#100 episodios de entrenamiento
model.learn(total_timesteps=51_200, log_interval=5)
model.save("dqn_freeway_1")


from collections import deque
import cv2

# Cargar el modelo entrenado
model = DQN.load("dqn_freeway_1")

# Crea un entorno para renderizar
env = gymnasium.make("ALE/Freeway-v5", render_mode="rgb_array", mode=modo, difficulty=dificultad)
env = renderlab.RenderFrame(env, "./output")

# Frame stack manual para el modelo (apilamos en gris 84x84)
frame_stack = deque(maxlen=4)

# Reset del entorno
obs, info = env.reset()

# Procesa una copia del frame sólo para el modelo
def preprocess(obs):
    gray = obs.mean(axis=2).astype(np.uint8)  # escala de grises
    resized = cv2.resize(gray, (84, 84), interpolation=cv2.INTER_AREA)
    return resized

# Llena el frame stack inicial
preprocessed = preprocess(obs)
for _ in range(4):
    frame_stack.append(preprocessed)

terminated = False
truncated = False
total_reward = 0

# Loop de simulación
while not (terminated or truncated):
    stacked_obs = np.stack(frame_stack, axis=0)  # (4, 84, 84) aquí se ajustan los frames
    action, _ = model.predict(stacked_obs, deterministic=True)

    # Avanza en el entorno real manteniendo la continuidad en el video
    obs, reward, terminated, truncated, info = env.step(action)
    total_reward += reward

    # Actualiza el stack sólo para el modelo
    preprocessed = preprocess(obs)
    frame_stack.append(preprocessed)

print("Recompensa obtenida en el episodio:", total_reward)
env.play()

Using cuda device
Wrapping the env in a VecTransposeImage.
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 2.05e+03 |
|    ep_rew_mean      | 0.6      |
|    exploration_rate | 0.933    |
| time/               |          |
|    episodes         | 5        |
|    fps              | 164      |
|    time_elapsed     | 15       |
|    total_timesteps  | 2545     |
| train/              |          |
|    learning_rate    | 0.0001   |
|    loss             | 9e-08    |
|    n_updates        | 380      |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 2.05e+03 |
|    ep_rew_mean      | 0.8      |
|    exploration_rate | 0.865    |
| time/               |          |
|    episodes         | 10       |
|    fps              | 161      |
|    time_elapsed     | 31       |
|    total_timesteps  | 5092     |
| train/              |          |
|    learning_rate    | 0.0001 



Moviepy - Done !
Moviepy - video ready temp-{start}.mp4


In [None]:
from stable_baselines3.common.env_util import make_atari_env
from stable_baselines3.common.vec_env import DummyVecEnv, VecFrameStack

modo=0
dificultad=1

env = make_atari_env(
    "ALE/Freeway-v5",
    n_envs=1,
    seed=0,
    env_kwargs={"mode": modo, "difficulty": dificultad}
)

env = VecFrameStack(env, n_stack=4)  # apila 4 frames para dar percepción del movimiento

#Útil: Limitar el tiempo del episodio
#env = TimeLimit(env, max_episode_steps=512)

#Importante: Limitar el buffer por las limitaciones de Colab
#Útil: learning_Starts para ganar algo de experiencia (2 episodios)
model = DQN(
    "CnnPolicy",
    env,
    learning_rate=0.0001,
    buffer_size=50_000,         #original: 100_000
    learning_starts=1024,       #original: 100
    batch_size=32,
    gamma=0.99,
    train_freq=4,
    target_update_interval=10000,
    exploration_fraction=0.7,   #original: 0.1
    exploration_initial_eps=1.0,
    exploration_final_eps=0.05,  #original: 0.05
    policy_kwargs=None,
    verbose=1)

#100 episodios de entrenamiento
model.learn(total_timesteps=51_200, log_interval=5)
model.save("dqn_freeway_2")


from collections import deque
import cv2

# Cargar el modelo entrenado
model = DQN.load("dqn_freeway_2")

# Crea un entorno para renderizar
env = gymnasium.make("ALE/Freeway-v5", render_mode="rgb_array", mode=modo, difficulty=dificultad)
env = renderlab.RenderFrame(env, "./output")

# Frame stack manual para el modelo (apilamos en gris 84x84)
frame_stack = deque(maxlen=4)

# Reset del entorno
obs, info = env.reset()

# Procesa una copia del frame sólo para el modelo
def preprocess(obs):
    gray = obs.mean(axis=2).astype(np.uint8)  # escala de grises
    resized = cv2.resize(gray, (84, 84), interpolation=cv2.INTER_AREA)
    return resized

# Llena el frame stack inicial
preprocessed = preprocess(obs)
for _ in range(4):
    frame_stack.append(preprocessed)

terminated = False
truncated = False
total_reward = 0

# Loop de simulación
while not (terminated or truncated):
    stacked_obs = np.stack(frame_stack, axis=0)  # (4, 84, 84) aquí se ajustan los frames
    action, _ = model.predict(stacked_obs, deterministic=True)

    # Avanza en el entorno real manteniendo la continuidad en el video
    obs, reward, terminated, truncated, info = env.step(action)
    total_reward += reward

    # Actualiza el stack sólo para el modelo
    preprocessed = preprocess(obs)
    frame_stack.append(preprocessed)

print("Recompensa obtenida en el episodio:", total_reward)
env.play()

Using cuda device
Wrapping the env in a VecTransposeImage.
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 2.05e+03 |
|    ep_rew_mean      | 0        |
|    exploration_rate | 0.933    |
| time/               |          |
|    episodes         | 5        |
|    fps              | 135      |
|    time_elapsed     | 18       |
|    total_timesteps  | 2545     |
| train/              |          |
|    learning_rate    | 0.0001   |
|    loss             | 5.48e-07 |
|    n_updates        | 380      |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 2.05e+03 |
|    ep_rew_mean      | 0        |
|    exploration_rate | 0.865    |
| time/               |          |
|    episodes         | 10       |
|    fps              | 142      |
|    time_elapsed     | 35       |
|    total_timesteps  | 5092     |
| train/              |          |
|    learning_rate    | 0.0001 



Moviepy - Done !
Moviepy - video ready temp-{start}.mp4


In [None]:
from stable_baselines3.common.env_util import make_atari_env
from stable_baselines3.common.vec_env import DummyVecEnv, VecFrameStack

modo=7
dificultad=1

env = make_atari_env(
    "ALE/Freeway-v5",
    n_envs=1,
    seed=0,
    env_kwargs={"mode": modo, "difficulty": dificultad}
)

env = VecFrameStack(env, n_stack=4)  # apila 4 frames para dar percepción del movimiento

#Útil: Limitar el tiempo del episodio
#env = TimeLimit(env, max_episode_steps=512)

#Importante: Limitar el buffer por las limitaciones de Colab
#Útil: learning_Starts para ganar algo de experiencia (2 episodios)
model = DQN(
    "CnnPolicy",
    env,
    learning_rate=0.0001,
    buffer_size=50_000,         #original: 100_000
    learning_starts=1024,       #original: 100
    batch_size=32,
    gamma=0.99,
    train_freq=4,
    target_update_interval=10000,
    exploration_fraction=0.7,   #original: 0.1
    exploration_initial_eps=1.0,
    exploration_final_eps=0.05,  #original: 0.05
    policy_kwargs=None,
    verbose=1)

#100 episodios de entrenamiento
model.learn(total_timesteps=51_200, log_interval=5)
model.save("dqn_freeway_3")


from collections import deque
import cv2

# Cargar el modelo entrenado
model = DQN.load("dqn_freeway_3")

# Crea un entorno para renderizar
env = gymnasium.make("ALE/Freeway-v5", render_mode="rgb_array", mode=modo, difficulty=dificultad)
env = renderlab.RenderFrame(env, "./output")

# Frame stack manual para el modelo (apilamos en gris 84x84)
frame_stack = deque(maxlen=4)

# Reset del entorno
obs, info = env.reset()

# Procesa una copia del frame sólo para el modelo
def preprocess(obs):
    gray = obs.mean(axis=2).astype(np.uint8)  # escala de grises
    resized = cv2.resize(gray, (84, 84), interpolation=cv2.INTER_AREA)
    return resized

# Llena el frame stack inicial
preprocessed = preprocess(obs)
for _ in range(4):
    frame_stack.append(preprocessed)

terminated = False
truncated = False
total_reward = 0

# Loop de simulación
while not (terminated or truncated):
    stacked_obs = np.stack(frame_stack, axis=0)  # (4, 84, 84) aquí se ajustan los frames
    action, _ = model.predict(stacked_obs, deterministic=True)

    # Avanza en el entorno real manteniendo la continuidad en el video
    obs, reward, terminated, truncated, info = env.step(action)
    total_reward += reward

    # Actualiza el stack sólo para el modelo
    preprocessed = preprocess(obs)
    frame_stack.append(preprocessed)

print("Recompensa obtenida en el episodio:", total_reward)
env.play()

Using cuda device
Wrapping the env in a VecTransposeImage.
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 2.05e+03 |
|    ep_rew_mean      | 0        |
|    exploration_rate | 0.933    |
| time/               |          |
|    episodes         | 5        |
|    fps              | 172      |
|    time_elapsed     | 14       |
|    total_timesteps  | 2545     |
| train/              |          |
|    learning_rate    | 0.0001   |
|    loss             | 4.84e-07 |
|    n_updates        | 380      |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 2.05e+03 |
|    ep_rew_mean      | 0.1      |
|    exploration_rate | 0.865    |
| time/               |          |
|    episodes         | 10       |
|    fps              | 163      |
|    time_elapsed     | 31       |
|    total_timesteps  | 5092     |
| train/              |          |
|    learning_rate    | 0.0001 




Recompensa obtenida en el episodio: 5.0
Moviepy - Building video temp-{start}.mp4.
Moviepy - Writing video temp-{start}.mp4





Moviepy - Done !
Moviepy - video ready temp-{start}.mp4


# **DQN - Intento 2**
Hay pasos muertos al principio.

Sin nada, ni doble ni prrioritized experience replay

In [None]:
from gymnasium import Wrapper

class DelayActionWrapper(Wrapper):
    def __init__(self, env, delay_steps=100):
        super().__init__(env)
        self.delay_steps = delay_steps
        self.current_step = 0

    def reset(self, **kwargs):
        self.current_step = 0
        return self.env.reset(**kwargs)

    def step(self, action):
        if self.current_step < self.delay_steps:
            action = 0
        obs, reward, terminated, truncated, info = self.env.step(action)
        self.current_step += 1
        return obs, reward, terminated, truncated, info

In [None]:
from gymnasium.wrappers import TimeLimit

gymnasium.register_envs(ale_py) #Hay que registrar los entornos de ALE manualmente
env = gymnasium.make("ALE/Freeway-v5", mode=0, difficulty=0) #Crea el ambiente de Freeway

#Útil: Limitar el tiempo del episodio
env = DelayActionWrapper(env, delay_steps=512)

#Importante: Limitar el buffer por las limitaciones de Colab
#Útil: learning_Starts para ganar algo de experiencia (4 episodios)
model = DQN("CnnPolicy", env, buffer_size=50_000, verbose=1, learning_starts=4096)

#100 episodios de entrenamiento
model.learn(total_timesteps=204_800, log_interval=5)
model.save("dqn_freeway")

Using cuda device
Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.
Wrapping the env in a VecTransposeImage.
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 2.05e+03 |
|    ep_rew_mean      | 0        |
|    exploration_rate | 0.525    |
| time/               |          |
|    episodes         | 5        |
|    fps              | 260      |
|    time_elapsed     | 39       |
|    total_timesteps  | 10240    |
| train/              |          |
|    learning_rate    | 0.0001   |
|    loss             | 2.11e-07 |
|    n_updates        | 1535     |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 2.05e+03 |
|    ep_rew_mean      | 0        |
|    exploration_rate | 0.05     |
| time/               |          |
|    episodes         | 10       |
|    fps              | 192      |
|    time_elapsed     | 106      |
|    total_timesteps  | 

In [None]:
model = DQN.load("dqn_freeway")


env_render = gymnasium.make("ALE/Freeway-v5", render_mode="rgb_array", mode=0, difficulty=0) #Se crea el ambiente. Para este tutorial, utilice gymnasium si va a renderizar.
#env_render = DelayActionWrapper(env, delay_steps=512, no_op_action=0)
env_render = renderlab.RenderFrame(env_render, "./output") #Se crea una copia que se pueda renderizar con renderlab

terminated = False #Inicializa una condición para el loop
truncated = False #Inicializa una condición para el loop
total_reward=0 #Inicializa contador del retorno

obs , info = env_render.reset() #Se reinicia el estado para comenzar. En obs se almacena el estado observado (continuo, 2 dimensiones)

step=0
while not (terminated or truncated): #Simula hasta que el carro salga del valle o hasta que pasen 200 episodios
  action, _states = model.predict(obs, deterministic=True)
  #if step < 512:
  #      action = 0

  obs, reward, terminated, truncated, info = env_render.step(action)
  total_reward+=reward
  step += 1

print("Recompensa obtenida en el episodio:",total_reward) #Se imprime la recompensa obtenida
print("\n\n")

env_render.play() #Con esta función se obtiene el video de la simulación


Recompensa obtenida en el episodio: 0.0



Moviepy - Building video temp-{start}.mp4.
Moviepy - Writing video temp-{start}.mp4



                                                                  

Moviepy - Done !
Moviepy - video ready temp-{start}.mp4




# **DQN - Intento 3**
No hay pasos muertos al principio.

Con doble dqn y con prrioritized experience replay (QRDQN)

In [None]:
from stable_baselines3.common.env_util import make_atari_env
from stable_baselines3.common.vec_env import DummyVecEnv, VecFrameStack

modo=0
dificultad=1

env = make_atari_env(
    "ALE/Freeway-v5",
    n_envs=1,
    seed=0,
    env_kwargs={"mode": modo, "difficulty": dificultad}
)

env = VecFrameStack(env, n_stack=4)  # apila 4 frames para dar percepción del movimiento

#Útil: Limitar el tiempo del episodio
#env = TimeLimit(env, max_episode_steps=512)

#Importante: Limitar el buffer por las limitaciones de Colab
#Útil: learning_Starts para ganar algo de experiencia (2 episodios)
model = QRDQN(
    "CnnPolicy",
    env,
    learning_rate=0.0001,
    buffer_size=50_000,         #original: 100_000
    learning_starts=1024,       #original: 100
    batch_size=64,
    gamma=0.99,
    train_freq=4,
    target_update_interval=5000, #original: 10000
    exploration_fraction=0.9,   #original: 0.1
    exploration_initial_eps=1.0,
    exploration_final_eps=0.2,  #original: 0.05
    policy_kwargs=dict(n_quantiles=101), #original: 51
    verbose=1)

#400 episodios de entrenamiento
model.learn(total_timesteps=204_800, log_interval=10)
model.save("qrdqn_freeway_1")


from collections import deque
import cv2

# Cargar el modelo entrenado
model = QRDQN.load("qrdqn_freeway_1")

# Crea un entorno para renderizar
env = gymnasium.make("ALE/Freeway-v5", render_mode="rgb_array", mode=modo, difficulty=dificultad)
env = renderlab.RenderFrame(env, "./output")

# Frame stack manual para el modelo (apilamos en gris 84x84)
frame_stack = deque(maxlen=4)

# Reset del entorno
obs, info = env.reset()

# Procesa una copia del frame sólo para el modelo
def preprocess(obs):
    gray = obs.mean(axis=2).astype(np.uint8)  # escala de grises
    resized = cv2.resize(gray, (84, 84), interpolation=cv2.INTER_AREA)
    return resized

# Llena el frame stack inicial
preprocessed = preprocess(obs)
for _ in range(4):
    frame_stack.append(preprocessed)

terminated = False
truncated = False
total_reward = 0

# Loop de simulación
while not (terminated or truncated):
    stacked_obs = np.stack(frame_stack, axis=0)  # (4, 84, 84) aquí se ajustan los frames
    action, _ = model.predict(stacked_obs, deterministic=True)

    # Avanza en el entorno real manteniendo la continuidad en el video
    obs, reward, terminated, truncated, info = env.step(action)
    total_reward += reward

    # Actualiza el stack sólo para el modelo
    preprocessed = preprocess(obs)
    frame_stack.append(preprocessed)

print("Recompensa obtenida en el episodio:", total_reward)
env.play()

Using cuda device
Wrapping the env in a VecTransposeImage.
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 2.05e+03 |
|    ep_rew_mean      | 0.1      |
|    exploration_rate | 0.978    |
| time/               |          |
|    episodes         | 10       |
|    fps              | 154      |
|    time_elapsed     | 32       |
|    total_timesteps  | 5092     |
| train/              |          |
|    learning_rate    | 0.0001   |
|    loss             | 0.00813  |
|    n_updates        | 1016     |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 2.05e+03 |
|    ep_rew_mean      | 0.05     |
|    exploration_rate | 0.956    |
| time/               |          |
|    episodes         | 20       |
|    fps              | 150      |
|    time_elapsed     | 67       |
|    total_timesteps  | 10178    |
| train/              |          |
|    learning_rate    | 0.0001 



Moviepy - Done !
Moviepy - video ready temp-{start}.mp4


In [None]:
from stable_baselines3.common.env_util import make_atari_env
from stable_baselines3.common.vec_env import DummyVecEnv, VecFrameStack

modo=7
dificultad=1

env = make_atari_env(
    "ALE/Freeway-v5",
    n_envs=1,
    seed=0,
    env_kwargs={"mode": modo, "difficulty": dificultad}
)

env = VecFrameStack(env, n_stack=4)  # apila 4 frames para dar percepción del movimiento

#Útil: Limitar el tiempo del episodio
#env = TimeLimit(env, max_episode_steps=512)

#Importante: Limitar el buffer por las limitaciones de Colab
#Útil: learning_Starts para ganar algo de experiencia (2 episodios)
model = QRDQN(
    "CnnPolicy",
    env,
    learning_rate=0.0001,
    buffer_size=50_000,         #original: 100_000
    learning_starts=1024,       #original: 100
    batch_size=64,
    gamma=0.99,
    train_freq=4,
    target_update_interval=5000, #original: 10000
    exploration_fraction=0.9,   #original: 0.1
    exploration_initial_eps=1.0,
    exploration_final_eps=0.2,  #original: 0.05
    policy_kwargs=dict(n_quantiles=101), #original: 51
    verbose=1)

#400 episodios de entrenamiento
model.learn(total_timesteps=204_800, log_interval=10)
model.save("qrdqn_freeway_2")


from collections import deque
import cv2

# Cargar el modelo entrenado
model = QRDQN.load("qrdqn_freeway_2")

# Crea un entorno para renderizar
env = gymnasium.make("ALE/Freeway-v5", render_mode="rgb_array", mode=modo, difficulty=dificultad)
env = renderlab.RenderFrame(env, "./output")

# Frame stack manual para el modelo (apilamos en gris 84x84)
frame_stack = deque(maxlen=4)

# Reset del entorno
obs, info = env.reset()

# Procesa una copia del frame sólo para el modelo
def preprocess(obs):
    gray = obs.mean(axis=2).astype(np.uint8)  # escala de grises
    resized = cv2.resize(gray, (84, 84), interpolation=cv2.INTER_AREA)
    return resized

# Llena el frame stack inicial
preprocessed = preprocess(obs)
for _ in range(4):
    frame_stack.append(preprocessed)

terminated = False
truncated = False
total_reward = 0

# Loop de simulación
while not (terminated or truncated):
    stacked_obs = np.stack(frame_stack, axis=0)  # (4, 84, 84) aquí se ajustan los frames
    action, _ = model.predict(stacked_obs, deterministic=True)

    # Avanza en el entorno real manteniendo la continuidad en el video
    obs, reward, terminated, truncated, info = env.step(action)
    total_reward += reward

    # Actualiza el stack sólo para el modelo
    preprocessed = preprocess(obs)
    frame_stack.append(preprocessed)

print("Recompensa obtenida en el episodio:", total_reward)
env.play()

Using cuda device
Wrapping the env in a VecTransposeImage.
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 2.05e+03 |
|    ep_rew_mean      | 0        |
|    exploration_rate | 0.978    |
| time/               |          |
|    episodes         | 10       |
|    fps              | 149      |
|    time_elapsed     | 34       |
|    total_timesteps  | 5092     |
| train/              |          |
|    learning_rate    | 0.0001   |
|    loss             | 0.00622  |
|    n_updates        | 1016     |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 2.05e+03 |
|    ep_rew_mean      | 0        |
|    exploration_rate | 0.956    |
| time/               |          |
|    episodes         | 20       |
|    fps              | 149      |
|    time_elapsed     | 67       |
|    total_timesteps  | 10178    |
| train/              |          |
|    learning_rate    | 0.0001 



Moviepy - Done !
Moviepy - video ready temp-{start}.mp4


# Doble DQN

# Prioritized Experience Replay

# Reflexiones Finales




# Referencias

[1] Sutton, R. S. and Barto, A. G. (2018). Reinforcement Learning: An Introduction. The MIT Press, second edition.

[2] Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., and Riedmiller, M. (2013). Playing atari with deep reinforcement learning. cite arxiv:1312.5602Comment: NIPS Deep Learning Workshop 2013.

[3] Gym Documentation, Cart Pole. `https://www.gymlibrary.dev/environments/classic_control/cart_pole/`

[4] Stable Baselines3 Documentation, DQN. `https://stable-baselines3.readthedocs.io/en/master/modules/dqn.html`