# Tarea 4
Camilo Enrique Barreto Reyes
Brayan Yesid Coy Palacios

En este taller usted debe entrenar un agente para que aprenda a jugar el juego de Atari Boxing:

*  Entrene el agente para los niveles de dificultad 1 y 3, con por lo menos dos algoritmos
 basados en función de valor y dos algoritmos de política de gradiente. Puede utilizar
 las implementaciones en la librería Stable Baselines3


In [None]:
import gym
import time
import pandas as pd
from stable_baselines3 import DQN, PPO, A2C
from stable_baselines3.common.vec_env import DummyVecEnv
from stable_baselines3.common.evaluation import evaluate_policy
from gym.wrappers import RecordVideo

In [None]:

dificultad = [1, 3]
algortimo = {
    'DQN': DQN,
    'PPO': PPO,
    'A2C': A2C
}

resultados = []

for diff in dificultad:
    print(f"\n==== Dificultad {diff} ====")
    ambiente = "ALE/Boxing-v5"
    ambien = DummyVecEnv([lambda: gym.make(ambiente, difficulty=diff)])

    for nombre_algoritmo, clase_algortimos in algortimo.items():
        print(f"\n{nombre_algoritmo} en dificultad {diff}...")
        politica = "CnnPolicy"

        if nombre_algoritmo == "DQN":
            modelo = clase_algortimos(politica, ambien, verbose=1, buffer_size=5000)
            print(f"Usando buffer_size reducido a 50000 para DQN")
        else:
            modelo = clase_algortimos(politica, ambien, verbose=1)

        tiempo_inicial = time.time()
        modelo.learn(total_timesteps=1000)
        diracion = time.time() - tiempo_inicial
        modelo.save(f"{nombre_algoritmo}_boxing_d{diff}")

        promedio_recompe, desviasion = evaluate_policy(modelo, ambien, n_eval_episodes=5)
        print(f"{nombre_algoritmo} dificultad {diff}: recompensa media={promedio_recompe}, std={desviasion}, tiempo={diracion:.1f}s")

        resultados.append({
            'Algoritmo': nombre_algoritmo,
            'Dificultad': diff,
            'Recompensa Media': promedio_recompe,
            'Desviación': desviasion,
            'Tiempo Entrenamiento (s)': diracion
        })

        video_env = RecordVideo(gym.make(ambiente, difficulty=diff, render_mode="rgb_array"),
                                video_folder=f"./videos_{nombre_algoritmo}_d{diff}", episode_trigger=lambda x: x == 0)
        obs, _ = video_env.reset()
        for _ in range(3000):
            action, _states = modelo.predict(obs)
            obs, reward, terminated, truncated, info = video_env.step(action)
            done = terminated or truncated
            if done:
                obs, _ = video_env.reset()
        video_env.close()
        print(f"Video guardado en ./videos_{nombre_algoritmo}_d{diff}")

df_resultados = pd.DataFrame(resultados)
print("\n==== Comparación de resultados ====")
print(df_resultados)
df_resultados.to_csv("resultados_comparacion.csv", index=False)
print("Tabla guardada en resultados_comparacion.csv")




==== Dificultad 1 ====

Entrenando DQN en dificultad 1...
Using cpu device
Wrapping the env in a VecTransposeImage.
Usando buffer_size reducido a 50000 para DQN
DQN dificultad 1: recompensa media=-31.0, std=0.0, tiempo=28.4s


  logger.warn(


MoviePy - Building video c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_DQN_d1\rl-video-episode-0.mp4.
MoviePy - Writing video c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_DQN_d1\rl-video-episode-0.mp4



                                                                            

MoviePy - Done !
MoviePy - video ready c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_DQN_d1\rl-video-episode-0.mp4
Video guardado en ./videos_DQN_d1

Entrenando PPO en dificultad 1...
Using cpu device
Wrapping the env in a VecTransposeImage.
-----------------------------
| time/              |      |
|    fps             | 228  |
|    iterations      | 1    |
|    time_elapsed    | 8    |
|    total_timesteps | 2048 |
-----------------------------
PPO dificultad 1: recompensa media=-10.4, std=8.8, tiempo=47.8s
MoviePy - Building video c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_PPO_d1\rl-video-episode-0.mp4.
MoviePy - Writing video c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_PPO_d1\rl-video-episode-0.mp4



                                                                            

MoviePy - Done !
MoviePy - video ready c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_PPO_d1\rl-video-episode-0.mp4
Video guardado en ./videos_PPO_d1

Entrenando A2C en dificultad 1...
Using cpu device
Wrapping the env in a VecTransposeImage.
------------------------------------
| time/                 |          |
|    fps                | 66       |
|    iterations         | 100      |
|    time_elapsed       | 7        |
|    total_timesteps    | 500      |
| train/                |          |
|    entropy_loss       | -2.88    |
|    explained_variance | 0.0905   |
|    learning_rate      | 0.0007   |
|    n_updates          | 99       |
|    policy_loss        | -0.0561  |
|    value_loss         | 0.000438 |
------------------------------------
-------------------------------------
| time/                 |           |
|    fps                | 66        |
|    iterations         | 200       |
|    time_el

                                                                            

MoviePy - Done !
MoviePy - video ready c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_A2C_d1\rl-video-episode-0.mp4
Video guardado en ./videos_A2C_d1

==== Dificultad 3 ====

Entrenando DQN en dificultad 3...
Using cpu device
Wrapping the env in a VecTransposeImage.
Usando buffer_size reducido a 50000 para DQN
DQN dificultad 3: recompensa media=-2.6, std=1.3564659966250538, tiempo=71.1s
MoviePy - Building video c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_DQN_d3\rl-video-episode-0.mp4.
MoviePy - Writing video c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_DQN_d3\rl-video-episode-0.mp4



                                                                            

MoviePy - Done !
MoviePy - video ready c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_DQN_d3\rl-video-episode-0.mp4
Video guardado en ./videos_DQN_d3

Entrenando PPO en dificultad 3...
Using cpu device
Wrapping the env in a VecTransposeImage.
-----------------------------
| time/              |      |
|    fps             | 229  |
|    iterations      | 1    |
|    time_elapsed    | 8    |
|    total_timesteps | 2048 |
-----------------------------
PPO dificultad 3: recompensa media=-1.0, std=2.6076809620810595, tiempo=47.7s
MoviePy - Building video c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_PPO_d3\rl-video-episode-0.mp4.
MoviePy - Writing video c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_PPO_d3\rl-video-episode-0.mp4



                                                                            

MoviePy - Done !
MoviePy - video ready c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_PPO_d3\rl-video-episode-0.mp4
Video guardado en ./videos_PPO_d3

Entrenando A2C en dificultad 3...
Using cpu device
Wrapping the env in a VecTransposeImage.
------------------------------------
| time/                 |          |
|    fps                | 67       |
|    iterations         | 100      |
|    time_elapsed       | 7        |
|    total_timesteps    | 500      |
| train/                |          |
|    entropy_loss       | -2.89    |
|    explained_variance | -3.69    |
|    learning_rate      | 0.0007   |
|    n_updates          | 99       |
|    policy_loss        | 0.00293  |
|    value_loss         | 1.43e-06 |
------------------------------------
-------------------------------------
| time/                 |           |
|    fps                | 66        |
|    iterations         | 200       |
|    time_el

                                                                            

MoviePy - Done !
MoviePy - video ready c:\Users\coyye\OneDrive - Universidad de los andes\DOCTORADO\Primer Semestre\Reinforcement Learning\Tarea 4\videos\videos_A2C_d3\rl-video-episode-0.mp4
Video guardado en ./videos_A2C_d3

==== Comparación de resultados ====
  Algoritmo  Dificultad  Recompensa Media  Desviación  \
0       DQN           1             -31.0    0.000000   
1       PPO           1             -10.4    8.800000   
2       A2C           1             -43.8    4.400000   
3       DQN           3              -2.6    1.356466   
4       PPO           3              -1.0    2.607681   
5       A2C           3              -3.0    0.000000   

   Tiempo Entrenamiento (s)  
0                 28.411217  
1                 47.772192  
2                 15.022671  
3                 71.123264  
4                 47.695773  
5                 15.131379  
Tabla guardada en resultados_comparacion.csv
