# Jugar Galaxian con Agente Dueling DQN

## Librerias

In [1]:
import torch
import numpy as np

from gym_envs import make_galaxian_env
from models import DuelingDQN, DQN
from policies import DQNPolicy
from recording import record_episode

from pathlib import Path
from IPython.display import Video, display

### Configurar Torch con CUDA

In [2]:
if torch.cuda.is_available():
    device = torch.device("cuda")
    print(f"Using GPU: {torch.cuda.get_device_name(0)}")
else:
    device = torch.device("cpu")
    print("Using CPU")

Using GPU: NVIDIA GeForce RTX 3070 Ti Laptop GPU


## Carga de Entorno Base

In [3]:
# Crear un entorno con los mismos wrappers que en entrenamiento
#   para conocer las dimensiones de la observación
tmp_env = make_galaxian_env(
    render_mode=None,
    deepmind_wrappers=True,  # AtariPreprocessing + FrameStackObservation
    frame_stack=4,
)

obs, _ = tmp_env.reset()

# Convertir la observación a un array de NumPy
arr = np.array(obs, copy=False)

# Asegurarse de que la forma sea (C, H, W)
if arr.ndim == 3:
    # Casos típicos:
    # - (H, W, C)
    # - (C, H, W)
    if arr.shape[0] == 84 and arr.shape[1] == 84:
        # (H, W, C) -> (C, H, W)
        arr = np.transpose(arr, (2, 0, 1))
elif arr.ndim == 2:
    # 1 frame (H, W) -> (1, H, W)
    arr = arr[None, ...]
else:
    raise ValueError(f"Obs shape inesperado: {arr.shape}")

# Obtener dimensiones
in_channels = arr.shape[0]
num_actions = tmp_env.action_space.n
tmp_env.close()

print(f"in_channels={in_channels}, num_actions={num_actions}")

in_channels=4, num_actions=6


## Reconstruir modelo y cargar pesos

In [4]:
ModelClass = DuelingDQN

model = ModelClass(in_channels=in_channels, num_actions=num_actions).to(device)

# Ruta del checkpoint (ajusta si usas otro archivo)
checkpoint_path = "../checkpoints/DuelingDQN_ep0500_step285178.pt"

state = torch.load(checkpoint_path, map_location=device)

# Soportar tanto:
# - archivos que guardan solo state_dict
# - archivos tipo checkpoint con clave "model_state_dict"
if isinstance(state, dict) and "model_state_dict" in state:
    model.load_state_dict(state["model_state_dict"])
else:
    model.load_state_dict(state)

model.eval()
print(f"Modelo cargado desde: {checkpoint_path}")

Modelo cargado desde: ../checkpoints/DuelingDQN_ep0500_step285178.pt


### Crear la policy (epsilon greedy)

In [5]:
policy = DQNPolicy(model=model, device=device, epsilon=0.01)

## Grabar episodio en video

In [6]:
# Grabar un único episodio
print("=== Grabando episodio ===")
path = record_episode(
    policy=policy,
    deepmind_wrappers=True,
    video_dir="../videos/DuelingDQN_Iteration",
    video_name="dueling_dqn_episode_500.mp4"
)

video_path = Path(path)

# El nombre del archivo es: email_timestamp_score.mp4
stem = video_path.stem           # sin extensión
parts = stem.split("_")
score_str = parts[-1]            # último elemento = score

try:
    score = int(score_str)
except ValueError:
    score = None
    print(f"[WARN] No se pudo parsear score desde '{stem}'")

# Mostrar información
print("\nResultado del episodio:")
print(f"  Video guardado en: {video_path}")
print(f"  Score: {score}")

# Mostrar el video embebido en el notebook
display(Video(filename=str(video_path), embed=True))

=== Grabando episodio ===
[INFO] Iniciando grabación de episodio...
[INFO] Creando entorno ALE/Galaxian-v5...
[INFO] Reiniciando entorno Galaxian...
[INFO] Iniciando episodio...
  - Progreso: 500 pasos, recompensa parcial = 660
[INFO] Episodio finalizado. Pasos: 940, Recompensa total: 1450
[INFO] Guardando video (941 frames, escala x1.0)...
[INFO] Video guardado en: ..\videos\DuelingDQN_Iteration\dueling_dqn_episode_500.mp4

Resultado del episodio:
  Video guardado en: ..\videos\DuelingDQN_Iteration\dueling_dqn_episode_500.mp4
  Score: 500
