# Reinforcement Learning - Clase 2: Entrenamiento con Stable-Baselines3

## Continuaci√≥n de reinforcement_learning_clase.ipynb

En el notebook anterior aprendimos:
- Conceptos fundamentales de RL (agente, entorno, recompensa, pol√≠tica)
- Algoritmos tabulares (SARSA, Q-Learning)
- Deep Q-Network (DQN) desde cero
- Gymnasium para entornos

En este notebook aprenderemos:
- **Stable-Baselines3**: La librer√≠a est√°ndar para entrenar agentes RL
- **Algoritmos avanzados**: PPO, A2C, SAC, TD3
- **Entrenamiento pr√°ctico**: Callbacks, logging, guardado de modelos
- **Proyectos reales**: Conexi√≥n con `04_proyectos_avanzados/`

---

## √çndice

1. [¬øPor qu√© Stable-Baselines3?](#1-porque-sb3)
2. [Instalaci√≥n y Setup](#2-instalacion)
3. [Tu Primer Agente con SB3](#3-primer-agente)
4. [Algoritmos Disponibles](#4-algoritmos)
5. [Pol√≠ticas (Redes Neuronales)](#5-politicas)
6. [Entrenamiento Avanzado](#6-entrenamiento)
7. [Callbacks y Logging](#7-callbacks)
8. [Guardar y Cargar Modelos](#8-guardar-cargar)
9. [Evaluaci√≥n de Agentes](#9-evaluacion)
10. [Hiperpar√°metros](#10-hiperparametros)
11. [Proyectos Pr√°cticos](#11-proyectos)

---
<a id='1-porque-sb3'></a>
# 1. ¬øPor qu√© Stable-Baselines3?

## El Problema: Implementar RL es Dif√≠cil

Implementar algoritmos de RL correctamente es sorprendentemente dif√≠cil:

| Desaf√≠o | Descripci√≥n |
|---------|-------------|
| **Bugs sutiles** | Un signo mal puesto puede hacer que el agente no aprenda |
| **Hiperpar√°metros** | Cada algoritmo tiene 10+ par√°metros que ajustar |
| **Reproducibilidad** | Peque√±os cambios causan grandes diferencias |
| **Eficiencia** | Optimizaciones de bajo nivel para velocidad |
| **Debugging** | Es dif√≠cil saber si el c√≥digo est√° mal o el algoritmo es lento |

## La Soluci√≥n: Stable-Baselines3

**Stable-Baselines3 (SB3)** es una librer√≠a que proporciona implementaciones fiables y probadas de los algoritmos de RL m√°s importantes.

### Caracter√≠sticas

| Caracter√≠stica | Beneficio |
|----------------|----------|
| **Implementaciones correctas** | Probadas en benchmarks, sin bugs |
| **API unificada** | Todos los algoritmos tienen la misma interfaz |
| **Integraci√≥n con Gymnasium** | Funciona directamente con cualquier entorno |
| **PyTorch backend** | F√°cil de extender y modificar |
| **Documentaci√≥n excelente** | Tutoriales, ejemplos, API reference |
| **Comunidad activa** | Mantenido y actualizado regularmente |

### Cu√°ndo Usar SB3 vs Implementaci√≥n Propia

| Usar SB3 | Implementar t√∫ mismo |
|----------|---------------------|
| Proyectos reales | Aprender c√≥mo funcionan los algoritmos |
| Necesitas resultados r√°pidos | Investigaci√≥n de nuevos algoritmos |
| Comparar algoritmos | Modificaciones profundas al algoritmo |
| Producci√≥n | Prop√≥sitos educativos |

---
<a id='2-instalacion'></a>
# 2. Instalaci√≥n y Setup

In [None]:
# INSTALACI√ìN
# ===========
# Ejecutar solo si no est√°n instaladas las dependencias

# Stable-Baselines3 (incluye PyTorch si no lo tienes)
# !pip install stable-baselines3[extra]

# Para entornos Box2D (LunarLander, BipedalWalker)
# !pip install gymnasium[box2d]

# Para visualizaci√≥n de entrenamiento
# !pip install tensorboard

In [None]:
# IMPORTS
# =======

# Stable-Baselines3
try:
    from stable_baselines3 import PPO, A2C, DQN, SAC, TD3
    from stable_baselines3.common.env_util import make_vec_env
    from stable_baselines3.common.evaluation import evaluate_policy
    from stable_baselines3.common.callbacks import EvalCallback, CheckpointCallback
    from stable_baselines3.common.monitor import Monitor
    SB3_AVAILABLE = True
    print("‚úÖ Stable-Baselines3 disponible")
except ImportError:
    SB3_AVAILABLE = False
    print("‚ùå Stable-Baselines3 no instalado. Ejecuta: pip install stable-baselines3[extra]")

# Gymnasium
import gymnasium as gym
print("‚úÖ Gymnasium disponible")

# Utilidades
import numpy as np
import matplotlib.pyplot as plt
from pathlib import Path
import os

# Configuraci√≥n para Windows
os.environ['KMP_DUPLICATE_LIB_OK'] = 'TRUE'

print("\n‚úÖ Imports completados")

---
<a id='3-primer-agente'></a>
# 3. Tu Primer Agente con SB3

Entrenar un agente con SB3 requiere solo **3 l√≠neas de c√≥digo**:

In [None]:
# TU PRIMER AGENTE EN 3 L√çNEAS
# ============================

if SB3_AVAILABLE:
    # 1. CREAR EL MODELO
    # - PPO: Algoritmo (Proximal Policy Optimization)
    # - "MlpPolicy": Red neuronal fully-connected (Multi-Layer Perceptron)
    # - "CartPole-v1": Entorno de Gymnasium
    model = PPO("MlpPolicy", "CartPole-v1", verbose=1)

    # 2. ENTRENAR
    # - total_timesteps: N√∫mero total de pasos de interacci√≥n
    # - CartPole se resuelve en ~20,000 pasos con PPO
    model.learn(total_timesteps=20_000)

    # 3. EVALUAR
    # - Crea un entorno nuevo para evaluar
    # - Ejecuta 10 episodios y calcula estad√≠sticas
    env = gym.make("CartPole-v1")
    mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=10)
    print(f"\nüéØ Recompensa media: {mean_reward:.2f} ¬± {std_reward:.2f}")
    print(f"   (M√°ximo posible en CartPole: 500)")
    env.close()
else:
    print("‚ö†Ô∏è Instala stable-baselines3 para ejecutar este c√≥digo")

In [None]:
# VER EL AGENTE EN ACCI√ìN
# =======================

if SB3_AVAILABLE:
    # Crear entorno con renderizado
    env = gym.make("CartPole-v1", render_mode="human")
    
    # Ejecutar un episodio
    obs, info = env.reset()
    total_reward = 0
    
    for step in range(500):
        # El modelo predice la acci√≥n
        action, _ = model.predict(obs, deterministic=True)
        
        # Ejecutar acci√≥n
        obs, reward, terminated, truncated, info = env.step(action)
        total_reward += reward
        
        if terminated or truncated:
            break
    
    print(f"\nüéÆ Episodio completado: {total_reward} pasos")
    env.close()

---
<a id='4-algoritmos'></a>
# 4. Algoritmos Disponibles

SB3 incluye los algoritmos m√°s importantes de RL moderno:

## Tabla Resumen

| Algoritmo | Tipo | Acciones | Uso Principal |
|-----------|------|----------|---------------|
| **PPO** | On-policy, Actor-Critic | Discretas y Continuas | General, muy estable |
| **A2C** | On-policy, Actor-Critic | Discretas y Continuas | M√°s simple que PPO |
| **DQN** | Off-policy, Value-based | Solo Discretas | Juegos, estados discretos |
| **SAC** | Off-policy, Actor-Critic | Solo Continuas | Rob√≥tica, control |
| **TD3** | Off-policy, Actor-Critic | Solo Continuas | Rob√≥tica, alternativa a SAC |
| **DDPG** | Off-policy, Actor-Critic | Solo Continuas | Predecesor de TD3/SAC |
| **HER** | Extensi√≥n | Con los anteriores | Tareas con metas |

## ¬øCu√°l Elegir?

```
¬øTu entorno tiene acciones DISCRETAS o CONTINUAS?
                    |
        +-----------+-----------+
        |                       |
    DISCRETAS                CONTINUAS
        |                       |
  ¬øNecesitas                ¬øNecesitas
  sample efficiency?        sample efficiency?
        |                       |
    +---+---+               +---+---+
    |       |               |       |
   S√≠      No              S√≠      No
    |       |               |       |
   DQN    PPO             SAC     PPO
                          TD3
```

### Recomendaciones Pr√°cticas

| Situaci√≥n | Algoritmo | Raz√≥n |
|-----------|-----------|-------|
| **No sabes cu√°l usar** | PPO | Funciona bien casi siempre |
| **Videojuegos (Atari)** | DQN | Dise√±ado para esto |
| **Rob√≥tica / Control** | SAC o TD3 | Eficientes con acciones continuas |
| **Muchos entornos paralelos** | PPO o A2C | Aprovechan bien la paralelizaci√≥n |
| **Poca experiencia disponible** | SAC o DQN | Reutilizan experiencias (off-policy) |

In [None]:
# COMPARACI√ìN DE ALGORITMOS
# =========================
# Entrenamos varios algoritmos en el mismo entorno y comparamos

if SB3_AVAILABLE:
    from stable_baselines3 import PPO, A2C, DQN
    
    # Entorno simple para comparar
    env_id = "CartPole-v1"
    timesteps = 10_000  # Pocos pasos para demo r√°pida
    
    resultados = {}
    
    # PPO
    print("Entrenando PPO...")
    model_ppo = PPO("MlpPolicy", env_id, verbose=0)
    model_ppo.learn(total_timesteps=timesteps)
    mean_r, _ = evaluate_policy(model_ppo, gym.make(env_id), n_eval_episodes=10, warn=False)
    resultados["PPO"] = mean_r
    print(f"  PPO: {mean_r:.1f}")
    
    # A2C
    print("Entrenando A2C...")
    model_a2c = A2C("MlpPolicy", env_id, verbose=0)
    model_a2c.learn(total_timesteps=timesteps)
    mean_r, _ = evaluate_policy(model_a2c, gym.make(env_id), n_eval_episodes=10, warn=False)
    resultados["A2C"] = mean_r
    print(f"  A2C: {mean_r:.1f}")
    
    # DQN
    print("Entrenando DQN...")
    model_dqn = DQN("MlpPolicy", env_id, verbose=0)
    model_dqn.learn(total_timesteps=timesteps)
    mean_r, _ = evaluate_policy(model_dqn, gym.make(env_id), n_eval_episodes=10, warn=False)
    resultados["DQN"] = mean_r
    print(f"  DQN: {mean_r:.1f}")
    
    # Visualizar
    plt.figure(figsize=(8, 4))
    plt.bar(resultados.keys(), resultados.values(), color=['blue', 'green', 'orange'])
    plt.ylabel("Recompensa Media")
    plt.title(f"Comparaci√≥n de Algoritmos en {env_id} ({timesteps:,} pasos)")
    plt.axhline(y=500, color='red', linestyle='--', label='M√°ximo')
    plt.legend()
    plt.show()

---
<a id='5-politicas'></a>
# 5. Pol√≠ticas (Redes Neuronales)

La "pol√≠tica" en SB3 es la red neuronal que decide las acciones.

## Pol√≠ticas Predefinidas

| Pol√≠tica | Descripci√≥n | Uso |
|----------|-------------|-----|
| `MlpPolicy` | Red fully-connected | Estados vectoriales (ej: CartPole) |
| `CnnPolicy` | Red convolucional | Estados imagen (ej: Atari) |
| `MultiInputPolicy` | Combina MLP + CNN | Estados mixtos (Dict) |

## Arquitectura por Defecto de MlpPolicy

```
Observaci√≥n (estado)
        ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Linear(obs_dim, 64)‚îÇ ‚Üê Capa 1
‚îÇ     + Tanh        ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
        ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Linear(64, 64)    ‚îÇ ‚Üê Capa 2
‚îÇ     + Tanh        ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
        ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Linear(64, n_act) ‚îÇ ‚Üê Capa de salida
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
        ‚Üì
Acci√≥n (o distribuci√≥n de acciones)
```

In [None]:
# PERSONALIZAR LA ARQUITECTURA
# ============================

if SB3_AVAILABLE:
    # Definir arquitectura custom
    # - net_arch: Lista de capas para policy y value networks
    # - [dict(pi=[...], vf=[...])] separa las arquitecturas
    
    policy_kwargs = dict(
        net_arch=[128, 128, 64]  # 3 capas: 128, 128, 64 neuronas
    )
    
    # Crear modelo con arquitectura custom
    model = PPO(
        "MlpPolicy",
        "CartPole-v1",
        policy_kwargs=policy_kwargs,
        verbose=1
    )
    
    print("Arquitectura de la pol√≠tica:")
    print(model.policy)

In [None]:
# ARQUITECTURAS SEPARADAS PARA ACTOR Y CRITIC
# ============================================

if SB3_AVAILABLE:
    # En algoritmos Actor-Critic (PPO, A2C), puedes separar las arquitecturas
    
    policy_kwargs = dict(
        net_arch=dict(
            pi=[64, 64],    # Actor (pol√≠tica): 2 capas de 64
            vf=[128, 128]   # Critic (valor): 2 capas de 128
        )
    )
    
    model = PPO(
        "MlpPolicy",
        "CartPole-v1",
        policy_kwargs=policy_kwargs,
        verbose=0
    )
    
    print("‚úÖ Modelo con arquitecturas separadas creado")
    print(f"   Actor: 2 capas de 64")
    print(f"   Critic: 2 capas de 128")

---
<a id='6-entrenamiento'></a>
# 6. Entrenamiento Avanzado

## Entornos Vectorizados

Para entrenar m√°s r√°pido, usa m√∫ltiples entornos en paralelo:

In [None]:
# ENTRENAMIENTO CON ENTORNOS PARALELOS
# ====================================

if SB3_AVAILABLE:
    from stable_baselines3.common.env_util import make_vec_env
    
    # Crear 4 entornos paralelos
    # - Cada entorno recolecta experiencias simult√°neamente
    # - El entrenamiento es ~4x m√°s r√°pido
    vec_env = make_vec_env("CartPole-v1", n_envs=4)
    
    # PPO funciona especialmente bien con m√∫ltiples entornos
    model = PPO(
        "MlpPolicy",
        vec_env,
        verbose=1,
        n_steps=1024,      # Pasos por entorno antes de actualizar
        batch_size=64,     # Tama√±o del minibatch
        n_epochs=10,       # √âpocas de optimizaci√≥n por actualizaci√≥n
    )
    
    print(f"\nüöÄ Entrenando con {vec_env.num_envs} entornos paralelos...")
    model.learn(total_timesteps=20_000)
    
    # Evaluar
    mean_r, std_r = evaluate_policy(model, gym.make("CartPole-v1"), n_eval_episodes=10)
    print(f"\nüéØ Resultado: {mean_r:.1f} ¬± {std_r:.1f}")

---
<a id='7-callbacks'></a>
# 7. Callbacks y Logging

Los callbacks permiten ejecutar c√≥digo durante el entrenamiento:
- Guardar checkpoints
- Evaluar peri√≥dicamente
- Early stopping
- Logging personalizado

In [None]:
# CALLBACKS B√ÅSICOS
# =================

if SB3_AVAILABLE:
    from stable_baselines3.common.callbacks import (
        EvalCallback,
        CheckpointCallback,
        CallbackList
    )
    
    # Directorio para guardar
    log_dir = "./logs/"
    os.makedirs(log_dir, exist_ok=True)
    
    # 1. CheckpointCallback: Guarda el modelo cada N pasos
    checkpoint_callback = CheckpointCallback(
        save_freq=5000,              # Guardar cada 5000 pasos
        save_path=log_dir,           # Directorio
        name_prefix="ppo_cartpole"   # Prefijo del archivo
    )
    
    # 2. EvalCallback: Eval√∫a y guarda el mejor modelo
    eval_env = gym.make("CartPole-v1")
    eval_callback = EvalCallback(
        eval_env,
        best_model_save_path=log_dir,   # Guarda el mejor
        log_path=log_dir,               # Logs de evaluaci√≥n
        eval_freq=2000,                 # Evaluar cada 2000 pasos
        n_eval_episodes=5,              # 5 episodios por evaluaci√≥n
        deterministic=True
    )
    
    # Combinar callbacks
    callbacks = CallbackList([checkpoint_callback, eval_callback])
    
    # Entrenar con callbacks
    model = PPO("MlpPolicy", "CartPole-v1", verbose=1)
    model.learn(total_timesteps=20_000, callback=callbacks)
    
    print(f"\n‚úÖ Modelos guardados en {log_dir}")
    print(f"   Archivos: {os.listdir(log_dir)}")

In [None]:
# TENSORBOARD PARA VISUALIZACI√ìN
# ==============================

if SB3_AVAILABLE:
    # SB3 integra autom√°ticamente con TensorBoard
    
    model = PPO(
        "MlpPolicy",
        "CartPole-v1",
        verbose=1,
        tensorboard_log="./tensorboard_logs/"  # Directorio de logs
    )
    
    # Entrenar (los logs se guardan autom√°ticamente)
    model.learn(total_timesteps=10_000)
    
    print("\nüìä Para visualizar en TensorBoard:")
    print("   tensorboard --logdir=./tensorboard_logs/")
    print("   Luego abre http://localhost:6006 en tu navegador")

---
<a id='8-guardar-cargar'></a>
# 8. Guardar y Cargar Modelos

In [None]:
# GUARDAR Y CARGAR MODELOS
# ========================

if SB3_AVAILABLE:
    # Entrenar un modelo
    model = PPO("MlpPolicy", "CartPole-v1", verbose=0)
    model.learn(total_timesteps=10_000)
    
    # GUARDAR
    # -------
    model.save("ppo_cartpole")  # Guarda como ppo_cartpole.zip
    print("‚úÖ Modelo guardado: ppo_cartpole.zip")
    
    # Eliminar el modelo de memoria
    del model
    
    # CARGAR
    # ------
    model = PPO.load("ppo_cartpole")  # Carga desde ppo_cartpole.zip
    print("‚úÖ Modelo cargado")
    
    # Verificar que funciona
    env = gym.make("CartPole-v1")
    mean_r, _ = evaluate_policy(model, env, n_eval_episodes=5)
    print(f"üéØ Recompensa tras cargar: {mean_r:.1f}")
    
    # CONTINUAR ENTRENAMIENTO
    # -----------------------
    # Necesitas pasar el entorno al cargar
    model = PPO.load("ppo_cartpole", env=gym.make("CartPole-v1"))
    model.learn(total_timesteps=5_000)  # Contin√∫a entrenando
    print("‚úÖ Entrenamiento continuado")

---
<a id='9-evaluacion'></a>
# 9. Evaluaci√≥n de Agentes

In [None]:
# EVALUACI√ìN COMPLETA
# ===================

if SB3_AVAILABLE:
    from stable_baselines3.common.evaluation import evaluate_policy
    
    # Entrenar modelo
    model = PPO("MlpPolicy", "CartPole-v1", verbose=0)
    model.learn(total_timesteps=20_000)
    
    # Crear entorno de evaluaci√≥n
    eval_env = gym.make("CartPole-v1")
    
    # Evaluar con estad√≠sticas
    mean_reward, std_reward = evaluate_policy(
        model,
        eval_env,
        n_eval_episodes=20,       # N√∫mero de episodios
        deterministic=True,        # Acciones deterministas (sin exploraci√≥n)
        return_episode_rewards=False
    )
    
    print(f"üìä Evaluaci√≥n (20 episodios):")
    print(f"   Recompensa media: {mean_reward:.2f}")
    print(f"   Desviaci√≥n est√°ndar: {std_reward:.2f}")
    print(f"   Rango esperado: [{mean_reward-2*std_reward:.1f}, {mean_reward+2*std_reward:.1f}]")

In [None]:
# EVALUACI√ìN DETALLADA CON HISTORIAL
# ===================================

if SB3_AVAILABLE:
    # Obtener recompensas individuales
    episode_rewards, episode_lengths = evaluate_policy(
        model,
        eval_env,
        n_eval_episodes=20,
        return_episode_rewards=True
    )
    
    # Visualizar distribuci√≥n
    fig, axes = plt.subplots(1, 2, figsize=(12, 4))
    
    axes[0].hist(episode_rewards, bins=10, edgecolor='black')
    axes[0].axvline(np.mean(episode_rewards), color='red', linestyle='--', label=f'Media: {np.mean(episode_rewards):.1f}')
    axes[0].set_xlabel("Recompensa por Episodio")
    axes[0].set_ylabel("Frecuencia")
    axes[0].set_title("Distribuci√≥n de Recompensas")
    axes[0].legend()
    
    axes[1].plot(episode_rewards, 'o-')
    axes[1].axhline(np.mean(episode_rewards), color='red', linestyle='--')
    axes[1].set_xlabel("Episodio")
    axes[1].set_ylabel("Recompensa")
    axes[1].set_title("Recompensa por Episodio")
    
    plt.tight_layout()
    plt.show()

---
<a id='10-hiperparametros'></a>
# 10. Hiperpar√°metros

Cada algoritmo tiene sus propios hiperpar√°metros. Aqu√≠ los m√°s importantes:

## PPO

| Par√°metro | Default | Descripci√≥n |
|-----------|---------|-------------|
| `learning_rate` | 3e-4 | Tasa de aprendizaje |
| `n_steps` | 2048 | Pasos por actualizaci√≥n |
| `batch_size` | 64 | Tama√±o del minibatch |
| `n_epochs` | 10 | √âpocas por actualizaci√≥n |
| `gamma` | 0.99 | Factor de descuento |
| `clip_range` | 0.2 | Rango de clipping de PPO |
| `ent_coef` | 0.0 | Coeficiente de entrop√≠a |

## DQN

| Par√°metro | Default | Descripci√≥n |
|-----------|---------|-------------|
| `learning_rate` | 1e-4 | Tasa de aprendizaje |
| `buffer_size` | 1M | Tama√±o del replay buffer |
| `batch_size` | 32 | Tama√±o del batch |
| `gamma` | 0.99 | Factor de descuento |
| `exploration_fraction` | 0.1 | Fracci√≥n de exploraci√≥n |
| `target_update_interval` | 10000 | Actualizaci√≥n de target network |

In [None]:
# EJEMPLO: PPO CON HIPERPAR√ÅMETROS CUSTOM
# =======================================

if SB3_AVAILABLE:
    model = PPO(
        "MlpPolicy",
        "CartPole-v1",
        
        # Hiperpar√°metros de aprendizaje
        learning_rate=1e-3,      # M√°s alto = aprende m√°s r√°pido pero menos estable
        gamma=0.99,              # Factor de descuento
        
        # Hiperpar√°metros de muestreo
        n_steps=1024,            # Pasos antes de cada actualizaci√≥n
        batch_size=64,           # Tama√±o del minibatch
        n_epochs=10,             # √âpocas de optimizaci√≥n
        
        # Hiperpar√°metros de PPO espec√≠ficos
        clip_range=0.2,          # Rango de clipping
        ent_coef=0.01,           # Bonus por entrop√≠a (promueve exploraci√≥n)
        
        # Otros
        verbose=1
    )
    
    model.learn(total_timesteps=20_000)
    
    mean_r, _ = evaluate_policy(model, gym.make("CartPole-v1"), n_eval_episodes=10)
    print(f"\nüéØ Resultado: {mean_r:.1f}")

---
<a id='11-proyectos'></a>
# 11. Proyectos Pr√°cticos

Ahora conectamos con los proyectos en `04_proyectos_avanzados/`:

| Proyecto | Archivo | Algoritmo | Entorno |
|----------|---------|-----------|--------|
| LunarLander | `lunarlander/lunarlander_sb3.py` | PPO, DQN, A2C | LunarLander-v2 |
| Highway | `highway/highway_conduccion.py` | DQN, PPO | highway-env |
| MiniGrid | `minigrid/minigrid_navegacion.py` | PPO | MiniGrid |
| PyBullet | `pybullet/pybullet_robotica.py` | SAC, TD3 | PyBullet |

In [None]:
# EJEMPLO: LUNARLANDER
# ====================
# Este es uno de los entornos m√°s populares para aprender RL

if SB3_AVAILABLE:
    try:
        # Crear entorno (requiere gymnasium[box2d])
        env = gym.make("LunarLander-v2")
        
        print("üöÄ LunarLander-v2")
        print(f"   Observaciones: {env.observation_space}")
        print(f"   Acciones: {env.action_space}")
        print(f"   Acciones disponibles:")
        print(f"     0: No hacer nada")
        print(f"     1: Motor izquierdo")
        print(f"     2: Motor principal")
        print(f"     3: Motor derecho")
        
        # Entrenar con PPO
        print("\nüèãÔ∏è Entrenando PPO (esto toma ~1-2 minutos)...")
        model = PPO("MlpPolicy", env, verbose=1)
        model.learn(total_timesteps=50_000)
        
        # Evaluar
        mean_r, std_r = evaluate_policy(model, env, n_eval_episodes=10)
        print(f"\nüéØ Resultado: {mean_r:.1f} ¬± {std_r:.1f}")
        print(f"   (>200 = aterrizaje exitoso)")
        
        env.close()
        
    except Exception as e:
        print(f"‚ö†Ô∏è Error: {e}")
        print("   Instala Box2D: pip install gymnasium[box2d]")

In [None]:
# EJEMPLO: ACCIONES CONTINUAS CON SAC
# ====================================

if SB3_AVAILABLE:
    try:
        # Pendulum tiene acciones continuas
        env = gym.make("Pendulum-v1")
        
        print("üéØ Pendulum-v1")
        print(f"   Observaciones: {env.observation_space}")
        print(f"   Acciones: {env.action_space}")
        print(f"   Acci√≥n: torque continuo en [-2, 2]")
        
        # SAC es ideal para acciones continuas
        print("\nüèãÔ∏è Entrenando SAC...")
        model = SAC("MlpPolicy", env, verbose=1)
        model.learn(total_timesteps=10_000)
        
        # Evaluar
        mean_r, std_r = evaluate_policy(model, env, n_eval_episodes=10)
        print(f"\nüéØ Resultado: {mean_r:.1f} ¬± {std_r:.1f}")
        print(f"   (M√°ximo te√≥rico: 0, m√°s negativo = peor)")
        
        env.close()
        
    except Exception as e:
        print(f"‚ö†Ô∏è Error: {e}")

---
# Resumen

## Lo que Aprendimos

| Tema | Concepto Clave |
|------|----------------|
| **SB3 B√°sico** | `model = PPO(...); model.learn(); model.predict()` |
| **Algoritmos** | PPO (general), DQN (discreto), SAC (continuo) |
| **Pol√≠ticas** | `MlpPolicy` (vectores), `CnnPolicy` (im√°genes) |
| **Paralelo** | `make_vec_env(env_id, n_envs=N)` |
| **Callbacks** | `EvalCallback`, `CheckpointCallback` |
| **Guardar** | `model.save()`, `Model.load()` |

## Pr√≥ximos Pasos

1. **Explorar los proyectos** en `04_proyectos_avanzados/`
2. **Experimentar con hiperpar√°metros** en diferentes entornos
3. **Crear tu propio entorno** y entrenarlo con SB3
4. **Leer la documentaci√≥n**: https://stable-baselines3.readthedocs.io/

---

## Recursos

- **Documentaci√≥n SB3**: https://stable-baselines3.readthedocs.io/
- **RL Baselines Zoo**: https://github.com/DLR-RM/rl-baselines3-zoo (hiperpar√°metros optimizados)
- **Hugging Face Hub**: https://huggingface.co/models?library=stable-baselines3 (modelos pre-entrenados)