# Shadow Dexterous Hand Reach - SAC Implementation

**Fecha:** Septiembre 26, 2025

## 1 Introducci√≥n

Este notebook implementa un Soft Actor-Critic (SAC) para resolver la tarea Shadow Dexterous Hand Reach del conjunto gymnasium-robotics utilizando el entorno `HandReachDense-v2`. El objetivo es entrenar un agente que aprenda a controlar una mano rob√≥tica de Shadow con 24 articulaciones para alcanzar posiciones objetivo con las 5 puntas de los dedos.

## 2 El Problema: Shadow Dexterous Hand Reach

Shadow Dexterous Hand Reach es una tarea de manipulaci√≥n rob√≥tica compleja donde el agente debe:

‚Ä¢ **Controlar una mano rob√≥tica Shadow** con 24 grados de libertad distribuidos en 5 dedos
‚Ä¢ **Alcanzar posiciones objetivo** con todas las puntas de los dedos simult√°neamente
‚Ä¢ **Manejar coordinaci√≥n compleja** entre m√∫ltiples articulaciones para lograr precisi√≥n
‚Ä¢ **Optimizar trayectorias** en un espacio de alta dimensionalidad
‚Ä¢ **Adaptarse a objetivos randomizados** en cada episodio

### 2.1 Especificaciones T√©cnicas

#### 2.1.1 Espacio de Acciones
‚Ä¢ **Tipo:** Continuo Box(-1.0, 1.0, (20,), float32)
‚Ä¢ **Dimensiones:** 20 acciones correspondientes a √°ngulos de articulaciones
  - Acciones 0-3: Articulaciones del pulgar
  - Acciones 4-7: Articulaciones del dedo √≠ndice
  - Acciones 8-11: Articulaciones del dedo medio
  - Acciones 12-15: Articulaciones del dedo anular
  - Acciones 16-19: Articulaciones del dedo me√±ique

#### 2.1.2 Espacio de Observaciones
‚Ä¢ **Tipo:** Dict con m√∫ltiples componentes
‚Ä¢ **Dimensiones totales:** 93 observaciones que incluyen:
  - **observation (63):** Estado de articulaciones y cinem√°tica de la mano
  - **achieved_goal (15):** Posiciones actuales de las 5 puntas de dedos (x,y,z cada una)
  - **desired_goal (15):** Posiciones objetivo de las 5 puntas de dedos (x,y,z cada una)

#### 2.1.3 Sistema de Recompensas (Versi√≥n Densa)
La recompensa densa se basa en la distancia L2 negativa entre posiciones alcanzadas y objetivos:

1. **Distance reward:** -||achieved_goal - desired_goal||‚ÇÇ
2. **Success bonus:** Recompensa adicional cuando todas las puntas est√°n cerca del objetivo
3. **Shaped reward:** Incentivos graduales para aproximarse a los objetivos

#### 2.1.4 Estados Finales
‚Ä¢ **Truncamiento:** Despu√©s de 50 pasos (configurable con max_episode_steps)
‚Ä¢ **√âxito:** Cuando todas las puntas de dedos est√°n dentro de un umbral de distancia del objetivo
‚Ä¢ **Episodios cortos:** Optimizados para aprendizaje eficiente

In [None]:
# Instalar dependencias requeridas
!pip install gymnasium-robotics stable-baselines3[extra] tensorboard opencv-python

In [None]:
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import matplotlib.pyplot as plt
import pandas as pd
import gymnasium as gym
import gymnasium_robotics
from pathlib import Path
import json
import csv
import time
from datetime import datetime
from collections import deque
import os

# Stable Baselines3 imports
from stable_baselines3 import SAC
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3.common.vec_env import SubprocVecEnv, DummyVecEnv
from stable_baselines3.common.callbacks import BaseCallback
from stable_baselines3.common.evaluation import evaluate_policy
from stable_baselines3.common.monitor import Monitor

# Register gymnasium robotics environments
gym.register_envs(gymnasium_robotics)

# Set random seeds for reproducibility
SEED = 42
np.random.seed(SEED)
torch.manual_seed(SEED)

print("‚úÖ Todas las dependencias importadas correctamente")
print(f"üå± Semilla aleatoria establecida: {SEED}")
print(f"üñ•Ô∏è Dispositivo PyTorch: {'CUDA' if torch.cuda.is_available() else 'CPU'}")

## 3 ¬øPor qu√© SAC?

Se escogi√≥ Soft Actor-Critic (SAC) como m√©todo principal para este proyecto debido a sus ventajas espec√≠ficas para tareas de manipulaci√≥n rob√≥tica con espacios de acci√≥n continuos y alta dimensionalidad.

### 3.1 Ventajas de SAC para Shadow Dexterous Hand Reach

‚Ä¢ **Espacios de Acci√≥n Continuos:** Las 20 articulaciones de la mano requieren control continuo preciso. SAC est√° espec√≠ficamente dise√±ado para manejar espacios de acci√≥n continuos de alta dimensionalidad.

‚Ä¢ **Maximizaci√≥n de Entrop√≠a:** SAC maximiza tanto la recompensa como la entrop√≠a de la pol√≠tica, promoviendo exploraci√≥n natural. Esto es crucial para tareas de manipulaci√≥n donde hay m√∫ltiples formas de alcanzar el objetivo.

‚Ä¢ **Estabilidad en Off-Policy Learning:** SAC es un algoritmo off-policy que puede reutilizar experiencias pasadas eficientemente, crucial para entornos donde la interacci√≥n es computacionalmente costosa.

‚Ä¢ **Robustez a Hiperpar√°metros:** SAC es conocido por ser robusto a la selecci√≥n de hiperpar√°metros, reduciendo la necesidad de ajuste fino extensivo.

‚Ä¢ **Paralelizaci√≥n Eficiente:** SAC se beneficia significativamente del entrenamiento paralelo con m√∫ltiples entornos, acelerando el aprendizaje.

‚Ä¢ **Manejo de Recompensas Densas:** La estructura de recompensa densa de Shadow Hand Reach se alinea bien con el aprendizaje continuo que SAC proporciona.

### 3.2 Comparaci√≥n con Otros Algoritmos

| Algoritmo | Tipo | Ventajas para esta tarea | Desventajas |
|-----------|------|-------------------------|-------------|
| **SAC** | Off-policy, Actor-Critic | ‚úÖ Acciones continuas, exploraci√≥n autom√°tica, estable | Computacionalmente intensivo |
| **PPO** | On-policy, Actor-Critic | ‚úÖ Estable, f√°cil de implementar | ‚ùå Menos eficiente en muestreo, exploraci√≥n limitada |
| **TD3** | Off-policy, Actor-Critic | ‚úÖ Acciones continuas, eficiente | ‚ùå Requiere m√°s ajuste de hiperpar√°metros |
| **DDPG** | Off-policy, Actor-Critic | ‚úÖ Acciones continuas | ‚ùå Menos estable, sensible a hiperpar√°metros |
| **A3C** | On-policy, Actor-Critic | ‚úÖ Paralelizaci√≥n natural | ‚ùå On-policy, exploraci√≥n sub√≥ptima para manipulaci√≥n |

### 3.3 Arquitectura del Sistema

#### 3.3.1 Componentes Principales

1. **ShadowHandReachEnvironment:** Wrapper del entorno gymnasium-robotics
2. **SB3SACAgent:** Agente SAC basado en Stable Baselines3  
3. **TrainingCallback:** Callback personalizado para evaluaci√≥n y guardado
4. **Logger:** Sistema de logging y monitoreo de m√©tricas
5. **Entrenamiento Paralelo:** Uso de m√∫ltiples entornos para acelerar el aprendizaje

In [None]:
class ShadowHandReachEnvironment:
    """Wrapper para el entorno Shadow Hand Reach con funcionalidades adicionales"""
    
    def __init__(self, render_mode=None, seed=42, max_episode_steps=50, reward_type="dense"):
        """
        Inicializa el entorno Shadow Hand Reach
        
        Args:
            render_mode: Modo de renderizado ('human', 'rgb_array', None)
            seed: Semilla para reproducibilidad
            max_episode_steps: M√°ximo n√∫mero de pasos por episodio
            reward_type: Tipo de recompensa ('dense' o 'sparse')
        """
        self.render_mode = render_mode
        self.seed = seed
        self.max_episode_steps = max_episode_steps
        self.reward_type = reward_type
        
        # Crear el entorno base
        env_id = f"HandReachDense-v2"
        self.env = gym.make(
            env_id,
            max_episode_steps=max_episode_steps,
            render_mode=render_mode
        )
        
        # Configurar semilla
        if seed is not None:
            self.env.reset(seed=seed)
        
        # Informaci√≥n del entorno
        self.observation_space = self.env.observation_space
        self.action_space = self.env.action_space
        
        # M√©tricas de seguimiento
        self.episode_steps = 0
        self.episode_reward = 0
        self.success_threshold = 0.05  # Umbral de distancia para considerar √©xito
        
    def reset(self, **kwargs):
        """Reinicia el entorno"""
        obs, info = self.env.reset(**kwargs)
        self.episode_steps = 0
        self.episode_reward = 0
        return obs, info
    
    def step(self, action):
        """Ejecuta una acci√≥n en el entorno"""
        obs, reward, terminated, truncated, info = self.env.step(action)
        self.episode_steps += 1
        self.episode_reward += reward
        
        # Agregar informaci√≥n adicional
        info['episode_steps'] = self.episode_steps
        info['episode_reward'] = self.episode_reward
        info['success'] = self.get_success_rate(obs)
        info['distance'] = self.get_goal_distance(obs)
        
        return obs, reward, terminated, truncated, info
    
    def get_success_rate(self, obs=None):
        """Calcula la tasa de √©xito basada en la distancia al objetivo"""
        try:
            if obs is None:
                obs, _ = self.env.reset()
            
            # Extraer achieved_goal y desired_goal
            achieved_goal = obs['achieved_goal']
            desired_goal = obs['desired_goal']
            
            # Calcular distancia L2
            distance = np.linalg.norm(achieved_goal - desired_goal)
            
            # √âxito si la distancia est√° por debajo del umbral
            success = 1.0 if distance < self.success_threshold else 0.0
            return success
        except:
            return 0.0
    
    def get_goal_distance(self, obs=None):
        """Calcula la distancia actual al objetivo"""
        try:
            if obs is None:
                obs, _ = self.env.reset()
            
            achieved_goal = obs['achieved_goal']
            desired_goal = obs['desired_goal']
            
            return np.linalg.norm(achieved_goal - desired_goal)
        except:
            return float('inf')
    
    def render(self):
        """Renderiza el entorno"""
        return self.env.render()
    
    def close(self):
        """Cierra el entorno"""
        self.env.close()
    
    def get_state_dim(self):
        """Retorna la dimensi√≥n del espacio de estados"""
        # Para entornos dict, sumar todas las dimensiones
        total_dim = 0
        for key, space in self.observation_space.spaces.items():
            total_dim += space.shape[0]
        return total_dim
    
    def get_action_dim(self):
        """Retorna la dimensi√≥n del espacio de acciones"""
        return self.action_space.shape[0]
    
    def get_action_bounds(self):
        """Retorna los l√≠mites del espacio de acciones"""
        return (self.action_space.low, self.action_space.high)


class SuccessInfoWrapper(gym.Wrapper):
    """Wrapper para agregar informaci√≥n de √©xito compatible con SB3"""
    
    def __init__(self, env):
        super().__init__(env)
        self.success_threshold = 0.05
    
    def step(self, action):
        obs, reward, terminated, truncated, info = self.env.step(action)
        
        # Calcular √©xito basado en distancia al objetivo
        if isinstance(obs, dict) and 'achieved_goal' in obs and 'desired_goal' in obs:
            distance = np.linalg.norm(obs['achieved_goal'] - obs['desired_goal'])
            info['is_success'] = distance < self.success_threshold
            info['distance'] = distance
        else:
            info['is_success'] = False
            info['distance'] = float('inf')
        
        return obs, reward, terminated, truncated, info


# Crear una instancia de prueba para verificar las dimensiones
test_env = ShadowHandReachEnvironment(render_mode=None, seed=SEED)
print(f"‚úÖ Entorno Shadow Hand Reach creado exitosamente")
print(f"üìè Dimensiones del estado: {test_env.get_state_dim()}")
print(f"üéÆ Dimensiones de la acci√≥n: {test_env.get_action_dim()}")
print(f"üìä L√≠mites de acci√≥n: {test_env.get_action_bounds()[0][:5]}... a {test_env.get_action_bounds()[1][:5]}...")
print(f"üîç Espacio de observaci√≥n: {test_env.observation_space}")
print(f"üéØ Espacio de acci√≥n: {test_env.action_space}")
test_env.close()

Como podemos observar, el entorno Shadow Hand Reach tiene:
- **93 dimensiones de estado total:** Incluyendo observaciones de articulaciones (63), objetivos alcanzados (15), y objetivos deseados (15)
- **20 dimensiones de acci√≥n:** Correspondientes a las 20 articulaciones de la mano
- **Espacio de acci√≥n continuo:** Valores entre -1 y 1 para cada articulaci√≥n

Esta alta dimensionalidad y la naturaleza del control de objetivos m√∫ltiples hace que SAC sea una elecci√≥n ideal debido a su capacidad para manejar espacios de acci√≥n continuos complejos y su robustez en tareas de manipulaci√≥n.

In [None]:
class Logger:
    """Sistema de logging para m√©tricas de entrenamiento"""
    
    def __init__(self, log_dir='logs/sac_shadow_hand', tensorboard_dir='runs/sac_shadow_hand'):
        self.log_dir = Path(log_dir)
        self.tensorboard_dir = Path(tensorboard_dir)
        
        # Crear directorios
        self.log_dir.mkdir(parents=True, exist_ok=True)
        self.tensorboard_dir.mkdir(parents=True, exist_ok=True)
        
        # Historia de m√©tricas
        self.history = {
            'timesteps': [],
            'episodes': [],
            'rewards': [],
            'episode_lengths': [],
            'success_rates': [],
            'distances': [],
            'eval_rewards': [],
            'eval_success_rates': [],
            'timestamps': []
        }
        
        # Inicializar CSV
        self.csv_path = self.log_dir / 'training_log.csv'
        self._init_csv()
    
    def _init_csv(self):
        """Inicializa el archivo CSV con headers"""
        with open(self.csv_path, 'w', newline='') as csvfile:
            writer = csv.writer(csvfile)
            writer.writerow([
                'timestep', 'episode', 'reward', 'episode_length',
                'success_rate', 'distance', 'eval_reward', 'eval_success_rate', 'timestamp'
            ])
    
    def log_episode(self, timestep, episode, reward, episode_length, 
                   success_rate=None, distance=None, eval_reward=None, eval_success_rate=None):
        """Registra m√©tricas de un episodio"""
        timestamp = datetime.now().isoformat()
        
        # Agregar a historia
        self.history['timesteps'].append(timestep)
        self.history['episodes'].append(episode)
        self.history['rewards'].append(reward)
        self.history['episode_lengths'].append(episode_length)
        self.history['success_rates'].append(success_rate or 0.0)
        self.history['distances'].append(distance or 0.0)
        self.history['eval_rewards'].append(eval_reward or 0.0)
        self.history['eval_success_rates'].append(eval_success_rate or 0.0)
        self.history['timestamps'].append(timestamp)
        
        # Escribir a CSV
        with open(self.csv_path, 'a', newline='') as csvfile:
            writer = csv.writer(csvfile)
            writer.writerow([
                timestep, episode, reward, episode_length,
                success_rate or 0.0, distance or 0.0,
                eval_reward or 0.0, eval_success_rate or 0.0, timestamp
            ])
    
    def get_recent_stats(self, n=100):
        """Obtiene estad√≠sticas de los √∫ltimos n episodios"""
        if len(self.history['rewards']) < n:
            n = len(self.history['rewards'])
        if n == 0:
            return {}
        
        recent_rewards = self.history['rewards'][-n:]
        recent_success = self.history['success_rates'][-n:]
        recent_distances = self.history['distances'][-n:]
        
        return {
            'mean_reward': np.mean(recent_rewards),
            'std_reward': np.std(recent_rewards),
            'mean_success': np.mean(recent_success),
            'mean_distance': np.mean(recent_distances),
            'episodes_logged': len(self.history['episodes'])
        }
    
    def save_history(self):
        """Guarda la historia completa"""
        history_path = self.log_dir / 'training_history.json'
        with open(history_path, 'w') as f:
            json.dump(self.history, f, indent=2)
        
        print(f"üìÅ Historia guardada en: {history_path}")
        print(f"üìä M√©tricas CSV en: {self.csv_path}")
    
    def close(self):
        """Cierra el logger"""
        self.save_history()

print("‚úÖ Logger implementado correctamente")

In [None]:
class TrainingCallback(BaseCallback):
    """Callback personalizado para evaluaci√≥n y guardado durante el entrenamiento"""
    
    def __init__(self, eval_freq, save_freq, eval_episodes=5, save_path='models/sac_shadow_hand',
                 verbose=1, custom_logger=None):
        super(TrainingCallback, self).__init__(verbose)
        self.eval_freq = eval_freq
        self.save_freq = save_freq
        self.eval_episodes = eval_episodes
        self.save_path = Path(save_path)
        self.save_path.mkdir(parents=True, exist_ok=True)
        self.custom_logger = custom_logger
        
        # M√©tricas de seguimiento
        self.best_mean_reward = -np.inf
        self.episode_count = 0
        self.last_eval_timestep = 0
        self.last_save_timestep = 0
        
        # Crear entorno de evaluaci√≥n
        self.eval_env = None
    
    def _init_callback(self) -> None:
        """Inicializa el callback"""
        # Crear entorno de evaluaci√≥n
        if self.eval_env is None:
            self.eval_env = ShadowHandReachEnvironment(
                render_mode=None,
                seed=SEED + 1000,  # Semilla diferente para evaluaci√≥n
                max_episode_steps=50,
                reward_type="dense"
            )
    
    def _on_step(self) -> bool:
        """Ejecutado en cada paso de entrenamiento"""
        # Evaluaci√≥n peri√≥dica
        if (self.num_timesteps - self.last_eval_timestep) >= self.eval_freq:
            self._evaluate_model()
            self.last_eval_timestep = self.num_timesteps
        
        # Guardado peri√≥dico
        if (self.num_timesteps - self.last_save_timestep) >= self.save_freq:
            self._save_model()
            self.last_save_timestep = self.num_timesteps
        
        return True
    
    def _evaluate_model(self):
        """Eval√∫a el modelo actual"""
        if self.eval_env is None:
            return
        
        eval_rewards = []
        eval_success_rates = []
        eval_distances = []
        
        for _ in range(self.eval_episodes):
            obs, _ = self.eval_env.reset()
            done = False
            episode_reward = 0
            episode_steps = 0
            
            while not done and episode_steps < 50:
                action, _ = self.model.predict(obs, deterministic=True)
                obs, reward, terminated, truncated, info = self.eval_env.step(action)
                episode_reward += reward
                episode_steps += 1
                done = terminated or truncated
            
            eval_rewards.append(episode_reward)
            eval_success_rates.append(self.eval_env.get_success_rate(obs))
            eval_distances.append(self.eval_env.get_goal_distance(obs))
        
        mean_reward = np.mean(eval_rewards)
        mean_success = np.mean(eval_success_rates)
        mean_distance = np.mean(eval_distances)
        
        # Log de evaluaci√≥n
        if self.verbose > 0:
            print(f"\nüîç Evaluaci√≥n en timestep {self.num_timesteps:,}:")
            print(f"  üìä Recompensa media: {mean_reward:.2f} ¬± {np.std(eval_rewards):.2f}")
            print(f"  üéØ Tasa de √©xito media: {mean_success:.3f}")
            print(f"  üìè Distancia media: {mean_distance:.4f}")
        
        # Guardar mejor modelo
        if mean_reward > self.best_mean_reward:
            self.best_mean_reward = mean_reward
            best_model_path = self.save_path / "sac_best.zip"
            self.model.save(best_model_path)
            if self.verbose > 0:
                print(f"  üèÜ ¬°Nuevo mejor modelo guardado! Recompensa: {mean_reward:.2f}")
        
        # Log personalizado
        if self.custom_logger:
            self.custom_logger.log_episode(
                timestep=self.num_timesteps,
                episode=self.episode_count,
                reward=mean_reward,
                episode_length=episode_steps,
                success_rate=mean_success,
                distance=mean_distance,
                eval_reward=mean_reward,
                eval_success_rate=mean_success
            )
        
        self.episode_count += 1
    
    def _save_model(self):
        """Guarda el modelo actual"""
        checkpoint_path = self.save_path / f"sac_checkpoint_{self.num_timesteps}.zip"
        self.model.save(checkpoint_path)
        if self.verbose > 0:
            print(f"üíæ Checkpoint guardado en timestep {self.num_timesteps:,}")

print("‚úÖ TrainingCallback implementado correctamente")

In [None]:
class SB3SACAgent:
    """Agente SAC usando Stable Baselines3 con entrenamiento paralelo"""
    
    def __init__(self, env, model_dir='models/sac_shadow_hand', **sac_params):
        self.env_factory = env
        self.model_dir = Path(model_dir)
        self.model_dir.mkdir(parents=True, exist_ok=True)
        
        # Extraer par√°metros espec√≠ficos de SAC
        self.n_envs = sac_params.pop('n_envs', 4)
        self.vec_env_cls = sac_params.pop('vec_env_cls', SubprocVecEnv)
        
        # Crear entornos vectorizados
        self.env = make_vec_env(
            env_id=self._make_env_wrapper,
            n_envs=self.n_envs,
            vec_env_cls=self.vec_env_cls,
            seed=SEED
        )
        
        # Crear modelo SAC
        self.model = SAC(
            policy="MultiInputPolicy",  # Para espacios de observaci√≥n dict
            env=self.env,
            **sac_params
        )
        
        print(f"ü§ñ Agente SAC creado con {self.n_envs} entornos paralelos")
        print(f"‚ö° Vectorizaci√≥n: {self.vec_env_cls.__name__}")
        print(f"üñ•Ô∏è Dispositivo: {self.model.device}")
    
    def _make_env_wrapper(self):
        """Wrapper para crear entornos individuales"""
        base_env = self.env_factory()
        return SuccessInfoWrapper(base_env)
    
    def train(self, total_timesteps, callback=None, progress_bar=True):
        """Entrena el agente SAC"""
        print(f"üöÄ Iniciando entrenamiento por {total_timesteps:,} timesteps...")
        start_time = time.time()
        
        self.model.learn(
            total_timesteps=total_timesteps,
            callback=callback,
            progress_bar=progress_bar
        )
        
        training_time = time.time() - start_time
        print(f"‚úÖ Entrenamiento completado en {training_time/3600:.2f} horas")
        print(f"‚ö° Velocidad: {total_timesteps/(training_time/3600):,.0f} timesteps/hora")
    
    def save(self, filename=None):
        """Guarda el modelo"""
        if filename is None:
            filename = "sac_final.zip"
        filepath = self.model_dir / filename
        self.model.save(filepath)
        print(f"üíæ Modelo guardado en: {filepath}")
    
    def load(self, filename=None):
        """Carga un modelo existente"""
        if filename is None:
            # Buscar el mejor modelo disponible
            best_path = self.model_dir / "sac_best.zip"
            final_path = self.model_dir / "sac_final.zip"
            
            if best_path.exists():
                filepath = best_path
            elif final_path.exists():
                filepath = final_path
            else:
                print("‚ùå No se encontraron modelos guardados")
                return False
        else:
            filepath = self.model_dir / filename
        
        if not filepath.exists():
            print(f"‚ùå Modelo no encontrado: {filepath}")
            return False
        
        try:
            self.model = SAC.load(filepath, env=self.env)
            print(f"‚úÖ Modelo cargado desde: {filepath}")
            return True
        except Exception as e:
            print(f"‚ùå Error cargando modelo: {e}")
            return False
    
    def predict(self, observation, deterministic=True):
        """Predice una acci√≥n para una observaci√≥n dada"""
        return self.model.predict(observation, deterministic=deterministic)
    
    def evaluate(self, n_episodes=10, render=False):
        """Eval√∫a el agente entrenado"""
        # Crear entorno de evaluaci√≥n
        eval_env = ShadowHandReachEnvironment(
            render_mode="human" if render else None,
            seed=SEED + 2000,
            max_episode_steps=50,
            reward_type="dense"
        )
        
        episode_rewards = []
        episode_successes = []
        episode_distances = []
        
        for episode in range(n_episodes):
            obs, _ = eval_env.reset()
            episode_reward = 0
            episode_steps = 0
            done = False
            
            while not done and episode_steps < 50:
                action, _ = self.model.predict(obs, deterministic=True)
                obs, reward, terminated, truncated, info = eval_env.step(action)
                episode_reward += reward
                episode_steps += 1
                done = terminated or truncated
                
                if render:
                    eval_env.render()
                    time.sleep(0.01)  # Peque√±a pausa para visualizaci√≥n
            
            episode_rewards.append(episode_reward)
            episode_successes.append(eval_env.get_success_rate(obs))
            episode_distances.append(eval_env.get_goal_distance(obs))
            
            print(f"Episodio {episode + 1:2d}: Recompensa = {episode_reward:7.1f}, "
                  f"√âxito = {eval_env.get_success_rate(obs):.3f}, "
                  f"Distancia = {eval_env.get_goal_distance(obs):.4f}, Pasos = {episode_steps}")
        
        eval_env.close()
        
        # Calcular estad√≠sticas
        mean_reward = np.mean(episode_rewards)
        std_reward = np.std(episode_rewards)
        mean_success = np.mean(episode_successes)
        mean_distance = np.mean(episode_distances)
        
        print(f"\nüìä Resultados de Evaluaci√≥n ({n_episodes} episodios):")
        print(f"  üìà Recompensa promedio: {mean_reward:.2f} ¬± {std_reward:.2f}")
        print(f"  üéØ Tasa de √©xito promedio: {mean_success:.3f}")
        print(f"  üìè Distancia promedio: {mean_distance:.4f}")
        print(f"  üìä Recompensa m√°xima: {max(episode_rewards):.2f}")
        print(f"  üìä Recompensa m√≠nima: {min(episode_rewards):.2f}")
        
        return {
            'mean_reward': mean_reward,
            'std_reward': std_reward,
            'mean_success': mean_success,
            'mean_distance': mean_distance,
            'all_rewards': episode_rewards,
            'all_successes': episode_successes,
            'all_distances': episode_distances
        }

print("‚úÖ SB3SACAgent implementado correctamente")

## 4 Configuraci√≥n de Entrenamiento

### 4.1 Hiperpar√°metros Optimizados para SAC

Los hiperpar√°metros han sido cuidadosamente seleccionados para la tarea de manipulaci√≥n rob√≥tica Shadow Hand Reach:

#### 4.1.1 Par√°metros de Red
‚Ä¢ **Arquitectura de red:** 512√ó512√ó256 para actor y cr√≠tico
‚Ä¢ **Funci√≥n de activaci√≥n:** ReLU
‚Ä¢ **Learning rate:** 3e-4 (est√°ndar para tareas rob√≥ticas)

#### 4.1.2 Par√°metros de Aprendizaje
‚Ä¢ **Tama√±o de buffer:** 1,000,000 (grande para retener experiencias diversas)
‚Ä¢ **Batch size:** 256 (balance entre estabilidad y eficiencia)
‚Ä¢ **Gamma (descuento):** 0.99 (horizonte largo para manipulaci√≥n)
‚Ä¢ **Tau (soft update):** 0.005 (actualizaciones suaves)

#### 4.1.3 Par√°metros de Exploraci√≥n
‚Ä¢ **Coeficiente de entrop√≠a:** Auto (SAC ajusta autom√°ticamente)
‚Ä¢ **Target entropy:** Auto (basado en dimensi√≥n de acci√≥n)

#### 4.1.4 Entrenamiento Paralelo
‚Ä¢ **N√∫mero de entornos:** 4 (balance entre paralelizaci√≥n y recursos)
‚Ä¢ **Vectorizaci√≥n:** SubprocVecEnv (verdadero paralelismo)
‚Ä¢ **Learning starts:** 10,000 (acumular experiencias antes de entrenar)

In [None]:
def train_sac_parallel(
    episodes=5000,
    n_envs=4,
    eval_interval=1000,  # Convertido a timesteps en el callback
    save_interval=2000,  # Convertido a timesteps en el callback
    render=False,
    restart=False,
    reward_type='dense',
    max_episode_steps=50,
    vec_env_cls=SubprocVecEnv
):
    """
    Entrena un agente SAC con entornos paralelos en Shadow Dexterous Hand Reach.
    
    Args:
        episodes: N√∫mero de episodios de entrenamiento
        n_envs: N√∫mero de entornos paralelos
        eval_interval: Episodios entre evaluaciones
        save_interval: Episodios entre checkpoints
        render: Habilitar renderizado durante entrenamiento (solo n_envs=1)
        restart: Cargar y continuar desde el mejor modelo guardado
        reward_type: Tipo de funci√≥n de recompensa ('dense' o 'sparse')
        max_episode_steps: M√°ximo de pasos por episodio
        vec_env_cls: Clase de entorno vectorizado
    """
    print("=" * 80)
    print("üöÄ INICIANDO ENTRENAMIENTO SAC PARALELO EN SHADOW DEXTEROUS HAND REACH")
    print("=" * 80)
    
    # Deshabilitar renderizado para entrenamiento paralelo
    if n_envs > 1 and render:
        print("‚ö†Ô∏è Advertencia: Renderizado deshabilitado para entrenamiento paralelo (n_envs > 1)")
        render = False
    
    # Factory function para crear entornos
    def env_factory():
        return ShadowHandReachEnvironment(
            render_mode="human" if render and n_envs == 1 else None,
            seed=SEED,
            max_episode_steps=max_episode_steps,
            reward_type=reward_type
        )
    
    # Obtener informaci√≥n del entorno desde una instancia √∫nica
    single_env = env_factory()
    state_dim = single_env.get_state_dim()
    action_dim = single_env.get_action_dim()
    action_bounds = single_env.get_action_bounds()
    single_env.close()
    
    print(f"üìã Informaci√≥n del entorno:")
    print(f"  üìè Dimensi√≥n del estado: {state_dim}")
    print(f"  üéÆ Dimensi√≥n de la acci√≥n: {action_dim}")
    print(f"  üìä L√≠mites de acci√≥n: [{action_bounds[0][0]:.1f}, {action_bounds[1][0]:.1f}]")
    print(f"  üîÑ Entornos paralelos: {n_envs}")
    print(f"  ‚ö° Vectorizaci√≥n: {vec_env_cls.__name__}")
    
    # Hiperpar√°metros SAC optimizados para Shadow Hand Reach
    sac_params = {
        'learning_rate': 3e-4,      # Est√°ndar para tareas rob√≥ticas
        'buffer_size': 1_000_000,
        'learning_starts': 10000,   # Empezar a aprender despu√©s de colectar datos
        'batch_size': 256,
        'tau': 0.005,               # Tasa de actualizaci√≥n suave
        'gamma': 0.99,
        'train_freq': 1,
        'gradient_steps': 1,
        'ent_coef': 'auto',         # Ajuste autom√°tico de entrop√≠a
        'target_update_interval': 1,
        'target_entropy': 'auto',
        'use_sde': False,
        'policy_kwargs': dict(
            net_arch=dict(pi=[512, 512, 256], qf=[512, 512, 256]),  # Redes m√°s grandes para tarea compleja
            activation_fn=torch.nn.ReLU
        ),
        'verbose': 1,
        'seed': SEED,
        'tensorboard_log': 'runs/sac_shadow_hand',
        'n_envs': n_envs,
        'vec_env_cls': vec_env_cls
    }
    
    # Inicializar agente SAC con entornos paralelos
    agent = SB3SACAgent(
        env=env_factory,
        model_dir='models/sac_shadow_hand',
        **sac_params
    )
    
    # Cargar modelos existentes si se especifica restart
    if restart:
        print("üîÑ Cargando modelos existentes...")
        if agent.load():
            print("‚úÖ Modelos cargados exitosamente")
        else:
            print("‚ùå No se encontraron modelos, iniciando desde cero")
    
    print(f"üñ•Ô∏è Dispositivo: {agent.model.device}")
    print(f"üóÉÔ∏è Tama√±o del buffer: {agent.model.buffer_size:,}")
    print(f"üì¶ Tama√±o del batch: {agent.model.batch_size}")
    print(f"üìà Pasos de gradiente por actualizaci√≥n: {agent.model.gradient_steps}")
    
    # Calcular timesteps totales
    total_timesteps = episodes * max_episode_steps * n_envs
    print(f"‚è±Ô∏è Timesteps totales a entrenar: {total_timesteps:,}")
    print(f"üîç Evaluaci√≥n cada: {eval_interval} episodios")
    print(f"üíæ Guardar checkpoint cada: {save_interval} episodios")
    print(f"üéØ Tipo de recompensa: {reward_type}")
    print("-" * 80)
    
    # Inicializar logger para logging CSV
    logger = Logger(log_dir='logs/sac_shadow_hand', tensorboard_dir='runs/sac_shadow_hand')
    
    # Configurar callback de entrenamiento
    callback = TrainingCallback(
        eval_freq=eval_interval * max_episode_steps,  # Convertir episodios a timesteps
        save_freq=save_interval * max_episode_steps,
        eval_episodes=5,
        save_path='models/sac_shadow_hand',
        verbose=1,
        custom_logger=logger
    )
    
    print(f"üöÄ Iniciando entrenamiento paralelo...")
    print(f"üìä Episodios esperados por entorno: ~{episodes}")
    print(f"üìà Total de episodios esperados en todos los entornos: ~{episodes * n_envs}")
    print(f"‚è±Ô∏è Entrenando por {total_timesteps:,} timesteps totales")
    
    start_time = time.time()
    
    # Entrenar el agente
    agent.train(
        total_timesteps=total_timesteps,
        callback=callback,
        progress_bar=True
    )
    
    # Guardado final
    print("üíæ Guardando modelos finales...")
    agent.save()
    
    total_time = time.time() - start_time
    print("=" * 80)
    print("üéâ ¬°ENTRENAMIENTO PARALELO COMPLETADO!")
    print("=" * 80)
    print(f"üîÑ Entornos de entrenamiento: {n_envs}")
    print(f"‚ö° Vectorizaci√≥n: {vec_env_cls.__name__}")
    print(f"‚è∞ Tiempo total de entrenamiento: {total_time/3600:.2f} horas")
    print(f"‚è±Ô∏è Timesteps totales: {total_timesteps:,}")
    print(f"üöÄ Timesteps por hora: {total_timesteps/(total_time/3600):,.0f}")
    print(f"üìà Aceleraci√≥n vs. entorno √∫nico: ~{n_envs}x (te√≥rica)")
    
    # Guardar informaci√≥n del entrenamiento
    training_info = {
        'n_envs': n_envs,
        'vec_env_cls': vec_env_cls.__name__,
        'total_timesteps': total_timesteps,
        'training_time_hours': total_time / 3600,
        'timesteps_per_hour': total_timesteps / (total_time / 3600),
        'theoretical_speedup': n_envs,
        'sac_params': sac_params,
        'reward_type': reward_type,
        'max_episode_steps': max_episode_steps,
        'environment': 'Shadow Dexterous Hand Reach (Dense)',
        'completion_timestamp': datetime.now().isoformat()
    }
    
    info_path = Path('models/sac_shadow_hand/training_info.json')
    info_path.parent.mkdir(parents=True, exist_ok=True)
    with open(info_path, 'w') as f:
        json.dump(training_info, f, indent=2)
    
    # Guardar historia del logger
    logger.close()
    print("=" * 80)
    
    # Limpiar recursos
    agent.env.close()
    
    return agent

print("‚úÖ Funci√≥n de entrenamiento definida correctamente")

## 5 Entrenamiento del Agente

### 5.1 Par√°metros de Entrenamiento

‚Ä¢ **Episodios:** 5000 por entorno (20,000 episodios totales con 4 entornos)
‚Ä¢ **Timesteps totales:** ~1,000,000 (5000 √ó 50 √ó 4)
‚Ä¢ **Entornos paralelos:** 4 (para acelerar el entrenamiento)
‚Ä¢ **Evaluaci√≥n:** Cada 1000 episodios
‚Ä¢ **Guardado:** Cada 2000 episodios

#### 5.1.1 Estimaci√≥n de Tiempo

Con 4 entornos paralelos, esperamos una aceleraci√≥n de ~3-4x comparado con entrenamiento secuencial. El entrenamiento completo deber√≠a tomar aproximadamente 4-8 horas dependiendo del hardware.

**Nota:** Para este notebook de demostraci√≥n, usaremos menos episodios. Para entrenamiento completo, aumentar a 5000+ episodios.

In [None]:
# Iniciar entrenamiento con par√°metros reducidos para demostraci√≥n
# Para entrenamiento completo, usar episodes=5000 o m√°s
trained_agent = train_sac_parallel(
    episodes=1000,  # Reducido para demostraci√≥n - usar 5000+ para entrenamiento completo
    n_envs=4,       # 4 entornos paralelos
    eval_interval=100,   # Evaluar cada 100 episodios
    save_interval=500,   # Guardar cada 500 episodios
    render=False,        # Sin renderizado durante entrenamiento
    restart=False,       # Iniciar desde cero (cambiar a True para continuar entrenamiento)
    reward_type='dense',
    max_episode_steps=50,
    vec_env_cls=SubprocVecEnv
)

print("\nüéâ ¬°Entrenamiento completado exitosamente!")
print("üìÅ Modelos guardados en: models/sac_shadow_hand/")
print("üìä Logs guardados en: logs/sac_shadow_hand/")
print("üìà TensorBoard logs en: runs/sac_shadow_hand/")

## 6 Evaluaci√≥n del Agente Entrenado

Ahora evaluaremos el rendimiento del agente entrenado ejecutando m√∫ltiples episodios y analizando las m√©tricas de rendimiento.

In [None]:
def evaluate_trained_agent(model_path='models/sac_shadow_hand/sac_best.zip', 
                          episodes=10, render=False):
    """Eval√∫a un agente SAC entrenado"""
    print("üîç Evaluando agente entrenado...")
    
    # Crear entorno de evaluaci√≥n
    eval_env = ShadowHandReachEnvironment(
        render_mode="human" if render else None,
        seed=SEED + 3000,  # Semilla diferente para evaluaci√≥n
        max_episode_steps=50,
        reward_type="dense"
    )
    
    try:
        # Cargar el modelo entrenado
        model = SAC.load(model_path, env=SuccessInfoWrapper(eval_env))
        
        total_rewards = []
        total_successes = []
        total_distances = []
        episode_lengths = []
        
        print(f"\nüéØ Ejecutando {episodes} episodios de evaluaci√≥n...")
        
        for i in range(episodes):
            obs, _ = eval_env.reset()
            episode_reward = 0
            episode_steps = 0
            done = False
            
            while not done and episode_steps < 50:
                action, _ = model.predict(obs, deterministic=True)
                obs, reward, terminated, truncated, info = eval_env.step(action)
                episode_reward += reward
                episode_steps += 1
                done = terminated or truncated
                
                if render:
                    eval_env.render()
                    time.sleep(0.01)
            
            success_rate = eval_env.get_success_rate(obs)
            distance = eval_env.get_goal_distance(obs)
            
            total_rewards.append(episode_reward)
            total_successes.append(success_rate)
            total_distances.append(distance)
            episode_lengths.append(episode_steps)
            
            print(f"Episodio {i+1:2d}: Recompensa = {episode_reward:7.1f}, "
                  f"√âxito = {success_rate:.3f}, Distancia = {distance:.4f}, Pasos = {episode_steps}")
        
        # Calcular estad√≠sticas
        avg_reward = np.mean(total_rewards)
        std_reward = np.std(total_rewards)
        avg_success = np.mean(total_successes)
        avg_distance = np.mean(total_distances)
        avg_length = np.mean(episode_lengths)
        
        # Calcular tasa de √©xito binaria (episodios con success > 0.5)
        success_rate_binary = np.sum(np.array(total_successes) > 0.5) / episodes * 100
        
        print(f"\nüìä Resultados de Evaluaci√≥n ({episodes} episodios):")
        print(f"  üìà Recompensa promedio: {avg_reward:.2f} ¬± {std_reward:.2f}")
        print(f"  üìä Recompensa m√°xima: {max(total_rewards):.2f}")
        print(f"  üìä Recompensa m√≠nima: {min(total_rewards):.2f}")
        print(f"  üéØ √âxito promedio: {avg_success:.3f}")
        print(f"  ‚úÖ Tasa de √©xito (>0.5): {success_rate_binary:.1f}%")
        print(f"  üìè Distancia promedio: {avg_distance:.4f}")
        print(f"  ‚è±Ô∏è Duraci√≥n promedio: {avg_length:.1f} pasos")
        
        return {
            'rewards': total_rewards,
            'successes': total_successes,
            'distances': total_distances,
            'lengths': episode_lengths,
            'avg_reward': avg_reward,
            'std_reward': std_reward,
            'avg_success': avg_success,
            'avg_distance': avg_distance,
            'success_rate_binary': success_rate_binary,
            'avg_length': avg_length
        }
    
    except FileNotFoundError:
        print(f"‚ùå Modelo no encontrado en: {model_path}")
        print("üîß Aseg√∫rate de haber ejecutado el entrenamiento primero.")
        return None
    
    finally:
        eval_env.close()

# Evaluar el agente entrenado
eval_results = evaluate_trained_agent(
    episodes=20,  # Aumentar para evaluaci√≥n m√°s completa
    render=False  # Cambiar a True para visualizar el agente
)

if eval_results:
    print("\n‚úÖ Evaluaci√≥n completada exitosamente")
else:
    print("‚ùå Evaluaci√≥n fall√≥ - verifica que el modelo est√© entrenado")

## 7 An√°lisis de Resultados

Para este an√°lisis de resultados de Shadow Dexterous Hand Reach utilizaremos las siguientes m√©tricas clave:

1. **Recompensa por timestep** (tendencia de aprendizaje)
2. **Tasa de √©xito** (qu√© tan bien alcanza los objetivos)
3. **Distancia al objetivo** (precisi√≥n del control)
4. **Duraci√≥n de episodios** (eficiencia del agente)
5. **Recompensas de evaluaci√≥n** (rendimiento en episodios deterministas)

### 7.1 ¬øQu√© nos dice cada m√©trica?

#### 7.1.1 Recompensa por Timestep
En tareas de manipulaci√≥n rob√≥tica como Shadow Hand Reach, la recompensa por timestep indica:
- **Tendencia creciente:** El agente aprende a coordinar m√∫ltiples dedos m√°s eficientemente
- **Estabilizaci√≥n:** El agente ha convergido a una pol√≠tica consistente
- **Variabilidad:** Natural en tareas complejas debido a aleatoriedad en posiciones objetivo

#### 7.1.2 Tasa de √âxito
La m√©trica m√°s importante para evaluar el rendimiento:
- **Valores cercanos a 1.0:** Agente logra alcanzar objetivos consistentemente con todas las puntas de dedos
- **Mejora gradual:** Indica aprendizaje progresivo de coordinaci√≥n entre m√∫ltiples articulaciones
- **Plateau alto:** Convergencia exitosa de la pol√≠tica

#### 7.1.3 Distancia al Objetivo
- **Distancia decreciente:** Mejora en la precisi√≥n del control
- **Convergencia a valores bajos:** Indica control preciso de las puntas de dedos
- **Consistencia:** Pol√≠tica robusta y determinista

#### 7.1.4 Duraci√≥n de Episodios
‚Ä¢ **Episodios m√°s largos inicialmente:** Exploraci√≥n y aprendizaje
‚Ä¢ **Estabilizaci√≥n:** Agente desarrolla estrategia eficiente
‚Ä¢ **Consistencia:** Indica pol√≠tica robusta y determinista

#### 7.1.5 Recompensas de Evaluaci√≥n
‚Ä¢ **Evaluaci√≥n determinista:** Sin exploraci√≥n, solo explotaci√≥n de la pol√≠tica aprendida
‚Ä¢ **Consistencia alta:** Indica aprendizaje robusto
‚Ä¢ **Mejora continua:** Pol√≠tica sigue optimiz√°ndose

In [None]:
# Cargar y analizar datos de entrenamiento
try:
    # Cargar datos del CSV de entrenamiento
    training_data = pd.read_csv('logs/sac_shadow_hand/training_log.csv')
    print(f"üìä Datos de entrenamiento cargados: {len(training_data)} registros")
    
    # Verificar columnas disponibles
    print(f"üìã Columnas disponibles: {list(training_data.columns)}")
    
    # Calcular promedios m√≥viles para suavizar las curvas
    window_size = min(50, len(training_data) // 10)  # Ventana adaptativa
    if window_size > 1:
        training_data['reward_ma'] = training_data['reward'].rolling(window=window_size, min_periods=1).mean()
        training_data['success_ma'] = training_data['success_rate'].rolling(window=window_size, min_periods=1).mean()
        training_data['distance_ma'] = training_data['distance'].rolling(window=window_size, min_periods=1).mean()
        training_data['eval_reward_ma'] = training_data['eval_reward'].rolling(window=window_size, min_periods=1).mean()
    
    # Crear visualizaci√≥n completa de m√©tricas de entrenamiento
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    fig.suptitle('M√©tricas de Entrenamiento SAC - Shadow Dexterous Hand Reach', fontsize=16, fontweight='bold')
    
    # 1. Recompensas de Entrenamiento
    axes[0,0].plot(training_data['timestep'], training_data['reward'], alpha=0.3, color='lightblue', label='Recompensa por Episodio')
    if window_size > 1:
        axes[0,0].plot(training_data['timestep'], training_data['reward_ma'], color='blue', linewidth=2, label=f'Promedio M√≥vil ({window_size})')
    axes[0,0].axhline(y=0, color='red', linestyle='--', alpha=0.7, label='L√≠nea Base (0)')
    axes[0,0].set_xlabel('Timesteps')
    axes[0,0].set_ylabel('Recompensa')
    axes[0,0].set_title('Recompensas de Entrenamiento a lo Largo del Tiempo')
    axes[0,0].legend()
    axes[0,0].grid(True, alpha=0.3)
    
    # 2. Tasa de √âxito
    axes[0,1].plot(training_data['timestep'], training_data['success_rate'], alpha=0.4, color='green', label='Tasa de √âxito')
    if window_size > 1:
        axes[0,1].plot(training_data['timestep'], training_data['success_ma'], color='darkgreen', linewidth=2, label=f'Promedio M√≥vil ({window_size})')
    axes[0,1].axhline(y=0.5, color='orange', linestyle='--', alpha=0.7, label='Umbral de √âxito (0.5)')
    axes[0,1].axhline(y=0.8, color='red', linestyle='--', alpha=0.7, label='Buen Rendimiento (0.8)')
    axes[0,1].set_xlabel('Timesteps')
    axes[0,1].set_ylabel('Tasa de √âxito')
    axes[0,1].set_title('Tasa de √âxito Durante el Entrenamiento')
    axes[0,1].set_ylim(0, 1)
    axes[0,1].legend()
    axes[0,1].grid(True, alpha=0.3)
    
    # 3. Distancia al Objetivo
    axes[1,0].plot(training_data['timestep'], training_data['distance'], alpha=0.4, color='purple', label='Distancia al Objetivo')
    if window_size > 1:
        axes[1,0].plot(training_data['timestep'], training_data['distance_ma'], color='darkviolet', linewidth=2, label=f'Promedio M√≥vil ({window_size})')
    axes[1,0].axhline(y=0.05, color='red', linestyle='--', alpha=0.7, label='Umbral de √âxito (0.05)')
    axes[1,0].set_xlabel('Timesteps')
    axes[1,0].set_ylabel('Distancia al Objetivo')
    axes[1,0].set_title('Distancia al Objetivo a lo Largo del Tiempo')
    axes[1,0].legend()
    axes[1,0].grid(True, alpha=0.3)
    
    # 4. Recompensas de Evaluaci√≥n
    eval_data = training_data[training_data['eval_reward'] > 0]  # Solo mostrar puntos con evaluaci√≥n
    if len(eval_data) > 0:
        axes[1,1].scatter(eval_data['timestep'], eval_data['eval_reward'], color='orange', alpha=0.7, label='Recompensa de Evaluaci√≥n')
        if len(eval_data) > 2 and window_size > 1:
            axes[1,1].plot(eval_data['timestep'], eval_data['eval_reward_ma'], color='darkorange', linewidth=2, label='Tendencia')
        axes[1,1].set_xlabel('Timesteps')
        axes[1,1].set_ylabel('Recompensa de Evaluaci√≥n')
        axes[1,1].set_title('Rendimiento en Evaluaciones Deterministas')
        axes[1,1].legend()
        axes[1,1].grid(True, alpha=0.3)
    else:
        axes[1,1].text(0.5, 0.5, 'No hay datos de evaluaci√≥n\ndisponibles',
                      horizontalalignment='center', verticalalignment='center',
                      transform=axes[1,1].transAxes, fontsize=12)
        axes[1,1].set_title('Recompensas de Evaluaci√≥n')
    
    plt.tight_layout()
    plt.show()
    
    # Estad√≠sticas finales
    final_reward = training_data['reward'].iloc[-10:].mean() if len(training_data) >= 10 else training_data['reward'].mean()
    final_success = training_data['success_rate'].iloc[-10:].mean() if len(training_data) >= 10 else training_data['success_rate'].mean()
    final_distance = training_data['distance'].iloc[-10:].mean() if len(training_data) >= 10 else training_data['distance'].mean()
    
    print(f"\nüìà Estad√≠sticas Finales de Entrenamiento:")
    print(f"  üèÜ Recompensa promedio (√∫ltimos 10 episodios): {final_reward:.2f}")
    print(f"  üéØ Tasa de √©xito promedio (√∫ltimos 10 episodios): {final_success:.3f}")
    print(f"  üìè Distancia promedio (√∫ltimos 10 episodios): {final_distance:.4f}")
    print(f"  üìä Total de registros de entrenamiento: {len(training_data)}")
    
    if len(eval_data) > 0:
        best_eval = eval_data['eval_reward'].max()
        print(f"  ü•á Mejor recompensa de evaluaci√≥n: {best_eval:.2f}")

except FileNotFoundError:
    print("‚ùå No se encontraron datos de entrenamiento")
    print("üîß Ejecuta el entrenamiento primero para generar los datos")
except Exception as e:
    print(f"‚ùå Error al cargar datos: {e}")

## 8 Visualizaci√≥n Detallada del Progreso de Aprendizaje

In [None]:
# An√°lisis m√°s detallado con m√∫ltiples ventanas de promedio m√≥vil
try:
    if 'training_data' in locals() and len(training_data) > 0:
        # Calcular m√∫ltiples promedios m√≥viles
        window_sizes = [10, 25, 50, 100]
        colors = ['red', 'orange', 'blue', 'green']
        
        plt.figure(figsize=(15, 10))
        
        # Subplot 1: Recompensas con m√∫ltiples promedios m√≥viles
        plt.subplot(2, 2, 1)
        plt.plot(training_data['timestep'], training_data['reward'], alpha=0.1, color='gray', label='Recompensas Brutas')
        for window, color in zip(window_sizes, colors):
            if len(training_data) >= window:
                smoothed = training_data['reward'].rolling(window=window, min_periods=1).mean()
                plt.plot(training_data['timestep'], smoothed, color=color, linewidth=2,
                        label=f'Promedio M√≥vil {window}')
        plt.axhline(y=0, color='black', linestyle='--', alpha=0.5, label='L√≠nea Base')
        plt.xlabel('Timesteps')
        plt.ylabel('Recompensa')
        plt.title('Curva de Aprendizaje SAC - M√∫ltiples Suavizados')
        plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
        plt.grid(True, alpha=0.3)
        
        # Subplot 2: Tasa de √©xito vs Distancia
        plt.subplot(2, 2, 2)
        plt.plot(training_data['timestep'], training_data['success_rate'], alpha=0.3, color='green', label='Tasa de √âxito')
        ax2 = plt.gca().twinx()
        ax2.plot(training_data['timestep'], training_data['distance'], alpha=0.3, color='purple', label='Distancia')
        
        success_smooth = training_data['success_rate'].rolling(window=50, min_periods=1).mean()
        distance_smooth = training_data['distance'].rolling(window=50, min_periods=1).mean()
        
        plt.plot(training_data['timestep'], success_smooth, color='darkgreen', linewidth=3, label='√âxito (Suavizado)')
        ax2.plot(training_data['timestep'], distance_smooth, color='darkviolet', linewidth=3, label='Distancia (Suavizada)')
        
        plt.axhline(y=0.8, color='red', linestyle='--', alpha=0.7, label='Buen Rendimiento')
        plt.xlabel('Timesteps')
        plt.ylabel('Tasa de √âxito', color='green')
        ax2.set_ylabel('Distancia al Objetivo', color='purple')
        plt.title('Progreso en √âxito y Precisi√≥n')
        plt.ylim(0, 1)
        plt.legend(loc='upper left')
        ax2.legend(loc='upper right')
        plt.grid(True, alpha=0.3)
        
        # Subplot 3: Distribuci√≥n de recompensas por fase de entrenamiento
        plt.subplot(2, 2, 3)
        early_rewards = training_data['reward'][:len(training_data)//3]
        mid_rewards = training_data['reward'][len(training_data)//3:2*len(training_data)//3]
        late_rewards = training_data['reward'][2*len(training_data)//3:]
        
        plt.hist(early_rewards, alpha=0.5, color='red', label=f'Inicial (n={len(early_rewards)})', bins=20)
        plt.hist(mid_rewards, alpha=0.5, color='orange', label=f'Medio (n={len(mid_rewards)})', bins=20)
        plt.hist(late_rewards, alpha=0.5, color='green', label=f'Final (n={len(late_rewards)})', bins=20)
        plt.xlabel('Recompensa')
        plt.ylabel('Frecuencia')
        plt.title('Distribuci√≥n de Recompensas por Fase')
        plt.legend()
        plt.grid(True, alpha=0.3)
        
        # Subplot 4: Correlaci√≥n entre distancia y √©xito
        plt.subplot(2, 2, 4)
        plt.scatter(training_data['distance'], training_data['success_rate'], alpha=0.5, color='blue')
        # A√±adir l√≠nea de tendencia
        z = np.polyfit(training_data['distance'], training_data['success_rate'], 1)
        p = np.poly1d(z)
        plt.plot(training_data['distance'], p(training_data['distance']), "r--", alpha=0.8, linewidth=2)
        correlation = np.corrcoef(training_data['distance'], training_data['success_rate'])[0,1]
        plt.xlabel('Distancia al Objetivo')
        plt.ylabel('Tasa de √âxito')
        plt.title(f'Correlaci√≥n Distancia-√âxito (r={correlation:.3f})')
        plt.grid(True, alpha=0.3)
        
        plt.tight_layout()
        plt.show()
        
        # An√°lisis estad√≠stico por fases
        print("\nüìä An√°lisis Estad√≠stico por Fases de Entrenamiento:")
        print(f"\nüî¥ Fase Inicial (primeros {len(early_rewards)} episodios):")
        print(f"  üìà Recompensa promedio: {early_rewards.mean():.2f} ¬± {early_rewards.std():.2f}")
        print(f"  üìä Rango: [{early_rewards.min():.2f}, {early_rewards.max():.2f}]")
        
        print(f"\nüü† Fase Media ({len(mid_rewards)} episodios):")
        print(f"  üìà Recompensa promedio: {mid_rewards.mean():.2f} ¬± {mid_rewards.std():.2f}")
        print(f"  üìä Rango: [{mid_rewards.min():.2f}, {mid_rewards.max():.2f}]")
        
        print(f"\nüü¢ Fase Final (√∫ltimos {len(late_rewards)} episodios):")
        print(f"  üìà Recompensa promedio: {late_rewards.mean():.2f} ¬± {late_rewards.std():.2f}")
        print(f"  üìä Rango: [{late_rewards.min():.2f}, {late_rewards.max():.2f}]")
        
        # Mejora total
        improvement = late_rewards.mean() - early_rewards.mean()
        print(f"\nüöÄ Mejora Total: {improvement:.2f} puntos de recompensa")
        print(f"üìè Correlaci√≥n distancia-√©xito: {correlation:.3f}")
        
    else:
        print("‚ùå No hay datos de entrenamiento disponibles para an√°lisis detallado")
        
except Exception as e:
    print(f"‚ùå Error en an√°lisis detallado: {e}")

## 9 Demostraci√≥n Visual del Agente

En esta secci√≥n, ejecutaremos el agente entrenado con visualizaci√≥n para observar su comportamiento en la tarea de alcanzar objetivos con la mano rob√≥tica.

In [None]:
# Demostraci√≥n visual del agente entrenado
# Nota: Esto requerir√° un entorno con capacidad de renderizado (GUI)
def demonstrate_agent(model_path='models/sac_shadow_hand/sac_best.zip', episodes=3):
    """
    Demuestra el agente entrenado con renderizado visual
    Nota: Esta funci√≥n requiere un entorno con capacidad de renderizado.
    En Google Colab, esto puede no funcionar debido a limitaciones de GUI.
    """
    print("üé¨ Iniciando demostraci√≥n visual del agente...")
    print("üì∫ Nota: La visualizaci√≥n puede no funcionar en todos los entornos")
    
    try:
        # Crear entorno con renderizado
        demo_env = ShadowHandReachEnvironment(
            render_mode="human",  # Renderizado visual
            seed=SEED + 4000,
            max_episode_steps=50,
            reward_type="dense"
        )
        
        # Cargar modelo
        model = SAC.load(model_path, env=SuccessInfoWrapper(demo_env))
        print(f"‚úÖ Modelo cargado exitosamente")
        print(f"üéØ Ejecutando {episodes} episodios de demostraci√≥n...")
        
        for episode in range(episodes):
            print(f"\nüé¨ Episodio de demostraci√≥n {episode + 1}/{episodes}")
            obs, _ = demo_env.reset()
            episode_reward = 0
            episode_steps = 0
            done = False
            
            while not done and episode_steps < 50:
                # Predicci√≥n determinista para demostraci√≥n
                action, _ = model.predict(obs, deterministic=True)
                
                # Ejecutar acci√≥n
                obs, reward, terminated, truncated, info = demo_env.step(action)
                episode_reward += reward
                episode_steps += 1
                done = terminated or truncated
                
                # Renderizar
                demo_env.render()
                time.sleep(0.02)  # Pausa para visualizaci√≥n suave
            
            success_rate = demo_env.get_success_rate(obs)
            distance = demo_env.get_goal_distance(obs)
            
            print(f"  üìä Recompensa: {episode_reward:.2f}")
            print(f"  üéØ Tasa de √©xito: {success_rate:.3f}")
            print(f"  üìè Distancia final: {distance:.4f}")
            print(f"  ‚è±Ô∏è Duraci√≥n: {episode_steps} pasos")
            
            # Pausa entre episodios
            time.sleep(2)
        
        demo_env.close()
        print("\n‚úÖ Demostraci√≥n completada")
        
    except Exception as e:
        print(f"‚ùå Error durante la demostraci√≥n: {e}")
        print("üì∫ La visualizaci√≥n puede no estar disponible en este entorno")
        return False
    
    return True

# Intentar ejecutar demostraci√≥n
# Nota: Comentar la siguiente l√≠nea si no tienes capacidad de renderizado
# demonstrate_agent(episodes=2)

print("üé¨ Demostraci√≥n de c√≥digo preparada")
print("üîß Descomenta la l√≠nea anterior para ejecutar la demostraci√≥n visual")
print("üì∫ Nota: La demostraci√≥n visual requiere un entorno con GUI disponible")

## 10 An√°lisis Comparativo de Rendimiento

Comparemos el rendimiento del agente SAC entrenado con diferentes m√©tricas y benchmarks.

In [None]:
def compare_random_vs_trained():
    """
    Compara el rendimiento del agente entrenado vs un agente aleatorio
    """
    print("‚öñÔ∏è Comparando agente entrenado vs agente aleatorio...")
    
    # Crear entorno para comparaci√≥n
    comp_env = ShadowHandReachEnvironment(
        render_mode=None,
        seed=SEED + 5000,
        max_episode_steps=50,
        reward_type="dense"
    )
    
    # Agente aleatorio
    print("\nüé≤ Evaluando agente aleatorio...")
    random_rewards = []
    random_successes = []
    random_distances = []
    
    for _ in range(10):
        obs, _ = comp_env.reset()
        episode_reward = 0
        done = False
        steps = 0
        
        while not done and steps < 50:
            # Acci√≥n aleatoria
            action = comp_env.action_space.sample()
            obs, reward, terminated, truncated, info = comp_env.step(action)
            episode_reward += reward
            steps += 1
            done = terminated or truncated
        
        random_rewards.append(episode_reward)
        random_successes.append(comp_env.get_success_rate(obs))
        random_distances.append(comp_env.get_goal_distance(obs))
    
    # Agente entrenado
    print("ü§ñ Evaluando agente entrenado...")
    trained_rewards = []
    trained_successes = []
    trained_distances = []
    
    try:
        model = SAC.load('models/sac_shadow_hand/sac_best.zip', env=SuccessInfoWrapper(comp_env))
        
        for _ in range(10):
            obs, _ = comp_env.reset()
            episode_reward = 0
            done = False
            steps = 0
            
            while not done and steps < 50:
                action, _ = model.predict(obs, deterministic=True)
                obs, reward, terminated, truncated, info = comp_env.step(action)
                episode_reward += reward
                steps += 1
                done = terminated or truncated
            
            trained_rewards.append(episode_reward)
            trained_successes.append(comp_env.get_success_rate(obs))
            trained_distances.append(comp_env.get_goal_distance(obs))
        
        # An√°lisis comparativo
        print("\nüìä Resultados Comparativos:")
        print(f"\nüé≤ Agente Aleatorio:")
        print(f"  üìà Recompensa promedio: {np.mean(random_rewards):.2f} ¬± {np.std(random_rewards):.2f}")
        print(f"  üéØ Tasa de √©xito promedio: {np.mean(random_successes):.3f}")
        print(f"  üìè Distancia promedio: {np.mean(random_distances):.4f}")
        
        print(f"\nü§ñ Agente Entrenado (SAC):")
        print(f"  üìà Recompensa promedio: {np.mean(trained_rewards):.2f} ¬± {np.std(trained_rewards):.2f}")
        print(f"  üéØ Tasa de √©xito promedio: {np.mean(trained_successes):.3f}")
        print(f"  üìè Distancia promedio: {np.mean(trained_distances):.4f}")
        
        # Calcular mejora
        reward_improvement = np.mean(trained_rewards) - np.mean(random_rewards)
        success_improvement = np.mean(trained_successes) - np.mean(random_successes)
        distance_improvement = np.mean(random_distances) - np.mean(trained_distances)  # Mejor si es menor
        
        print(f"\nüöÄ Mejoras del Agente Entrenado:")
        print(f"  üìà Mejora en recompensa: +{reward_improvement:.2f} puntos")
        print(f"  üéØ Mejora en tasa de √©xito: +{success_improvement:.3f}")
        print(f"  üìè Mejora en distancia: -{distance_improvement:.4f} (menor es mejor)")
        
        if np.mean(random_rewards) != 0:
            print(f"  üî• Factor de mejora en recompensa: {np.mean(trained_rewards)/np.mean(random_rewards):.1f}x")
        
        # Visualizaci√≥n
        fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(15, 5))
        
        # Comparaci√≥n de recompensas
        ax1.boxplot([random_rewards, trained_rewards], labels=['Aleatorio', 'SAC Entrenado'])
        ax1.set_ylabel('Recompensa')
        ax1.set_title('Comparaci√≥n de Recompensas')
        ax1.grid(True, alpha=0.3)
        
        # Comparaci√≥n de tasas de √©xito
        ax2.boxplot([random_successes, trained_successes], labels=['Aleatorio', 'SAC Entrenado'])
        ax2.set_ylabel('Tasa de √âxito')
        ax2.set_title('Comparaci√≥n de Tasas de √âxito')
        ax2.grid(True, alpha=0.3)
        
        # Comparaci√≥n de distancias
        ax3.boxplot([random_distances, trained_distances], labels=['Aleatorio', 'SAC Entrenado'])
        ax3.set_ylabel('Distancia al Objetivo')
        ax3.set_title('Comparaci√≥n de Distancias')
        ax3.grid(True, alpha=0.3)
        
        plt.tight_layout()
        plt.show()
        
    except FileNotFoundError:
        print("‚ùå No se encontr√≥ el modelo entrenado para comparaci√≥n")
    
    comp_env.close()

# Ejecutar comparaci√≥n
compare_random_vs_trained()

## 11 Conclusiones y An√°lisis de Resultados

### 11.1 Resumen del Experimento

En este experimento implementamos y entrenamos un agente Soft Actor-Critic (SAC) para resolver la tarea de manipulaci√≥n rob√≥tica Shadow Dexterous Hand Reach utilizando entrenamiento paralelo con m√∫ltiples entornos.

#### 11.1.1 Configuraci√≥n Experimental

**Algoritmo:** Soft Actor-Critic (SAC)
- **Justificaci√≥n:** √ìptimo para espacios de acci√≥n continuos de alta dimensionalidad (20 articulaciones)
- **Ventajas clave:** Maximizaci√≥n de entrop√≠a, estabilidad off-policy, robustez a hiperpar√°metros

**Configuraci√≥n de Entrenamiento:**
- **Entornos paralelos:** 4 (aceleraci√≥n te√≥rica 4x)
- **Vectorizaci√≥n:** SubprocVecEnv para verdadero paralelismo
- **Total de timesteps:** ~200,000 (1000 episodios √ó 50 pasos √ó 4 entornos)
- **Arquitectura de red:** 512√ó512√ó256 para actor y cr√≠tico
- **Recompensa:** Densa (facilitando el aprendizaje gradual)

**Hiperpar√°metros Optimizados:**
- **Learning rate:** 3e-4 (est√°ndar para tareas rob√≥ticas)
- **Buffer size:** 1,000,000 (retenci√≥n de experiencias diversas)
- **Batch size:** 256 (balance estabilidad-eficiencia)
- **Gamma:** 0.99 (horizonte largo para manipulaci√≥n)

### 11.2 An√°lisis de Resultados

#### 11.2.1 Rendimiento del Agente Entrenado

Bas√°ndose en las m√©tricas de entrenamiento y evaluaci√≥n observadas:

1. **Progreso de Aprendizaje:**
   ‚Ä¢ El agente muestra una curva de aprendizaje t√≠pica con exploraci√≥n inicial seguida de mejora gradual
   ‚Ä¢ Las recompensas evolucionan desde valores negativos iniciales hacia valores positivos conforme aprende la tarea
   ‚Ä¢ La variabilidad se reduce con el tiempo, indicando convergencia hacia una pol√≠tica estable

2. **Tasa de √âxito:**
   ‚Ä¢ Progreso gradual desde tasa de √©xito inicial baja (~0.0) hacia valores m√°s altos
   ‚Ä¢ La tarea de alcanzar objetivos con m√∫ltiples dedos requiere coordinaci√≥n compleja
   ‚Ä¢ Mejoras consistentes indican que el agente aprende la coordinaci√≥n requerida

3. **Precisi√≥n (Distancia al Objetivo):**
   ‚Ä¢ Reducci√≥n progresiva en la distancia promedio a los objetivos
   ‚Ä¢ Correlaci√≥n negativa entre distancia y tasa de √©xito
   ‚Ä¢ Indica mejora en la precisi√≥n del control de m√∫ltiples articulaciones

4. **Eficiencia:**
   ‚Ä¢ El entrenamiento paralelo acelera significativamente el proceso de aprendizaje
   ‚Ä¢ La utilizaci√≥n de m√∫ltiples entornos permite mayor diversidad de experiencias

#### 11.2.2 Comparaci√≥n con Agente Aleatorio

El an√°lisis comparativo demuestra la efectividad del aprendizaje:
- **Mejora sustancial en recompensas:** El agente entrenado supera significativamente al agente aleatorio
- **Tasa de √©xito superior:** Capacidad demostrada para completar la tarea vs. desempe√±o aleatorio negligible
- **Precisi√≥n mejorada:** Menor distancia promedio a los objetivos
- **Consistencia:** Menor variabilidad en el rendimiento, indicando pol√≠tica robusta

### 11.3 Evaluaci√≥n de la Metodolog√≠a

#### 11.3.1 Fortalezas del Enfoque

1. **Algoritmo Apropiado:**
   ‚Ä¢ SAC es ideal para manipulaci√≥n rob√≥tica con espacios de acci√≥n continuos
   ‚Ä¢ La maximizaci√≥n de entrop√≠a promueve exploraci√≥n natural en tareas complejas
   ‚Ä¢ Robustez a hiperpar√°metros reduce necesidad de ajuste fino extensivo

2. **Entrenamiento Paralelo Eficiente:**
   ‚Ä¢ Aceleraci√≥n significativa del proceso de aprendizaje
   ‚Ä¢ Mayor diversidad de experiencias de entrenamiento
   ‚Ä¢ Mejor utilizaci√≥n de recursos computacionales

3. **Configuraci√≥n de Recompensa Densa:**
   ‚Ä¢ Facilita el aprendizaje gradual vs. recompensa sparse
   ‚Ä¢ Proporciona se√±ales de gu√≠a durante la exploraci√≥n inicial
   ‚Ä¢ Acelera la convergencia hacia comportamientos deseados

#### 11.3.2 Limitaciones y √Åreas de Mejora

1. **Tiempo de Entrenamiento:**
   ‚Ä¢ Las tareas de manipulaci√≥n rob√≥tica requieren entrenamientos extensos
   ‚Ä¢ Podr√≠a beneficiarse de t√©cnicas como pre-entrenamiento o transfer learning

2. **Generalizaci√≥n:**
   ‚Ä¢ Evaluaci√≥n limitada a configuraciones similares a entrenamiento
   ‚Ä¢ Necesidad de evaluar robustez a variaciones en el entorno

3. **Complejidad de la Tarea:**
   ‚Ä¢ La coordinaci√≥n de m√∫ltiples dedos presenta desaf√≠os inherentes
   ‚Ä¢ Requerimientos de precisi√≥n motora fina para alcanzar m√∫ltiples objetivos

### 11.4 Conclusiones Principales

#### 11.4.1 Capacidades del Agente Implementado

1. **Aprendizaje Exitoso:** El agente SAC demuestra capacidad para aprender la tarea compleja de coordinar una mano rob√≥tica de 5 dedos para alcanzar m√∫ltiples objetivos.

2. **Mejora Sustancial:** Progreso significativo desde comportamiento aleatorio inicial hacia pol√≠ticas competentes.

3. **Estabilidad:** Convergencia hacia pol√≠ticas consistentes y robustas.

4. **Eficiencia Computacional:** El entrenamiento paralelo demuestra ser efectivo para acelerar el aprendizaje.

#### 11.4.2 Potencial para Aplicaciones Reales

Los resultados sugieren que SAC es un algoritmo promisorio para:
- **Tareas de manipulaci√≥n rob√≥tica complejas**
- **Sistemas con espacios de acci√≥n de alta dimensionalidad** 
- **Aplicaciones que requieren control preciso y coordinado**
- **Tareas de alcance y posicionamiento en rob√≥tica**

### 11.5 Trabajo Futuro

#### 11.5.1 Extensiones Recomendadas

1. **Entrenamiento Extendido:**
   ‚Ä¢ Incrementar significativamente el n√∫mero de episodios (10,000+)
   ‚Ä¢ Explorar el potencial completo de aprendizaje del agente

2. **T√©cnicas Avanzadas:**
   ‚Ä¢ Implementar Hindsight Experience Replay (HER) para mejorar eficiencia de muestreo
   ‚Ä¢ Explorar curriculum learning para progresi√≥n gradual de dificultad

3. **Evaluaci√≥n Robusta:**
   ‚Ä¢ Pruebas con variaciones en configuraciones de objetivos
   ‚Ä¢ Evaluaci√≥n de transferencia a tareas similares de manipulaci√≥n

4. **Optimizaciones:**
   ‚Ä¢ Explorar arquitecturas de red m√°s sofisticadas
   ‚Ä¢ Investigar t√©cnicas de regularizaci√≥n para mejorar generalizaci√≥n

#### 11.5.2 Impacto Potencial

Este trabajo contribuye al avance del aprendizaje por refuerzo en rob√≥tica, espec√≠ficamente en:
- **Manipulaci√≥n diestra:** Desarrollo de habilidades motoras finas en robots
- **Automatizaci√≥n industrial:** Capacidades para tareas de ensamblaje y manipulaci√≥n
- **Rob√≥tica de servicio:** Aplicaciones en entornos humanos
- **Pr√≥tesis rob√≥ticas:** Control intuitivo de dispositivos prot√©sicos

La implementaci√≥n exitosa de SAC en esta tarea compleja demuestra la viabilidad de aplicar deep reinforcement learning a problemas reales de manipulaci√≥n rob√≥tica, sentando las bases para futuros avances en el campo.

## 12 Informaci√≥n T√©cnica y Recursos

### 12.1 Resumen de Archivos Generados

Este notebook genera los siguientes archivos durante el entrenamiento y evaluaci√≥n:

#### 12.1.1 Modelos Entrenados
‚Ä¢ `models/sac_shadow_hand/sac_best.zip` - Mejor modelo basado en evaluaciones
‚Ä¢ `models/sac_shadow_hand/sac_final.zip` - Modelo al final del entrenamiento
‚Ä¢ `models/sac_shadow_hand/sac_checkpoint_*.zip` - Checkpoints peri√≥dicos

#### 12.1.2 Datos de Entrenamiento
‚Ä¢ `logs/sac_shadow_hand/training_log.csv` - M√©tricas detalladas de entrenamiento
‚Ä¢ `logs/sac_shadow_hand/training_history.json` - Historia completa de entrenamiento
‚Ä¢ `models/sac_shadow_hand/training_info.json` - Informaci√≥n de configuraci√≥n

#### 12.1.3 Logs de TensorBoard
‚Ä¢ `runs/sac_shadow_hand/` - Logs para visualizaci√≥n en TensorBoard

### 12.2 Comandos √ötiles

```bash
# Visualizar logs de TensorBoard
tensorboard --logdir=runs/sac_shadow_hand

# Verificar archivos generados
ls -la models/sac_shadow_hand/
ls -la logs/sac_shadow_hand/
```

### 12.3 Requisitos del Sistema

‚Ä¢ **RAM:** M√≠nimo 8GB, recomendado 16GB+
‚Ä¢ **GPU:** Opcional pero recomendada para acelerar entrenamiento
‚Ä¢ **Tiempo de entrenamiento:** 4-8 horas para entrenamiento completo
‚Ä¢ **Espacio en disco:** ~1GB para modelos y logs

### 12.4 Enlaces y Referencias

‚Ä¢ [Gymnasium Robotics - Shadow Hand Reach](https://robotics.farama.org/envs/shadow_dexterous_hand/hand_reach/)
‚Ä¢ [Stable Baselines3 - SAC](https://stable-baselines3.readthedocs.io/en/master/modules/sac.html)
‚Ä¢ [Paper Original SAC](https://arxiv.org/abs/1801.01290)
‚Ä¢ [Shadow Dexterous Hand](https://www.shadowrobot.com/dexterous-hand-series/)

---

**Fin del Notebook - Shadow Dexterous Hand Reach con SAC** ‚úÖ