# üöÄ Atheria 4: Entrenamiento Sin UI

Este notebook permite entrenar modelos de Atheria 4 directamente en Kaggle o Google Colab **sin necesidad de la UI web**.

## üìã Caracter√≠sticas

- ‚úÖ Entrenamiento completo desde cero o continuar desde checkpoint
- ‚úÖ Soporte para todas las arquitecturas: UNet, SNN_UNET, MLP, DEEP_QCA, UNET_CONVLSTM
- ‚úÖ Transfer Learning desde experimentos existentes
- ‚úÖ Sistema Smart Save (retiene mejores checkpoints autom√°ticamente)
- ‚úÖ Visualizaci√≥n b√°sica de m√©tricas durante entrenamiento
- ‚úÖ Exportaci√≥n de modelos TorchScript para inferencia

## üîß Requisitos

- PyTorch (CUDA disponible en Kaggle/Colab)
- Dependencias del proyecto Atheria 4

## üì¶ Paso 1: Instalaci√≥n de Dependencias

Primero, instalamos las dependencias necesarias. Este paso detecta autom√°ticamente si estamos en Kaggle o Colab.

In [None]:
# Detectar entorno (Kaggle o Colab)
import os
IN_KAGGLE = os.path.exists('/kaggle/input')
try:
    IN_COLAB = 'google.colab' in str(get_ipython())
except:
    IN_COLAB = False

print(f"üåç Entorno detectado: {'Kaggle' if IN_KAGGLE else 'Colab' if IN_COLAB else 'Local'}")

# Instalar dependencias b√°sicas
!pip install -q snntorch scikit-learn

# Para Colab: instalar pybind11 si es necesario (opcional, solo si usas motor nativo)
if IN_COLAB:
    !pip install -q pybind11

print("‚úÖ Dependencias instaladas")

## üìÇ Paso 2: Configuraci√≥n del Proyecto

Aqu√≠ configuramos las rutas del proyecto. En Kaggle/Colab, podemos clonar el repo o usar archivos ya subidos.

In [None]:
import sys
from pathlib import Path
import os

# Configurar ruta del proyecto
if IN_KAGGLE:
    # En Kaggle, asumimos que el proyecto est√° en /kaggle/working
    PROJECT_ROOT = Path("/kaggle/working/Atheria")
    if not PROJECT_ROOT.exists():
        print("‚ö†Ô∏è Proyecto no encontrado. Clonando desde GitHub...")
        !git clone https://github.com/Jonakss/Atheria.git /kaggle/working/Atheria
elif IN_COLAB:
    # En Colab, clonamos el repo
    PROJECT_ROOT = Path("/content/Atheria")
    if not PROJECT_ROOT.exists():
        print("üì• Clonando proyecto desde GitHub...")
        !git clone https://github.com/Jonakss/Atheria.git /content/Atheria
else:
    # Local: usar ruta actual
    PROJECT_ROOT = Path.cwd().parent if Path.cwd().name == 'notebooks' else Path.cwd()

# Agregar al path de Python
if str(PROJECT_ROOT) not in sys.path:
    sys.path.insert(0, str(PROJECT_ROOT))

print(f"üìÅ Proyecto configurado en: {PROJECT_ROOT}")

# Verificar estructura b√°sica
src_path = PROJECT_ROOT / "src"
if src_path.exists():
    print("‚úÖ Estructura del proyecto verificada")
else:
    print("‚ùå Error: No se encontr√≥ la carpeta 'src'. Verifica la instalaci√≥n.")

## ‚öôÔ∏è Paso 3: Configuraci√≥n del Entrenamiento

Configura aqu√≠ los par√°metros de tu experimento. Puedes crear m√∫ltiples configuraciones para diferentes experimentos.

In [None]:
from types import SimpleNamespace
import torch

# ============================================================================
# CONFIGURACI√ìN DEL EXPERIMENTO
# ============================================================================
# Modifica estos valores seg√∫n tu experimento

EXPERIMENT_CONFIG = {
    # Nombre del experimento (debe ser √∫nico)
    "EXPERIMENT_NAME": "UNET_32ch_D8_Colab",
    
    # Arquitectura del modelo
    # Opciones: "UNET", "SNN_UNET", "MLP", "DEEP_QCA", "UNET_CONVLSTM", "UNET_UNITARY"
    "MODEL_ARCHITECTURE": "UNET",
    
    # Par√°metros del modelo
    "MODEL_PARAMS": {
        "d_state": 8,           # Dimensi√≥n del estado cu√°ntico
        "hidden_channels": 32,  # Canales ocultos (m√°s = m√°s capacidad, m√°s lento)
        # Para SNN_UNET:
        # "alpha": 0.9,
        # "beta": 0.85,
    },
    
    # Par√°metros de entrenamiento
    "GRID_SIZE_TRAINING": 64,     # Tama√±o del grid (64, 128, 256...)
    "QCA_STEPS_TRAINING": 100,    # Pasos de simulaci√≥n por episodio
    "LR_RATE_M": 1e-4,            # Learning rate (0.0001)
    "GAMMA_DECAY": 0.01,          # T√©rmino Lindbladian (decaimiento)
    
    # Configuraci√≥n del entrenamiento
    "TOTAL_EPISODES": 500,        # Total de episodios a entrenar
    "SAVE_EVERY_EPISODES": 50,    # Guardar checkpoint cada N episodios
    "EPISODES_TO_ADD": 1,         # Episodios a agregar por lote (usar 1)
    "STEPS_PER_EPISODE": 100,     # Pasos por episodio (debe coincidir con QCA_STEPS_TRAINING)
    
    # Opcional: Transfer Learning
    # "LOAD_FROM_EXPERIMENT": None,  # Nombre del experimento base (None = desde cero)
    
    # Opcional: Continuar entrenamiento
    # "CONTINUE_TRAINING": False,     # True = continuar desde √∫ltimo checkpoint
}

# Convertir a SimpleNamespace para compatibilidad
exp_cfg = SimpleNamespace(**EXPERIMENT_CONFIG)
exp_cfg.MODEL_PARAMS = SimpleNamespace(**EXPERIMENT_CONFIG["MODEL_PARAMS"])

# Detectar dispositivo
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
exp_cfg.DEVICE = device

print("=" * 70)
print("üìä CONFIGURACI√ìN DEL EXPERIMENTO")
print("=" * 70)
print(f"Nombre: {exp_cfg.EXPERIMENT_NAME}")
print(f"Arquitectura: {exp_cfg.MODEL_ARCHITECTURE}")
print(f"Device: {device}")
print(f"Grid Size: {exp_cfg.GRID_SIZE_TRAINING}x{exp_cfg.GRID_SIZE_TRAINING}")
print(f"Total Episodios: {exp_cfg.TOTAL_EPISODES}")
print(f"Learning Rate: {exp_cfg.LR_RATE_M}")
print("=" * 70)

## üöÄ Paso 4: Iniciar Entrenamiento

Aqu√≠ ejecutamos el pipeline de entrenamiento. El sistema guardar√° autom√°ticamente:
- **Mejores checkpoints** (hasta 5 por defecto)
- **√öltimo checkpoint** (siempre)
- **Checkpoints peri√≥dicos** (cada `SAVE_EVERY_EPISODES`)
- **Log de m√©tricas** en Markdown (`docs/40_Experiments/`)

In [None]:
import logging
from src.pipelines.pipeline_train import run_training_pipeline
from src.utils import get_latest_checkpoint

# Configurar logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
)
logger = logging.getLogger(__name__)

# Verificar si hay checkpoint previo (continuar entrenamiento)
checkpoint_path = None
if hasattr(exp_cfg, 'CONTINUE_TRAINING') and exp_cfg.CONTINUE_TRAINING:
    checkpoint_path = get_latest_checkpoint(exp_cfg.EXPERIMENT_NAME)
    if checkpoint_path:
        logger.info(f"‚úÖ Checkpoint encontrado: {checkpoint_path}")
        logger.info("üîÑ Continuando entrenamiento desde checkpoint...")
    else:
        logger.warning("‚ö†Ô∏è No se encontr√≥ checkpoint. Iniciando desde cero.")
        checkpoint_path = None

# Ejecutar entrenamiento
print("\n" + "=" * 70)
print("üéØ INICIANDO ENTRENAMIENTO")
print("=" * 70)

try:
    run_training_pipeline(exp_cfg, checkpoint_path=checkpoint_path)
    print("\n" + "=" * 70)
    print("‚úÖ ENTRENAMIENTO COMPLETADO EXITOSAMENTE")
    print("=" * 70)
except Exception as e:
    print("\n" + "=" * 70)
    print(f"‚ùå ERROR DURANTE EL ENTRENAMIENTO: {e}")
    print("=" * 70)
    raise

## üìä Paso 5: Visualizar Resultados

Visualiza las m√©tricas de entrenamiento y el progreso del experimento.

In [None]:
import json
from pathlib import Path

# Cargar configuraci√≥n del experimento
experiment_dir = PROJECT_ROOT / "output" / "experiments" / exp_cfg.EXPERIMENT_NAME
config_path = experiment_dir / "config.json"

if config_path.exists():
    with open(config_path, 'r') as f:
        saved_config = json.load(f)
    
    print("üìã Configuraci√≥n guardada del experimento:")
    print(json.dumps(saved_config, indent=2))
    
    # Cargar log de resultados si existe
    log_path = PROJECT_ROOT / "docs" / "40_Experiments" / f"{exp_cfg.EXPERIMENT_NAME}_LOG.md"
    if log_path.exists():
        print(f"\nüìÑ Log de resultados disponible en: {log_path}")
        with open(log_path, 'r') as f:
            log_content = f.read()
            # Mostrar √∫ltimas 50 l√≠neas
            lines = log_content.split('\n')
            print("\n".join(lines[-50:]))
else:
    print("‚ö†Ô∏è No se encontr√≥ configuraci√≥n guardada del experimento.")

In [None]:
# Listar checkpoints guardados
from src.utils import get_latest_checkpoint
import os

checkpoint_dir = PROJECT_ROOT / "output" / "checkpoints" / exp_cfg.EXPERIMENT_NAME
if checkpoint_dir.exists():
    checkpoints = [f for f in os.listdir(checkpoint_dir) if f.endswith('.pth')]
    print(f"\nüíæ Checkpoints guardados ({len(checkpoints)}):")
    for cp in sorted(checkpoints):
        cp_path = checkpoint_dir / cp
        size_mb = cp_path.stat().st_size / (1024 * 1024)
        print(f"  - {cp} ({size_mb:.2f} MB)")
    
    latest = get_latest_checkpoint(exp_cfg.EXPERIMENT_NAME)
    if latest:
        print(f"\n‚úÖ √öltimo checkpoint: {latest}")
else:
    print("‚ö†Ô∏è No se encontraron checkpoints.")

## üì¶ Paso 6: Exportar Modelo TorchScript (Opcional)

Exporta el modelo entrenado a TorchScript para usar en inferencia o el motor nativo C++.

In [None]:
# Exportar modelo a TorchScript para inferencia
from src.model_loader import load_model
import torch

checkpoint_path = get_latest_checkpoint(exp_cfg.EXPERIMENT_NAME)
if checkpoint_path:
    print(f"üì§ Exportando modelo desde: {checkpoint_path}")
    
    # Cargar modelo
    model, state_dict = load_model(exp_cfg, checkpoint_path)
    if model:
        model.eval()
        model.to(device)
        
        # Crear ejemplo de input
        example_input = torch.randn(1, 2 * exp_cfg.MODEL_PARAMS.d_state, 
                                    exp_cfg.GRID_SIZE_TRAINING, 
                                    exp_cfg.GRID_SIZE_TRAINING, device=device)
        
        # Exportar a TorchScript
        torchscript_dir = PROJECT_ROOT / "output" / "torchscript_models" / exp_cfg.EXPERIMENT_NAME
        torchscript_dir.mkdir(parents=True, exist_ok=True)
        torchscript_path = torchscript_dir / "model.pt"
        
        try:
            traced_model = torch.jit.trace(model, example_input, strict=False)
            traced_model.save(str(torchscript_path))
            print(f"‚úÖ Modelo exportado a: {torchscript_path}")
        except Exception as e:
            print(f"‚ö†Ô∏è Error exportando modelo: {e}")
            print("   Intentando con torch.jit.script...")
            try:
                scripted_model = torch.jit.script(model)
                scripted_model.save(str(torchscript_path))
                print(f"‚úÖ Modelo exportado (script) a: {torchscript_path}")
            except Exception as e2:
                print(f"‚ùå Error exportando modelo: {e2}")
else:
    print("‚ö†Ô∏è No se encontr√≥ checkpoint para exportar.")

## üíæ Paso 7: Descargar Resultados (Colab/Kaggle)

Si est√°s en Colab o Kaggle, puedes descargar los resultados del entrenamiento.

In [None]:
# En Colab: comprimir resultados para descarga
if IN_COLAB:
    import zipfile
    
    print("üì¶ Comprimiendo resultados...")
    zip_path = f"/content/{exp_cfg.EXPERIMENT_NAME}_results.zip"
    
    with zipfile.ZipFile(zip_path, 'w', zipfile.ZIP_DEFLATED) as zipf:
        # Agregar checkpoints
        checkpoint_dir = PROJECT_ROOT / "output" / "checkpoints" / exp_cfg.EXPERIMENT_NAME
        if checkpoint_dir.exists():
            for cp_file in checkpoint_dir.glob("*.pth"):
                zipf.write(cp_file, f"checkpoints/{cp_file.name}")
        
        # Agregar configuraci√≥n
        config_file = PROJECT_ROOT / "output" / "experiments" / exp_cfg.EXPERIMENT_NAME / "config.json"
        if config_file.exists():
            zipf.write(config_file, f"experiments/{exp_cfg.EXPERIMENT_NAME}/config.json")
        
        # Agregar modelo TorchScript si existe
        torchscript_file = PROJECT_ROOT / "output" / "torchscript_models" / exp_cfg.EXPERIMENT_NAME / "model.pt"
        if torchscript_file.exists():
            zipf.write(torchscript_file, f"torchscript_models/{exp_cfg.EXPERIMENT_NAME}/model.pt")
    
    print(f"‚úÖ Archivo comprimido creado: {zip_path}")
    print(f"üì• Descarga el archivo desde el panel de archivos de Colab")
    
elif IN_KAGGLE:
    print("üìÅ En Kaggle, los resultados est√°n en /kaggle/working")
    print(f"   - Checkpoints: output/checkpoints/{exp_cfg.EXPERIMENT_NAME}/")
    print(f"   - Config: output/experiments/{exp_cfg.EXPERIMENT_NAME}/config.json")
else:
    print("üíª En entorno local, los resultados est√°n en:")
    print(f"   - Checkpoints: output/checkpoints/{exp_cfg.EXPERIMENT_NAME}/")
    print(f"   - Config: output/experiments/{exp_cfg.EXPERIMENT_NAME}/config.json")

## üìù Ejemplos de Configuraci√≥n

Aqu√≠ hay algunos ejemplos de configuraciones para diferentes experimentos:

In [None]:
# Ejemplo 1: U-Net peque√±o (r√°pido, bueno para pruebas)
EXAMPLE_UNET_SMALL = {
    "EXPERIMENT_NAME": "UNET_16ch_D4_Test",
    "MODEL_ARCHITECTURE": "UNET",
    "MODEL_PARAMS": {"d_state": 4, "hidden_channels": 16},
    "GRID_SIZE_TRAINING": 32,
    "QCA_STEPS_TRAINING": 50,
    "LR_RATE_M": 1e-4,
    "TOTAL_EPISODES": 100,
}

# Ejemplo 2: U-Net mediano (balance)
EXAMPLE_UNET_MEDIUM = {
    "EXPERIMENT_NAME": "UNET_32ch_D8_Colab",
    "MODEL_ARCHITECTURE": "UNET",
    "MODEL_PARAMS": {"d_state": 8, "hidden_channels": 32},
    "GRID_SIZE_TRAINING": 64,
    "QCA_STEPS_TRAINING": 100,
    "LR_RATE_M": 1e-4,
    "TOTAL_EPISODES": 500,
}

# Ejemplo 3: SNN U-Net (Spiking Neural Network)
EXAMPLE_SNN_UNET = {
    "EXPERIMENT_NAME": "SNN_UNET_32ch_D8",
    "MODEL_ARCHITECTURE": "SNN_UNET",
    "MODEL_PARAMS": {"d_state": 8, "hidden_channels": 32, "alpha": 0.9, "beta": 0.85},
    "GRID_SIZE_TRAINING": 64,
    "QCA_STEPS_TRAINING": 100,
    "LR_RATE_M": 1e-4,
    "TOTAL_EPISODES": 500,
}

# Ejemplo 4: Transfer Learning (continuar desde otro experimento)
EXAMPLE_TRANSFER_LEARNING = {
    "EXPERIMENT_NAME": "UNET_64ch_D16_Transfer",
    "MODEL_ARCHITECTURE": "UNET",
    "MODEL_PARAMS": {"d_state": 16, "hidden_channels": 64},
    "GRID_SIZE_TRAINING": 128,
    "QCA_STEPS_TRAINING": 200,
    "LR_RATE_M": 5e-5,  # Learning rate m√°s bajo para fine-tuning
    "TOTAL_EPISODES": 300,
    "LOAD_FROM_EXPERIMENT": "UNET_32ch_D8_Colab",  # Experimento base
}

print("üí° Ejemplos de configuraci√≥n definidos.")
print("   Copia y pega uno de estos ejemplos en EXPERIMENT_CONFIG para usarlo.")