In [None]:
# ============================================================
# INSTALACI√ìN DE LIBRER√çAS PARA COMPARACI√ìN DEEPSPEED
# ============================================================

# üî• LIBRER√çAS ESENCIALES (obligatorias)
%pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
%pip install transformers  # Para modelos y tokenizers
%pip install datasets      # Para manejo de datasets
%pip install deepspeed    # ‚≠ê La estrella del show!
%pip install huggingface_hub   # Para manejo de datasets y modelos

# üõ†Ô∏è LIBRER√çAS DE SOPORTE (recomendadas)
%pip install accelerate    # Facilita integraci√≥n con DeepSpeed
%pip install trl           # Para Supervised Fine-Tuning (SFT)

# üìä MONITOREO Y VISUALIZACI√ìN
%pip install psutil        # Monitor de CPU/RAM
%pip install GPUtil        # Monitor de GPU
%pip install matplotlib    # Gr√°ficos
%pip install seaborn      # Gr√°ficos bonitos
%pip install pandas       # Tablas de datos
%pip install numpy        # Operaciones num√©ricas

# üî¨ OPTIMIZACIONES AVANZADAS (opcionales para este ejemplo)
# %pip install peft           # Para LoRA/QLoRA (descomenta si quieres experimentar)
# %pip install bitsandbytes   # Para cuantizaci√≥n 8-bit/4-bit (descomenta si quieres experimentar)
# %pip install wandb          # Para logging avanzado (descomenta si tienes cuenta)


^C
Note: you may need to restart the kernel to use updated packages.
Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.0.1 -> 25.1.1
[notice] To update, run: C:\Users\impor\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.12_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip
ERROR: Invalid requirement: '#': Expected package name at the start of dependency specifier
    #
    ^


In [None]:
import torch
import torch.nn as nn
from transformers import (
    AutoTokenizer, 
    AutoModelForCausalLM, 
    TrainingArguments, 
    Trainer,
    DataCollatorForLanguageModeling
)
from datasets import Dataset
from trl import SFTTrainer
import deepspeed
import time
import psutil
import GPUtil
import json
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
from datetime import datetime
import os
import gc
import warnings
warnings.filterwarnings('ignore')

# Configurar para mostrar gr√°ficos
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")


In [None]:
class PerformanceMonitor:
    """Clase para monitorear rendimiento durante el entrenamiento"""
    
    def __init__(self):
        self.metrics = {
            'gpu_memory_used': [],
            'gpu_utilization': [],
            'cpu_percent': [],
            'ram_used': [],
            'timestamps': []
        }
        
    def start_monitoring(self):
        """Inicia el monitoreo de recursos"""
        self.start_time = time.time()
        
    def log_metrics(self):
        """Registra m√©tricas actuales del sistema"""
        # GPU metrics
        if torch.cuda.is_available():
            gpu = GPUtil.getGPUs()[0] if GPUtil.getGPUs() else None
            if gpu:
                self.metrics['gpu_memory_used'].append(gpu.memoryUsed)
                self.metrics['gpu_utilization'].append(gpu.load * 100)
            else:
                self.metrics['gpu_memory_used'].append(0)
                self.metrics['gpu_utilization'].append(0)
        else:
            self.metrics['gpu_memory_used'].append(0)
            self.metrics['gpu_utilization'].append(0)
            
        # CPU y RAM
        self.metrics['cpu_percent'].append(psutil.cpu_percent())
        self.metrics['ram_used'].append(psutil.virtual_memory().used / (1024**3))  # GB
        self.metrics['timestamps'].append(time.time() - self.start_time)
        
    def get_average_metrics(self):
        """Calcula m√©tricas promedio"""
        return {
            'avg_gpu_memory': np.mean(self.metrics['gpu_memory_used']) if self.metrics['gpu_memory_used'] else 0,
            'avg_gpu_utilization': np.mean(self.metrics['gpu_utilization']) if self.metrics['gpu_utilization'] else 0,
            'avg_cpu_percent': np.mean(self.metrics['cpu_percent']) if self.metrics['cpu_percent'] else 0,
            'avg_ram_used': np.mean(self.metrics['ram_used']) if self.metrics['ram_used'] else 0,
            'total_time': self.metrics['timestamps'][-1] if self.metrics['timestamps'] else 0
        }

def print_system_info():
    """Muestra informaci√≥n del sistema"""
    print("üñ•Ô∏è INFORMACI√ìN DEL SISTEMA")
    print("=" * 50)
    print(f"üêç Python: {torch.__version__}")
    print(f"üî• PyTorch: {torch.__version__}")
    print(f"üöÄ CUDA disponible: {torch.cuda.is_available()}")
    if torch.cuda.is_available():
        print(f"üìä GPU: {torch.cuda.get_device_name(0)}")
        print(f"üéØ Memoria GPU: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
    print(f"üíæ RAM total: {psutil.virtual_memory().total / (1024**3):.1f} GB")
    print(f"üîÑ CPUs: {psutil.cpu_count()}")
    print("=" * 50)


In [None]:
# ============================================================
# üìä CREACI√ìN DE DATASET SFT CON GEMINI 2.0 FLASH
# ============================================================

# Instalar Google Generative AI para Gemini 2.0 Flash
%pip install google-generativeai

import google.generativeai as genai
import random

# ‚ö†Ô∏è CONFIGURAR API KEY DE GEMINI
# Opci√≥n 1: Variable de entorno (recomendado)
import os
GEMINI_API_KEY = os.getenv('GOOGLE_API_KEY')

# Opci√≥n 2: Directamente (NO recomendado para producci√≥n)
if not GEMINI_API_KEY:
    print("‚ö†Ô∏è  ATENCI√ìN: Configura tu API key de Google Gemini")
    print("üí° Obt√©n tu key en: https://aistudio.google.com/app/apikey")
    GEMINI_API_KEY = input("üîë Ingresa tu API key de Gemini: ").strip()

# Configurar Gemini
genai.configure(api_key=GEMINI_API_KEY)

def create_sft_dataset_with_gemini(num_samples=200):
    """
    Crea un dataset sint√©tico de alta calidad usando Gemini 2.0 Flash
    para Supervised Fine-Tuning (SFT) de alineaci√≥n de modelos.
    """
    
    print("ü§ñ Inicializando Gemini 2.0 Flash...")
    model = genai.GenerativeModel('gemini-2.0-flash-exp')
    
    # Categor√≠as de datos para SFT de alineaci√≥n
    sft_categories = [
        {
            "category": "helpful_assistant",
            "prompt": """Genera una conversaci√≥n entre un usuario y un asistente IA √∫til, honesto y preciso. 
            El asistente debe dar respuestas detalladas, bien estructuradas y con ejemplos pr√°cticos.
            Formato: Usuario: [pregunta] | Asistente: [respuesta completa y √∫til]"""
        },
        {
            "category": "safety_guidelines", 
            "prompt": """Genera una conversaci√≥n donde el usuario hace una pregunta que requiere consideraciones de seguridad o √©tica,
            y el asistente responde de manera responsable, explicando los riesgos y alternativas seguras.
            Formato: Usuario: [pregunta con implicaciones de seguridad] | Asistente: [respuesta responsable y segura]"""
        },
        {
            "category": "educational_content",
            "prompt": """Genera una conversaci√≥n educativa donde el usuario pregunta sobre conceptos t√©cnicos complejos
            y el asistente explica de manera clara, progresiva y con analog√≠as apropiadas.
            Formato: Usuario: [pregunta t√©cnica] | Asistente: [explicaci√≥n educativa clara]"""
        },
        {
            "category": "problem_solving",
            "prompt": """Genera una conversaci√≥n donde el usuario presenta un problema espec√≠fico
            y el asistente ofrece un enfoque estructurado de resoluci√≥n paso a paso.
            Formato: Usuario: [problema espec√≠fico] | Asistente: [soluci√≥n estructurada paso a paso]"""
        },
        {
            "category": "refusal_harmful",
            "prompt": """Genera una conversaci√≥n donde el usuario hace una solicitud inapropiada o da√±ina,
            y el asistente rechaza educadamente pero ofrece alternativas constructivas.
            Formato: Usuario: [solicitud inapropiada] | Asistente: [rechazo educado + alternativa constructiva]"""
        }
    ]
    
    dataset_entries = []
    samples_per_category = max(1, num_samples // len(sft_categories))
    
    print(f"üéØ Generando {num_samples} muestras de alta calidad...")
    print(f"üìä {samples_per_category} muestras por categor√≠a")
    
    for category_info in sft_categories:
        category = category_info["category"]
        base_prompt = category_info["prompt"]
        
        print(f"\nüîÑ Generando categor√≠a: {category}")
        
        for i in range(samples_per_category):
            try:
                # Prompt espec√≠fico para cada muestra
                full_prompt = f"""
                {base_prompt}
                
                INSTRUCCIONES ESPEC√çFICAS:
                - Genera UNA conversaci√≥n completa y realista
                - El usuario debe hacer una pregunta natural y espec√≠fica
                - El asistente debe dar una respuesta completa, √∫til y bien estructurada
                - Usa un tono profesional pero accesible
                - La respuesta debe tener entre 100-300 palabras
                - Incluye ejemplos pr√°cticos cuando sea apropiado
                
                IMPORTANTE: Responde SOLO con el formato solicitado, sin explicaciones adicionales.
                """
                
                # Generar contenido con Gemini
                response = model.generate_content(full_prompt)
                generated_text = response.text.strip()
                
                # Procesar la respuesta de Gemini
                if '|' in generated_text:
                    parts = generated_text.split('|', 1)
                    user_part = parts[0].replace('Usuario:', '').strip()
                    assistant_part = parts[1].replace('Asistente:', '').strip()
                    
                    # Formato est√°ndar para SFT
                    conversation = f"<|user|>\n{user_part}\n<|assistant|>\n{assistant_part}"
                    
                    dataset_entries.append({
                        "text": conversation,
                        "category": category,
                        "length": len(conversation),
                        "tokens_estimate": len(conversation.split())
                    })
                    
                    print(f"  ‚úÖ Muestra {i+1}/{samples_per_category} generada")
                else:
                    print(f"  ‚ö†Ô∏è  Formato incorrecto en muestra {i+1}, reintentando...")
                    
            except Exception as e:
                print(f"  ‚ùå Error generando muestra {i+1}: {str(e)}")
                continue
    
    # Crear dataset de Hugging Face
    print(f"\nüì¶ Creando dataset con {len(dataset_entries)} muestras v√°lidas...")
    dataset = Dataset.from_list(dataset_entries)
    
    return dataset

def show_dataset_stats(dataset):
    """Muestra estad√≠sticas detalladas del dataset"""
    print("\nüìà ESTAD√çSTICAS DEL DATASET SFT")
    print("=" * 60)
    
    # Estad√≠sticas b√°sicas
    print(f"üìä Total de muestras: {len(dataset)}")
    print(f"üìè Longitud promedio: {np.mean([item['length'] for item in dataset]):.1f} caracteres")
    print(f"üéØ Tokens estimados promedio: {np.mean([item['tokens_estimate'] for item in dataset]):.1f}")
    
    # Distribuci√≥n por categor√≠as
    if 'category' in dataset.column_names:
        categories = {}
        for item in dataset:
            cat = item['category']
            categories[cat] = categories.get(cat, 0) + 1
        
        print("\nüè∑Ô∏è  DISTRIBUCI√ìN POR CATEGOR√çAS:")
        for cat, count in categories.items():
            print(f"  ‚Ä¢ {cat}: {count} muestras")
    
    print("\nüìù EJEMPLO DE CONVERSACI√ìN GENERADA:")
    print("-" * 60)
    example = dataset[0]['text']
    print(example[:400] + "..." if len(example) > 400 else example)
    print("-" * 60)

# üöÄ GENERAR DATASET CON GEMINI 2.0 FLASH
print("üöÄ CREANDO DATASET SFT CON GEMINI 2.0 FLASH")
print("=" * 60)

try:
    dataset = create_sft_dataset_with_gemini(num_samples=100)  # Empezamos con 100 para pruebas
    show_dataset_stats(dataset)
    
    print("\n‚úÖ ¬°Dataset SFT de alta calidad creado exitosamente!")
    print("üéØ Perfecto para entrenar modelos alineados y √∫tiles")
    
except Exception as e:
    print(f"‚ùå Error creando dataset: {str(e)}")
    print("\nüîÑ Creando dataset de respaldo b√°sico...")
    
    # Dataset de respaldo si Gemini falla
    fallback_data = [
        {
            "text": "<|user|>\n¬øC√≥mo puedo implementar una funci√≥n recursiva en Python?\n<|assistant|>\nUna funci√≥n recursiva es aquella que se llama a s√≠ misma. Aqu√≠ te explico c√≥mo implementarla:\n\n1. **Caso base**: Condici√≥n que detiene la recursi√≥n\n2. **Caso recursivo**: La funci√≥n se llama a s√≠ misma\n\nEjemplo - Factorial:\n```python\ndef factorial(n):\n    if n <= 1:  # Caso base\n        return 1\n    return n * factorial(n-1)  # Caso recursivo\n```\n\n**Consejos importantes**:\n- Siempre define un caso base claro\n- Aseg√∫rate de que la recursi√≥n progrese hacia el caso base\n- Considera el l√≠mite de recursi√≥n de Python (1000 por defecto)", 
            "category": "educational", 
            "length": 500, 
            "tokens_estimate": 120
        }
    ]
    dataset = Dataset.from_list(fallback_data)
    show_dataset_stats(dataset)

In [None]:
# Informaci√≥n del sistema
print_system_info()

# Configuraci√≥n del modelo
MODEL_NAME = "microsoft/DialoGPT-small"  # Modelo peque√±o para demostraci√≥n
MAX_LENGTH = 256
BATCH_SIZE = 4
NUM_EPOCHS = 1
LEARNING_RATE = 2e-5

print(f"\\nü§ñ Configuraci√≥n del modelo:")
print(f"üì¶ Modelo: {MODEL_NAME}")
print(f"üìè Longitud m√°xima: {MAX_LENGTH}")
print(f"üî¢ Batch size: {BATCH_SIZE}")
print(f"üîÑ √âpocas: {NUM_EPOCHS}")
print(f"üìà Learning rate: {LEARNING_RATE}")

# Cargar tokenizer
print("\\nüî§ Cargando tokenizer...")
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

print("‚úÖ Tokenizer cargado correctamente")


In [None]:
def preprocess_function(examples):
    """Preprocesa los datos para el entrenamiento"""
    # Tokenizar los textos
    tokenized = tokenizer(
        examples["text"],
        truncation=True,
        padding="max_length",
        max_length=MAX_LENGTH,
        return_tensors="pt"
    )
    
    # Para language modeling, labels = input_ids
    tokenized["labels"] = tokenized["input_ids"].clone()
    
    return tokenized

# Preprocesar dataset
print("üîÑ Preprocesando dataset...")
tokenized_dataset = dataset.map(
    preprocess_function,
    batched=True,
    remove_columns=dataset.column_names
)

# Dividir en train/test
split_dataset = tokenized_dataset.train_test_split(test_size=0.1, seed=42)
train_dataset = split_dataset["train"]
eval_dataset = split_dataset["test"]

print(f"‚úÖ Datos preparados:")
print(f"üéØ Training samples: {len(train_dataset)}")
print(f"üìä Evaluation samples: {len(eval_dataset)}")

# Data collator
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False  # No masked language modeling para GPT
)


## ‚ö° Paso 8: Configuraci√≥n de DeepSpeed

In [None]:
# Crear configuraci√≥n de DeepSpeed
deepspeed_config = {
    "train_batch_size": BATCH_SIZE,
    "train_micro_batch_size_per_gpu": BATCH_SIZE,
    "gradient_accumulation_steps": 1,
    "optimizer": {
        "type": "AdamW",
        "params": {
            "lr": LEARNING_RATE,
            "betas": [0.9, 0.999],
            "eps": 1e-8,
            "weight_decay": 0.01
        }
    },
    "scheduler": {
        "type": "WarmupLR",
        "params": {
            "warmup_min_lr": 0,
            "warmup_max_lr": LEARNING_RATE,
            "warmup_num_steps": 50
        }
    },
    "fp16": {
        "enabled": True,
        "loss_scale": 0,
        "initial_scale_power": 16,
        "loss_scale_window": 1000,
        "hysteresis": 2,
        "min_loss_scale": 1
    },
    "zero_optimization": {
        "stage": 2,
        "allgather_partitions": True,
        "allgather_bucket_size": 2e8,
        "reduce_scatter": True,
        "reduce_bucket_size": 2e8,
        "overlap_comm": True,
        "contiguous_gradients": True
    },
    "gradient_clipping": 1.0,
    "wall_clock_breakdown": False
}

# Guardar configuraci√≥n
with open("deepspeed_config.json", "w") as f:
    json.dump(deepspeed_config, f, indent=2)

print("‚ö° CONFIGURACI√ìN DEEPSPEED CREADA")
print("=" * 40)
print("üéØ Optimizaciones habilitadas:")
print("  ‚úÖ FP16 (Half Precision)")
print("  ‚úÖ ZeRO Stage 2 (Optimizer State Partitioning)")
print("  ‚úÖ Gradient Clipping")
print("  ‚úÖ Comunicaci√≥n Optimizada")
print("  ‚úÖ AdamW Optimizer")
print("  ‚úÖ Warmup Learning Rate Scheduler")
print("=" * 40)


In [None]:
from trl import SFTTrainer, SFTConfig
from peft import LoraConfig, get_peft_model, TaskType

def train_baseline_model():
    """Entrena el modelo SIN DeepSpeed usando SFTTrainer + LoRA"""
    
    print("üêå INICIANDO ENTRENAMIENTO BASELINE (SIN DEEPSPEED)")
    print("=" * 60)
    
    # Limpiar memoria GPU
    if torch.cuda.is_available():
        torch.cuda.empty_cache()
    gc.collect()
    
    # Configuraci√≥n LoRA para PEFT
    peft_config = LoraConfig(
        r=16,                           # Rango de LoRA
        lora_alpha=32,                  # Par√°metro de escalado
        lora_dropout=0.05,              # Dropout para regularizaci√≥n
        target_modules="all-linear",    # Aplicar a todas las capas lineales
        modules_to_save=["lm_head", "embed_tokens"],  # M√≥dulos a guardar completos
        task_type=TaskType.CAUSAL_LM,   # Tipo de tarea
        bias="none"                     # No entrenar bias
    )
    
    # Configuraci√≥n de entrenamiento SFT
    sft_config = SFTConfig(
        output_dir="./baseline_sft_results",
        num_train_epochs=NUM_EPOCHS,
        per_device_train_batch_size=BATCH_SIZE,
        per_device_eval_batch_size=BATCH_SIZE,
        learning_rate=LEARNING_RATE,
        warmup_steps=50,
        logging_steps=20,
        eval_strategy="steps",
        eval_steps=50,
        save_steps=100,
        save_total_limit=2,
        remove_unused_columns=False,
        dataloader_pin_memory=False,
        report_to=None,
        # Configuraciones espec√≠ficas de SFT
        max_seq_length=MAX_LENGTH,
        packing=False,                  # No empaquetar secuencias para simplicidad
        dataset_text_field="text",      # Campo que contiene el texto
        seed=42
    )
    
    print("ü§ñ Cargando modelo base...")
    print(f"üì¶ Modelo: {MODEL_NAME}")
    
    # Inicializar monitor de rendimiento
    monitor = PerformanceMonitor()
    monitor.start_monitoring()
    
    # Crear SFTTrainer (carga el modelo autom√°ticamente)
    trainer = SFTTrainer(
        model=MODEL_NAME,              # Cargar directamente por nombre
        train_dataset=train_dataset,
        eval_dataset=eval_dataset,
        args=sft_config,
        peft_config=peft_config,       # Configuraci√≥n LoRA
        tokenizer=tokenizer,
        data_collator=None,            # SFTTrainer maneja esto autom√°ticamente
    )
    
    print("‚úÖ SFTTrainer configurado con LoRA")
    print(f"üéØ Par√°metros entrenables: {trainer.model.print_trainable_parameters()}")
    
    # Entrenar
    print("üöÄ Iniciando entrenamiento SFT...")
    start_time = time.time()
    
    # Callback para monitoreo durante entrenamiento
    class MonitoringCallback:
        def __init__(self, monitor):
            self.monitor = monitor
            
        def on_step_end(self, args, state, control, logs=None, **kwargs):
            self.monitor.log_metrics()
    
    trainer.add_callback(MonitoringCallback(monitor))
    
    # ¬°Entrenar!
    trainer.train()
    
    end_time = time.time()
    training_time = end_time - start_time
    
    # Obtener m√©tricas finales
    final_metrics = monitor.get_average_metrics()
    final_metrics['total_training_time'] = training_time
    
    print(f"\n‚úÖ Entrenamiento baseline completado en {training_time:.2f} segundos")
    
    # Guardar el modelo entrenado
    trainer.save_model("./baseline_sft_final")
    print("üíæ Modelo baseline guardado en ./baseline_sft_final")
    
    # Limpiar memoria
    del trainer
    if torch.cuda.is_available():
        torch.cuda.empty_cache()
    gc.collect()
    
    return final_metrics, monitor.metrics

# ============================================================
# üöÄ PASO 9: ENTRENAMIENTO CON DEEPSPEED 
# ============================================================

def train_deepspeed_model():
    """Entrena el modelo CON DeepSpeed usando SFTTrainer + LoRA"""
    
    print("üöÄ INICIANDO ENTRENAMIENTO CON DEEPSPEED")
    print("=" * 60)
    
    # Limpiar memoria GPU
    if torch.cuda.is_available():
        torch.cuda.empty_cache()
    gc.collect()
    
    # Misma configuraci√≥n LoRA (para comparaci√≥n justa)
    peft_config = LoraConfig(
        r=16,
        lora_alpha=32,
        lora_dropout=0.05,
        target_modules="all-linear",
        modules_to_save=["lm_head", "embed_tokens"],
        task_type=TaskType.CAUSAL_LM,
        bias="none"
    )
    
    # Configuraci√≥n SFT con DeepSpeed
    sft_config = SFTConfig(
        output_dir="./deepspeed_sft_results",
        num_train_epochs=NUM_EPOCHS,
        per_device_train_batch_size=BATCH_SIZE,
        per_device_eval_batch_size=BATCH_SIZE,
        learning_rate=LEARNING_RATE,
        warmup_steps=50,
        logging_steps=20,
        eval_strategy="steps",
        eval_steps=50,
        save_steps=100,
        save_total_limit=2,
        remove_unused_columns=False,
        dataloader_pin_memory=False,
        report_to=None,
        # Configuraciones espec√≠ficas de SFT
        max_seq_length=MAX_LENGTH,
        packing=False,
        dataset_text_field="text",
        seed=42,
        # ‚ö° CONFIGURACI√ìN DEEPSPEED
        deepspeed="deepspeed_config.json",  # ¬°Aqu√≠ est√° la magia!
        fp16=True,                          # Half precision
        dataloader_num_workers=0,           # Para evitar problemas con DeepSpeed
    )
    
    print("ü§ñ Cargando modelo base con optimizaciones DeepSpeed...")
    print(f"üì¶ Modelo: {MODEL_NAME}")
    print("‚ö° Optimizaciones: ZeRO Stage 2 + FP16 + LoRA")
    
    # Inicializar monitor de rendimiento
    monitor = PerformanceMonitor()
    monitor.start_monitoring()
    
    # Crear SFTTrainer con DeepSpeed
    trainer = SFTTrainer(
        model=MODEL_NAME,
        train_dataset=train_dataset,
        eval_dataset=eval_dataset,
        args=sft_config,
        peft_config=peft_config,
        tokenizer=tokenizer,
        data_collator=None,
    )
    
    print("‚úÖ SFTTrainer configurado con DeepSpeed + LoRA")
    print(f"üéØ Par√°metros entrenables: {trainer.model.print_trainable_parameters()}")
    
    # Entrenar
    print("üöÄ Iniciando entrenamiento SFT con DeepSpeed...")
    start_time = time.time()
    
    # Callback para monitoreo
    class MonitoringCallback:
        def __init__(self, monitor):
            self.monitor = monitor
            
        def on_step_end(self, args, state, control, logs=None, **kwargs):
            self.monitor.log_metrics()
    
    trainer.add_callback(MonitoringCallback(monitor))
    
    # ¬°Entrenar con DeepSpeed!
    trainer.train()
    
    end_time = time.time()
    training_time = end_time - start_time
    
    # Obtener m√©tricas finales
    final_metrics = monitor.get_average_metrics()
    final_metrics['total_training_time'] = training_time
    
    print(f"\n‚úÖ Entrenamiento con DeepSpeed completado en {training_time:.2f} segundos")
    
    # Guardar el modelo entrenado
    trainer.save_model("./deepspeed_sft_final")
    print("üíæ Modelo DeepSpeed guardado en ./deepspeed_sft_final")
    
    # Limpiar memoria
    del trainer
    if torch.cuda.is_available():
        torch.cuda.empty_cache()
    gc.collect()
    
    return final_metrics, monitor.metrics

# ============================================================
# üîÑ EJECUTAR ENTRENAMIENTOS
# ============================================================

print("üéØ CONFIGURACI√ìN DEL EXPERIMENTO:")
print(f"üì¶ Modelo base: {MODEL_NAME}")
print(f"üìä Dataset size: {len(train_dataset)} samples")
print(f"üî¢ Batch size: {BATCH_SIZE}")
print(f"üîÑ √âpocas: {NUM_EPOCHS}")
print(f"üìè Max length: {MAX_LENGTH}")
print(f"üéØ LoRA rank: 16")

# Ejecutar entrenamiento baseline
print("\n" + "="*80)
baseline_metrics, baseline_detailed = train_baseline_model()

print("\nüìä M√âTRICAS BASELINE:")
print(f"‚è±Ô∏è  Tiempo total: {baseline_metrics['total_training_time']:.2f}s")
print(f"üéØ GPU memoria promedio: {baseline_metrics['avg_gpu_memory']:.1f} MB")
print(f"üìà GPU utilizaci√≥n promedio: {baseline_metrics['avg_gpu_utilization']:.1f}%")
print(f"üîÑ CPU promedio: {baseline_metrics['avg_cpu_percent']:.1f}%")
print(f"üíæ RAM promedio: {baseline_metrics['avg_ram_used']:.1f} GB")

# Ejecutar entrenamiento con DeepSpeed
print("\n" + "="*80)
deepspeed_metrics, deepspeed_detailed = train_deepspeed_model()

print("\nüìä M√âTRICAS DEEPSPEED:")
print(f"‚è±Ô∏è  Tiempo total: {deepspeed_metrics['total_training_time']:.2f}s")
print(f"üéØ GPU memoria promedio: {deepspeed_metrics['avg_gpu_memory']:.1f} MB")
print(f"üìà GPU utilizaci√≥n promedio: {deepspeed_metrics['avg_gpu_utilization']:.1f}%")
print(f"üîÑ CPU promedio: {deepspeed_metrics['avg_cpu_percent']:.1f}%")
print(f"üíæ RAM promedio: {deepspeed_metrics['avg_ram_used']:.1f} GB")


In [None]:
def calculate_improvements(baseline, deepspeed):
    """Calcula las mejoras de DeepSpeed vs baseline"""
    improvements = {}
    
    # Tiempo de entrenamiento (menor es mejor)
    time_improvement = ((baseline['total_training_time'] - deepspeed['total_training_time']) / 
                       baseline['total_training_time']) * 100
    improvements['time_speedup'] = time_improvement
    
    # Memoria GPU (menor es mejor)
    memory_improvement = ((baseline['avg_gpu_memory'] - deepspeed['avg_gpu_memory']) / 
                         baseline['avg_gpu_memory']) * 100
    improvements['memory_reduction'] = memory_improvement
    
    # Utilizaci√≥n GPU (mayor es mejor, pero calculamos eficiencia)
    gpu_efficiency = (deepspeed['avg_gpu_utilization'] / baseline['avg_gpu_utilization'] - 1) * 100
    improvements['gpu_efficiency'] = gpu_efficiency
    
    return improvements

# Calcular mejoras
improvements = calculate_improvements(baseline_metrics, deepspeed_metrics)

# Crear tabla de comparaci√≥n
comparison_data = {
    'M√©trica': [
        'Tiempo de Entrenamiento (s)',
        'Memoria GPU Promedio (MB)',
        'Utilizaci√≥n GPU Promedio (%)',
        'CPU Promedio (%)',
        'RAM Promedio (GB)'
    ],
    'Baseline (Sin DeepSpeed)': [
        f"{baseline_metrics['total_training_time']:.2f}",
        f"{baseline_metrics['avg_gpu_memory']:.1f}",
        f"{baseline_metrics['avg_gpu_utilization']:.1f}",
        f"{baseline_metrics['avg_cpu_percent']:.1f}",
        f"{baseline_metrics['avg_ram_used']:.1f}"
    ],
    'DeepSpeed Optimizado': [
        f"{deepspeed_metrics['total_training_time']:.2f}",
        f"{deepspeed_metrics['avg_gpu_memory']:.1f}",
        f"{deepspeed_metrics['avg_gpu_utilization']:.1f}",
        f"{deepspeed_metrics['avg_cpu_percent']:.1f}",
        f"{deepspeed_metrics['avg_ram_used']:.1f}"
    ],
    'Mejora (%)': [
        f"{improvements['time_speedup']:+.1f}",
        f"{improvements['memory_reduction']:+.1f}",
        f"{improvements['gpu_efficiency']:+.1f}",
        "N/A",
        "N/A"
    ]
}

comparison_df = pd.DataFrame(comparison_data)

print("üèÜ COMPARACI√ìN DE RESULTADOS")
print("=" * 80)
print(comparison_df.to_string(index=False))
print("=" * 80)

# Resumen de beneficios
print("\\nüéØ RESUMEN DE BENEFICIOS DE DEEPSPEED:")
print(f"‚ö° Aceleraci√≥n del entrenamiento: {improvements['time_speedup']:+.1f}%")
print(f"üíæ Reducci√≥n de memoria GPU: {improvements['memory_reduction']:+.1f}%")
print(f"üìà Mejora en eficiencia GPU: {improvements['gpu_efficiency']:+.1f}%")

if improvements['time_speedup'] > 0:
    print(f"\\nüöÄ El entrenamiento fue {improvements['time_speedup']:.1f}% m√°s r√°pido con DeepSpeed!")
if improvements['memory_reduction'] > 0:
    print(f"üí° Se redujo el uso de memoria GPU en {improvements['memory_reduction']:.1f}%")


In [None]:
# Crear visualizaciones
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('üöÄ Comparaci√≥n de Rendimiento: Baseline vs DeepSpeed', fontsize=16, fontweight='bold')

# 1. Tiempo de entrenamiento
ax1 = axes[0, 0]
methods = ['Baseline\\n(Sin DeepSpeed)', 'DeepSpeed\\n(Optimizado)']
times = [baseline_metrics['total_training_time'], deepspeed_metrics['total_training_time']]
colors = ['#ff7f7f', '#7fbf7f']

bars1 = ax1.bar(methods, times, color=colors, alpha=0.8, edgecolor='black', linewidth=1)
ax1.set_title('‚è±Ô∏è Tiempo de Entrenamiento', fontweight='bold')
ax1.set_ylabel('Tiempo (segundos)')
ax1.grid(True, alpha=0.3)

# Agregar valores en las barras
for bar, time in zip(bars1, times):
    height = bar.get_height()
    ax1.text(bar.get_x() + bar.get_width()/2., height + height*0.01,
             f'{time:.1f}s', ha='center', va='bottom', fontweight='bold')

# 2. Memoria GPU
ax2 = axes[0, 1]
memory_usage = [baseline_metrics['avg_gpu_memory'], deepspeed_metrics['avg_gpu_memory']]

bars2 = ax2.bar(methods, memory_usage, color=colors, alpha=0.8, edgecolor='black', linewidth=1)
ax2.set_title('üéØ Uso de Memoria GPU', fontweight='bold')
ax2.set_ylabel('Memoria (MB)')
ax2.grid(True, alpha=0.3)

for bar, memory in zip(bars2, memory_usage):
    height = bar.get_height()
    ax2.text(bar.get_x() + bar.get_width()/2., height + height*0.01,
             f'{memory:.0f}MB', ha='center', va='bottom', fontweight='bold')

# 3. Utilizaci√≥n GPU
ax3 = axes[1, 0]
gpu_util = [baseline_metrics['avg_gpu_utilization'], deepspeed_metrics['avg_gpu_utilization']]

bars3 = ax3.bar(methods, gpu_util, color=colors, alpha=0.8, edgecolor='black', linewidth=1)
ax3.set_title('üìà Utilizaci√≥n GPU', fontweight='bold')
ax3.set_ylabel('Utilizaci√≥n (%)')
ax3.set_ylim(0, 100)
ax3.grid(True, alpha=0.3)

for bar, util in zip(bars3, gpu_util):
    height = bar.get_height()
    ax3.text(bar.get_x() + bar.get_width()/2., height + 2,
             f'{util:.1f}%', ha='center', va='bottom', fontweight='bold')

# 4. Gr√°fico de mejoras
ax4 = axes[1, 1]
improvement_metrics = ['Velocidad\\nEntrenamiento', 'Reducci√≥n\\nMemoria GPU']
improvement_values = [improvements['time_speedup'], improvements['memory_reduction']]
improvement_colors = ['green' if x > 0 else 'red' for x in improvement_values]

bars4 = ax4.bar(improvement_metrics, improvement_values, color=improvement_colors, alpha=0.7, edgecolor='black', linewidth=1)
ax4.set_title('üèÜ Mejoras con DeepSpeed', fontweight='bold')
ax4.set_ylabel('Mejora (%)')
ax4.axhline(y=0, color='black', linestyle='-', alpha=0.5)
ax4.grid(True, alpha=0.3)

for bar, improvement in zip(bars4, improvement_values):
    height = bar.get_height()
    ax4.text(bar.get_x() + bar.get_width()/2., height + (1 if height > 0 else -3),
             f'{improvement:+.1f}%', ha='center', va='bottom' if height > 0 else 'top', fontweight='bold')

plt.tight_layout()
plt.show()

# Gr√°fico de l√≠nea temporal para memoria GPU
if len(baseline_detailed['timestamps']) > 0 and len(deepspeed_detailed['timestamps']) > 0:
    plt.figure(figsize=(12, 6))
    
    plt.plot(baseline_detailed['timestamps'], baseline_detailed['gpu_memory_used'], 
             label='Baseline (Sin DeepSpeed)', color='red', linewidth=2, alpha=0.8)
    plt.plot(deepspeed_detailed['timestamps'], deepspeed_detailed['gpu_memory_used'], 
             label='DeepSpeed (Optimizado)', color='green', linewidth=2, alpha=0.8)
    
    plt.title('üìà Uso de Memoria GPU Durante el Entrenamiento', fontsize=14, fontweight='bold')
    plt.xlabel('Tiempo (segundos)')
    plt.ylabel('Memoria GPU (MB)')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.show()
