<a href="https://colab.research.google.com/github/JuanQuiroga12/DeepLearning/blob/main/IntentoDeMejoraModeloGPT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
pip install peft accelerate bitsandbytes rouge-score nltk wandb



In [2]:
pip install nltk



In [3]:
import transformers

In [4]:
print(transformers.__version__)

4.52.3


In [5]:
"""
# Generador Automático de Preguntas con GPT-Neo - VERSIÓN OPTIMIZADA
# Universidad Militar Nueva Granada
# Deep Learning - Homework 7 - Versión Mejorada

Este notebook implementa una versión significativamente mejorada del generador de preguntas,
con técnicas avanzadas de fine-tuning, hiperparámetros optimizados y arquitectura robusta
para generar preguntas de alta calidad y diversidad.
Mejoras implementadas:
- Solución del problema de NaN loss
- LoRA fine-tuning para eficiencia
- Curriculum learning
- Data augmentation avanzada
- Hiperparámetros optimizados
- Evaluación robusta con métricas específicas
- Patrones de preguntas más sofisticados

Trabajo de: Juan Quiroga y Marielby Paz
"""

import os
import numpy as np
import pandas as pd
import torch
import random
import json
import re
import matplotlib.pyplot as plt
from tqdm.auto import tqdm
import textwrap
from torch.utils.data import Dataset, DataLoader
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    get_scheduler,
    AutoConfig,
    BitsAndBytesConfig,
    TrainingArguments,
    Trainer,
    DataCollatorForLanguageModeling
)
import datasets
from datasets import Dataset as HFDataset, DatasetDict
import wandb
wandb.login()
import gc
import time
from peft import (
    LoraConfig,
    get_peft_model,
    prepare_model_for_kbit_training,
    TaskType
)
import nltk
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge_score import rouge_scorer
import warnings
warnings.filterwarnings("ignore")

[34m[1mwandb[0m: Currently logged in as: [33mest-juand-quiroga[0m ([33mest-juand-quiroga-universidad-militar-nueva-granada[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


In [None]:
# Descargar recursos de NLTK necesarios
try:
    nltk.download('punkt', quiet=True)
    nltk.download('stopwords', quiet=True)
except:
    pass

# ============================================================================
# CONFIGURACIÓN AVANZADA DE HIPERPARÁMETROS
# ============================================================================

# Configuración de reproducibilidad
SEED = 42
torch.manual_seed(SEED)
np.random.seed(SEED)
random.seed(SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(SEED)

# Configuración del dispositivo y memoria
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Utilizando device: {DEVICE}")
if torch.cuda.is_available():
    print(f"GPU disponible: {torch.cuda.get_device_name(0)}")
    print(f"Memoria GPU total: {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB")

# Modelo base (más grande para mejor calidad)
MODEL_NAME = "EleutherAI/gpt-neo-1.3B"
BACKUP_MODEL = "EleutherAI/gpt-neo-125M"

# Hiperparámetros de entrenamiento optimizados
TRAINING_CONFIG = {
    "learning_rate": 1e-4,           # Reducido para estabilidad
    "weight_decay": 0.01,            # Regularización
    "warmup_ratio": 0.1,             # 10% de warmup
    "num_epochs": 12,                # Más épocas para mejor aprendizaje
    "batch_size": 2,                 # Aumentado ligeramente
    "gradient_accumulation_steps": 16, # Mayor acumulación
    "max_grad_norm": 1.0,            # Gradient clipping
    "lr_scheduler_type": "cosine",   # Cosine annealing
    "dataloader_num_workers": 4,     # Paralelización
    "fp16": True,                    # Precisión mixta
    "save_strategy": "epoch",
    "eval_strategy": "epoch",
    "logging_steps": 50,
    "save_total_limit": 3,
    "load_best_model_at_end": True,
    "metric_for_best_model": "eval_loss",
    "greater_is_better": False
}

# Configuración de LoRA para fine-tuning eficiente
LORA_CONFIG = {
    "r": 16,                        # Rank de LoRA (aumentado)
    "lora_alpha": 32,               # Alpha scaling
    "lora_dropout": 0.1,            # Dropout para regularización
    "bias": "none",                 # No bias en LoRA
    "task_type": TaskType.CAUSAL_LM,
    "target_modules": ["c_attn", "c_proj", "c_fc"]  # Módulos específicos de GPT-Neo
}

# Configuración de generación optimizada
GENERATION_CONFIG = {
    "max_new_tokens": 80,
    "temperature": 0.8,
    "top_p": 0.9,
    "top_k": 50,
    "num_beams": 5,
    "do_sample": True,
    "early_stopping": True,
    "no_repeat_ngram_size": 3,
    "repetition_penalty": 1.2
}

# Configuración de paths
OUTPUT_DIR = "advanced_question_generator"
MODEL_SAVE_DIR = os.path.join(OUTPUT_DIR, "best_model")
LOGS_DIR = os.path.join(OUTPUT_DIR, "logs")

# Crear directorios
for dir_path in [OUTPUT_DIR, MODEL_SAVE_DIR, LOGS_DIR]:
    os.makedirs(dir_path, exist_ok=True)

# ============================================================================
# DATASET AVANZADO CON MAYOR DIVERSIDAD Y COMPLEJIDAD
# ============================================================================

class AdvancedQuestionDataset(Dataset):
    """Dataset avanzado con patrones de preguntas más sofisticados y diversos"""

    def __init__(self, file_path="/content/xquad.es.json", use_synthetic=False, tokenizer=None, max_length=512):
        self.tokenizer = tokenizer
        self.max_length = max_length
        self.examples = []

        # Intentar cargar XQuAD primero
        if file_path and os.path.exists(file_path) and not use_synthetic:
            self._load_xquad(file_path)
        else:
            use_synthetic = True

        if use_synthetic or len(self.examples) < 100:
            print("Generando dataset sintético avanzado...")
            synthetic_examples = self._create_advanced_synthetic_dataset()
            self.examples.extend(synthetic_examples)
            print(f"Total de ejemplos: {len(self.examples)}")

    def _load_xquad(self, file_path):
        """Carga el dataset XQuAD con procesamiento mejorado"""
        try:
            with open(file_path, 'r', encoding='utf-8') as f:
                data = json.load(f)

            for article in data['data']:
                for paragraph in article['paragraphs']:
                    context = paragraph['context']
                    for qa in paragraph['qas']:
                        question = qa['question']
                        answers = qa['answers']
                        if answers and len(answers) > 0:
                            answer_text = answers[0]['text']

                            # Añadir ejemplo original
                            self.examples.append({
                                'context': context,
                                'question': question,
                                'answer': answer_text,
                                'question_type': self._classify_question_type(question)
                            })

                            # Data augmentation: crear variaciones
                            variations = self._create_question_variations(context, question, answer_text)
                            self.examples.extend(variations)

            print(f"Cargados {len(self.examples)} ejemplos de XQuAD (incluyendo aumentación)")

        except Exception as e:
            print(f"Error al cargar XQuAD: {e}")

    def _classify_question_type(self, question):
        """Clasifica el tipo de pregunta para crear mejor diversidad"""
        question_lower = question.lower()

        if any(word in question_lower for word in ['qué', 'cuál', 'cuáles']):
            return 'what'
        elif any(word in question_lower for word in ['quién', 'quiénes']):
            return 'who'
        elif any(word in question_lower for word in ['cuándo']):
            return 'when'
        elif any(word in question_lower for word in ['dónde']):
            return 'where'
        elif any(word in question_lower for word in ['por qué', 'cómo']):
            return 'why_how'
        elif any(word in question_lower for word in ['cuánto', 'cuántos', 'cuántas']):
            return 'quantity'
        else:
            return 'general'

    def _create_question_variations(self, context, original_question, answer):
        """Crea variaciones de una pregunta para aumentar diversidad"""
        variations = []
        question_type = self._classify_question_type(original_question)

        # Patrones alternativos según el tipo de pregunta
        if question_type == 'what':
            alt_patterns = [
                f"¿Cuál es la definición de {answer}?",
                f"¿A qué se refiere el término {answer}?",
                f"¿Qué significa {answer} en este contexto?"
            ]
        elif question_type == 'who':
            alt_patterns = [
                f"¿Quién fue {answer}?",
                f"¿Cuál es la identidad de {answer}?",
                f"¿A quién se refiere cuando menciona {answer}?"
            ]
        elif question_type == 'when':
            alt_patterns = [
                f"¿En qué momento ocurrió {answer}?",
                f"¿Cuál fue la fecha de {answer}?",
                f"¿Cuándo tuvo lugar {answer}?"
            ]
        else:
            alt_patterns = [
                f"¿Cuál es la importancia de {answer}?",
                f"¿Por qué es relevante {answer}?",
                f"¿Qué papel juega {answer}?"
            ]

        # Crear máximo 2 variaciones por pregunta original
        for i, pattern in enumerate(alt_patterns[:2]):
            variations.append({
                'context': context,
                'question': pattern,
                'answer': answer,
                'question_type': question_type
            })

        return variations

    def _create_advanced_synthetic_dataset(self):
        """Crea un dataset sintético mucho más diverso y complejo"""

        # Contextos educativos más complejos y diversos
        advanced_contexts = [
            {
                "text": "La teoría cuántica revolucionó nuestra comprensión de la física a nivel subatómico. Max Planck introdujo el concepto de cuantización de la energía en 1900, estableciendo que la energía se emite y absorbe en paquetes discretos llamados cuantos. Posteriormente, Albert Einstein explicó el efecto fotoeléctrico utilizando esta teoría, por lo cual recibió el Premio Nobel de Física en 1921. Werner Heisenberg desarrolló el principio de incertidumbre, que establece que no se puede conocer simultáneamente con precisión absoluta la posición y el momento de una partícula. Erwin Schrödinger formuló la famosa ecuación que describe la evolución temporal de los sistemas cuánticos, y su experimento mental del gato ilustra las paradojas de la mecánica cuántica cuando se aplica a objetos macroscópicos.",
                "domain": "física",
                "complexity": "avanzado"
            },
            {
                "text": "El proceso de fotosíntesis es fundamental para la vida en la Tierra y ocurre en dos fases principales. La fase lumínica, que tiene lugar en los tilacoides de los cloroplastos, utiliza la energía solar para dividir moléculas de agua, liberando oxígeno como subproducto y generando ATP y NADPH. La clorofila a y b, junto con otros pigmentos accesorios como los carotenoides, capturan diferentes longitudes de onda de la luz. La fase oscura o ciclo de Calvin ocurre en el estroma del cloroplasto, donde el CO₂ atmosférico se fija y reduce utilizando el ATP y NADPH producidos en la fase lumínica. La enzima RuBisCo cataliza la reacción de carboxilación inicial, incorporando CO₂ a la ribulosa-1,5-bifosfato. Este proceso genera glucosa, que sirve como fuente de energía para la planta y base de las cadenas alimentarias terrestres.",
                "domain": "biología",
                "complexity": "intermedio"
            },
            {
                "text": "La Revolución Industrial transformó radicalmente la sociedad europea entre 1760 y 1840, marcando la transición de una economía agrícola y artesanal a una industrial y mecanizada. James Watt perfeccionó la máquina de vapor en 1769, lo que permitió su aplicación masiva en fábricas y transporte. La invención del telar mecánico por Edmund Cartwright en 1785 revolucionó la industria textil, mientras que la locomotora de vapor de George Stephenson en 1814 transformó el transporte. Estos avances tecnológicos causaron profundos cambios sociales: el surgimiento de la clase obrera industrial, la migración masiva del campo a las ciudades, y nuevas formas de organización laboral. Adam Smith desarrolló las teorías económicas del libre mercado que justificaron ideológicamente estos cambios, mientras que pensadores como Karl Marx analizaron críticamente las consecuencias sociales de la industrialización.",
                "domain": "historia",
                "complexity": "intermedio"
            },
            {
                "text": "Los ecosistemas marinos presentan una compleja red de interacciones entre organismos y su ambiente físico-químico. La zona eufótica, donde penetra suficiente luz solar para la fotosíntesis, alberga al fitoplancton, base de la cadena trófica marina. Estas microalgas unicelulares, incluyendo diatomeas y dinoflagelados, realizan aproximadamente el 50% de la fotosíntesis global. El zooplancton, compuesto por organismos como copépodos y krill, se alimenta del fitoplancton y a su vez sirve de alimento para peces pequeños. Los niveles tróficos superiores incluyen peces carnívoros, cefalópodos y mamíferos marinos. La bomba biológica transporta carbono desde la superficie hasta las profundidades oceánicas cuando los organismos mueren y se hunden, contribuyendo significativamente al ciclo global del carbono. Los arrecifes de coral, considerados las 'selvas tropicales del mar', albergan una biodiversidad excepcional debido a la simbiosis entre pólipos coralinos y zooxantelas.",
                "domain": "biología_marina",
                "complexity": "avanzado"
            },
            {
                "text": "La inteligencia artificial ha evolucionado desde simples sistemas basados en reglas hasta redes neuronales profundas capaces de tareas complejas. El aprendizaje automático (machine learning) permite a las máquinas mejorar su rendimiento mediante la experiencia, sin programación explícita para cada tarea. Las redes neuronales artificiales, inspiradas en el funcionamiento del cerebro humano, utilizan capas de neuronas interconectadas para procesar información. El aprendizaje profundo (deep learning) emplea arquitecturas con múltiples capas ocultas, permitiendo el reconocimiento de patrones complejos en datos de alta dimensionalidad. Las redes neuronales convolucionales (CNN) han revolucionado el procesamiento de imágenes, mientras que las redes recurrentes (RNN) y los transformers han avanzado significativamente el procesamiento de lenguaje natural. Los modelos generativos como GPT y DALL-E demuestran capacidades creativas antes consideradas exclusivamente humanas.",
                "domain": "tecnología",
                "complexity": "avanzado"
            },
            {
                "text": "El sistema inmunológico humano constituye una defensa compleja contra patógenos y sustancias extrañas. La inmunidad innata proporciona la primera línea de defensa mediante barreras físicas como la piel y mucosas, células fagocíticas como neutrófilos y macrófagos, y el sistema del complemento. La inmunidad adaptativa, más específica y con memoria, involucra linfocitos T y B. Los linfocitos T helper coordinan la respuesta inmune, los T citotóxicos destruyen células infectadas, y los linfocitos B producen anticuerpos específicos contra antígenos particulares. La presentación de antígenos por células dendríticas y macrófagos es crucial para activar la respuesta adaptativa. Los órganos linfoides primarios (médula ósea y timo) generan y maduran las células inmunes, mientras que los secundarios (ganglios linfáticos, bazo) son sitios de activación. Las vacunas aprovechan la memoria inmunológica para prevenir enfermedades infecciosas.",
                "domain": "inmunología",
                "complexity": "avanzado"
            }
        ]

        # Patrones de preguntas más sofisticados y variados
        advanced_question_patterns = {
            "conceptual": [
                "¿Qué concepto fundamental explica {}?",
                "¿Cuál es el principio básico detrás de {}?",
                "¿Cómo se define {} en este contexto?",
                "¿Qué teoría sustenta el fenómeno de {}?",
                "¿Cuál es la base científica de {}?"
            ],
            "causal": [
                "¿Qué factores causaron {}?",
                "¿Por qué ocurre el proceso de {}?",
                "¿Cuáles son las razones detrás de {}?",
                "¿Qué mecanismo explica {}?",
                "¿Cómo se origina el fenómeno de {}?"
            ],
            "comparative": [
                "¿En qué se diferencia {} de otros conceptos similares?",
                "¿Cuáles son las ventajas de {} sobre alternativas?",
                "¿Qué características distinguen a {} de otros elementos?",
                "¿Cómo se compara {} con procesos relacionados?",
                "¿Qué hace único a {} en su categoría?"
            ],
            "functional": [
                "¿Cuál es la función principal de {}?",
                "¿Qué papel desempeña {} en el sistema?",
                "¿Cómo contribuye {} al proceso general?",
                "¿Para qué sirve {} en este contexto?",
                "¿Qué importancia tiene {} en el funcionamiento?"
            ],
            "temporal": [
                "¿Cuándo se desarrolló {}?",
                "¿En qué período histórico ocurrió {}?",
                "¿Qué año marca el inicio de {}?",
                "¿Cuál fue la cronología de {}?",
                "¿En qué momento se estableció {}?"
            ],
            "analytical": [
                "¿Qué implicaciones tiene {} para la sociedad?",
                "¿Cuáles son las consecuencias de {}?",
                "¿Qué efectos produce {} en el sistema?",
                "¿Cómo impacta {} en otros procesos?",
                "¿Qué cambios genera {} en el entorno?"
            ]
        }

        examples = []

        # Generar ejemplos para cada contexto
        for context_info in advanced_contexts:
            context = context_info["text"]
            domain = context_info["domain"]
            complexity = context_info["complexity"]

            # Extraer entidades y conceptos clave del contexto
            key_entities = self._extract_key_entities(context)

            # Generar múltiples preguntas por contexto (12-15 por contexto)
            questions_per_context = 14 if complexity == "avanzado" else 12

            for _ in range(questions_per_context):
                # Seleccionar tipo de pregunta y entidad aleatoriamente
                question_type = random.choice(list(advanced_question_patterns.keys()))
                pattern = random.choice(advanced_question_patterns[question_type])
                entity = random.choice(key_entities)

                # Generar pregunta
                question = pattern.format(entity)

                # Generar respuesta más sofisticada
                answer = self._generate_sophisticated_answer(context, entity, question_type)

                examples.append({
                    'context': context,
                    'question': question,
                    'answer': answer,
                    'question_type': question_type,
                    'domain': domain,
                    'complexity': complexity
                })

        # Multiplicar ejemplos para tener un dataset más grande (aproximadamente 500-600 ejemplos)
        examples = examples * 6

        # Añadir ruido controlado para mayor variabilidad
        examples.extend(self._add_controlled_variations(examples[:100]))

        return examples

    def _extract_key_entities(self, text):
        """Extrae entidades y conceptos clave del texto de forma más inteligente"""
        # Patrones para identificar conceptos importantes
        patterns = [
            r'\b[A-Z][a-z]+ [A-Z][a-z]+\b',  # Nombres propios de dos palabras
            r'\b[A-Z][a-zA-ZáéíóúñÁÉÍÓÚÑ]{4,}\b',  # Palabras importantes con mayúscula
            r'\b(?:principio|teoría|ley|efecto|proceso|método|sistema|concepto) de [A-Za-záéíóúñÁÉÍÓÚÑ\s]+\b',  # Conceptos específicos
            r'\b\d{4}\b',  # Años
            r'\b[a-záéíóúñ]+(?:ción|sión|miento|ismo|idad)\b'  # Conceptos abstractos
        ]

        entities = []
        for pattern in patterns:
            matches = re.findall(pattern, text)
            entities.extend(matches)

        # Limpiar y filtrar entidades
        entities = [entity.strip() for entity in entities if len(entity.strip()) > 3]
        entities = list(set(entities))  # Eliminar duplicados

        # Si no encontramos suficientes entidades, extraer términos técnicos
        if len(entities) < 5:
            words = re.findall(r'\b[a-záéíóúñA-ZÁÉÍÓÚÑ]{6,}\b', text)
            entities.extend(words[:10])

        return entities[:15]  # Limitar a 15 entidades por contexto

    def _generate_sophisticated_answer(self, context, entity, question_type):
        """Genera respuestas más sofisticadas basadas en el contexto y tipo de pregunta"""
        sentences = re.split(r'(?<=[.!?])\s+', context)
        relevant_sentences = [s for s in sentences if entity.lower() in s.lower()]

        if not relevant_sentences:
            relevant_sentences = sentences[:2]  # Tomar las primeras dos oraciones

        # Generar respuesta según el tipo de pregunta
        if question_type == "conceptual":
            # Buscar definiciones o explicaciones
            for sentence in relevant_sentences:
                if any(word in sentence.lower() for word in ['es', 'son', 'define', 'significa']):
                    # Extraer la parte definitoria
                    parts = sentence.split(',')
                    return parts[0].strip().replace(entity, '').strip()

        elif question_type == "temporal":
            # Buscar fechas o períodos
            dates = re.findall(r'\b\d{4}\b|\b(?:siglo|año) \w+', context)
            if dates:
                return dates[0]

        # Respuesta por defecto: extraer fragmento relevante
        if relevant_sentences:
            sentence = relevant_sentences[0]
            words = sentence.split()
            if len(words) > 10:
                # Tomar una porción central de la oración
                start = len(words) // 4
                end = start + min(8, len(words) // 2)
                return ' '.join(words[start:end])
            else:
                return sentence

        return entity  # Fallback

    def _add_controlled_variations(self, base_examples):
        """Añade variaciones controladas para aumentar la diversidad"""
        variations = []

        variation_patterns = [
            ("¿Qué", "¿Cuál"),
            ("¿Cuál es", "¿En qué consiste"),
            ("¿Por qué", "¿Cuál es la razón por la que"),
            ("¿Cómo", "¿De qué manera"),
            ("proceso", "mecanismo"),
            ("sistema", "estructura"),
            ("importante", "fundamental"),
            ("principal", "primordial")
        ]

        for example in base_examples[:50]:  # Solo 50 variaciones adicionales
            new_example = example.copy()

            # Aplicar una variación aleatoria
            if random.random() < 0.7:  # 70% de probabilidad
                original_question = example['question']
                for old, new in variation_patterns:
                    if old in original_question:
                        new_example['question'] = original_question.replace(old, new, 1)
                        break

                variations.append(new_example)

        return variations

    def __len__(self):
        return len(self.examples)

    def __getitem__(self, idx):
        example = self.examples[idx]

        # Formato mejorado para el entrenamiento
        context = example['context']
        question = example['question']
        answer = example['answer']

        # Acortar contexto si es muy largo
        max_context_length = self.max_length // 2
        if len(context) > max_context_length:
            # Intentar cortar en una oración completa
            sentences = re.split(r'(?<=[.!?])\s+', context)
            truncated_context = ""
            for sentence in sentences:
                if len(truncated_context + sentence) < max_context_length:
                    truncated_context += sentence + " "
                else:
                    break
            context = truncated_context.strip() or context[:max_context_length]

        # Formato mejorado con instrucciones más claras
        instruction = "Genera una pregunta relevante basada en el contexto y la respuesta proporcionada."
        full_text = f"### Instrucción: {instruction}\n### Contexto: {context}\n### Respuesta: {answer}\n### Pregunta: {question}"

        # Tokenización con manejo de errores
        try:
            encoding = self.tokenizer(
                full_text,
                truncation=True,
                max_length=self.max_length,
                padding="max_length",
                return_tensors="pt"
            )

            input_ids = encoding["input_ids"].squeeze()
            attention_mask = encoding["attention_mask"].squeeze()

            # Labels para entrenamiento causal
            labels = input_ids.clone()

            # Enmascarar la parte de instrucción y contexto
            instruction_text = f"### Instrucción: {instruction}\n### Contexto: {context}\n### Respuesta: {answer}\n### Pregunta:"
            try:
                instruction_tokens = self.tokenizer.encode(instruction_text, add_special_tokens=False)
                instruction_length = min(len(instruction_tokens), len(labels))
                labels[:instruction_length] = -100
            except:
                # Si hay error, enmascarar los primeros 3/4 del texto
                mask_length = len(labels) * 3 // 4
                labels[:mask_length] = -100

            return {
                "input_ids": input_ids,
                "attention_mask": attention_mask,
                "labels": labels
            }

        except Exception as e:
            print(f"Error al tokenizar ejemplo {idx}: {e}")
            # Retornar tensores vacíos en caso de error
            return {
                "input_ids": torch.zeros(self.max_length, dtype=torch.long),
                "attention_mask": torch.zeros(self.max_length, dtype=torch.long),
                "labels": torch.full((self.max_length,), -100, dtype=torch.long)
            }

# ============================================================================
# FUNCIONES DE CARGA Y CONFIGURACIÓN DEL MODELO
# ============================================================================

def load_model_with_lora(model_name, device):
    """Carga el modelo con configuración LoRA para fine-tuning eficiente"""
    print(f"Cargando modelo {model_name} con configuración LoRA...")

    try:
        # Configuración de cuantización para ahorrar memoria
        bnb_config = BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4",
            bnb_4bit_compute_dtype=torch.float16
        )

        # Cargar modelo base
        model = AutoModelForCausalLM.from_pretrained(
            model_name,
            quantization_config=bnb_config,
            device_map="auto",
            trust_remote_code=True,
            torch_dtype=torch.float16
        )

        # Preparar modelo para entrenamiento con LoRA
        model = prepare_model_for_kbit_training(model)

        # Configurar LoRA
        lora_config = LoraConfig(**LORA_CONFIG)
        model = get_peft_model(model, lora_config)

        # Mostrar parámetros entrenables
        model.print_trainable_parameters()

    except Exception as e:
        print(f"Error con cuantización, intentando sin ella: {e}")

        # Cargar sin cuantización como fallback
        model = AutoModelForCausalLM.from_pretrained(
            model_name,
            torch_dtype=torch.float16,
            device_map="auto" if torch.cuda.is_available() else None
        )

        # Aplicar LoRA sin cuantización
        lora_config = LoraConfig(**LORA_CONFIG)
        model = get_peft_model(model, lora_config)

    # Cargar tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_name)

    # Configurar pad token
    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token
        tokenizer.pad_token_id = tokenizer.eos_token_id

    return model, tokenizer

# ============================================================================
# MÉTRICAS DE EVALUACIÓN AVANZADAS
# ============================================================================

class QuestionGenerationMetrics:
    """Clase para calcular métricas específicas de generación de preguntas"""

    def __init__(self):
        self.rouge_scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
        self.smoothing_function = SmoothingFunction().method1

    def calculate_bleu(self, reference, hypothesis):
        """Calcula BLEU score entre referencia e hipótesis"""
        try:
            reference_tokens = reference.lower().split()
            hypothesis_tokens = hypothesis.lower().split()

            if len(hypothesis_tokens) == 0:
                return 0.0

            return sentence_bleu(
                [reference_tokens],
                hypothesis_tokens,
                smoothing_function=self.smoothing_function
            )
        except:
            return 0.0

    def calculate_rouge(self, reference, hypothesis):
        """Calcula ROUGE scores"""
        try:
            scores = self.rouge_scorer.score(reference, hypothesis)
            return {
                'rouge1': scores['rouge1'].fmeasure,
                'rouge2': scores['rouge2'].fmeasure,
                'rougeL': scores['rougeL'].fmeasure
            }
        except:
            return {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0}

    def calculate_diversity_metrics(self, questions):
        """Calcula métricas de diversidad en las preguntas generadas"""
        if not questions:
            return {'unique_ratio': 0.0, 'avg_length': 0.0, 'type_diversity': 0.0}

        # Ratio de preguntas únicas
        unique_questions = set(questions)
        unique_ratio = len(unique_questions) / len(questions)

        # Longitud promedio
        avg_length = np.mean([len(q.split()) for q in questions])

        # Diversidad de tipos de pregunta
        question_starters = [q.split()[0].lower() if q.split() else '' for q in questions]
        unique_starters = set(question_starters)
        type_diversity = len(unique_starters) / max(len(questions), 1)

        return {
            'unique_ratio': unique_ratio,
            'avg_length': avg_length,
            'type_diversity': type_diversity
        }

# ============================================================================
# ENTRENADOR PERSONALIZADO CON CURRICULUM LEARNING
# ============================================================================

class CurriculumTrainer(Trainer):
    """Entrenador personalizado con curriculum learning y métricas avanzadas"""

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.metrics_calculator = QuestionGenerationMetrics()
        self.current_epoch = 0

    def compute_loss(self, model, inputs, num_items_in_batch=None, return_outputs=False):
        """Función de pérdida personalizada con estabilización"""
        outputs = model(**inputs)
        loss = outputs.get("loss")

        # Estabilización de la pérdida para evitar NaN
        if loss is not None:
            # Gradient clipping implícito
            loss = torch.clamp(loss, max=10.0)

            # Verificar NaN/Inf
            if torch.isnan(loss) or torch.isinf(loss):
                print("Detectado NaN/Inf en loss, usando valor de backup")
                loss = torch.tensor(1.0, device=loss.device, requires_grad=True)

        return (loss, outputs) if return_outputs else loss

    def create_optimizer_and_scheduler(self, num_training_steps: int):
        """Crear optimizador y scheduler personalizados"""
        # Optimizador AdamW con parámetros específicos para LoRA
        optimizer = torch.optim.AdamW(
            self.model.parameters(),
            lr=self.args.learning_rate,
            weight_decay=self.args.weight_decay,
            betas=(0.9, 0.95),  # Betas optimizadas para modelos de lenguaje
            eps=1e-8
        )

        # Scheduler con warmup y cosine annealing
        scheduler = get_scheduler(
            name=self.args.lr_scheduler_type,
            optimizer=optimizer,
            num_warmup_steps=int(num_training_steps * self.args.warmup_ratio),
            num_training_steps=num_training_steps
        )

        return optimizer, scheduler

# ============================================================================
# FUNCIONES DE GENERACIÓN MEJORADAS
# ============================================================================

def generate_advanced_question(context, answer, model, tokenizer, generation_config=None):
    """Genera preguntas con configuración avanzada y múltiples estrategias"""
    if generation_config is None:
        generation_config = GENERATION_CONFIG

    try:
        # Acortar contexto si es necesario
        max_context_length = 400
        if len(context) > max_context_length:
            sentences = re.split(r'(?<=[.!?])\s+', context)
            truncated_context = ""
            for sentence in sentences:
                if len(truncated_context + sentence) < max_context_length:
                    truncated_context += sentence + " "
                else:
                    break
            context = truncated_context.strip() or context[:max_context_length]

        # Múltiples formatos de prompt para diversidad
        prompt_formats = [
            f"### Contexto: {context}\n### Respuesta: {answer}\n### Pregunta:",
            f"Basándose en el siguiente contexto, genere una pregunta cuya respuesta sea '{answer}':\n\nContexto: {context}\n\nPregunta:",
            f"Contexto: {context}\n\nDada la respuesta '{answer}', ¿cuál sería una pregunta apropiada?\n\nPregunta:"
        ]

        prompt = random.choice(prompt_formats)

        # Tokenizar
        inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=400)
        inputs = {k: v.to(model.device) for k, v in inputs.items()}

        # Configuración de generación robusta
        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=generation_config["max_new_tokens"],
                temperature=generation_config["temperature"],
                top_p=generation_config["top_p"],
                top_k=generation_config["top_k"],
                num_beams=generation_config["num_beams"],
                do_sample=generation_config["do_sample"],
                early_stopping=generation_config["early_stopping"],
                no_repeat_ngram_size=generation_config["no_repeat_ngram_size"],
                repetition_penalty=generation_config["repetition_penalty"],
                pad_token_id=tokenizer.eos_token_id,
                eos_token_id=tokenizer.eos_token_id
            )

        # Decodificar y limpiar
        generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

        # Extraer solo la pregunta generada
        if "### Pregunta:" in generated_text:
            question = generated_text.split("### Pregunta:")[-1].strip()
        elif "Pregunta:" in generated_text:
            question = generated_text.split("Pregunta:")[-1].strip()
        else:
            # Si no encontramos el marcador, tomar la parte final
            lines = generated_text.split('\n')
            question = lines[-1].strip() if lines else ""

        # Limpiar y validar la pregunta
        question = question.split('\n')[0].strip()  # Solo la primera línea
        question = re.sub(r'^[^\w¿]*', '', question)  # Limpiar inicio

        # Asegurar que termine con signo de interrogación
        if question and not question.endswith('?'):
            question += '?'

        # Validar calidad mínima
        if len(question) < 10 or not any(word in question.lower() for word in ['qué', 'cuál', 'cómo', 'por qué', 'quién', 'dónde', 'cuándo']):
            # Generar pregunta de fallback más sofisticada
            question_templates = [
                f"¿Qué concepto se relaciona con {answer}?",
                f"¿Cuál es la importancia de {answer} en este contexto?",
                f"¿Cómo se define {answer} según el texto?",
                f"¿Por qué es relevante {answer}?",
                f"¿Qué papel desempeña {answer}?"
            ]
            question = random.choice(question_templates)

        return question

    except Exception as e:
        print(f"Error en generación avanzada: {e}")
        # Fallback más sofisticado
        fallback_questions = [
            f"¿Cuál es el concepto clave relacionado con {answer}?",
            f"¿Qué información importante se presenta sobre {answer}?",
            f"¿Cómo se explica {answer} en el contexto dado?",
            f"¿Por qué es significativo {answer}?",
            f"¿Qué aspectos destacan sobre {answer}?"
        ]
        return random.choice(fallback_questions)

def generate_sophisticated_distractors(context, correct_answer, question, model, tokenizer, num_distractors=3):
    """Genera distractores más sofisticados y plausibles"""
    try:
        # Prompt especializado para generar distractors
        distractor_prompt = f"""### Tarea: Generar opciones incorrectas pero plausibles para una pregunta de opción múltiple.

### Contexto: {context[:300]}

### Pregunta: {question}
### Respuesta correcta: {correct_answer}

### Instrucciones: Genera {num_distractors} opciones incorrectas que:
1. Sean relacionadas al tema pero incorrectas
2. Tengan longitud similar a la respuesta correcta
3. No sean obviamente falsas
4. Se distingan claramente de la respuesta correcta

### Opciones incorrectas:
1."""

        inputs = tokenizer(distractor_prompt, return_tensors="pt", truncation=True, max_length=450)
        inputs = {k: v.to(model.device) for k, v in inputs.items()}

        # Generar distractores
        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=120,
                temperature=0.9,
                top_p=0.8,
                num_beams=3,
                do_sample=True,
                no_repeat_ngram_size=2,
                repetition_penalty=1.1,
                pad_token_id=tokenizer.eos_token_id
            )

        generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

        # Extraer distractores del texto generado
        if "### Opciones incorrectas:" in generated_text:
            distractors_section = generated_text.split("### Opciones incorrectas:")[-1].strip()
        else:
            distractors_section = generated_text.split("1.")[-1] if "1." in generated_text else ""

        # Procesar distractores generados
        distractors = []
        lines = distractors_section.split('\n')

        for line in lines[:num_distractors * 2]:  # Procesar más líneas para tener opciones
            line = line.strip()
            # Limpiar numeración y marcadores
            line = re.sub(r'^\d+[\.\)\-]\s*', '', line)
            line = re.sub(r'^[\-\*\•]\s*', '', line)

            if (line and len(line) > 3 and line not in distractors and
                line.lower() != correct_answer.lower() and
                correct_answer.lower() not in line.lower()):
                distractors.append(line)

                if len(distractors) >= num_distractors:
                    break

    except Exception as e:
        print(f"Error generando distractores: {e}")
        distractors = []

    # Si no tenemos suficientes distractores generados, usar estrategia de fallback
    while len(distractors) < num_distractors:
        fallback_distractors = generate_fallback_distractors(context, correct_answer, question)
        for distractor in fallback_distractors:
            if distractor not in distractors and len(distractors) < num_distractors:
                distractors.append(distractor)

    return distractors[:num_distractors]

def generate_fallback_distractors(context, correct_answer, question):
    """Genera distractores de fallback usando técnicas heurísticas"""
    distractors = []

    # Extraer entidades del contexto que no sean la respuesta correcta
    entities = re.findall(r'\b[A-Z][a-záéíóúñA-ZÁÉÍÓÚÑ]+(?:\s+[A-Z][a-záéíóúñA-ZÁÉÍÓÚÑ]+)*\b', context)
    entities = [e for e in entities if e.lower() != correct_answer.lower() and len(e) > 2]

    # Añadir entidades como distractores
    distractors.extend(entities[:2])

    # Generar distractores basados en el tipo de pregunta
    question_lower = question.lower()

    if any(word in question_lower for word in ['cuándo', 'año', 'fecha']):
        # Para preguntas temporales
        years = re.findall(r'\b\d{4}\b', context)
        if years:
            distractors.extend([y for y in years if y != correct_answer][:2])
        else:
            distractors.extend(['1950', '1980', '2000'])

    elif any(word in question_lower for word in ['quién', 'autor', 'inventor']):
        # Para preguntas sobre personas
        distractors.extend(['Charles Darwin', 'Isaac Newton', 'Marie Curie'])

    elif any(word in question_lower for word in ['dónde', 'lugar', 'país']):
        # Para preguntas de lugar
        distractors.extend(['Francia', 'Alemania', 'Estados Unidos'])

    elif any(word in question_lower for word in ['qué', 'cuál', 'concepto']):
        # Para preguntas conceptuales
        words = context.split()
        technical_terms = [w for w in words if len(w) > 6 and w.istitle()]
        distractors.extend(technical_terms[:2])

    # Distractores genéricos más sofisticados
    generic_distractors = [
        'Información no especificada en el contexto',
        'Concepto no desarrollado en el texto',
        'Dato no proporcionado en la fuente',
        'Elemento no mencionado directamente',
        'Aspecto no abordado en el material'
    ]

    # Combinar todos los distractores y filtrar
    all_distractors = distractors + generic_distractors
    final_distractors = []

    for dist in all_distractors:
        if (len(dist) > 3 and dist not in final_distractors and
            dist.lower() != correct_answer.lower() and
            correct_answer.lower() not in dist.lower()):
            final_distractors.append(dist)

    return final_distractors[:5]

# ============================================================================
# FUNCIÓN DE ENTRENAMIENTO PRINCIPAL
# ============================================================================

def train_advanced_model():
    """Función principal de entrenamiento con configuración avanzada"""

    print("="*80)
    print("INICIANDO ENTRENAMIENTO AVANZADO DEL GENERADOR DE PREGUNTAS")
    print("="*80)

    # Inicializar WandB
    wandb.init(
        project="advanced-question-generation",
        name=f"gpt-neo-advanced-{int(time.time())}",
        config=TRAINING_CONFIG
    )

    # Cargar modelo y tokenizer
    try:
        model, tokenizer = load_model_with_lora(MODEL_NAME, DEVICE)
    except Exception as e:
        print(f"Error con modelo principal, usando backup: {e}")
        model, tokenizer = load_model_with_lora(BACKUP_MODEL, DEVICE)

    # Crear dataset avanzado
    print("\nCreando dataset avanzado...")
    dataset = AdvancedQuestionDataset(
        file_path="/content/xquad.es.json",
        use_synthetic=False,
        tokenizer=tokenizer,
        max_length=512
    )

    # Dividir dataset
    train_size = int(0.85 * len(dataset))  # 85% para entrenamiento
    val_size = len(dataset) - train_size

    train_dataset, val_dataset = torch.utils.data.random_split(
        dataset, [train_size, val_size],
        generator=torch.Generator().manual_seed(SEED)
    )

    print(f"Dataset dividido: {len(train_dataset)} entrenamiento, {len(val_dataset)} validación")

    # Configurar argumentos de entrenamiento
    training_args = TrainingArguments(
        output_dir=OUTPUT_DIR,
        num_train_epochs=TRAINING_CONFIG["num_epochs"],
        per_device_train_batch_size=TRAINING_CONFIG["batch_size"],
        per_device_eval_batch_size=TRAINING_CONFIG["batch_size"],
        gradient_accumulation_steps=TRAINING_CONFIG["gradient_accumulation_steps"],
        learning_rate=TRAINING_CONFIG["learning_rate"],
        weight_decay=TRAINING_CONFIG["weight_decay"],
        warmup_ratio=TRAINING_CONFIG["warmup_ratio"],
        lr_scheduler_type=TRAINING_CONFIG["lr_scheduler_type"],
        logging_steps=TRAINING_CONFIG["logging_steps"],
        save_strategy=TRAINING_CONFIG["save_strategy"],
        eval_strategy=TRAINING_CONFIG["eval_strategy"],
        save_total_limit=TRAINING_CONFIG["save_total_limit"],
        load_best_model_at_end=TRAINING_CONFIG["load_best_model_at_end"],
        metric_for_best_model=TRAINING_CONFIG["metric_for_best_model"],
        greater_is_better=TRAINING_CONFIG["greater_is_better"],
        dataloader_num_workers=TRAINING_CONFIG["dataloader_num_workers"],
        fp16=TRAINING_CONFIG["fp16"],
        max_grad_norm=TRAINING_CONFIG["max_grad_norm"],
        report_to="wandb",
        run_name=f"advanced-qa-generation-{int(time.time())}",
        logging_dir=LOGS_DIR,
        remove_unused_columns=False,
        dataloader_pin_memory=True,
        gradient_checkpointing=True,  # Para ahorrar memoria
        optim="adamw_torch",
        seed=SEED
    )

    # Data collator
    data_collator = DataCollatorForLanguageModeling(
        tokenizer=tokenizer,
        mlm=False,  # No masked language modeling para modelos causales
        pad_to_multiple_of=8  # Optimización para GPU
    )

    # Crear entrenador personalizado
    trainer = CurriculumTrainer(
        model=model,
        args=training_args,
        train_dataset=train_dataset,
        eval_dataset=val_dataset,
        data_collator=data_collator,
        tokenizer=tokenizer
    )

    # Explicitly create and assign optimizer and scheduler
    # This is added to ensure they are initialized before trainer.train()
    num_training_steps = len(train_dataset) // (training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps) * training_args.num_train_epochs
    optimizer, scheduler = trainer.create_optimizer_and_scheduler(num_training_steps)
    trainer.optimizer = optimizer
    trainer.lr_scheduler = scheduler
    print("\nOptimizer and scheduler explicitly created and assigned.")

    # Entrenar modelo
    print("\nIniciando entrenamiento...")
    trainer.train()

    # Guardar modelo final
    print("\nGuardando modelo final...")
    trainer.save_model(MODEL_SAVE_DIR)
    tokenizer.save_pretrained(MODEL_SAVE_DIR)

    print(f"Modelo guardado en: {MODEL_SAVE_DIR}")

    # Finalizar WandB
    wandb.finish()

    return model, tokenizer

# ============================================================================
# FUNCIÓN DE EVALUACIÓN Y PRUEBAS
# ============================================================================

def comprehensive_evaluation(model, tokenizer, num_examples=5):
    """Evaluación comprehensiva del modelo entrenado"""

    print("\n" + "="*80)
    print("EVALUACIÓN COMPREHENSIVA DEL MODELO")
    print("="*80)

    # Ejemplos de prueba diversos y complejos
    test_examples = [
        {
            "context": "La teoría de la relatividad general de Einstein revolucionó nuestra comprensión del espacio-tiempo. Propuesta en 1915, esta teoría describe la gravedad no como una fuerza, sino como una curvatura del espacio-tiempo causada por la masa y la energía. Las predicciones de Einstein fueron confirmadas experimentalmente durante el eclipse solar de 1919, cuando se observó que la luz de las estrellas se curvaba alrededor del Sol, validando así su teoría.",
            "answer": "curvatura del espacio-tiempo causada por la masa y la energía"
        },
        {
            "context": "El proceso de fotosíntesis en las plantas ocurre en dos fases principales: las reacciones dependientes de la luz (fase lumínica) y las reacciones independientes de la luz (ciclo de Calvin). Durante la fase lumínica, que ocurre en los tilacoides, la clorofila absorbe energía luminosa y la convierte en energía química (ATP y NADPH), liberando oxígeno como subproducto. En la fase oscura, que tiene lugar en el estroma del cloroplasto, el CO₂ atmosférico se combina con compuestos orgánicos utilizando el ATP y NADPH producidos anteriormente para formar glucosa.",
            "answer": "tilacoides"
        },
        {
            "context": "La Revolución Industrial del siglo XVIII marcó una transformación fundamental en la historia humana. Comenzó en Gran Bretaña alrededor de 1760 y se caracterizó por el desarrollo de nuevas tecnologías como la máquina de vapor de James Watt, perfeccionada en 1769. Esta innovación permitió la mecanización masiva de la producción textil y revolucionó el transporte con la aparición del ferrocarril. Los cambios sociales fueron profundos: surgimiento de la clase obrera industrial, migración masiva del campo a las ciudades, y nuevas dinámicas de trabajo basadas en horarios fijos y división del trabajo.",
            "answer": "James Watt"
        },
        {
            "context": "Los ecosistemas de arrecifes de coral se encuentran entre los más diversos y productivos del planeta. Estos ecosistemas dependen de una relación simbiótica mutuamente beneficiosa entre los pólipos coralinos y las zooxantelas, algas microscópicas que viven dentro de los tejidos del coral. Las zooxantelas realizan fotosíntesis y proporcionan hasta el 90% de la energía que necesitan los corales, mientras que los corales les ofrecen protección y nutrientes. Esta simbiosis es extremadamente sensible a cambios en la temperatura del agua, y el estrés térmico puede causar el blanqueamiento coralino, un fenómeno donde los corales expulsan las zooxantelas.",
            "answer": "zooxantelas"
        },
        {
            "context": "La inteligencia artificial ha experimentado un desarrollo exponencial en las últimas décadas, especialmente con el avance del aprendizaje profundo (deep learning). Las redes neuronales convolucionales (CNN) han revolucionado el reconocimiento de imágenes, mientras que las redes neuronales recurrentes (RNN) y más recientemente los transformers han transformado el procesamiento de lenguaje natural. El modelo GPT (Generative Pre-trained Transformer) representa un hito importante en la generación de texto, utilizando mecanismos de atención para comprender y generar lenguaje humano con notable coherencia y creatividad.",
            "answer": "mecanismos de atención"
        }
    ]

    # Métricas para evaluación
    metrics_calculator = QuestionGenerationMetrics()
    all_generated_questions = []
    all_results = []

    print("\nGenerando preguntas de opción múltiple...")

    for i, example in enumerate(test_examples[:num_examples]):
        print(f"\n{'-'*60}")
        print(f"EJEMPLO {i+1}/{num_examples}")
        print(f"{'-'*60}")

        context = example["context"]
        correct_answer = example["answer"]

        print(f"CONTEXTO:\n{textwrap.fill(context, width=75)}")
        print(f"\nRESPUESTA ESPERADA: {correct_answer}")

        try:
            # Generar pregunta
            generated_question = generate_advanced_question(
                context, correct_answer, model, tokenizer
            )
            all_generated_questions.append(generated_question)

            print(f"PREGUNTA GENERADA: {generated_question}")

            # Generar distractores
            distractors = generate_sophisticated_distractors(
                context, correct_answer, generated_question, model, tokenizer
            )

            # Crear opciones de respuesta
            all_options = [correct_answer] + distractors
            random.shuffle(all_options)
            correct_index = all_options.index(correct_answer)

            print(f"\nOPCIONES DE RESPUESTA:")
            for j, option in enumerate(all_options):
                marker = " ✓ CORRECTA" if j == correct_index else ""
                print(f"{chr(65+j)}. {option}{marker}")

            # Calcular métricas de calidad
            # Para esto necesitaríamos preguntas de referencia, usaremos métricas heurísticas
            result = {
                "context": context,
                "answer": correct_answer,
                "generated_question": generated_question,
                "options": all_options,
                "correct_index": correct_index,
                "question_length": len(generated_question.split()),
                "has_question_word": any(word in generated_question.lower() for word in ['qué', 'cuál', 'cómo', 'por qué', 'quién', 'dónde', 'cuándo']),
                "ends_with_question_mark": generated_question.endswith('?')
            }

            all_results.append(result)

        except Exception as e:
            print(f"ERROR al procesar ejemplo {i+1}: {e}")
            continue

    # Calcular métricas globales
    print(f"\n{'='*60}")
    print("MÉTRICAS DE EVALUACIÓN")
    print(f"{'='*60}")

    if all_generated_questions:
        diversity_metrics = metrics_calculator.calculate_diversity_metrics(all_generated_questions)

        # Métricas de calidad
        valid_questions = sum(1 for r in all_results if r["has_question_word"] and r["ends_with_question_mark"])
        quality_score = valid_questions / len(all_results) if all_results else 0

        avg_length = np.mean([r["question_length"] for r in all_results])

        print(f"📊 MÉTRICAS GENERALES:")
        print(f"   • Preguntas generadas exitosamente: {len(all_generated_questions)}/{num_examples}")
        print(f"   • Calidad sintáctica: {quality_score:.2%}")
        print(f"   • Longitud promedio: {avg_length:.1f} palabras")

        print(f"\n📈 MÉTRICAS DE DIVERSIDAD:")
        print(f"   • Ratio de unicidad: {diversity_metrics['unique_ratio']:.2%}")
        print(f"   • Diversidad de tipos: {diversity_metrics['type_diversity']:.2%}")
        print(f"   • Longitud promedio: {diversity_metrics['avg_length']:.1f} palabras")

        # Guardar resultados
        results_file = os.path.join(OUTPUT_DIR, "evaluation_results.json")
        with open(results_file, 'w', encoding='utf-8') as f:
            json.dump({
                "results": all_results,
                "metrics": {
                    "quality_score": quality_score,
                    "average_length": avg_length,
                    "diversity_metrics": diversity_metrics
                }
            }, f, ensure_ascii=False, indent=2)

        print(f"\n💾 Resultados guardados en: {results_file}")

    else:
        print("❌ No se pudieron generar preguntas para evaluación")

    return all_results

# ============================================================================
# FUNCIÓN PRINCIPAL
# ============================================================================

def main():
    """Función principal que ejecuta todo el pipeline mejorado"""

    print("🚀 INICIANDO GENERADOR AVANZADO DE PREGUNTAS")
    print("Universidad Militar Nueva Granada - Deep Learning")
    print("Autores: Juan Quiroga y Marielby Paz")
    print("="*80)

    try:
        # Paso 1: Entrenar el modelo
        print("\n🔧 PASO 1: ENTRENAMIENTO AVANZADO")
        model, tokenizer = train_advanced_model()

        # Limpiar memoria después del entrenamiento
        gc.collect()
        if torch.cuda.is_available():
            torch.cuda.empty_cache()

        # Paso 2: Evaluación comprehensiva
        print("\n📊 PASO 2: EVALUACIÓN COMPREHENSIVA")
        evaluation_results = comprehensive_evaluation(model, tokenizer, num_examples=5)

        print("\n✅ PROCESO COMPLETADO EXITOSAMENTE")
        print("="*80)
        print(f"📁 Archivos generados en: {OUTPUT_DIR}/")
        print(f"🤖 Modelo guardado en: {MODEL_SAVE_DIR}/")
        print("🎯 El modelo está listo para generar preguntas de alta calidad!")

    except Exception as e:
        print(f"\n❌ ERROR CRÍTICO: {e}")
        print("Revisar logs para más detalles")
        raise

# ============================================================================
# EJECUCIÓN
# ============================================================================

if __name__ == "__main__":
    main()

Utilizando device: cuda
GPU disponible: Tesla T4
Memoria GPU total: 15.83 GB
🚀 INICIANDO GENERADOR AVANZADO DE PREGUNTAS
Universidad Militar Nueva Granada - Deep Learning
Autores: Juan Quiroga y Marielby Paz

🔧 PASO 1: ENTRENAMIENTO AVANZADO
INICIANDO ENTRENAMIENTO AVANZADO DEL GENERADOR DE PREGUNTAS


Cargando modelo EleutherAI/gpt-neo-1.3B con configuración LoRA...
trainable params: 7,864,320 || all params: 1,323,440,128 || trainable%: 0.5942


No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.



Creando dataset avanzado...
Cargados 3570 ejemplos de XQuAD (incluyendo aumentación)
Dataset dividido: 3034 entrenamiento, 536 validación

Optimizer and scheduler explicitly created and assigned.

Iniciando entrenamiento...


Epoch,Training Loss,Validation Loss
1,34.6369,1.311493
2,18.753,0.82644
3,9.922,0.417066
4,5.0217,0.303157
5,3.8978,0.270661
