<a href="https://colab.research.google.com/github/JuanQuiroga12/DeepLearning/blob/main/IntentoDeMejoraModeloGPT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
pip install peft accelerate bitsandbytes rouge-score nltk wandb



In [2]:
pip install nltk



In [3]:
import transformers

In [4]:
print(transformers.__version__)

4.52.3


In [5]:
"""
# Generador Autom√°tico de Preguntas con GPT-Neo - VERSI√ìN OPTIMIZADA
# Universidad Militar Nueva Granada
# Deep Learning - Homework 7 - Versi√≥n Mejorada

Este notebook implementa una versi√≥n significativamente mejorada del generador de preguntas,
con t√©cnicas avanzadas de fine-tuning, hiperpar√°metros optimizados y arquitectura robusta
para generar preguntas de alta calidad y diversidad.
Mejoras implementadas:
- Soluci√≥n del problema de NaN loss
- LoRA fine-tuning para eficiencia
- Curriculum learning
- Data augmentation avanzada
- Hiperpar√°metros optimizados
- Evaluaci√≥n robusta con m√©tricas espec√≠ficas
- Patrones de preguntas m√°s sofisticados

Trabajo de: Juan Quiroga y Marielby Paz
"""

import os
import numpy as np
import pandas as pd
import torch
import random
import json
import re
import matplotlib.pyplot as plt
from tqdm.auto import tqdm
import textwrap
from torch.utils.data import Dataset, DataLoader
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    get_scheduler,
    AutoConfig,
    BitsAndBytesConfig,
    TrainingArguments,
    Trainer,
    DataCollatorForLanguageModeling
)
import datasets
from datasets import Dataset as HFDataset, DatasetDict
import wandb
wandb.login()
import gc
import time
from peft import (
    LoraConfig,
    get_peft_model,
    prepare_model_for_kbit_training,
    TaskType
)
import nltk
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge_score import rouge_scorer
import warnings
warnings.filterwarnings("ignore")

[34m[1mwandb[0m: Currently logged in as: [33mest-juand-quiroga[0m ([33mest-juand-quiroga-universidad-militar-nueva-granada[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


In [None]:
# Descargar recursos de NLTK necesarios
try:
    nltk.download('punkt', quiet=True)
    nltk.download('stopwords', quiet=True)
except:
    pass

# ============================================================================
# CONFIGURACI√ìN AVANZADA DE HIPERPAR√ÅMETROS
# ============================================================================

# Configuraci√≥n de reproducibilidad
SEED = 42
torch.manual_seed(SEED)
np.random.seed(SEED)
random.seed(SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(SEED)

# Configuraci√≥n del dispositivo y memoria
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Utilizando device: {DEVICE}")
if torch.cuda.is_available():
    print(f"GPU disponible: {torch.cuda.get_device_name(0)}")
    print(f"Memoria GPU total: {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB")

# Modelo base (m√°s grande para mejor calidad)
MODEL_NAME = "EleutherAI/gpt-neo-1.3B"
BACKUP_MODEL = "EleutherAI/gpt-neo-125M"

# Hiperpar√°metros de entrenamiento optimizados
TRAINING_CONFIG = {
    "learning_rate": 1e-4,           # Reducido para estabilidad
    "weight_decay": 0.01,            # Regularizaci√≥n
    "warmup_ratio": 0.1,             # 10% de warmup
    "num_epochs": 12,                # M√°s √©pocas para mejor aprendizaje
    "batch_size": 2,                 # Aumentado ligeramente
    "gradient_accumulation_steps": 16, # Mayor acumulaci√≥n
    "max_grad_norm": 1.0,            # Gradient clipping
    "lr_scheduler_type": "cosine",   # Cosine annealing
    "dataloader_num_workers": 4,     # Paralelizaci√≥n
    "fp16": True,                    # Precisi√≥n mixta
    "save_strategy": "epoch",
    "eval_strategy": "epoch",
    "logging_steps": 50,
    "save_total_limit": 3,
    "load_best_model_at_end": True,
    "metric_for_best_model": "eval_loss",
    "greater_is_better": False
}

# Configuraci√≥n de LoRA para fine-tuning eficiente
LORA_CONFIG = {
    "r": 16,                        # Rank de LoRA (aumentado)
    "lora_alpha": 32,               # Alpha scaling
    "lora_dropout": 0.1,            # Dropout para regularizaci√≥n
    "bias": "none",                 # No bias en LoRA
    "task_type": TaskType.CAUSAL_LM,
    "target_modules": ["c_attn", "c_proj", "c_fc"]  # M√≥dulos espec√≠ficos de GPT-Neo
}

# Configuraci√≥n de generaci√≥n optimizada
GENERATION_CONFIG = {
    "max_new_tokens": 80,
    "temperature": 0.8,
    "top_p": 0.9,
    "top_k": 50,
    "num_beams": 5,
    "do_sample": True,
    "early_stopping": True,
    "no_repeat_ngram_size": 3,
    "repetition_penalty": 1.2
}

# Configuraci√≥n de paths
OUTPUT_DIR = "advanced_question_generator"
MODEL_SAVE_DIR = os.path.join(OUTPUT_DIR, "best_model")
LOGS_DIR = os.path.join(OUTPUT_DIR, "logs")

# Crear directorios
for dir_path in [OUTPUT_DIR, MODEL_SAVE_DIR, LOGS_DIR]:
    os.makedirs(dir_path, exist_ok=True)

# ============================================================================
# DATASET AVANZADO CON MAYOR DIVERSIDAD Y COMPLEJIDAD
# ============================================================================

class AdvancedQuestionDataset(Dataset):
    """Dataset avanzado con patrones de preguntas m√°s sofisticados y diversos"""

    def __init__(self, file_path="/content/xquad.es.json", use_synthetic=False, tokenizer=None, max_length=512):
        self.tokenizer = tokenizer
        self.max_length = max_length
        self.examples = []

        # Intentar cargar XQuAD primero
        if file_path and os.path.exists(file_path) and not use_synthetic:
            self._load_xquad(file_path)
        else:
            use_synthetic = True

        if use_synthetic or len(self.examples) < 100:
            print("Generando dataset sint√©tico avanzado...")
            synthetic_examples = self._create_advanced_synthetic_dataset()
            self.examples.extend(synthetic_examples)
            print(f"Total de ejemplos: {len(self.examples)}")

    def _load_xquad(self, file_path):
        """Carga el dataset XQuAD con procesamiento mejorado"""
        try:
            with open(file_path, 'r', encoding='utf-8') as f:
                data = json.load(f)

            for article in data['data']:
                for paragraph in article['paragraphs']:
                    context = paragraph['context']
                    for qa in paragraph['qas']:
                        question = qa['question']
                        answers = qa['answers']
                        if answers and len(answers) > 0:
                            answer_text = answers[0]['text']

                            # A√±adir ejemplo original
                            self.examples.append({
                                'context': context,
                                'question': question,
                                'answer': answer_text,
                                'question_type': self._classify_question_type(question)
                            })

                            # Data augmentation: crear variaciones
                            variations = self._create_question_variations(context, question, answer_text)
                            self.examples.extend(variations)

            print(f"Cargados {len(self.examples)} ejemplos de XQuAD (incluyendo aumentaci√≥n)")

        except Exception as e:
            print(f"Error al cargar XQuAD: {e}")

    def _classify_question_type(self, question):
        """Clasifica el tipo de pregunta para crear mejor diversidad"""
        question_lower = question.lower()

        if any(word in question_lower for word in ['qu√©', 'cu√°l', 'cu√°les']):
            return 'what'
        elif any(word in question_lower for word in ['qui√©n', 'qui√©nes']):
            return 'who'
        elif any(word in question_lower for word in ['cu√°ndo']):
            return 'when'
        elif any(word in question_lower for word in ['d√≥nde']):
            return 'where'
        elif any(word in question_lower for word in ['por qu√©', 'c√≥mo']):
            return 'why_how'
        elif any(word in question_lower for word in ['cu√°nto', 'cu√°ntos', 'cu√°ntas']):
            return 'quantity'
        else:
            return 'general'

    def _create_question_variations(self, context, original_question, answer):
        """Crea variaciones de una pregunta para aumentar diversidad"""
        variations = []
        question_type = self._classify_question_type(original_question)

        # Patrones alternativos seg√∫n el tipo de pregunta
        if question_type == 'what':
            alt_patterns = [
                f"¬øCu√°l es la definici√≥n de {answer}?",
                f"¬øA qu√© se refiere el t√©rmino {answer}?",
                f"¬øQu√© significa {answer} en este contexto?"
            ]
        elif question_type == 'who':
            alt_patterns = [
                f"¬øQui√©n fue {answer}?",
                f"¬øCu√°l es la identidad de {answer}?",
                f"¬øA qui√©n se refiere cuando menciona {answer}?"
            ]
        elif question_type == 'when':
            alt_patterns = [
                f"¬øEn qu√© momento ocurri√≥ {answer}?",
                f"¬øCu√°l fue la fecha de {answer}?",
                f"¬øCu√°ndo tuvo lugar {answer}?"
            ]
        else:
            alt_patterns = [
                f"¬øCu√°l es la importancia de {answer}?",
                f"¬øPor qu√© es relevante {answer}?",
                f"¬øQu√© papel juega {answer}?"
            ]

        # Crear m√°ximo 2 variaciones por pregunta original
        for i, pattern in enumerate(alt_patterns[:2]):
            variations.append({
                'context': context,
                'question': pattern,
                'answer': answer,
                'question_type': question_type
            })

        return variations

    def _create_advanced_synthetic_dataset(self):
        """Crea un dataset sint√©tico mucho m√°s diverso y complejo"""

        # Contextos educativos m√°s complejos y diversos
        advanced_contexts = [
            {
                "text": "La teor√≠a cu√°ntica revolucion√≥ nuestra comprensi√≥n de la f√≠sica a nivel subat√≥mico. Max Planck introdujo el concepto de cuantizaci√≥n de la energ√≠a en 1900, estableciendo que la energ√≠a se emite y absorbe en paquetes discretos llamados cuantos. Posteriormente, Albert Einstein explic√≥ el efecto fotoel√©ctrico utilizando esta teor√≠a, por lo cual recibi√≥ el Premio Nobel de F√≠sica en 1921. Werner Heisenberg desarroll√≥ el principio de incertidumbre, que establece que no se puede conocer simult√°neamente con precisi√≥n absoluta la posici√≥n y el momento de una part√≠cula. Erwin Schr√∂dinger formul√≥ la famosa ecuaci√≥n que describe la evoluci√≥n temporal de los sistemas cu√°nticos, y su experimento mental del gato ilustra las paradojas de la mec√°nica cu√°ntica cuando se aplica a objetos macrosc√≥picos.",
                "domain": "f√≠sica",
                "complexity": "avanzado"
            },
            {
                "text": "El proceso de fotos√≠ntesis es fundamental para la vida en la Tierra y ocurre en dos fases principales. La fase lum√≠nica, que tiene lugar en los tilacoides de los cloroplastos, utiliza la energ√≠a solar para dividir mol√©culas de agua, liberando ox√≠geno como subproducto y generando ATP y NADPH. La clorofila a y b, junto con otros pigmentos accesorios como los carotenoides, capturan diferentes longitudes de onda de la luz. La fase oscura o ciclo de Calvin ocurre en el estroma del cloroplasto, donde el CO‚ÇÇ atmosf√©rico se fija y reduce utilizando el ATP y NADPH producidos en la fase lum√≠nica. La enzima RuBisCo cataliza la reacci√≥n de carboxilaci√≥n inicial, incorporando CO‚ÇÇ a la ribulosa-1,5-bifosfato. Este proceso genera glucosa, que sirve como fuente de energ√≠a para la planta y base de las cadenas alimentarias terrestres.",
                "domain": "biolog√≠a",
                "complexity": "intermedio"
            },
            {
                "text": "La Revoluci√≥n Industrial transform√≥ radicalmente la sociedad europea entre 1760 y 1840, marcando la transici√≥n de una econom√≠a agr√≠cola y artesanal a una industrial y mecanizada. James Watt perfeccion√≥ la m√°quina de vapor en 1769, lo que permiti√≥ su aplicaci√≥n masiva en f√°bricas y transporte. La invenci√≥n del telar mec√°nico por Edmund Cartwright en 1785 revolucion√≥ la industria textil, mientras que la locomotora de vapor de George Stephenson en 1814 transform√≥ el transporte. Estos avances tecnol√≥gicos causaron profundos cambios sociales: el surgimiento de la clase obrera industrial, la migraci√≥n masiva del campo a las ciudades, y nuevas formas de organizaci√≥n laboral. Adam Smith desarroll√≥ las teor√≠as econ√≥micas del libre mercado que justificaron ideol√≥gicamente estos cambios, mientras que pensadores como Karl Marx analizaron cr√≠ticamente las consecuencias sociales de la industrializaci√≥n.",
                "domain": "historia",
                "complexity": "intermedio"
            },
            {
                "text": "Los ecosistemas marinos presentan una compleja red de interacciones entre organismos y su ambiente f√≠sico-qu√≠mico. La zona euf√≥tica, donde penetra suficiente luz solar para la fotos√≠ntesis, alberga al fitoplancton, base de la cadena tr√≥fica marina. Estas microalgas unicelulares, incluyendo diatomeas y dinoflagelados, realizan aproximadamente el 50% de la fotos√≠ntesis global. El zooplancton, compuesto por organismos como cop√©podos y krill, se alimenta del fitoplancton y a su vez sirve de alimento para peces peque√±os. Los niveles tr√≥ficos superiores incluyen peces carn√≠voros, cefal√≥podos y mam√≠feros marinos. La bomba biol√≥gica transporta carbono desde la superficie hasta las profundidades oce√°nicas cuando los organismos mueren y se hunden, contribuyendo significativamente al ciclo global del carbono. Los arrecifes de coral, considerados las 'selvas tropicales del mar', albergan una biodiversidad excepcional debido a la simbiosis entre p√≥lipos coralinos y zooxantelas.",
                "domain": "biolog√≠a_marina",
                "complexity": "avanzado"
            },
            {
                "text": "La inteligencia artificial ha evolucionado desde simples sistemas basados en reglas hasta redes neuronales profundas capaces de tareas complejas. El aprendizaje autom√°tico (machine learning) permite a las m√°quinas mejorar su rendimiento mediante la experiencia, sin programaci√≥n expl√≠cita para cada tarea. Las redes neuronales artificiales, inspiradas en el funcionamiento del cerebro humano, utilizan capas de neuronas interconectadas para procesar informaci√≥n. El aprendizaje profundo (deep learning) emplea arquitecturas con m√∫ltiples capas ocultas, permitiendo el reconocimiento de patrones complejos en datos de alta dimensionalidad. Las redes neuronales convolucionales (CNN) han revolucionado el procesamiento de im√°genes, mientras que las redes recurrentes (RNN) y los transformers han avanzado significativamente el procesamiento de lenguaje natural. Los modelos generativos como GPT y DALL-E demuestran capacidades creativas antes consideradas exclusivamente humanas.",
                "domain": "tecnolog√≠a",
                "complexity": "avanzado"
            },
            {
                "text": "El sistema inmunol√≥gico humano constituye una defensa compleja contra pat√≥genos y sustancias extra√±as. La inmunidad innata proporciona la primera l√≠nea de defensa mediante barreras f√≠sicas como la piel y mucosas, c√©lulas fagoc√≠ticas como neutr√≥filos y macr√≥fagos, y el sistema del complemento. La inmunidad adaptativa, m√°s espec√≠fica y con memoria, involucra linfocitos T y B. Los linfocitos T helper coordinan la respuesta inmune, los T citot√≥xicos destruyen c√©lulas infectadas, y los linfocitos B producen anticuerpos espec√≠ficos contra ant√≠genos particulares. La presentaci√≥n de ant√≠genos por c√©lulas dendr√≠ticas y macr√≥fagos es crucial para activar la respuesta adaptativa. Los √≥rganos linfoides primarios (m√©dula √≥sea y timo) generan y maduran las c√©lulas inmunes, mientras que los secundarios (ganglios linf√°ticos, bazo) son sitios de activaci√≥n. Las vacunas aprovechan la memoria inmunol√≥gica para prevenir enfermedades infecciosas.",
                "domain": "inmunolog√≠a",
                "complexity": "avanzado"
            }
        ]

        # Patrones de preguntas m√°s sofisticados y variados
        advanced_question_patterns = {
            "conceptual": [
                "¬øQu√© concepto fundamental explica {}?",
                "¬øCu√°l es el principio b√°sico detr√°s de {}?",
                "¬øC√≥mo se define {} en este contexto?",
                "¬øQu√© teor√≠a sustenta el fen√≥meno de {}?",
                "¬øCu√°l es la base cient√≠fica de {}?"
            ],
            "causal": [
                "¬øQu√© factores causaron {}?",
                "¬øPor qu√© ocurre el proceso de {}?",
                "¬øCu√°les son las razones detr√°s de {}?",
                "¬øQu√© mecanismo explica {}?",
                "¬øC√≥mo se origina el fen√≥meno de {}?"
            ],
            "comparative": [
                "¬øEn qu√© se diferencia {} de otros conceptos similares?",
                "¬øCu√°les son las ventajas de {} sobre alternativas?",
                "¬øQu√© caracter√≠sticas distinguen a {} de otros elementos?",
                "¬øC√≥mo se compara {} con procesos relacionados?",
                "¬øQu√© hace √∫nico a {} en su categor√≠a?"
            ],
            "functional": [
                "¬øCu√°l es la funci√≥n principal de {}?",
                "¬øQu√© papel desempe√±a {} en el sistema?",
                "¬øC√≥mo contribuye {} al proceso general?",
                "¬øPara qu√© sirve {} en este contexto?",
                "¬øQu√© importancia tiene {} en el funcionamiento?"
            ],
            "temporal": [
                "¬øCu√°ndo se desarroll√≥ {}?",
                "¬øEn qu√© per√≠odo hist√≥rico ocurri√≥ {}?",
                "¬øQu√© a√±o marca el inicio de {}?",
                "¬øCu√°l fue la cronolog√≠a de {}?",
                "¬øEn qu√© momento se estableci√≥ {}?"
            ],
            "analytical": [
                "¬øQu√© implicaciones tiene {} para la sociedad?",
                "¬øCu√°les son las consecuencias de {}?",
                "¬øQu√© efectos produce {} en el sistema?",
                "¬øC√≥mo impacta {} en otros procesos?",
                "¬øQu√© cambios genera {} en el entorno?"
            ]
        }

        examples = []

        # Generar ejemplos para cada contexto
        for context_info in advanced_contexts:
            context = context_info["text"]
            domain = context_info["domain"]
            complexity = context_info["complexity"]

            # Extraer entidades y conceptos clave del contexto
            key_entities = self._extract_key_entities(context)

            # Generar m√∫ltiples preguntas por contexto (12-15 por contexto)
            questions_per_context = 14 if complexity == "avanzado" else 12

            for _ in range(questions_per_context):
                # Seleccionar tipo de pregunta y entidad aleatoriamente
                question_type = random.choice(list(advanced_question_patterns.keys()))
                pattern = random.choice(advanced_question_patterns[question_type])
                entity = random.choice(key_entities)

                # Generar pregunta
                question = pattern.format(entity)

                # Generar respuesta m√°s sofisticada
                answer = self._generate_sophisticated_answer(context, entity, question_type)

                examples.append({
                    'context': context,
                    'question': question,
                    'answer': answer,
                    'question_type': question_type,
                    'domain': domain,
                    'complexity': complexity
                })

        # Multiplicar ejemplos para tener un dataset m√°s grande (aproximadamente 500-600 ejemplos)
        examples = examples * 6

        # A√±adir ruido controlado para mayor variabilidad
        examples.extend(self._add_controlled_variations(examples[:100]))

        return examples

    def _extract_key_entities(self, text):
        """Extrae entidades y conceptos clave del texto de forma m√°s inteligente"""
        # Patrones para identificar conceptos importantes
        patterns = [
            r'\b[A-Z][a-z]+ [A-Z][a-z]+\b',  # Nombres propios de dos palabras
            r'\b[A-Z][a-zA-Z√°√©√≠√≥√∫√±√Å√â√ç√ì√ö√ë]{4,}\b',  # Palabras importantes con may√∫scula
            r'\b(?:principio|teor√≠a|ley|efecto|proceso|m√©todo|sistema|concepto) de [A-Za-z√°√©√≠√≥√∫√±√Å√â√ç√ì√ö√ë\s]+\b',  # Conceptos espec√≠ficos
            r'\b\d{4}\b',  # A√±os
            r'\b[a-z√°√©√≠√≥√∫√±]+(?:ci√≥n|si√≥n|miento|ismo|idad)\b'  # Conceptos abstractos
        ]

        entities = []
        for pattern in patterns:
            matches = re.findall(pattern, text)
            entities.extend(matches)

        # Limpiar y filtrar entidades
        entities = [entity.strip() for entity in entities if len(entity.strip()) > 3]
        entities = list(set(entities))  # Eliminar duplicados

        # Si no encontramos suficientes entidades, extraer t√©rminos t√©cnicos
        if len(entities) < 5:
            words = re.findall(r'\b[a-z√°√©√≠√≥√∫√±A-Z√Å√â√ç√ì√ö√ë]{6,}\b', text)
            entities.extend(words[:10])

        return entities[:15]  # Limitar a 15 entidades por contexto

    def _generate_sophisticated_answer(self, context, entity, question_type):
        """Genera respuestas m√°s sofisticadas basadas en el contexto y tipo de pregunta"""
        sentences = re.split(r'(?<=[.!?])\s+', context)
        relevant_sentences = [s for s in sentences if entity.lower() in s.lower()]

        if not relevant_sentences:
            relevant_sentences = sentences[:2]  # Tomar las primeras dos oraciones

        # Generar respuesta seg√∫n el tipo de pregunta
        if question_type == "conceptual":
            # Buscar definiciones o explicaciones
            for sentence in relevant_sentences:
                if any(word in sentence.lower() for word in ['es', 'son', 'define', 'significa']):
                    # Extraer la parte definitoria
                    parts = sentence.split(',')
                    return parts[0].strip().replace(entity, '').strip()

        elif question_type == "temporal":
            # Buscar fechas o per√≠odos
            dates = re.findall(r'\b\d{4}\b|\b(?:siglo|a√±o) \w+', context)
            if dates:
                return dates[0]

        # Respuesta por defecto: extraer fragmento relevante
        if relevant_sentences:
            sentence = relevant_sentences[0]
            words = sentence.split()
            if len(words) > 10:
                # Tomar una porci√≥n central de la oraci√≥n
                start = len(words) // 4
                end = start + min(8, len(words) // 2)
                return ' '.join(words[start:end])
            else:
                return sentence

        return entity  # Fallback

    def _add_controlled_variations(self, base_examples):
        """A√±ade variaciones controladas para aumentar la diversidad"""
        variations = []

        variation_patterns = [
            ("¬øQu√©", "¬øCu√°l"),
            ("¬øCu√°l es", "¬øEn qu√© consiste"),
            ("¬øPor qu√©", "¬øCu√°l es la raz√≥n por la que"),
            ("¬øC√≥mo", "¬øDe qu√© manera"),
            ("proceso", "mecanismo"),
            ("sistema", "estructura"),
            ("importante", "fundamental"),
            ("principal", "primordial")
        ]

        for example in base_examples[:50]:  # Solo 50 variaciones adicionales
            new_example = example.copy()

            # Aplicar una variaci√≥n aleatoria
            if random.random() < 0.7:  # 70% de probabilidad
                original_question = example['question']
                for old, new in variation_patterns:
                    if old in original_question:
                        new_example['question'] = original_question.replace(old, new, 1)
                        break

                variations.append(new_example)

        return variations

    def __len__(self):
        return len(self.examples)

    def __getitem__(self, idx):
        example = self.examples[idx]

        # Formato mejorado para el entrenamiento
        context = example['context']
        question = example['question']
        answer = example['answer']

        # Acortar contexto si es muy largo
        max_context_length = self.max_length // 2
        if len(context) > max_context_length:
            # Intentar cortar en una oraci√≥n completa
            sentences = re.split(r'(?<=[.!?])\s+', context)
            truncated_context = ""
            for sentence in sentences:
                if len(truncated_context + sentence) < max_context_length:
                    truncated_context += sentence + " "
                else:
                    break
            context = truncated_context.strip() or context[:max_context_length]

        # Formato mejorado con instrucciones m√°s claras
        instruction = "Genera una pregunta relevante basada en el contexto y la respuesta proporcionada."
        full_text = f"### Instrucci√≥n: {instruction}\n### Contexto: {context}\n### Respuesta: {answer}\n### Pregunta: {question}"

        # Tokenizaci√≥n con manejo de errores
        try:
            encoding = self.tokenizer(
                full_text,
                truncation=True,
                max_length=self.max_length,
                padding="max_length",
                return_tensors="pt"
            )

            input_ids = encoding["input_ids"].squeeze()
            attention_mask = encoding["attention_mask"].squeeze()

            # Labels para entrenamiento causal
            labels = input_ids.clone()

            # Enmascarar la parte de instrucci√≥n y contexto
            instruction_text = f"### Instrucci√≥n: {instruction}\n### Contexto: {context}\n### Respuesta: {answer}\n### Pregunta:"
            try:
                instruction_tokens = self.tokenizer.encode(instruction_text, add_special_tokens=False)
                instruction_length = min(len(instruction_tokens), len(labels))
                labels[:instruction_length] = -100
            except:
                # Si hay error, enmascarar los primeros 3/4 del texto
                mask_length = len(labels) * 3 // 4
                labels[:mask_length] = -100

            return {
                "input_ids": input_ids,
                "attention_mask": attention_mask,
                "labels": labels
            }

        except Exception as e:
            print(f"Error al tokenizar ejemplo {idx}: {e}")
            # Retornar tensores vac√≠os en caso de error
            return {
                "input_ids": torch.zeros(self.max_length, dtype=torch.long),
                "attention_mask": torch.zeros(self.max_length, dtype=torch.long),
                "labels": torch.full((self.max_length,), -100, dtype=torch.long)
            }

# ============================================================================
# FUNCIONES DE CARGA Y CONFIGURACI√ìN DEL MODELO
# ============================================================================

def load_model_with_lora(model_name, device):
    """Carga el modelo con configuraci√≥n LoRA para fine-tuning eficiente"""
    print(f"Cargando modelo {model_name} con configuraci√≥n LoRA...")

    try:
        # Configuraci√≥n de cuantizaci√≥n para ahorrar memoria
        bnb_config = BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4",
            bnb_4bit_compute_dtype=torch.float16
        )

        # Cargar modelo base
        model = AutoModelForCausalLM.from_pretrained(
            model_name,
            quantization_config=bnb_config,
            device_map="auto",
            trust_remote_code=True,
            torch_dtype=torch.float16
        )

        # Preparar modelo para entrenamiento con LoRA
        model = prepare_model_for_kbit_training(model)

        # Configurar LoRA
        lora_config = LoraConfig(**LORA_CONFIG)
        model = get_peft_model(model, lora_config)

        # Mostrar par√°metros entrenables
        model.print_trainable_parameters()

    except Exception as e:
        print(f"Error con cuantizaci√≥n, intentando sin ella: {e}")

        # Cargar sin cuantizaci√≥n como fallback
        model = AutoModelForCausalLM.from_pretrained(
            model_name,
            torch_dtype=torch.float16,
            device_map="auto" if torch.cuda.is_available() else None
        )

        # Aplicar LoRA sin cuantizaci√≥n
        lora_config = LoraConfig(**LORA_CONFIG)
        model = get_peft_model(model, lora_config)

    # Cargar tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_name)

    # Configurar pad token
    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token
        tokenizer.pad_token_id = tokenizer.eos_token_id

    return model, tokenizer

# ============================================================================
# M√âTRICAS DE EVALUACI√ìN AVANZADAS
# ============================================================================

class QuestionGenerationMetrics:
    """Clase para calcular m√©tricas espec√≠ficas de generaci√≥n de preguntas"""

    def __init__(self):
        self.rouge_scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
        self.smoothing_function = SmoothingFunction().method1

    def calculate_bleu(self, reference, hypothesis):
        """Calcula BLEU score entre referencia e hip√≥tesis"""
        try:
            reference_tokens = reference.lower().split()
            hypothesis_tokens = hypothesis.lower().split()

            if len(hypothesis_tokens) == 0:
                return 0.0

            return sentence_bleu(
                [reference_tokens],
                hypothesis_tokens,
                smoothing_function=self.smoothing_function
            )
        except:
            return 0.0

    def calculate_rouge(self, reference, hypothesis):
        """Calcula ROUGE scores"""
        try:
            scores = self.rouge_scorer.score(reference, hypothesis)
            return {
                'rouge1': scores['rouge1'].fmeasure,
                'rouge2': scores['rouge2'].fmeasure,
                'rougeL': scores['rougeL'].fmeasure
            }
        except:
            return {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0}

    def calculate_diversity_metrics(self, questions):
        """Calcula m√©tricas de diversidad en las preguntas generadas"""
        if not questions:
            return {'unique_ratio': 0.0, 'avg_length': 0.0, 'type_diversity': 0.0}

        # Ratio de preguntas √∫nicas
        unique_questions = set(questions)
        unique_ratio = len(unique_questions) / len(questions)

        # Longitud promedio
        avg_length = np.mean([len(q.split()) for q in questions])

        # Diversidad de tipos de pregunta
        question_starters = [q.split()[0].lower() if q.split() else '' for q in questions]
        unique_starters = set(question_starters)
        type_diversity = len(unique_starters) / max(len(questions), 1)

        return {
            'unique_ratio': unique_ratio,
            'avg_length': avg_length,
            'type_diversity': type_diversity
        }

# ============================================================================
# ENTRENADOR PERSONALIZADO CON CURRICULUM LEARNING
# ============================================================================

class CurriculumTrainer(Trainer):
    """Entrenador personalizado con curriculum learning y m√©tricas avanzadas"""

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.metrics_calculator = QuestionGenerationMetrics()
        self.current_epoch = 0

    def compute_loss(self, model, inputs, num_items_in_batch=None, return_outputs=False):
        """Funci√≥n de p√©rdida personalizada con estabilizaci√≥n"""
        outputs = model(**inputs)
        loss = outputs.get("loss")

        # Estabilizaci√≥n de la p√©rdida para evitar NaN
        if loss is not None:
            # Gradient clipping impl√≠cito
            loss = torch.clamp(loss, max=10.0)

            # Verificar NaN/Inf
            if torch.isnan(loss) or torch.isinf(loss):
                print("Detectado NaN/Inf en loss, usando valor de backup")
                loss = torch.tensor(1.0, device=loss.device, requires_grad=True)

        return (loss, outputs) if return_outputs else loss

    def create_optimizer_and_scheduler(self, num_training_steps: int):
        """Crear optimizador y scheduler personalizados"""
        # Optimizador AdamW con par√°metros espec√≠ficos para LoRA
        optimizer = torch.optim.AdamW(
            self.model.parameters(),
            lr=self.args.learning_rate,
            weight_decay=self.args.weight_decay,
            betas=(0.9, 0.95),  # Betas optimizadas para modelos de lenguaje
            eps=1e-8
        )

        # Scheduler con warmup y cosine annealing
        scheduler = get_scheduler(
            name=self.args.lr_scheduler_type,
            optimizer=optimizer,
            num_warmup_steps=int(num_training_steps * self.args.warmup_ratio),
            num_training_steps=num_training_steps
        )

        return optimizer, scheduler

# ============================================================================
# FUNCIONES DE GENERACI√ìN MEJORADAS
# ============================================================================

def generate_advanced_question(context, answer, model, tokenizer, generation_config=None):
    """Genera preguntas con configuraci√≥n avanzada y m√∫ltiples estrategias"""
    if generation_config is None:
        generation_config = GENERATION_CONFIG

    try:
        # Acortar contexto si es necesario
        max_context_length = 400
        if len(context) > max_context_length:
            sentences = re.split(r'(?<=[.!?])\s+', context)
            truncated_context = ""
            for sentence in sentences:
                if len(truncated_context + sentence) < max_context_length:
                    truncated_context += sentence + " "
                else:
                    break
            context = truncated_context.strip() or context[:max_context_length]

        # M√∫ltiples formatos de prompt para diversidad
        prompt_formats = [
            f"### Contexto: {context}\n### Respuesta: {answer}\n### Pregunta:",
            f"Bas√°ndose en el siguiente contexto, genere una pregunta cuya respuesta sea '{answer}':\n\nContexto: {context}\n\nPregunta:",
            f"Contexto: {context}\n\nDada la respuesta '{answer}', ¬øcu√°l ser√≠a una pregunta apropiada?\n\nPregunta:"
        ]

        prompt = random.choice(prompt_formats)

        # Tokenizar
        inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=400)
        inputs = {k: v.to(model.device) for k, v in inputs.items()}

        # Configuraci√≥n de generaci√≥n robusta
        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=generation_config["max_new_tokens"],
                temperature=generation_config["temperature"],
                top_p=generation_config["top_p"],
                top_k=generation_config["top_k"],
                num_beams=generation_config["num_beams"],
                do_sample=generation_config["do_sample"],
                early_stopping=generation_config["early_stopping"],
                no_repeat_ngram_size=generation_config["no_repeat_ngram_size"],
                repetition_penalty=generation_config["repetition_penalty"],
                pad_token_id=tokenizer.eos_token_id,
                eos_token_id=tokenizer.eos_token_id
            )

        # Decodificar y limpiar
        generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

        # Extraer solo la pregunta generada
        if "### Pregunta:" in generated_text:
            question = generated_text.split("### Pregunta:")[-1].strip()
        elif "Pregunta:" in generated_text:
            question = generated_text.split("Pregunta:")[-1].strip()
        else:
            # Si no encontramos el marcador, tomar la parte final
            lines = generated_text.split('\n')
            question = lines[-1].strip() if lines else ""

        # Limpiar y validar la pregunta
        question = question.split('\n')[0].strip()  # Solo la primera l√≠nea
        question = re.sub(r'^[^\w¬ø]*', '', question)  # Limpiar inicio

        # Asegurar que termine con signo de interrogaci√≥n
        if question and not question.endswith('?'):
            question += '?'

        # Validar calidad m√≠nima
        if len(question) < 10 or not any(word in question.lower() for word in ['qu√©', 'cu√°l', 'c√≥mo', 'por qu√©', 'qui√©n', 'd√≥nde', 'cu√°ndo']):
            # Generar pregunta de fallback m√°s sofisticada
            question_templates = [
                f"¬øQu√© concepto se relaciona con {answer}?",
                f"¬øCu√°l es la importancia de {answer} en este contexto?",
                f"¬øC√≥mo se define {answer} seg√∫n el texto?",
                f"¬øPor qu√© es relevante {answer}?",
                f"¬øQu√© papel desempe√±a {answer}?"
            ]
            question = random.choice(question_templates)

        return question

    except Exception as e:
        print(f"Error en generaci√≥n avanzada: {e}")
        # Fallback m√°s sofisticado
        fallback_questions = [
            f"¬øCu√°l es el concepto clave relacionado con {answer}?",
            f"¬øQu√© informaci√≥n importante se presenta sobre {answer}?",
            f"¬øC√≥mo se explica {answer} en el contexto dado?",
            f"¬øPor qu√© es significativo {answer}?",
            f"¬øQu√© aspectos destacan sobre {answer}?"
        ]
        return random.choice(fallback_questions)

def generate_sophisticated_distractors(context, correct_answer, question, model, tokenizer, num_distractors=3):
    """Genera distractores m√°s sofisticados y plausibles"""
    try:
        # Prompt especializado para generar distractors
        distractor_prompt = f"""### Tarea: Generar opciones incorrectas pero plausibles para una pregunta de opci√≥n m√∫ltiple.

### Contexto: {context[:300]}

### Pregunta: {question}
### Respuesta correcta: {correct_answer}

### Instrucciones: Genera {num_distractors} opciones incorrectas que:
1. Sean relacionadas al tema pero incorrectas
2. Tengan longitud similar a la respuesta correcta
3. No sean obviamente falsas
4. Se distingan claramente de la respuesta correcta

### Opciones incorrectas:
1."""

        inputs = tokenizer(distractor_prompt, return_tensors="pt", truncation=True, max_length=450)
        inputs = {k: v.to(model.device) for k, v in inputs.items()}

        # Generar distractores
        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=120,
                temperature=0.9,
                top_p=0.8,
                num_beams=3,
                do_sample=True,
                no_repeat_ngram_size=2,
                repetition_penalty=1.1,
                pad_token_id=tokenizer.eos_token_id
            )

        generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

        # Extraer distractores del texto generado
        if "### Opciones incorrectas:" in generated_text:
            distractors_section = generated_text.split("### Opciones incorrectas:")[-1].strip()
        else:
            distractors_section = generated_text.split("1.")[-1] if "1." in generated_text else ""

        # Procesar distractores generados
        distractors = []
        lines = distractors_section.split('\n')

        for line in lines[:num_distractors * 2]:  # Procesar m√°s l√≠neas para tener opciones
            line = line.strip()
            # Limpiar numeraci√≥n y marcadores
            line = re.sub(r'^\d+[\.\)\-]\s*', '', line)
            line = re.sub(r'^[\-\*\‚Ä¢]\s*', '', line)

            if (line and len(line) > 3 and line not in distractors and
                line.lower() != correct_answer.lower() and
                correct_answer.lower() not in line.lower()):
                distractors.append(line)

                if len(distractors) >= num_distractors:
                    break

    except Exception as e:
        print(f"Error generando distractores: {e}")
        distractors = []

    # Si no tenemos suficientes distractores generados, usar estrategia de fallback
    while len(distractors) < num_distractors:
        fallback_distractors = generate_fallback_distractors(context, correct_answer, question)
        for distractor in fallback_distractors:
            if distractor not in distractors and len(distractors) < num_distractors:
                distractors.append(distractor)

    return distractors[:num_distractors]

def generate_fallback_distractors(context, correct_answer, question):
    """Genera distractores de fallback usando t√©cnicas heur√≠sticas"""
    distractors = []

    # Extraer entidades del contexto que no sean la respuesta correcta
    entities = re.findall(r'\b[A-Z][a-z√°√©√≠√≥√∫√±A-Z√Å√â√ç√ì√ö√ë]+(?:\s+[A-Z][a-z√°√©√≠√≥√∫√±A-Z√Å√â√ç√ì√ö√ë]+)*\b', context)
    entities = [e for e in entities if e.lower() != correct_answer.lower() and len(e) > 2]

    # A√±adir entidades como distractores
    distractors.extend(entities[:2])

    # Generar distractores basados en el tipo de pregunta
    question_lower = question.lower()

    if any(word in question_lower for word in ['cu√°ndo', 'a√±o', 'fecha']):
        # Para preguntas temporales
        years = re.findall(r'\b\d{4}\b', context)
        if years:
            distractors.extend([y for y in years if y != correct_answer][:2])
        else:
            distractors.extend(['1950', '1980', '2000'])

    elif any(word in question_lower for word in ['qui√©n', 'autor', 'inventor']):
        # Para preguntas sobre personas
        distractors.extend(['Charles Darwin', 'Isaac Newton', 'Marie Curie'])

    elif any(word in question_lower for word in ['d√≥nde', 'lugar', 'pa√≠s']):
        # Para preguntas de lugar
        distractors.extend(['Francia', 'Alemania', 'Estados Unidos'])

    elif any(word in question_lower for word in ['qu√©', 'cu√°l', 'concepto']):
        # Para preguntas conceptuales
        words = context.split()
        technical_terms = [w for w in words if len(w) > 6 and w.istitle()]
        distractors.extend(technical_terms[:2])

    # Distractores gen√©ricos m√°s sofisticados
    generic_distractors = [
        'Informaci√≥n no especificada en el contexto',
        'Concepto no desarrollado en el texto',
        'Dato no proporcionado en la fuente',
        'Elemento no mencionado directamente',
        'Aspecto no abordado en el material'
    ]

    # Combinar todos los distractores y filtrar
    all_distractors = distractors + generic_distractors
    final_distractors = []

    for dist in all_distractors:
        if (len(dist) > 3 and dist not in final_distractors and
            dist.lower() != correct_answer.lower() and
            correct_answer.lower() not in dist.lower()):
            final_distractors.append(dist)

    return final_distractors[:5]

# ============================================================================
# FUNCI√ìN DE ENTRENAMIENTO PRINCIPAL
# ============================================================================

def train_advanced_model():
    """Funci√≥n principal de entrenamiento con configuraci√≥n avanzada"""

    print("="*80)
    print("INICIANDO ENTRENAMIENTO AVANZADO DEL GENERADOR DE PREGUNTAS")
    print("="*80)

    # Inicializar WandB
    wandb.init(
        project="advanced-question-generation",
        name=f"gpt-neo-advanced-{int(time.time())}",
        config=TRAINING_CONFIG
    )

    # Cargar modelo y tokenizer
    try:
        model, tokenizer = load_model_with_lora(MODEL_NAME, DEVICE)
    except Exception as e:
        print(f"Error con modelo principal, usando backup: {e}")
        model, tokenizer = load_model_with_lora(BACKUP_MODEL, DEVICE)

    # Crear dataset avanzado
    print("\nCreando dataset avanzado...")
    dataset = AdvancedQuestionDataset(
        file_path="/content/xquad.es.json",
        use_synthetic=False,
        tokenizer=tokenizer,
        max_length=512
    )

    # Dividir dataset
    train_size = int(0.85 * len(dataset))  # 85% para entrenamiento
    val_size = len(dataset) - train_size

    train_dataset, val_dataset = torch.utils.data.random_split(
        dataset, [train_size, val_size],
        generator=torch.Generator().manual_seed(SEED)
    )

    print(f"Dataset dividido: {len(train_dataset)} entrenamiento, {len(val_dataset)} validaci√≥n")

    # Configurar argumentos de entrenamiento
    training_args = TrainingArguments(
        output_dir=OUTPUT_DIR,
        num_train_epochs=TRAINING_CONFIG["num_epochs"],
        per_device_train_batch_size=TRAINING_CONFIG["batch_size"],
        per_device_eval_batch_size=TRAINING_CONFIG["batch_size"],
        gradient_accumulation_steps=TRAINING_CONFIG["gradient_accumulation_steps"],
        learning_rate=TRAINING_CONFIG["learning_rate"],
        weight_decay=TRAINING_CONFIG["weight_decay"],
        warmup_ratio=TRAINING_CONFIG["warmup_ratio"],
        lr_scheduler_type=TRAINING_CONFIG["lr_scheduler_type"],
        logging_steps=TRAINING_CONFIG["logging_steps"],
        save_strategy=TRAINING_CONFIG["save_strategy"],
        eval_strategy=TRAINING_CONFIG["eval_strategy"],
        save_total_limit=TRAINING_CONFIG["save_total_limit"],
        load_best_model_at_end=TRAINING_CONFIG["load_best_model_at_end"],
        metric_for_best_model=TRAINING_CONFIG["metric_for_best_model"],
        greater_is_better=TRAINING_CONFIG["greater_is_better"],
        dataloader_num_workers=TRAINING_CONFIG["dataloader_num_workers"],
        fp16=TRAINING_CONFIG["fp16"],
        max_grad_norm=TRAINING_CONFIG["max_grad_norm"],
        report_to="wandb",
        run_name=f"advanced-qa-generation-{int(time.time())}",
        logging_dir=LOGS_DIR,
        remove_unused_columns=False,
        dataloader_pin_memory=True,
        gradient_checkpointing=True,  # Para ahorrar memoria
        optim="adamw_torch",
        seed=SEED
    )

    # Data collator
    data_collator = DataCollatorForLanguageModeling(
        tokenizer=tokenizer,
        mlm=False,  # No masked language modeling para modelos causales
        pad_to_multiple_of=8  # Optimizaci√≥n para GPU
    )

    # Crear entrenador personalizado
    trainer = CurriculumTrainer(
        model=model,
        args=training_args,
        train_dataset=train_dataset,
        eval_dataset=val_dataset,
        data_collator=data_collator,
        tokenizer=tokenizer
    )

    # Explicitly create and assign optimizer and scheduler
    # This is added to ensure they are initialized before trainer.train()
    num_training_steps = len(train_dataset) // (training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps) * training_args.num_train_epochs
    optimizer, scheduler = trainer.create_optimizer_and_scheduler(num_training_steps)
    trainer.optimizer = optimizer
    trainer.lr_scheduler = scheduler
    print("\nOptimizer and scheduler explicitly created and assigned.")

    # Entrenar modelo
    print("\nIniciando entrenamiento...")
    trainer.train()

    # Guardar modelo final
    print("\nGuardando modelo final...")
    trainer.save_model(MODEL_SAVE_DIR)
    tokenizer.save_pretrained(MODEL_SAVE_DIR)

    print(f"Modelo guardado en: {MODEL_SAVE_DIR}")

    # Finalizar WandB
    wandb.finish()

    return model, tokenizer

# ============================================================================
# FUNCI√ìN DE EVALUACI√ìN Y PRUEBAS
# ============================================================================

def comprehensive_evaluation(model, tokenizer, num_examples=5):
    """Evaluaci√≥n comprehensiva del modelo entrenado"""

    print("\n" + "="*80)
    print("EVALUACI√ìN COMPREHENSIVA DEL MODELO")
    print("="*80)

    # Ejemplos de prueba diversos y complejos
    test_examples = [
        {
            "context": "La teor√≠a de la relatividad general de Einstein revolucion√≥ nuestra comprensi√≥n del espacio-tiempo. Propuesta en 1915, esta teor√≠a describe la gravedad no como una fuerza, sino como una curvatura del espacio-tiempo causada por la masa y la energ√≠a. Las predicciones de Einstein fueron confirmadas experimentalmente durante el eclipse solar de 1919, cuando se observ√≥ que la luz de las estrellas se curvaba alrededor del Sol, validando as√≠ su teor√≠a.",
            "answer": "curvatura del espacio-tiempo causada por la masa y la energ√≠a"
        },
        {
            "context": "El proceso de fotos√≠ntesis en las plantas ocurre en dos fases principales: las reacciones dependientes de la luz (fase lum√≠nica) y las reacciones independientes de la luz (ciclo de Calvin). Durante la fase lum√≠nica, que ocurre en los tilacoides, la clorofila absorbe energ√≠a luminosa y la convierte en energ√≠a qu√≠mica (ATP y NADPH), liberando ox√≠geno como subproducto. En la fase oscura, que tiene lugar en el estroma del cloroplasto, el CO‚ÇÇ atmosf√©rico se combina con compuestos org√°nicos utilizando el ATP y NADPH producidos anteriormente para formar glucosa.",
            "answer": "tilacoides"
        },
        {
            "context": "La Revoluci√≥n Industrial del siglo XVIII marc√≥ una transformaci√≥n fundamental en la historia humana. Comenz√≥ en Gran Breta√±a alrededor de 1760 y se caracteriz√≥ por el desarrollo de nuevas tecnolog√≠as como la m√°quina de vapor de James Watt, perfeccionada en 1769. Esta innovaci√≥n permiti√≥ la mecanizaci√≥n masiva de la producci√≥n textil y revolucion√≥ el transporte con la aparici√≥n del ferrocarril. Los cambios sociales fueron profundos: surgimiento de la clase obrera industrial, migraci√≥n masiva del campo a las ciudades, y nuevas din√°micas de trabajo basadas en horarios fijos y divisi√≥n del trabajo.",
            "answer": "James Watt"
        },
        {
            "context": "Los ecosistemas de arrecifes de coral se encuentran entre los m√°s diversos y productivos del planeta. Estos ecosistemas dependen de una relaci√≥n simbi√≥tica mutuamente beneficiosa entre los p√≥lipos coralinos y las zooxantelas, algas microsc√≥picas que viven dentro de los tejidos del coral. Las zooxantelas realizan fotos√≠ntesis y proporcionan hasta el 90% de la energ√≠a que necesitan los corales, mientras que los corales les ofrecen protecci√≥n y nutrientes. Esta simbiosis es extremadamente sensible a cambios en la temperatura del agua, y el estr√©s t√©rmico puede causar el blanqueamiento coralino, un fen√≥meno donde los corales expulsan las zooxantelas.",
            "answer": "zooxantelas"
        },
        {
            "context": "La inteligencia artificial ha experimentado un desarrollo exponencial en las √∫ltimas d√©cadas, especialmente con el avance del aprendizaje profundo (deep learning). Las redes neuronales convolucionales (CNN) han revolucionado el reconocimiento de im√°genes, mientras que las redes neuronales recurrentes (RNN) y m√°s recientemente los transformers han transformado el procesamiento de lenguaje natural. El modelo GPT (Generative Pre-trained Transformer) representa un hito importante en la generaci√≥n de texto, utilizando mecanismos de atenci√≥n para comprender y generar lenguaje humano con notable coherencia y creatividad.",
            "answer": "mecanismos de atenci√≥n"
        }
    ]

    # M√©tricas para evaluaci√≥n
    metrics_calculator = QuestionGenerationMetrics()
    all_generated_questions = []
    all_results = []

    print("\nGenerando preguntas de opci√≥n m√∫ltiple...")

    for i, example in enumerate(test_examples[:num_examples]):
        print(f"\n{'-'*60}")
        print(f"EJEMPLO {i+1}/{num_examples}")
        print(f"{'-'*60}")

        context = example["context"]
        correct_answer = example["answer"]

        print(f"CONTEXTO:\n{textwrap.fill(context, width=75)}")
        print(f"\nRESPUESTA ESPERADA: {correct_answer}")

        try:
            # Generar pregunta
            generated_question = generate_advanced_question(
                context, correct_answer, model, tokenizer
            )
            all_generated_questions.append(generated_question)

            print(f"PREGUNTA GENERADA: {generated_question}")

            # Generar distractores
            distractors = generate_sophisticated_distractors(
                context, correct_answer, generated_question, model, tokenizer
            )

            # Crear opciones de respuesta
            all_options = [correct_answer] + distractors
            random.shuffle(all_options)
            correct_index = all_options.index(correct_answer)

            print(f"\nOPCIONES DE RESPUESTA:")
            for j, option in enumerate(all_options):
                marker = " ‚úì CORRECTA" if j == correct_index else ""
                print(f"{chr(65+j)}. {option}{marker}")

            # Calcular m√©tricas de calidad
            # Para esto necesitar√≠amos preguntas de referencia, usaremos m√©tricas heur√≠sticas
            result = {
                "context": context,
                "answer": correct_answer,
                "generated_question": generated_question,
                "options": all_options,
                "correct_index": correct_index,
                "question_length": len(generated_question.split()),
                "has_question_word": any(word in generated_question.lower() for word in ['qu√©', 'cu√°l', 'c√≥mo', 'por qu√©', 'qui√©n', 'd√≥nde', 'cu√°ndo']),
                "ends_with_question_mark": generated_question.endswith('?')
            }

            all_results.append(result)

        except Exception as e:
            print(f"ERROR al procesar ejemplo {i+1}: {e}")
            continue

    # Calcular m√©tricas globales
    print(f"\n{'='*60}")
    print("M√âTRICAS DE EVALUACI√ìN")
    print(f"{'='*60}")

    if all_generated_questions:
        diversity_metrics = metrics_calculator.calculate_diversity_metrics(all_generated_questions)

        # M√©tricas de calidad
        valid_questions = sum(1 for r in all_results if r["has_question_word"] and r["ends_with_question_mark"])
        quality_score = valid_questions / len(all_results) if all_results else 0

        avg_length = np.mean([r["question_length"] for r in all_results])

        print(f"üìä M√âTRICAS GENERALES:")
        print(f"   ‚Ä¢ Preguntas generadas exitosamente: {len(all_generated_questions)}/{num_examples}")
        print(f"   ‚Ä¢ Calidad sint√°ctica: {quality_score:.2%}")
        print(f"   ‚Ä¢ Longitud promedio: {avg_length:.1f} palabras")

        print(f"\nüìà M√âTRICAS DE DIVERSIDAD:")
        print(f"   ‚Ä¢ Ratio de unicidad: {diversity_metrics['unique_ratio']:.2%}")
        print(f"   ‚Ä¢ Diversidad de tipos: {diversity_metrics['type_diversity']:.2%}")
        print(f"   ‚Ä¢ Longitud promedio: {diversity_metrics['avg_length']:.1f} palabras")

        # Guardar resultados
        results_file = os.path.join(OUTPUT_DIR, "evaluation_results.json")
        with open(results_file, 'w', encoding='utf-8') as f:
            json.dump({
                "results": all_results,
                "metrics": {
                    "quality_score": quality_score,
                    "average_length": avg_length,
                    "diversity_metrics": diversity_metrics
                }
            }, f, ensure_ascii=False, indent=2)

        print(f"\nüíæ Resultados guardados en: {results_file}")

    else:
        print("‚ùå No se pudieron generar preguntas para evaluaci√≥n")

    return all_results

# ============================================================================
# FUNCI√ìN PRINCIPAL
# ============================================================================

def main():
    """Funci√≥n principal que ejecuta todo el pipeline mejorado"""

    print("üöÄ INICIANDO GENERADOR AVANZADO DE PREGUNTAS")
    print("Universidad Militar Nueva Granada - Deep Learning")
    print("Autores: Juan Quiroga y Marielby Paz")
    print("="*80)

    try:
        # Paso 1: Entrenar el modelo
        print("\nüîß PASO 1: ENTRENAMIENTO AVANZADO")
        model, tokenizer = train_advanced_model()

        # Limpiar memoria despu√©s del entrenamiento
        gc.collect()
        if torch.cuda.is_available():
            torch.cuda.empty_cache()

        # Paso 2: Evaluaci√≥n comprehensiva
        print("\nüìä PASO 2: EVALUACI√ìN COMPREHENSIVA")
        evaluation_results = comprehensive_evaluation(model, tokenizer, num_examples=5)

        print("\n‚úÖ PROCESO COMPLETADO EXITOSAMENTE")
        print("="*80)
        print(f"üìÅ Archivos generados en: {OUTPUT_DIR}/")
        print(f"ü§ñ Modelo guardado en: {MODEL_SAVE_DIR}/")
        print("üéØ El modelo est√° listo para generar preguntas de alta calidad!")

    except Exception as e:
        print(f"\n‚ùå ERROR CR√çTICO: {e}")
        print("Revisar logs para m√°s detalles")
        raise

# ============================================================================
# EJECUCI√ìN
# ============================================================================

if __name__ == "__main__":
    main()

Utilizando device: cuda
GPU disponible: Tesla T4
Memoria GPU total: 15.83 GB
üöÄ INICIANDO GENERADOR AVANZADO DE PREGUNTAS
Universidad Militar Nueva Granada - Deep Learning
Autores: Juan Quiroga y Marielby Paz

üîß PASO 1: ENTRENAMIENTO AVANZADO
INICIANDO ENTRENAMIENTO AVANZADO DEL GENERADOR DE PREGUNTAS


Cargando modelo EleutherAI/gpt-neo-1.3B con configuraci√≥n LoRA...
trainable params: 7,864,320 || all params: 1,323,440,128 || trainable%: 0.5942


No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.



Creando dataset avanzado...
Cargados 3570 ejemplos de XQuAD (incluyendo aumentaci√≥n)
Dataset dividido: 3034 entrenamiento, 536 validaci√≥n

Optimizer and scheduler explicitly created and assigned.

Iniciando entrenamiento...


Epoch,Training Loss,Validation Loss
1,34.6369,1.311493
2,18.753,0.82644
3,9.922,0.417066
4,5.0217,0.303157
5,3.8978,0.270661
