In [40]:
# 🧪 PRUEBA SIMPLE DE TRANSFORMERS - Python 3.13
# Verificación básica antes de continuar

print("🔍 Verificando Transformers paso a paso...")

try:
    print("Paso 1: Importando transformers...")
    import transformers
    print(f"✅ Transformers {transformers.__version__} importado")
    
    print("Paso 2: Importando GPT2Tokenizer...")
    from transformers import GPT2Tokenizer
    print("✅ GPT2Tokenizer importado")
    
    print("Paso 3: Creando tokenizer...")
    tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
    print("✅ Tokenizer creado exitosamente")
    
    print("Paso 4: Probando tokenización...")
    texto = "Hello, world!"
    tokens = tokenizer.encode(texto)
    print(f"✅ Texto tokenizado: {tokens}")
    
    print("Paso 5: Importando modelo...")
    from transformers import GPT2LMHeadModel
    print("✅ GPT2LMHeadModel importado")
    
    print("🎉 ¡TRANSFORMERS FUNCIONA PERFECTAMENTE!")
    
except Exception as e:
    print(f"❌ Error: {e}")
    print(f"📝 Tipo: {type(e).__name__}")
    
    # Información adicional de debug
    import sys
    print(f"\n🔍 Debug info:")
    print(f"- Python: {sys.version}")
    print(f"- Módulos cargados: {list(sys.modules.keys())[:10]}...")


🔍 Verificando Transformers paso a paso...
Paso 1: Importando transformers...
✅ Transformers 4.53.0 importado
Paso 2: Importando GPT2Tokenizer...
✅ GPT2Tokenizer importado
Paso 3: Creando tokenizer...
❌ Error: Could not import module 'GenerationMixin'. Are this object's requirements defined correctly?
📝 Tipo: ModuleNotFoundError

🔍 Debug info:
- Python: 3.13.3 (tags/v3.13.3:6280bb5, Apr  8 2025, 14:47:33) [MSC v.1943 64 bit (AMD64)]


# 📋 Estructura del Proyecto - 5 Etapas

Este notebook está organizado en 5 etapas claramente definidas para facilitar su comprensión y ejecución:

## 🔧 Etapa 1: Configuración y Descarga de Datos
- Instalación de dependencias necesarias (Transformers, PyTorch, etc.)
- Verificación de GPU y configuración del dispositivo
- Descarga automática de textos del Proyecto Gutenberg

## 📊 Etapa 2: Preprocesamiento y Análisis Exploratorio
- Limpieza y tokenización de textos
- Análisis del corpus y vocabulario
- Preparación de secuencias para el modelo LSTM

## 🏗️ Etapa 3: Arquitectura del Modelo
- Fine-tuning de GPT-2 para generación de texto
- Configuración de tokenizador y modelo preentrenado
- Preparación para entrenamiento con Transformers

## 🚀 Etapa 4: Entrenamiento
- Entrenamiento del modelo por 5 épocas
- Monitoreo en tiempo real del progreso
- Guardado del mejor modelo

## 📈 Etapa 5: Evaluación y Resultados
- Generación de texto automático
- Análisis de la calidad del texto generado
- Visualización de métricas de rendimiento

---

# Generación de Texto Automático - Project Gutenberg
## Framework: Transformers (Sin TensorFlow)
### Generar texto similar al estilo de autores clásicos usando GPT-2

In [35]:
# 🔧 CONFIGURACIÓN COMPATIBLE - GENERACIÓN DE TEXTO
# Versión optimizada para Python 3.8-3.13 con manejo de incompatibilidades

import subprocess
import sys
import warnings
warnings.filterwarnings('ignore')

print("🔧 Configurando entorno para generación de texto...")
print(f"📋 Python version: {sys.version}")

# Detectar versión de Python
python_version = sys.version_info
is_python_313 = python_version >= (3, 13)

if is_python_313:
    print("✅ Python 3.13 detectado - configurando paquetes compatibles")
    packages_to_install = [
        "numpy==1.26.4",  # Versión específica compatible con Python 3.13
        "scipy==1.13.1",  # Versión específica compatible
        "scikit-learn==1.5.2",  # Versión específica compatible
        "torch==2.5.1",  # Versión más reciente compatible
        "transformers==4.45.2",  # Versión específica que funciona con las dependencias
        "tokenizers==0.20.1",  # Versión compatible
        "matplotlib==3.9.2",
        "seaborn==0.13.2", 
        "tqdm==4.66.5",
        "requests==2.32.3",
        "datasets==3.0.1",
        "accelerate==1.0.1",
        "nltk==3.9.1"
    ]
else:
    print("✅ Python compatible detectado - usando versiones estándar")
    packages_to_install = [
        "numpy>=1.21.0,<2.0.0",
        "torch",
        "transformers>=4.20.0",
        "datasets",
        "matplotlib",
        "seaborn",
        "scikit-learn", 
        "tqdm",
        "requests",
        "nltk"
    ]

print("\n📦 Instalando dependencias...")
failed_packages = []

for package in packages_to_install:
    print(f"   📦 Instalando: {package}")
    try:
        result = subprocess.run([sys.executable, "-m", "pip", "install", package, "--no-cache-dir", "-q"],
                              capture_output=True, text=True, check=True)
        print(f"   ✅ {package.split('==')[0].split('>=')[0]} instalado correctamente")
    except subprocess.CalledProcessError as e:
        print(f"   ❌ Error con {package}: {e.stderr if e.stderr else 'Error desconocido'}")
        failed_packages.append(package)
        
        # Intentar instalación alternativa para paquetes críticos
        if any(critical in package for critical in ['numpy', 'torch', 'transformers']):
            print(f"   🔄 Intentando instalación alternativa para {package}...")
            try:
                base_package = package.split('==')[0].split('>=')[0]
                result = subprocess.run([sys.executable, "-m", "pip", "install", base_package, "--upgrade", "--no-cache-dir", "-q"],
                                      capture_output=True, text=True, check=True)
                print(f"   ✅ {base_package} instalado con versión alternativa")
                failed_packages.remove(package)
            except:
                print(f"   ❌ Instalación alternativa falló para {base_package}")

if failed_packages:
    print(f"\n⚠️ Algunos paquetes fallaron: {failed_packages}")
    print("💡 El notebook continuará con funcionalidad limitada")
else:
    print("\n🎉 Todas las dependencias instaladas correctamente!")

print("\n🔍 Verificando instalación...")
try:
    import torch
    print(f"✅ PyTorch: {torch.__version__}")
    print(f"🚀 CUDA disponible: {torch.cuda.is_available()}")
    
    if torch.cuda.is_available():
        print(f"🎮 GPU: {torch.cuda.get_device_name(0)}")
    else:
        print("💻 Usando CPU")
        
except ImportError as e:
    print(f"❌ Error importando PyTorch: {e}")

print("\n✅ Configuración completada!")

🔧 Configurando entorno para generación de texto...
📋 Python version: 3.13.3 (tags/v3.13.3:6280bb5, Apr  8 2025, 14:47:33) [MSC v.1943 64 bit (AMD64)]
✅ Python 3.13 detectado - configurando paquetes compatibles

📦 Instalando dependencias...
   📦 Instalando: numpy==1.26.4
   ✅ numpy instalado correctamente
   📦 Instalando: scipy==1.13.1
   ✅ numpy instalado correctamente
   📦 Instalando: scipy==1.13.1
   ❌ Error con scipy==1.13.1:   error: subprocess-exited-with-error
  
  Ã— Preparing metadata (pyproject.toml) did not run successfully.
  â”‚ exit code: 1
  â•°â”€> [47 lines of output]
      + meson setup C:\Users\Cristhian Ismael\AppData\Local\Temp\pip-install-lc7uz0bp\scipy_4631eb5792ee453994d318759064674f C:\Users\Cristhian Ismael\AppData\Local\Temp\pip-install-lc7uz0bp\scipy_4631eb5792ee453994d318759064674f\.mesonpy-tjp3y3l8 -Dbuildtype=release -Db_ndebug=if-release -Db_vscrt=md --native-file=C:\Users\Cristhian Ismael\AppData\Local\Temp\pip-install-lc7uz0bp\scipy_4631eb5792ee453994d3

In [45]:
# ✅ CONFIGURACIÓN SIMPLIFICADA - SOLO LIBRERÍAS COMPATIBLES
# Usando únicamente las librerías que funcionan con Python 3.13

import warnings
warnings.filterwarnings('ignore')

print("📚 Importando solo librerías compatibles...")

# Importaciones básicas que SÍ funcionan
import os
import sys
import time
import re
import random
import numpy as np
from tqdm import tqdm
import requests

print("✅ Librerías básicas importadas correctamente")
print(f"   - NumPy: {np.__version__}")

# Verificar PyTorch (compatible)
try:
    import torch
    import torch.nn as nn
    from torch.utils.data import Dataset, DataLoader
    print(f"✅ PyTorch: {torch.__version__}")

    # Configurar dispositivo
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    print(f"🔧 Dispositivo configurado: {device}")

    if torch.cuda.is_available():
        print(f"🎮 GPU: {torch.cuda.get_device_name(0)}")
    else:
        print("💻 Usando CPU")

except ImportError as e:
    print(f"❌ Error importando PyTorch: {e}")
    device = torch.device('cpu')

# Crear un tokenizador MANUAL sin Transformers
class SimpleTokenizer:
    """Tokenizador simple para generar texto sin dependencias externas"""
    
    def __init__(self):
        self.char_to_idx = {}
        self.idx_to_char = {}
        self.vocab_size = 0
        
    def fit(self, text):
        """Entrenar el tokenizador con el texto"""
        chars = sorted(set(text))
        self.vocab_size = len(chars)
        
        self.char_to_idx = {ch: i for i, ch in enumerate(chars)}
        self.idx_to_char = {i: ch for i, ch in enumerate(chars)}
        
        print(f"✅ Tokenizador entrenado: {self.vocab_size} caracteres únicos")
        return self
    
    def encode(self, text):
        """Convertir texto a secuencia de números"""
        return [self.char_to_idx.get(ch, 0) for ch in text]
    
    def decode(self, tokens):
        """Convertir secuencia de números a texto"""
        return ''.join([self.idx_to_char.get(token, '?') for token in tokens])

# Modelo LSTM simple usando solo PyTorch
class SimpleLSTMGenerator(nn.Module):
    """Modelo LSTM simple para generar texto"""
    
    def __init__(self, vocab_size, embed_size=128, hidden_size=256, num_layers=2):
        super(SimpleLSTMGenerator, self).__init__()
        
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.lstm = nn.LSTM(embed_size, hidden_size, num_layers, batch_first=True)
        self.dropout = nn.Dropout(0.3)
        self.fc = nn.Linear(hidden_size, vocab_size)
        
    def forward(self, x, hidden=None):
        embedded = self.embedding(x)
        output, hidden = self.lstm(embedded, hidden)
        output = self.dropout(output)
        output = self.fc(output)
        return output, hidden

print("✅ Clases personalizadas definidas")

# Dataset personalizado
class TextDataset(Dataset):
    """Dataset personalizado para secuencias de texto"""
    
    def __init__(self, text, tokenizer, seq_length=50):
        self.seq_length = seq_length
        self.tokens = tokenizer.encode(text)
        
    def __len__(self):
        return len(self.tokens) - self.seq_length
    
    def __getitem__(self, idx):
        input_seq = torch.tensor(self.tokens[idx:idx + self.seq_length], dtype=torch.long)
        target_seq = torch.tensor(self.tokens[idx + 1:idx + self.seq_length + 1], dtype=torch.long)
        return input_seq, target_seq

print("✅ Dataset personalizado definido")

# Función de generación de texto
def generate_text(model, tokenizer, seed_text, max_length=200, temperature=0.8):
    """Generar texto usando el modelo entrenado"""
    model.eval()
    
    with torch.no_grad():
        # Preparar entrada inicial
        current_seq = tokenizer.encode(seed_text)
        generated = current_seq.copy()
        
        hidden = None
        
        for _ in range(max_length):
            # Convertir a tensor
            input_tensor = torch.tensor([current_seq], dtype=torch.long).to(device)
            
            # Predicción
            output, hidden = model(input_tensor, hidden)
            
            # Aplicar temperatura y seleccionar siguiente token
            logits = output[0, -1] / temperature
            probabilities = torch.softmax(logits, dim=0)
            next_token = torch.multinomial(probabilities, 1).item()
            
            generated.append(next_token)
            current_seq = current_seq[1:] + [next_token]
            
            # Parar si se encuentra un token de fin (opcional)
            if next_token == 0:  # Asumiendo que 0 es un token especial
                break
    
    return tokenizer.decode(generated)

print("✅ Función de generación definida")

# Configurar reproducibilidad
SEED = 42
random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed(SEED)
    torch.cuda.manual_seed_all(SEED)

print("\n🎯 Configuración completada - Solo librerías compatibles!")
print("💡 Usando implementación propia sin dependencias problemáticas")

📚 Importando solo librerías compatibles...
✅ Librerías básicas importadas correctamente
   - NumPy: 2.2.6
✅ PyTorch: 2.7.1+cu118
🔧 Dispositivo configurado: cuda
🎮 GPU: NVIDIA GeForce RTX 3050 Ti Laptop GPU
✅ Clases personalizadas definidas
✅ Dataset personalizado definido
✅ Función de generación definida

🎯 Configuración completada - Solo librerías compatibles!
💡 Usando implementación propia sin dependencias problemáticas


# 📊 ETAPA 2: PREPROCESAMIENTO Y ANÁLISIS EXPLORATORIO
---

In [46]:
# Descargar textos de Project Gutenberg
def download_gutenberg_text(book_id, title):
    """Descargar libro de Project Gutenberg"""
    url = f"https://www.gutenberg.org/files/{book_id}/{book_id}-0.txt"

    try:
        response = requests.get(url)
        response.raise_for_status()

        # Limpiar texto
        text = response.text

        # Encontrar inicio y fin del texto principal
        start_markers = ["*** START OF", "***START OF"]
        end_markers = ["*** END OF", "***END OF"]

        start_idx = 0
        for marker in start_markers:
            idx = text.find(marker)
            if idx != -1:
                start_idx = text.find('\n', idx) + 1
                break

        end_idx = len(text)
        for marker in end_markers:
            idx = text.find(marker)
            if idx != -1:
                end_idx = idx
                break

        text = text[start_idx:end_idx]

        # Guardar archivo
        filename = f"{title.replace(' ', '_').lower()}.txt"
        with open(filename, 'w', encoding='utf-8') as f:
            f.write(text)

        print(f"Descargado: {title} - {len(text)} caracteres")
        return filename, text

    except Exception as e:
        print(f"Error descargando {title}: {e}")
        return None, None

# Lista de libros para descargar
books = [
    (1513, "Romeo and Juliet"),
    (1524, "Hamlet"),
    (1533, "Macbeth"),
    (1540, "The Tempest"),
    (23, "A Midsummer Night's Dream")
]

# Descargar todos los libros
all_texts = []
for book_id, title in books:
    filename, text = download_gutenberg_text(book_id, title)
    if text:
        all_texts.append(text)

# Combinar todos los textos
combined_text = '\n\n'.join(all_texts)
print(f"\nTexto combinado: {len(combined_text)} caracteres")
print(f"Primeros 500 caracteres:\n{combined_text[:500]}...")

Descargado: Romeo and Juliet - 147743 caracteres
Descargado: Hamlet - 184685 caracteres
Descargado: Macbeth - 108654 caracteres
Descargado: The Tempest - 102608 caracteres
Descargado: A Midsummer Night's Dream - 227722 caracteres

Texto combinado: 771420 caracteres
Primeros 500 caracteres:




THE TRAGEDY OF ROMEO AND JULIET

by William Shakespeare




Contents

THE PROLOGUE.

ACT I
Scene I. A public place.
Scene II. A Street.
Scene III. Room in Capulet’s House.
Scene IV. A Street.
Scene V. A Hall in Capulet’s House.

ACT II
CHORUS.
Scene I. An open place adjoining Capulet’s Garden.
Scene II. Capulet’s Garden.
Scene III. Friar Lawrence’s Cell.
Scene IV. A Street.
Scene V. Capulet’s Garden.
Scene VI. Friar Lawrence’s Cell.

ACT III
Scene I. A public ...


In [47]:
import re
import pickle
from transformers import GPT2Tokenizer

print("Preparando texto para fine-tuning de GPT-2...")

# Inicializar tokenizador de GPT-2
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

# Añadir token de padding si no existe
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

print(f"Tokenizador cargado: {tokenizer.name_or_path}")
print(f"Vocabulario: {len(tokenizer)} tokens")

# Limpiar y preparar texto
def clean_text_for_gpt2(text):
    text = re.sub(r'\s+', ' ', text)
    text = re.sub(r'[^\w\s\.\,\!\?\;\:\-\"\'\(\)]', '', text)
    text = re.sub(r'\s+([\.,:;!?])', r'\1', text)
    return text.strip()

# 👉 Asegúrate de definir esta variable:
# combined_text = "Tu texto aquí..."

clean_combined_text = clean_text_for_gpt2(combined_text)

# Tokenizar texto
print("Tokenizando texto...")
tokens = tokenizer.encode(clean_combined_text)
print(f"Texto tokenizado: {len(tokens)} tokens")

def create_text_chunks(tokens, chunk_size=512, overlap=50):
    chunks = []
    for i in range(0, len(tokens) - chunk_size, chunk_size - overlap):
        chunk = tokens[i:i + chunk_size]
        if len(chunk) == chunk_size:
            chunks.append(chunk)
    return chunks

CHUNK_SIZE = 256
chunks = create_text_chunks(tokens, CHUNK_SIZE)
print(f"Creados {len(chunks)} chunks de texto para entrenamiento")

print("\n=== EJEMPLOS DE TEXTO PROCESADO ===")
for i in range(min(3, len(chunks))):
    decoded = tokenizer.decode(chunks[i][:50])
    print(f"Chunk {i+1}: {decoded}...")

preprocessed_data = {
    'chunks': chunks,
    'tokenizer_name': 'gpt2',
    'chunk_size': CHUNK_SIZE,
    'total_tokens': len(tokens)
}

with open('preprocessed_shakespeare.pkl', 'wb') as f:
    pickle.dump(preprocessed_data, f)

print("Datos preprocessados guardados exitosamente")


Preparando texto para fine-tuning de GPT-2...


ModuleNotFoundError: Could not import module 'GenerationMixin'. Are this object's requirements defined correctly?

In [48]:
# 🔧 PROCESAMIENTO DE TEXTO - SOLO LIBRERÍAS COMPATIBLES
import re
import pickle

print("🔧 Preparando texto con tokenizador compatible...")

# Verificar que tenemos texto de la celda anterior
if 'combined_text' not in locals():
    print("⚠️ No se encuentra 'combined_text'. Usando texto de ejemplo...")
    combined_text = """
    To be or not to be, that is the question.
    Whether 'tis nobler in the mind to suffer
    The slings and arrows of outrageous fortune,
    Or to take arms against a sea of troubles
    And by opposing end them.
    """

print(f"📄 Texto disponible: {len(combined_text)} caracteres")

# Limpiar texto
def clean_text_simple(text):
    """Limpiar texto manteniendo solo caracteres importantes"""
    # Convertir a minúsculas
    text = text.lower()
    
    # Mantener solo letras, números, espacios y puntuación básica
    text = re.sub(r'[^a-zA-Z0-9\s\.\,\!\?\;\:\-\"\'\(\)\n]', '', text)
    
    # Normalizar espacios
    text = re.sub(r'\s+', ' ', text)
    
    # Limpiar líneas vacías múltiples
    text = re.sub(r'\n\s*\n', '\n', text)
    
    return text.strip()

clean_combined_text = clean_text_simple(combined_text)
print(f"✅ Texto limpio: {len(clean_combined_text)} caracteres")

# Crear y entrenar tokenizador simple
tokenizer = SimpleTokenizer()
tokenizer.fit(clean_combined_text)

print(f"📝 Vocabulario: {tokenizer.vocab_size} caracteres únicos")
print(f"   Caracteres: {list(tokenizer.char_to_idx.keys())[:20]}...")

# Tokenizar texto completo
tokens = tokenizer.encode(clean_combined_text)
print(f"🔠 Texto tokenizado: {len(tokens)} tokens")

# Crear chunks para entrenamiento
def create_text_chunks(tokens, chunk_size=100, overlap=25):
    chunks = []
    for i in range(0, len(tokens) - chunk_size, chunk_size - overlap):
        chunk = tokens[i:i + chunk_size]
        if len(chunk) == chunk_size:
            chunks.append(chunk)
    return chunks

CHUNK_SIZE = 100
chunks = create_text_chunks(tokens, CHUNK_SIZE)
print(f"📦 Creados {len(chunks)} chunks de entrenamiento")

# Mostrar ejemplos
print("\n=== EJEMPLOS DE TEXTO PROCESADO ===")
for i in range(min(3, len(chunks))):
    if len(chunks[i]) >= 30:
        decoded = tokenizer.decode(chunks[i][:30])
        print(f"Chunk {i+1}: {decoded}...")

# Guardar datos preprocessados
preprocessed_data = {
    'chunks': chunks,
    'tokenizer': tokenizer,
    'vocab_size': tokenizer.vocab_size,
    'chunk_size': CHUNK_SIZE,
    'total_tokens': len(tokens),
    'clean_text': clean_combined_text[:1000]  # Solo primeros 1000 chars para referencia
}

with open('preprocessed_simple.pkl', 'wb') as f:
    pickle.dump(preprocessed_data, f)

print("💾 Datos preprocessados guardados en 'preprocessed_simple.pkl'")
print("✅ Preprocesamiento completado con éxito")

🔧 Preparando texto con tokenizador compatible...
📄 Texto disponible: 771420 caracteres
✅ Texto limpio: 734945 caracteres
✅ Tokenizador entrenado: 46 caracteres únicos
📝 Vocabulario: 46 caracteres únicos
   Caracteres: [' ', '!', '(', ')', ',', '-', '.', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', '?']...
🔠 Texto tokenizado: 734945 tokens
📦 Creados 9798 chunks de entrenamiento

=== EJEMPLOS DE TEXTO PROCESADO ===
Chunk 1: the tragedy of romeo and julie...
Chunk 2: e. act i scene i. a public pla...
Chunk 3: pulets house. scene iv. a stre...
💾 Datos preprocessados guardados en 'preprocessed_simple.pkl'
✅ Preprocesamiento completado con éxito


In [None]:
# 🚀 ENTRENAMIENTO DEL MODELO - SOLO LIBRERÍAS COMPATIBLES
import os
import pickle
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader

print("🚀 ENTRENAMIENTO DEL MODELO - SOLO LIBRERÍAS COMPATIBLES")

# Configuración
SEED = 42
torch.manual_seed(SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(SEED)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"✅ Dispositivo: {device}")

# Cargar datos preprocessados
try:
    with open('preprocessed_simple.pkl', 'rb') as f:
        data = pickle.load(f)
    
    tokenizer = data['tokenizer']
    chunks = data['chunks']
    vocab_size = data['vocab_size']
    
    print(f"📄 Datos cargados: {len(chunks)} chunks, vocab_size: {vocab_size}")
    
except FileNotFoundError:
    print("⚠️ No se encontró archivo preprocessado. Usando variables actuales...")
    
    # Usar variables del kernel actual
    if 'tokenizer' in locals() and 'chunks' in locals():
        vocab_size = tokenizer.vocab_size
        print(f"📄 Usando datos actuales: {len(chunks)} chunks, vocab_size: {vocab_size}")
    else:
        print("❌ No hay datos disponibles. Ejecuta primero las celdas anteriores.")
        raise ValueError("No hay datos de entrenamiento disponibles")

# Crear dataset
SEQ_LENGTH = 30
dataset = TextDataset(tokenizer.decode(sum(chunks, [])), tokenizer, SEQ_LENGTH)
dataloader = DataLoader(dataset, batch_size=32, shuffle=True)

print(f"📦 Dataset creado: {len(dataset)} secuencias")

# Crear modelo
model = SimpleLSTMGenerator(
    vocab_size=vocab_size,
    embed_size=128,
    hidden_size=256,
    num_layers=2
).to(device)

print(f"🏗️ Modelo creado con {sum(p.numel() for p in model.parameters())} parámetros")

# Configurar entrenamiento
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# Función de entrenamiento
def train_epoch(model, dataloader, criterion, optimizer, device):
    model.train()
    total_loss = 0
    num_batches = 0
    
    for batch_idx, (input_seq, target_seq) in enumerate(dataloader):
        input_seq = input_seq.to(device)
        target_seq = target_seq.to(device)
        
        optimizer.zero_grad()
        
        output, _ = model(input_seq)
        loss = criterion(output.reshape(-1, vocab_size), target_seq.reshape(-1))
        
        loss.backward()
        optimizer.step()
        
        total_loss += loss.item()
        num_batches += 1
        
        if batch_idx % 20 == 0:
            print(f"  Batch {batch_idx}/{len(dataloader)}, Loss: {loss.item():.4f}")
    
    return total_loss / num_batches

# Entrenar modelo (solo 3 épocas para prueba rápida)
EPOCHS = 3
print(f"\n🚀 Iniciando entrenamiento por {EPOCHS} épocas...")

for epoch in range(EPOCHS):
    print(f"\n=== ÉPOCA {epoch + 1}/{EPOCHS} ===")
    
    avg_loss = train_epoch(model, dataloader, criterion, optimizer, device)
    print(f"✅ Época {epoch + 1} completada - Loss promedio: {avg_loss:.4f}")
    
    # Generar texto de ejemplo cada época
    print("📝 Ejemplo de generación:")
    sample_text = generate_text(model, tokenizer, "to be", max_length=100, temperature=0.8)
    print(f"   '{sample_text[:100]}...'")

print("\n🎉 Entrenamiento completado!")

# Guardar modelo
torch.save(model.state_dict(), 'simple_text_generator.pth')
print("💾 Modelo guardado como 'simple_text_generator.pth'")

# Prueba final de generación
print("\n=== PRUEBA FINAL DE GENERACIÓN ===")
for seed in ["to be", "the", "and"]:
    generated = generate_text(model, tokenizer, seed, max_length=150, temperature=0.7)
    print(f"\nSeed: '{seed}'")
    print(f"Generado: {generated[:150]}...")

print("\n✅ ¡Generación de texto completada exitosamente!")
print("💡 Modelo entrenado usando solo PyTorch y librerías compatibles con Python 3.13")

🚀 ENTRENAMIENTO DEL MODELO - SOLO LIBRERÍAS COMPATIBLES
✅ Dispositivo: cuda
📄 Datos cargados: 9798 chunks, vocab_size: 46
📦 Dataset creado: 979770 secuencias
🏗️ Modelo creado con 939310 parámetros

🚀 Iniciando entrenamiento por 3 épocas...

=== ÉPOCA 1/3 ===
  Batch 0/30618, Loss: 3.8184
  Batch 20/30618, Loss: 2.9232
  Batch 40/30618, Loss: 2.7099
  Batch 60/30618, Loss: 2.5414
  Batch 80/30618, Loss: 2.3422
  Batch 100/30618, Loss: 2.3981
  Batch 120/30618, Loss: 2.2520
  Batch 140/30618, Loss: 2.2121
  Batch 160/30618, Loss: 2.1975
  Batch 180/30618, Loss: 2.1668
  Batch 200/30618, Loss: 2.1695
  Batch 220/30618, Loss: 2.0791
  Batch 240/30618, Loss: 2.1247
  Batch 260/30618, Loss: 2.0652
  Batch 280/30618, Loss: 2.0954
  Batch 300/30618, Loss: 1.9804
  Batch 320/30618, Loss: 2.0001
  Batch 340/30618, Loss: 1.9942
  Batch 360/30618, Loss: 2.0011
  Batch 380/30618, Loss: 1.9962
  Batch 400/30618, Loss: 2.0606
  Batch 420/30618, Loss: 1.8563
  Batch 440/30618, Loss: 1.9119
  Batch 460

In [49]:
import os
import re
import pickle
import random
import torch
from torch.utils.data import Dataset
from transformers import GPT2Tokenizer
import urllib.request

# === Configuración ===
SEED = 42
random.seed(SEED)
torch.manual_seed(SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(SEED)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"✅ Dispositivo: {device}")

# === Descargar texto si no existe ===
file_path = "shakespeare.txt"
url = "https://www.gutenberg.org/cache/epub/100/pg100.txt"

if not os.path.exists(file_path):
    print("⬇️ Descargando texto de Shakespeare...")
    urllib.request.urlretrieve(url, file_path)
    print(f"📄 Archivo guardado como {file_path}")

# === Cargar texto ===
with open(file_path, "r", encoding="utf-8") as f:
    combined_text = f.read()

print(f"📄 Texto cargado ({len(combined_text)} caracteres)")

# === Preprocesamiento ===
def clean_text_for_gpt2(text):
    text = re.sub(r'\s+', ' ', text)
    text = re.sub(r'[^\w\s\.\,\!\?\;\:\-\"\'\(\)]', '', text)
    text = re.sub(r'\s+([\.,:;!?])', r'\1', text)
    return text.strip()

clean_combined_text = clean_text_for_gpt2(combined_text)

# === Tokenizador ===
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

tokens = tokenizer.encode(clean_combined_text)
print(f"🔠 Tokens generados: {len(tokens)}")

# === Crear chunks ===
def create_text_chunks(tokens, chunk_size=128, overlap=32):
    chunks = []
    for i in range(0, len(tokens) - chunk_size, chunk_size - overlap):
        chunk = tokens[i:i + chunk_size]
        if len(chunk) == chunk_size:
            chunks.append(chunk)
    return chunks

CHUNK_SIZE = 128
chunks = create_text_chunks(tokens, CHUNK_SIZE)
print(f"📦 Chunks creados: {len(chunks)}")

# === Clase Dataset personalizada ===
class ShakespeareDataset(Dataset):
    def __init__(self, chunks, tokenizer, max_length=128):
        self.chunks = chunks
        self.tokenizer = tokenizer
        self.max_length = max_length

    def __len__(self):
        return len(self.chunks)

    def __getitem__(self, idx):
        chunk = self.chunks[idx]
        if len(chunk) > self.max_length:
            chunk = chunk[:self.max_length]
        elif len(chunk) < self.max_length:
            chunk += [self.tokenizer.pad_token_id] * (self.max_length - len(chunk))

        return {
            "input_ids": torch.tensor(chunk, dtype=torch.long),
            "attention_mask": torch.tensor([1 if token != self.tokenizer.pad_token_id else 0 for token in chunk], dtype=torch.long),
            "labels": torch.tensor(chunk, dtype=torch.long)
        }

# === Crear Dataset y dividir ===
if len(chunks) == 0:
    raise ValueError("⚠️ No se generaron chunks. Aumenta el texto o reduce el tamaño de chunk.")

dataset = ShakespeareDataset(chunks, tokenizer, CHUNK_SIZE)
train_size = int(0.9 * len(dataset))
val_size = len(dataset) - train_size

train_dataset, val_dataset = torch.utils.data.random_split(dataset, [train_size, val_size])
print(f"✅ Dataset creado: {len(dataset)} ejemplos")
print(f"   🔹 Train: {len(train_dataset)}")
print(f"   🔸 Val: {len(val_dataset)}")

# === Mostrar un ejemplo ===
example = dataset[0]
print("\n📌 Ejemplo de entrada:")
print(f"Input shape: {example['input_ids'].shape}")
print("Texto decodificado:")
print(tokenizer.decode(example['input_ids'][:50]))

# === Guardar datos ===
preprocessed_data = {
    "chunks": chunks,
    "tokenizer_name": "gpt2",
    "chunk_size": CHUNK_SIZE,
    "total_tokens": len(tokens)
}

with open("preprocessed_shakespeare.pkl", "wb") as f:
    pickle.dump(preprocessed_data, f)

print("\n💾 Datos preprocessados guardados en 'preprocessed_shakespeare.pkl'")


✅ Dispositivo: cuda
⬇️ Descargando texto de Shakespeare...
📄 Archivo guardado como shakespeare.txt
📄 Texto cargado (5378663 caracteres)


ModuleNotFoundError: Could not import module 'GenerationMixin'. Are this object's requirements defined correctly?