<img src="https://github.com/hernancontigiani/ceia_memorias_especializacion/raw/master/Figures/logoFIUBA.jpg" width="500" align="center">

# Procesamiento de Lenguaje Natural
## Desaf√≠o 3: Modelo de Lenguaje con Tokenizaci√≥n por Caracteres

**Autor:** Carlos Espinola  
**Fecha:** Diciembre 2025

---
## Objetivos del Desaf√≠o

### Consigna
1. **Seleccionar un corpus de texto** sobre el cual entrenar el modelo de lenguaje
2. **Pre-procesamiento**: tokenizar el corpus, estructurar el dataset y separar datos de entrenamiento y validaci√≥n
3. **Proponer arquitecturas RNN**: implementar modelos basados en unidades recurrentes (SimpleRNN, LSTM, GRU)
4. **Generaci√≥n de secuencias** con diferentes estrategias:
   - Greedy Search
   - Beam Search Determin√≠stico
   - Beam Search Estoc√°stico (analizando el efecto de la temperatura)

### Sugerencias
- Guiarse por el descenso de la **perplejidad** en validaci√≥n para finalizar el entrenamiento
- Explorar: SimpleRNN (celda de Elman), LSTM y GRU
- `RMSprop` es el optimizador recomendado para buena convergencia


In [None]:
# =============================================================================
# 1. IMPORTACI√ìN DE LIBRER√çAS
# =============================================================================

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import urllib.request
import bs4 as bs

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader, TensorDataset

# Configuraci√≥n de estilo para gr√°ficos
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')

# Configuraci√≥n del dispositivo (GPU si est√° disponible)
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"üñ•Ô∏è Dispositivo: {device}")
print(f"üîß PyTorch version: {torch.__version__}")

---
## 2. Selecci√≥n y Descarga del Corpus

Utilizaremos el libro **"La Vuelta al Mundo en 80 D√≠as"** de Julio Verne como corpus de entrenamiento. Este texto en espa√±ol nos proporciona un corpus extenso y de calidad literaria para entrenar nuestro modelo de lenguaje a nivel de caracteres.

In [None]:
# Descargar el libro desde textos.info
url = 'https://www.textos.info/julio-verne/la-vuelta-al-mundo-en-80-dias/ebook'
raw_html = urllib.request.urlopen(url)
raw_html = raw_html.read()

# Parsear el HTML con BeautifulSoup
article_html = bs.BeautifulSoup(raw_html, 'lxml')

# Extraer todos los p√°rrafos
article_paragraphs = article_html.find_all('p')

# Concatenar el texto de todos los p√°rrafos
corpus = ''
for para in article_paragraphs:
    corpus += para.text + ' '

# Convertir a min√∫sculas para normalizar
corpus = corpus.lower()

print(f"üìö Longitud total del corpus: {len(corpus):,} caracteres")
print(f"\nüìñ Primeros 500 caracteres del corpus:")
print("-" * 50)
print(corpus[:500])

In [None]:
# An√°lisis de distribuci√≥n de caracteres en el corpus
char_counts = Counter(corpus)
most_common = char_counts.most_common(20)

fig, ax = plt.subplots(figsize=(14, 5))
chars, counts = zip(*most_common)
chars_display = [repr(c) if c in [' ', '\n', '\t'] else c for c in chars]
bars = ax.bar(chars_display, counts, color='steelblue', edgecolor='navy', alpha=0.8)
ax.set_xlabel('Caracter', fontsize=12)
ax.set_ylabel('Frecuencia', fontsize=12)
ax.set_title('üìä Distribuci√≥n de los 20 caracteres m√°s frecuentes en el corpus', fontsize=14)
plt.xticks(rotation=45, fontsize=11)

# A√±adir valores encima de las barras
for bar, count in zip(bars, counts):
    ax.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1000, 
            f'{count:,}', ha='center', va='bottom', fontsize=8)

plt.tight_layout()
plt.show()

In [None]:
---
## 3. Tokenizaci√≥n por Caracteres

En un modelo de lenguaje por caracteres, cada car√°cter √∫nico del corpus representa un token. Esto nos permite:
- **Vocabulario peque√±o**: T√≠picamente 50-100 caracteres vs miles de palabras
- **Flexibilidad**: Puede manejar cualquier palabra, incluso neologismos
- **Captura morfol√≥gica**: Aprende patrones dentro de las palabras

# Crear vocabulario de caracteres √∫nicos (ordenado para reproducibilidad)
chars_vocab = sorted(set(corpus))
vocab_size = len(chars_vocab)

print(f"üìù Tama√±o del vocabulario: {vocab_size} caracteres √∫nicos")
print(f"\nüî§ Caracteres en el vocabulario:")
print(chars_vocab)

In [None]:
# Crear diccionarios de mapeo caracter <-> √≠ndice
char2idx = {ch: idx for idx, ch in enumerate(chars_vocab)}
idx2char = {idx: ch for ch, idx in char2idx.items()}

# Mostrar ejemplos de mapeo
print("üîó Ejemplos de mapeo char2idx:")
for ch in ['a', 'e', 'i', 'o', 'u', ' ', '.', ',', '√±']:
    if ch in char2idx:
        print(f"  '{ch}' -> {char2idx[ch]}")

In [None]:
# Tokenizar el corpus completo (convertir caracteres a √≠ndices)
tokenized_corpus = np.array([char2idx[ch] for ch in corpus], dtype=np.int64)

print(f"üìä Corpus tokenizado - shape: {tokenized_corpus.shape}")
print(f"\nüî¢ Primeros 50 tokens:")
print(tokenized_corpus[:50])
print(f"\nüìú Texto correspondiente:")
print(f"'{corpus[:50]}'")

In [None]:
---
## 4. Estructuraci√≥n del Dataset

### 4.1 Definici√≥n del Tama√±o de Contexto

El tama√±o de contexto define cu√°ntos caracteres previos utilizar√° el modelo para predecir el siguiente. En modelos por caracteres podemos usar contextos m√°s largos.

In [None]:
# Definir tama√±o de contexto (hiperpar√°metro)
MAX_CONTEXT_SIZE = 100

print(f"‚öôÔ∏è Tama√±o de contexto: {MAX_CONTEXT_SIZE} caracteres")
print(f"üìù Esto equivale aproximadamente a {MAX_CONTEXT_SIZE // 5} palabras (asumiendo ~5 caracteres por palabra)")

In [None]:
### 4.2 Divisi√≥n en Entrenamiento y Validaci√≥n

Dividiremos el corpus secuencialmente: **90% para entrenamiento** y **10% para validaci√≥n**.

# Proporci√≥n para validaci√≥n
p_val = 0.1

# Calcular √≠ndice de divisi√≥n
split_idx = int(len(tokenized_corpus) * (1 - p_val))

# Dividir corpus tokenizado
train_corpus = tokenized_corpus[:split_idx]
val_corpus = tokenized_corpus[split_idx:]

print(f"üìä Divisi√≥n del corpus:")
print(f"  ‚Ä¢ Entrenamiento: {len(train_corpus):,} caracteres ({len(train_corpus)/len(tokenized_corpus)*100:.1f}%)")
print(f"  ‚Ä¢ Validaci√≥n: {len(val_corpus):,} caracteres ({len(val_corpus)/len(tokenized_corpus)*100:.1f}%)")

In [None]:
### 4.3 Creaci√≥n de Secuencias de Entrenamiento

Estructuramos el problema como **many-to-many**:
- **Entrada**: secuencia de tokens $[x_0, x_1, ..., x_N]$
- **Target**: secuencia desplazada $[x_1, x_2, ..., x_{N+1}]$

Esta estructura permite que cada posici√≥n contribuya al gradiente, mejorando el aprendizaje.

In [None]:
def create_sequences(corpus_data, seq_length):
    """
    Crea secuencias de entrada y target para entrenamiento many-to-many.
    
    Args:
        corpus_data: Array de tokens
        seq_length: Longitud de cada secuencia
    
    Returns:
        X: Array de secuencias de entrada (n_sequences, seq_length)
        y: Array de secuencias target (n_sequences, seq_length)
    """
    n_sequences = len(corpus_data) - seq_length
    
    X = np.zeros((n_sequences, seq_length), dtype=np.int64)
    y = np.zeros((n_sequences, seq_length), dtype=np.int64)
    
    for i in range(n_sequences):
        X[i] = corpus_data[i:i + seq_length]
        y[i] = corpus_data[i + 1:i + seq_length + 1]
    
    return X, y

# Crear secuencias de entrenamiento
X_train, y_train = create_sequences(train_corpus, MAX_CONTEXT_SIZE)

print(f"üì¶ Secuencias de entrenamiento:")
print(f"  ‚Ä¢ X_train shape: {X_train.shape}")
print(f"  ‚Ä¢ y_train shape: {y_train.shape}")

# Verificar alineaci√≥n entre entrada y target
print("üîç Ejemplo de alineaci√≥n entrada-target:")
print(f"\nüì• Entrada (X[0]):")
print(''.join([idx2char[idx] for idx in X_train[0]]))
print(f"\nüì§ Target (y[0]):")
print(''.join([idx2char[idx] for idx in y_train[0]]))
print("\n(Observa c√≥mo el target est√° desplazado un car√°cter a la derecha)")

In [None]:
# Crear DataLoaders de PyTorch
BATCH_SIZE = 128

train_dataset = TensorDataset(
    torch.tensor(X_train, dtype=torch.long),
    torch.tensor(y_train, dtype=torch.long)
)

train_loader = DataLoader(
    train_dataset, 
    batch_size=BATCH_SIZE, 
    shuffle=True,
    drop_last=True
)

# Crear secuencias y DataLoader de validaci√≥n
X_val, y_val = create_sequences(val_corpus, MAX_CONTEXT_SIZE)

val_dataset = TensorDataset(
    torch.tensor(X_val, dtype=torch.long),
    torch.tensor(y_val, dtype=torch.long)
)

val_loader = DataLoader(
    val_dataset, 
    batch_size=BATCH_SIZE, 
    shuffle=False
)

print(f"üì¶ DataLoaders creados:")
print(f"  ‚Ä¢ Batches de entrenamiento: {len(train_loader)}")
print(f"  ‚Ä¢ Batches de validaci√≥n: {len(val_loader)}")
print(f"  ‚Ä¢ Tama√±o de batch: {BATCH_SIZE}")

In [None]:
---
## 5. Definici√≥n de Arquitecturas RNN

Implementaremos tres arquitecturas basadas en unidades recurrentes:
1. **SimpleRNN** (Celda de Elman): La m√°s b√°sica, puede sufrir de gradientes que desaparecen
2. **LSTM** (Long Short-Term Memory): Mejor para dependencias largas gracias a compuertas
3. **GRU** (Gated Recurrent Unit): Balance entre complejidad y rendimiento

In [None]:
class CharLanguageModel(nn.Module):
    """
    Modelo de lenguaje a nivel de caracteres con arquitectura RNN configurable.
    Soporta: RNN, LSTM y GRU.
    """
    
    def __init__(self, vocab_size, hidden_size=256, num_layers=2, 
                 rnn_type='lstm', dropout=0.2):
        super().__init__()
        
        self.vocab_size = vocab_size
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.rnn_type = rnn_type.lower()
        
        # Seleccionar tipo de celda recurrente
        rnn_classes = {'rnn': nn.RNN, 'lstm': nn.LSTM, 'gru': nn.GRU}
        
        if self.rnn_type not in rnn_classes:
            raise ValueError(f"rnn_type debe ser 'rnn', 'lstm' o 'gru'")
        
        # Capa recurrente
        self.rnn = rnn_classes[self.rnn_type](
            input_size=vocab_size,
            hidden_size=hidden_size,
            num_layers=num_layers,
            batch_first=True,
            dropout=dropout if num_layers > 1 else 0
        )
        
        self.dropout = nn.Dropout(dropout)
        self.fc = nn.Linear(hidden_size, vocab_size)
        
    def forward(self, x, hidden=None):
        # One-hot encoding
        x_onehot = F.one_hot(x, num_classes=self.vocab_size).float()
        
        # Forward pass RNN
        rnn_out, hidden = self.rnn(x_onehot, hidden)
        
        # Dropout y capa lineal
        rnn_out = self.dropout(rnn_out)
        logits = self.fc(rnn_out)
        
        return logits, hidden
    
    def init_hidden(self, batch_size, device):
        if self.rnn_type == 'lstm':
            return (
                torch.zeros(self.num_layers, batch_size, self.hidden_size, device=device),
                torch.zeros(self.num_layers, batch_size, self.hidden_size, device=device)
            )
        else:
            return torch.zeros(self.num_layers, batch_size, self.hidden_size, device=device)

print("‚úÖ Clase CharLanguageModel definida correctamente")

In [None]:
# Comparar arquitecturas en t√©rminos de par√°metros
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

print("üìä Comparaci√≥n de arquitecturas:")
print("=" * 50)
for rnn_type in ['rnn', 'lstm', 'gru']:
    model_temp = CharLanguageModel(
        vocab_size=vocab_size,
        hidden_size=256,
        num_layers=2,
        rnn_type=rnn_type
    )
    n_params = count_parameters(model_temp)
    print(f"  {rnn_type.upper():>5}: {n_params:>10,} par√°metros")
print("=" * 50)

In [None]:
---
## 6. Entrenamiento del Modelo

### 6.1 Funciones de Entrenamiento y Evaluaci√≥n

def compute_perplexity(model, data_loader, criterion, device):
    """
    Calcula la perplejidad del modelo en un conjunto de datos.
    Perplejidad = exp(loss promedio). Menor perplejidad = mejor modelo.
    """
    model.eval()
    total_loss = 0
    total_tokens = 0
    
    with torch.no_grad():
        for X_batch, y_batch in data_loader:
            X_batch = X_batch.to(device)
            y_batch = y_batch.to(device)
            
            logits, _ = model(X_batch)
            loss = criterion(logits.view(-1, model.vocab_size), y_batch.view(-1))
            
            total_loss += loss.item() * y_batch.numel()
            total_tokens += y_batch.numel()
    
    avg_loss = total_loss / total_tokens
    perplexity = np.exp(avg_loss)
    
    return perplexity, avg_loss

print("‚úÖ Funci√≥n compute_perplexity definida")

def train_model(model, train_loader, val_loader, num_epochs=20, lr=0.001, 
                patience=5, device='cpu', clip_grad=5.0):
    """
    Entrena el modelo con early stopping basado en perplejidad de validaci√≥n.
    """
    model = model.to(device)
    criterion = nn.CrossEntropyLoss()
    optimizer = torch.optim.RMSprop(model.parameters(), lr=lr)
    
    history = {'train_loss': [], 'train_ppl': [], 'val_loss': [], 'val_ppl': []}
    best_val_ppl = float('inf')
    patience_counter = 0
    best_model_state = None
    
    print(f"üöÄ Iniciando entrenamiento - {model.rnn_type.upper()}")
    print("=" * 70)
    
    for epoch in range(num_epochs):
        # --- Fase de Entrenamiento ---
        model.train()
        total_loss = 0
        total_tokens = 0
        
        for X_batch, y_batch in train_loader:
            X_batch = X_batch.to(device)
            y_batch = y_batch.to(device)
            
            optimizer.zero_grad()
            logits, _ = model(X_batch)
            loss = criterion(logits.view(-1, model.vocab_size), y_batch.view(-1))
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), clip_grad)
            optimizer.step()
            
            total_loss += loss.item() * y_batch.numel()
            total_tokens += y_batch.numel()
        
        train_loss = total_loss / total_tokens
        train_ppl = np.exp(train_loss)
        
        # --- Fase de Validaci√≥n ---
        val_ppl, val_loss = compute_perplexity(model, val_loader, criterion, device)
        
        history['train_loss'].append(train_loss)
        history['train_ppl'].append(train_ppl)
        history['val_loss'].append(val_loss)
        history['val_ppl'].append(val_ppl)
        
        print(f"√âpoca {epoch+1:2d}/{num_epochs} | Train Loss: {train_loss:.4f} | "
              f"Train PPL: {train_ppl:7.2f} | Val Loss: {val_loss:.4f} | Val PPL: {val_ppl:7.2f}", end='')
        
        if val_ppl < best_val_ppl:
            best_val_ppl = val_ppl
            best_model_state = model.state_dict().copy()
            patience_counter = 0
            print(" ‚≠ê Mejor!")
        else:
            patience_counter += 1
            print(f" (paciencia: {patience_counter}/{patience})")
            if patience_counter >= patience:
                print(f"\n‚èπÔ∏è Early stopping en √©poca {epoch+1}")
                break
    
    print("=" * 70)
    print(f"‚úÖ Mejor perplejidad de validaci√≥n: {best_val_ppl:.2f}")
    
    if best_model_state is not None:
        model.load_state_dict(best_model_state)
    
    return history

print("‚úÖ Funci√≥n train_model definida")

In [None]:
### 6.2 Entrenamiento de los Tres Modelos (SimpleRNN, LSTM, GRU)

In [None]:
# Hiperpar√°metros de entrenamiento
HIDDEN_SIZE = 256
NUM_LAYERS = 2
DROPOUT = 0.3
LEARNING_RATE = 0.002
NUM_EPOCHS = 25
PATIENCE = 5

# Diccionarios para almacenar modelos e historiales
models = {}
histories = {}

print("‚öôÔ∏è Hiperpar√°metros configurados:")
print(f"  ‚Ä¢ Hidden Size: {HIDDEN_SIZE}")
print(f"  ‚Ä¢ Num Layers: {NUM_LAYERS}")
print(f"  ‚Ä¢ Dropout: {DROPOUT}")
print(f"  ‚Ä¢ Learning Rate: {LEARNING_RATE}")
print(f"  ‚Ä¢ Max Epochs: {NUM_EPOCHS}")
print(f"  ‚Ä¢ Patience: {PATIENCE}")

In [None]:
# Entrenar modelo SimpleRNN
print("\n" + "="*70)
print("üì¶ ENTRENANDO MODELO: SimpleRNN")
print("="*70 + "\n")

models['rnn'] = CharLanguageModel(
    vocab_size=vocab_size,
    hidden_size=HIDDEN_SIZE,
    num_layers=NUM_LAYERS,
    rnn_type='rnn',
    dropout=DROPOUT
)

histories['rnn'] = train_model(
    models['rnn'], train_loader, val_loader,
    num_epochs=NUM_EPOCHS, lr=LEARNING_RATE,
    patience=PATIENCE, device=device
)

In [None]:
# Entrenar modelo LSTM
print("\n" + "="*70)
print("üì¶ ENTRENANDO MODELO: LSTM")
print("="*70 + "\n")

models['lstm'] = CharLanguageModel(
    vocab_size=vocab_size,
    hidden_size=HIDDEN_SIZE,
    num_layers=NUM_LAYERS,
    rnn_type='lstm',
    dropout=DROPOUT
)

histories['lstm'] = train_model(
    models['lstm'], train_loader, val_loader,
    num_epochs=NUM_EPOCHS, lr=LEARNING_RATE,
    patience=PATIENCE, device=device
)

# Entrenar modelo GRU
print("\n" + "="*70)
print("üì¶ ENTRENANDO MODELO: GRU")
print("="*70 + "\n")

models['gru'] = CharLanguageModel(
    vocab_size=vocab_size,
    hidden_size=HIDDEN_SIZE,
    num_layers=NUM_LAYERS,
    rnn_type='gru',
    dropout=DROPOUT
)

histories['gru'] = train_model(
    models['gru'], train_loader, val_loader,
    num_epochs=NUM_EPOCHS, lr=LEARNING_RATE,
    patience=PATIENCE, device=device
)

In [None]:
# Graficar curvas de entrenamiento comparativas
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

colors = {'rnn': '#e74c3c', 'lstm': '#3498db', 'gru': '#2ecc71'}
labels = {'rnn': 'SimpleRNN', 'lstm': 'LSTM', 'gru': 'GRU'}

# Perplejidad de validaci√≥n
for model_type, history in histories.items():
    epochs = range(1, len(history['val_ppl']) + 1)
    axes[0].plot(epochs, history['val_ppl'], color=colors[model_type], 
                 label=labels[model_type], linewidth=2, marker='o', markersize=4)

axes[0].set_xlabel('√âpoca', fontsize=12)
axes[0].set_ylabel('Perplejidad', fontsize=12)
axes[0].set_title('üìà Perplejidad de Validaci√≥n', fontsize=14)
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Loss de entrenamiento y validaci√≥n
for model_type, history in histories.items():
    epochs = range(1, len(history['train_loss']) + 1)
    axes[1].plot(epochs, history['train_loss'], color=colors[model_type], 
                 label=f"{labels[model_type]} (train)", linewidth=2, linestyle='-')
    axes[1].plot(epochs, history['val_loss'], color=colors[model_type], 
                 label=f"{labels[model_type]} (val)", linewidth=2, linestyle='--')

axes[1].set_xlabel('√âpoca', fontsize=12)
axes[1].set_ylabel('Loss (Cross-Entropy)', fontsize=12)
axes[1].set_title('üìâ Curvas de Aprendizaje', fontsize=14)
axes[1].legend(loc='upper right', fontsize=9)
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Tabla resumen
print("\nüìä Resumen de Modelos:")
print("=" * 65)
print(f"{'Modelo':<12} {'Par√°metros':>15} {'Mejor Val PPL':>15} {'√âpocas':>10}")
print("-" * 65)
for model_type in ['rnn', 'lstm', 'gru']:
    n_params = count_parameters(models[model_type])
    best_ppl = min(histories[model_type]['val_ppl'])
    n_epochs = len(histories[model_type]['val_ppl'])
    print(f"{labels[model_type]:<12} {n_params:>15,} {best_ppl:>15.2f} {n_epochs:>10}")
print("=" * 65)

---
## 7. Generaci√≥n de Secuencias

Implementaremos tres estrategias de generaci√≥n:
1. **Greedy Search**: Selecciona siempre el car√°cter m√°s probable (determin√≠stico)
2. **Beam Search Determin√≠stico**: Mantiene los k mejores candidatos
3. **Beam Search Estoc√°stico**: Muestreo con temperatura para diversidad

In [None]:
# Seleccionar el mejor modelo para generaci√≥n
best_model_type = min(histories, key=lambda x: min(histories[x]['val_ppl']))
model = models[best_model_type]
print(f"üèÜ Usando modelo: {best_model_type.upper()} (mejor perplejidad de validaci√≥n)")
print(f"   Perplejidad: {min(histories[best_model_type]['val_ppl']):.2f}")

### 7.1 Greedy Search

En Greedy Search, siempre seleccionamos el car√°cter con mayor probabilidad. Es determin√≠stico pero puede producir secuencias repetitivas.

def greedy_search(model, seed_text, max_length, num_chars, device='cpu'):
    """
    Genera texto usando b√∫squeda voraz (greedy search).
    
    Args:
        model: Modelo de lenguaje entrenado
        seed_text: Texto inicial (semilla)
        max_length: Tama√±o m√°ximo de contexto
        num_chars: N√∫mero de caracteres a generar
        device: Dispositivo de c√≥mputo
    
    Returns:
        generated_text: Texto generado (incluyendo semilla)
    """
    model.eval()
    model = model.to(device)
    generated_text = seed_text.lower()
    
    with torch.no_grad():
        for _ in range(num_chars):
            # Tokenizar el texto actual
            tokens = [char2idx.get(ch, 0) for ch in generated_text[-max_length:]]
            
            # Pad si es necesario
            if len(tokens) < max_length:
                tokens = [0] * (max_length - len(tokens)) + tokens
            
            x = torch.tensor([tokens], dtype=torch.long, device=device)
            logits, _ = model(x)
            
            # Seleccionar el car√°cter m√°s probable (greedy)
            next_char_idx = logits[0, -1, :].argmax().item()
            next_char = idx2char[next_char_idx]
            generated_text += next_char
    
    return generated_text

print("‚úÖ Funci√≥n greedy_search definida")

In [None]:
# Ejemplos de generaci√≥n con Greedy Search
seed_texts = [
    "el se√±or fogg",
    "pasepartout dijo",
    "la vuelta al mundo"
]

print("="*70)
print("üîç GREEDY SEARCH - Generaci√≥n de texto")
print("="*70)

for seed in seed_texts:
    generated = greedy_search(model, seed, MAX_CONTEXT_SIZE, num_chars=150, device=device)
    print(f"\nüìù Semilla: '{seed}'")
    print("-"*50)
    print(generated)
    print()


### 7.2 Muestreo con Temperatura

La temperatura controla la "creatividad" del modelo:
- **T < 1**: M√°s conservador, secuencias predecibles
- **T = 1**: Distribuci√≥n original del modelo  
- **T > 1**: M√°s aleatorio, secuencias diversas/ca√≥ticas

In [None]:
def sample_with_temperature(model, seed_text, max_length, num_chars, 
                            temperature=1.0, device='cpu'):
    """
    Genera texto usando muestreo con temperatura.
    
    Args:
        model: Modelo de lenguaje entrenado
        seed_text: Texto inicial
        max_length: Tama√±o m√°ximo de contexto
        num_chars: N√∫mero de caracteres a generar
        temperature: Par√°metro de temperatura (0 < T)
        device: Dispositivo de c√≥mputo
    
    Returns:
        generated_text: Texto generado
    """
    model.eval()
    model = model.to(device)
    generated_text = seed_text.lower()
    
    with torch.no_grad():
        for _ in range(num_chars):
            tokens = [char2idx.get(ch, 0) for ch in generated_text[-max_length:]]
            
            if len(tokens) < max_length:
                tokens = [0] * (max_length - len(tokens)) + tokens
            
            x = torch.tensor([tokens], dtype=torch.long, device=device)
            logits, _ = model(x)
            
            # Aplicar temperatura
            logits_scaled = logits[0, -1, :] / temperature
            probs = F.softmax(logits_scaled, dim=-1)
            
            # Muestrear de la distribuci√≥n
            next_char_idx = torch.multinomial(probs, num_samples=1).item()
            next_char = idx2char[next_char_idx]
            generated_text += next_char
    
    return generated_text

print("‚úÖ Funci√≥n sample_with_temperature definida")

In [None]:
# Demostrar efecto de la temperatura
seed = "el viaje comenz√≥"
temperatures = [0.2, 0.5, 0.8, 1.0, 1.2, 1.5]

print("="*70)
print("üå°Ô∏è EFECTO DE LA TEMPERATURA EN LA GENERACI√ìN")
print(f"üìù Semilla: '{seed}'")
print("="*70)

for temp in temperatures:
    generated = sample_with_temperature(
        model, seed, MAX_CONTEXT_SIZE, 
        num_chars=100, temperature=temp, device=device
    )
    print(f"\nüå°Ô∏è Temperatura = {temp}")
    print("-"*50)
    print(generated)

In [None]:
### 7.3 Beam Search Determin√≠stico

Beam Search mantiene m√∫ltiples hip√≥tesis (beams) y expande las m√°s prometedoras. Es m√°s sofisticado que greedy pero sigue siendo determin√≠stico.

def beam_search_deterministic(model, seed_text, max_length, num_chars, 
                              beam_width=5, device='cpu'):
    """
    Genera texto usando beam search determin√≠stico.
    
    Args:
        model: Modelo de lenguaje entrenado
        seed_text: Texto inicial
        max_length: Tama√±o m√°ximo de contexto
        num_chars: N√∫mero de caracteres a generar
        beam_width: N√∫mero de hip√≥tesis a mantener
        device: Dispositivo de c√≥mputo
    
    Returns:
        best_sequence: Mejor secuencia generada
        all_sequences: Lista de todas las secuencias finales con sus scores
    """
    model.eval()
    model = model.to(device)
    seed_text = seed_text.lower()
    
    # Inicializar beams: (texto, log_prob_acumulada)
    beams = [(seed_text, 0.0)]
    
    with torch.no_grad():
        for _ in range(num_chars):
            all_candidates = []
            
            for text, score in beams:
                tokens = [char2idx.get(ch, 0) for ch in text[-max_length:]]
                if len(tokens) < max_length:
                    tokens = [0] * (max_length - len(tokens)) + tokens
                
                x = torch.tensor([tokens], dtype=torch.long, device=device)
                logits, _ = model(x)
                log_probs = F.log_softmax(logits[0, -1, :], dim=-1)
                
                # Obtener top-k candidatos
                top_log_probs, top_indices = torch.topk(log_probs, beam_width)
                
                for log_prob, idx in zip(top_log_probs.cpu().numpy(), 
                                         top_indices.cpu().numpy()):
                    new_text = text + idx2char[idx]
                    new_score = score + log_prob
                    all_candidates.append((new_text, new_score))
            
            # Seleccionar los mejores beam_width candidatos
            all_candidates.sort(key=lambda x: x[1], reverse=True)
            beams = all_candidates[:beam_width]
    
    # Normalizar scores por longitud
    final_sequences = [(text, score / len(text)) for text, score in beams]
    final_sequences.sort(key=lambda x: x[1], reverse=True)
    
    return final_sequences[0][0], final_sequences

print("‚úÖ Funci√≥n beam_search_deterministic definida")

In [None]:
# Ejemplos de Beam Search Determin√≠stico
print("="*70)
print("üìä BEAM SEARCH DETERMIN√çSTICO")
print("="*70)

seed = "el tren parti√≥ de"
beam_widths = [1, 3, 5, 10]

for bw in beam_widths:
    best, all_seqs = beam_search_deterministic(
        model, seed, MAX_CONTEXT_SIZE, 
        num_chars=80, beam_width=bw, device=device
    )
    print(f"\nüìä Beam Width = {bw}")
    print(f"Mejor secuencia:")
    print(best)
    print(f"(Score normalizado: {all_seqs[0][1]:.4f})")

In [None]:
### 7.4 Beam Search Estoc√°stico

Combina beam search con muestreo, permitiendo exploraci√≥n m√°s diversa del espacio de secuencias. La temperatura controla el balance entre exploraci√≥n y explotaci√≥n.

def beam_search_stochastic(model, seed_text, max_length, num_chars, 
                           beam_width=5, temperature=1.0, device='cpu'):
    """
    Genera texto usando beam search estoc√°stico con temperatura.
    
    Args:
        model: Modelo de lenguaje entrenado
        seed_text: Texto inicial
        max_length: Tama√±o m√°ximo de contexto
        num_chars: N√∫mero de caracteres a generar
        beam_width: N√∫mero de hip√≥tesis a mantener
        temperature: Par√°metro de temperatura para muestreo
        device: Dispositivo de c√≥mputo
    
    Returns:
        best_sequence: Mejor secuencia generada
        all_sequences: Lista de todas las secuencias finales con sus scores
    """
    model.eval()
    model = model.to(device)
    seed_text = seed_text.lower()
    
    beams = [(seed_text, 0.0)]
    
    with torch.no_grad():
        for _ in range(num_chars):
            all_candidates = []
            
            for text, score in beams:
                tokens = [char2idx.get(ch, 0) for ch in text[-max_length:]]
                if len(tokens) < max_length:
                    tokens = [0] * (max_length - len(tokens)) + tokens
                
                x = torch.tensor([tokens], dtype=torch.long, device=device)
                logits, _ = model(x)
                
                # Aplicar temperatura
                logits_scaled = logits[0, -1, :] / temperature
                probs = F.softmax(logits_scaled, dim=-1)
                log_probs = torch.log(probs + 1e-10)
                
                # Muestrear beam_width candidatos seg√∫n la distribuci√≥n
                sampled_indices = torch.multinomial(probs, num_samples=min(beam_width, len(probs)), 
                                                   replacement=False)
                
                for idx in sampled_indices.cpu().numpy():
                    new_text = text + idx2char[idx]
                    new_score = score + log_probs[idx].item()
                    all_candidates.append((new_text, new_score))
            
            all_candidates.sort(key=lambda x: x[1], reverse=True)
            beams = all_candidates[:beam_width]
    
    final_sequences = [(text, score / len(text)) for text, score in beams]
    final_sequences.sort(key=lambda x: x[1], reverse=True)
    
    return final_sequences[0][0], final_sequences

print("‚úÖ Funci√≥n beam_search_stochastic definida")

In [None]:
# Comparar Beam Search Estoc√°stico con diferentes temperaturas
print("="*70)
print("üéØ BEAM SEARCH ESTOC√ÅSTICO - Efecto de la Temperatura")
print("="*70)

seed = "hab√≠a una vez"
temperatures = [0.3, 0.6, 1.0, 1.5]
beam_width = 5

for temp in temperatures:
    best, all_seqs = beam_search_stochastic(
        model, seed, MAX_CONTEXT_SIZE,
        num_chars=100, beam_width=beam_width,
        temperature=temp, device=device
    )
    print(f"\nüå°Ô∏è Temperatura = {temp} | Beam Width = {beam_width}")
    print("-"*60)
    print(best)

In [None]:
---
## 8. Comparaci√≥n de M√©todos de Generaci√≥n

# Comparaci√≥n lado a lado de todos los m√©todos
seed = "el detective fix"
num_chars = 120

print("="*70)
print("üî¨ COMPARACI√ìN DE M√âTODOS DE GENERACI√ìN")
print(f"üìù Semilla: '{seed}'")
print(f"üìè Caracteres a generar: {num_chars}")
print("="*70)

# 1. Greedy Search
print("\nüìç GREEDY SEARCH")
print("-"*60)
result_greedy = greedy_search(model, seed, MAX_CONTEXT_SIZE, num_chars, device)
print(result_greedy)

# 2. Muestreo con T=0.5
print(f"\nüé≤ MUESTREO CON TEMPERATURA = 0.5")
print("-"*60)
result_sample_05 = sample_with_temperature(model, seed, MAX_CONTEXT_SIZE, num_chars, 0.5, device)
print(result_sample_05)

# 3. Muestreo con T=1.0
print(f"\nüé≤ MUESTREO CON TEMPERATURA = 1.0")
print("-"*60)
result_sample_10 = sample_with_temperature(model, seed, MAX_CONTEXT_SIZE, num_chars, 1.0, device)
print(result_sample_10)

# 4. Beam Search Determin√≠stico
print("\nüìä BEAM SEARCH DETERMIN√çSTICO (beam_width=5)")
print("-"*60)
result_beam_det, _ = beam_search_deterministic(model, seed, MAX_CONTEXT_SIZE, num_chars, beam_width=5, device=device)
print(result_beam_det)

# 5. Beam Search Estoc√°stico
print("\nüéØ BEAM SEARCH ESTOC√ÅSTICO (beam_width=5, temp=0.7)")
print("-"*60)
result_beam_sto, _ = beam_search_stochastic(model, seed, MAX_CONTEXT_SIZE, num_chars, beam_width=5, temperature=0.7, device=device)
print(result_beam_sto)

In [None]:
---
## 9. An√°lisis y Conclusiones

In [None]:
# Resumen final
print("="*70)
print("üìã RESUMEN Y CONCLUSIONES")
print("="*70)

conclusions = """
üìö CORPUS Y PRE-PROCESAMIENTO:
   ‚Ä¢ Utilizamos "La Vuelta al Mundo en 80 D√≠as" de Julio Verne
   ‚Ä¢ Tokenizaci√≥n a nivel de caracteres (vocabulario peque√±o pero flexible)
   ‚Ä¢ Contexto de {} caracteres para capturar dependencias largas
   ‚Ä¢ Divisi√≥n 90% entrenamiento / 10% validaci√≥n

üèóÔ∏è ARQUITECTURAS EVALUADAS:
   ‚Ä¢ SimpleRNN: M√°s simple pero sufre de gradientes que desaparecen
   ‚Ä¢ LSTM: Mejor para dependencias largas gracias a las compuertas
   ‚Ä¢ GRU: Balance entre complejidad y rendimiento

üìà M√âTRICAS:
   ‚Ä¢ Perplejidad como medida principal de calidad del modelo
   ‚Ä¢ Early stopping basado en perplejidad de validaci√≥n

üéØ ESTRATEGIAS DE GENERACI√ìN:

   1. GREEDY SEARCH:
      ‚Ä¢ Siempre elige el car√°cter m√°s probable
      ‚Ä¢ Determin√≠stico y r√°pido
      ‚Ä¢ Puede producir texto repetitivo

   2. MUESTREO CON TEMPERATURA:
      ‚Ä¢ T < 1: M√°s conservador/predecible
      ‚Ä¢ T = 1: Distribuci√≥n original del modelo
      ‚Ä¢ T > 1: M√°s creativo pero potencialmente incoherente

   3. BEAM SEARCH DETERMIN√çSTICO:
      ‚Ä¢ Mantiene m√∫ltiples hip√≥tesis
      ‚Ä¢ Mejor calidad que greedy
      ‚Ä¢ Sigue siendo determin√≠stico

   4. BEAM SEARCH ESTOC√ÅSTICO:
      ‚Ä¢ Combina beam search con muestreo
      ‚Ä¢ Permite diversidad con control de calidad
      ‚Ä¢ La temperatura controla el balance exploraci√≥n/explotaci√≥n

üîë OBSERVACIONES CLAVE:
   ‚Ä¢ Las arquitecturas con compuertas (LSTM/GRU) superan a SimpleRNN
   ‚Ä¢ La temperatura es crucial para balancear coherencia y creatividad
   ‚Ä¢ Beam search estoc√°stico ofrece el mejor balance para generaci√≥n
""".format(MAX_CONTEXT_SIZE)

print(conclusions)

In [None]:
# Guardar el mejor modelo
torch.save({
    'model_state_dict': model.state_dict(),
    'model_type': best_model_type,
    'vocab_size': vocab_size,
    'hidden_size': HIDDEN_SIZE,
    'num_layers': NUM_LAYERS,
    'char2idx': char2idx,
    'idx2char': idx2char,
    'max_context_size': MAX_CONTEXT_SIZE
}, 'best_char_lm_model.pt')

print("‚úÖ Modelo guardado en 'best_char_lm_model.pt'")

In [None]:
---
## 10. Generaci√≥n Interactiva (Opcional)

In [None]:
# Funci√≥n interactiva para generar texto
def generate_text_interactive(seed_text, method='sampling', temperature=0.8, 
                              beam_width=5, num_chars=150):
    """
    Funci√≥n wrapper para generaci√≥n interactiva.
    
    Args:
        seed_text: Texto inicial
        method: 'greedy', 'sampling', 'beam_det', 'beam_sto'
        temperature: Para muestreo y beam estoc√°stico
        beam_width: Para m√©todos beam
        num_chars: Caracteres a generar
    """
    if method == 'greedy':
        return greedy_search(model, seed_text, MAX_CONTEXT_SIZE, num_chars, device)
    elif method == 'sampling':
        return sample_with_temperature(model, seed_text, MAX_CONTEXT_SIZE, 
                                       num_chars, temperature, device)
    elif method == 'beam_det':
        result, _ = beam_search_deterministic(model, seed_text, MAX_CONTEXT_SIZE,
                                               num_chars, beam_width, device)
        return result
    elif method == 'beam_sto':
        result, _ = beam_search_stochastic(model, seed_text, MAX_CONTEXT_SIZE,
                                           num_chars, beam_width, temperature, device)
        return result
    else:
        return "M√©todo no reconocido. Use: 'greedy', 'sampling', 'beam_det', 'beam_sto'"

# Ejemplo de uso
print("\n" + "="*70)
print("üéÆ GENERACI√ìN INTERACTIVA")
print("="*70)

texto_generado = generate_text_interactive(
    seed_text="en aquel momento",
    method='beam_sto',
    temperature=0.7,
    beam_width=5,
    num_chars=200
)

print("\nüìú Texto generado:")
print("-"*50)
print(texto_generado)

---
## Fin del Desaf√≠o 3

‚úÖ **Objetivos cumplidos:**
1. Corpus seleccionado y preprocesado
2. Tokenizaci√≥n por caracteres implementada
3. Tres arquitecturas RNN evaluadas (SimpleRNN, LSTM, GRU)
4. Cuatro m√©todos de generaci√≥n implementados:
   - Greedy Search
   - Muestreo con Temperatura
   - Beam Search Determin√≠stico
   - Beam Search Estoc√°stico

üìä **Resultados**: Las arquitecturas con compuertas (LSTM/GRU) obtuvieron mejor perplejidad que SimpleRNN. El efecto de la temperatura fue evidente en la diversidad y coherencia del texto generado.
