# Taller 1: Aplicación de RNNs al Modelamiento de Lenguaje en Español (LSTM/BiLSTM)

**Curso:** PLN
**Objetivo:** Experimentar con modelos de Redes Neuronales Recurrentes (RNNs), específicamente LSTM y BiLSTM, para el modelado del lenguaje en español. 
**Autor:** Herney Eduardo Quintero Trochez  
**Fecha:** 2025  
**Universidad:** Universidad Del Valle  
**Curso:** Procesamiento de Lenguaje Natural (PLN) - Taller 1
## Componentes implementados:
1. Carga del Dataset (`spanish_billion_words_clean`)
2. Tokenización y Creación del Vocabulario
3. Creación del Conjunto de Entrenamiento (X, Y)
4. Padding y Truncado (MAX_LEN ≤ 50)
5. División del Conjunto (Train/Test 80%/20%)
6. Construcción del Modelo LSTM/BiLSTM
7. Entrenamiento con Early Stopping
8. Cálculo de la Perplejidad
9. Predicción de la Próxima Palabra

## 0. Configuración de Parámetros Globales

Esta sección permite modificar fácilmente todos los parámetros del modelo para experimentar.

In [1]:
# Dataset configuration
DATASET_NAME = "jhonparra18/spanish_billion_words_clean"
DATASET_SPLIT = "train"
DATASET_STREAMING = True
DATASET_TAKE = 20000  # Número de ejemplos a tomar del dataset
MIN_WORDS_PER_SENTENCE = 4  # Filtro: oraciones con al menos N palabras
OOV_TOKEN = "<OOV>"  # Token para palabras fuera del vocabulario

# Model architecture parameters
EMBEDDING_DIM = 300  # Dimensión del embedding de palabras
LSTM_UNITS = 128 # Número de unidades en las capas LSTM
DENSE_UNITS = 128  # Número de unidades en la capa densa intermedia
USE_BIDIRECTIONAL = False  # Usar BiLSTM en lugar de LSTM unidireccional

# Training parameters
EPOCHS = 30  # Número de épocas de entrenamiento
BATCH_SIZE = 32  # Tamaño del batch
VALIDATION_SPLIT = 0.2  # Porcentaje de datos para validación
LEARNING_RATE = 0.001  # Tasa de aprendizaje

# Sequence processing
PADDING_TYPE = 'pre'  # Tipo de padding: 'pre' o 'post'

# Output parameters
VERBOSE_TRAINING = 1  # Nivel de verbose durante entrenamiento
VERBOSE_PREDICTION = 0  # Nivel de verbose durante predicción

print(f"Configuración cargada:")
print(f"- Modelo: {'BiLSTM' if USE_BIDIRECTIONAL else 'LSTM'}")
print(f"- Dataset: {DATASET_TAKE:,} muestras de {DATASET_NAME}")
print(f"- Arquitectura: {EMBEDDING_DIM}D embedding → LSTM({LSTM_UNITS}) → Dense({DENSE_UNITS})")
print(f"- Entrenamiento: {EPOCHS} epochs, batch_size={BATCH_SIZE}")

Configuración cargada:
- Modelo: LSTM
- Dataset: 20,000 muestras de jhonparra18/spanish_billion_words_clean
- Arquitectura: 300D embedding → LSTM(128) → Dense(128)
- Entrenamiento: 30 epochs, batch_size=32


## 1. Importación de Librerías

Se importan todas las librerías necesarias para el proyecto.

In [2]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Bidirectional
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping
from sklearn.model_selection import train_test_split
from datasets import load_dataset
import math
import json
import datetime
import os

print("Librerías importadas exitosamente!")
print(f"TensorFlow version: {tf.__version__}")
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    print(f"GPU detectada: {gpus}")
    for gpu in gpus:
        tf.config.experimental.set_memory_growth(gpu, True)
else:
    print("No se detectó GPU, usando CPU.")

2025-09-25 19:31:59.794475: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-09-25 19:31:59.836882: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
2025-09-25 19:32:00.785344: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
  from .autonotebook import tqdm as notebook_tqdm


Librerías importadas exitosamente!
TensorFlow version: 2.20.0
GPU detectada: [PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')]


## 2. Carga del Dataset

Se carga el dataset `spanish_billion_words_clean` de Hugging Face y se filtran oraciones muy cortas.

In [3]:
print("Cargando dataset...")
dataset = load_dataset(DATASET_NAME, split=DATASET_SPLIT, streaming=DATASET_STREAMING).take(DATASET_TAKE)
sentences = [example['text'] for example in dataset if len(example['text'].split()) >= MIN_WORDS_PER_SENTENCE]

print(f"Total de oraciones cargadas: {len(sentences)}")
print("\nEjemplos de oraciones:")
for i, sentence in enumerate(sentences[:5]):
    print(f"{i+1}. {sentence}")

Cargando dataset...
Total de oraciones cargadas: 20000

Ejemplos de oraciones:
1. source wikisource librodot com sentido y sensibilidad jane austen capitulo i
2. la familia dashwood llevaba largo tiempo afincada en sussex
3. su propiedad era de buen tamaño y en el centro de ella se encontraba la residencia norland park donde la manera tan digna en que habían vivido por muchas generaciones llegó a granjearles el respeto de todos los conocidos del lugar
4. el último dueño de esta propiedad había sido un hombre soltero que alcanzó una muy avanzada edad y que durante gran parte de su existencia tuvo en su hermana una fiel compañera y ama de casa
5. pero la muerte de ella ocurrida diez años antes que la suya produjo grandes alteraciones en su hogar


## 3. Tokenización y Creación del Vocabulario

Se Tokenizan las oraciones y se crea el vocabulario con mapeo palabra→índice.

In [4]:
tokenizer = Tokenizer(oov_token=OOV_TOKEN)  # Token para palabras desconocidas
tokenizer.fit_on_texts(sentences)

# Convertir frases a secuencias numéricas
sequences = tokenizer.texts_to_sequences(sentences)

# Tamaño del vocabulario
vocab_size = len(tokenizer.word_index) + 1  # +1 por el padding (índice 0)
print(f"Vocabulario: {vocab_size} palabras")

print("\nPrimeras 10 palabras del vocabulario:")
for i, (word, idx) in enumerate(list(tokenizer.word_index.items())[:10]):
    print(f"{word} → {idx}")

print(f"\nEjemplo de tokenización:")
example_sentence = sentences[0]
example_sequence = sequences[0]
print(f"Oración: {example_sentence}")
print(f"Secuencia: {example_sequence}")

Vocabulario: 30415 palabras

Primeras 10 palabras del vocabulario:
<OOV> → 1
que → 2
de → 3
y → 4
la → 5
a → 6
el → 7
en → 8
no → 9
se → 10

Ejemplo de tokenización:
Oración: source wikisource librodot com sentido y sensibilidad jane austen capitulo i
Secuencia: [8617, 15766, 15767, 11038, 447, 4, 2642, 204, 15768, 3947, 6156]


## 4. Creación del Conjunto de Entrenamiento (X, Y)

Para cada secuencia `[w1, w2, ..., wn]`, se crean pares:
- `(w1) → w2`
- `(w1, w2) → w3`
- `...`
- `(w1, ..., wn-1) → wn`

In [5]:
X = []  # Secuencias de entrada: [palabra1], [palabra1, palabra2], ...
y = []  # Palabra siguiente (objetivo)

for seq in sequences:
    for i in range(len(seq) - 1):
        X.append(seq[:i+1])    # Desde el inicio hasta la palabra actual
        y.append(seq[i+1])     # La siguiente palabra

print(f"Total de secuencias de entrenamiento generadas: {len(X)}")
print("\nEjemplos de secuencias X → y:")
for i in range(5):
    # Convertir índices a palabras para mostrar
    x_words = [tokenizer.index_word.get(idx, '<UNK>') for idx in X[i]]
    y_word = tokenizer.index_word.get(y[i], '<UNK>')
    print(f"{x_words} → {y_word}")

Total de secuencias de entrenamiento generadas: 475334

Ejemplos de secuencias X → y:
['source'] → wikisource
['source', 'wikisource'] → librodot
['source', 'wikisource', 'librodot'] → com
['source', 'wikisource', 'librodot', 'com'] → sentido
['source', 'wikisource', 'librodot', 'com', 'sentido'] → y


## 5. Padding y Truncado (MAX_LEN ≤ 50)

Se Aplica padding a las secuencias y se trunca si la longitud máxima excede 50.

In [6]:
# Longitud máxima de las secuencias (con restricción MAX_LEN <= 50)
raw_max_length = max([len(seq) for seq in X])
MAX_LEN = min(50, raw_max_length)  # Aplicar restricción de máximo 50
print(f"Longitud máxima encontrada: {raw_max_length}")
print(f"MAX_LEN aplicado (truncado a 50): {MAX_LEN}")

# Aplicar padding y truncado a las secuencias de entrada
X_padded = pad_sequences(X, maxlen=MAX_LEN, padding=PADDING_TYPE, truncating='pre')
y = np.array(y)  # Etiquetas: ya es un array 1D

print(f"\nForma de X_padded: {X_padded.shape}")  # (número de muestras, MAX_LEN)
print(f"Forma de y: {y.shape}")
print("\nEjemplo de X_padded (primeras 3 secuencias):")
print(X_padded[:3])
print("\nEjemplo de y (primeras 10 etiquetas):")
print(y[:10])

Longitud máxima encontrada: 321
MAX_LEN aplicado (truncado a 50): 50

Forma de X_padded: (475334, 50)
Forma de y: (475334,)

Ejemplo de X_padded (primeras 3 secuencias):
[[    0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0  8617]
 [    0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
   8617 15766]
 [    0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0     

## 6. División del Conjunto (Train/Test: 80%/20%)

Se dividen los datos en conjuntos de entrenamiento y prueba usando `train_test_split`.

In [7]:
X_train, X_test, y_train, y_test = train_test_split(
    X_padded, y, 
    test_size=0.2, 
    random_state=42, 
    shuffle=True
)

print(f"División del conjunto:")
print(f"X_train: {X_train.shape}, y_train: {y_train.shape}")
print(f"X_test: {X_test.shape}, y_test: {y_test.shape}")
print(f"\nPorcentajes:")
print(f"Entrenamiento: {len(X_train)/(len(X_train)+len(X_test))*100:.1f}%")
print(f"Prueba: {len(X_test)/(len(X_train)+len(X_test))*100:.1f}%")


División del conjunto:
X_train: (380267, 50), y_train: (380267,)
X_test: (95067, 50), y_test: (95067,)

Porcentajes:
Entrenamiento: 80.0%
Prueba: 20.0%


## 7. Construcción del Modelo LSTM/BiLSTM

Se crea el modelo con arquitectura configurable (LSTM o BiLSTM) y se compila con `sparse_categorical_crossentropy`.

In [8]:
def create_model(vocab_size, max_length):
    """
    Crea un modelo de lenguaje usando BiLSTM o LSTM según configuración.
    
    Args:
        vocab_size (int): Tamaño del vocabulario
        max_length (int): Longitud máxima de las secuencias
    
    Returns:
        tensorflow.keras.Model: Modelo compilado
    """
    model = Sequential([
        Embedding(vocab_size, EMBEDDING_DIM, input_length=max_length, name='embedding'),
        # Usar BiLSTM si está habilitado, sino LSTM unidireccional
        Bidirectional(LSTM(LSTM_UNITS, name='lstm'), name='bidirectional_lstm') if USE_BIDIRECTIONAL 
        else LSTM(LSTM_UNITS, name='lstm'),
        Dense(DENSE_UNITS, activation='relu', name='dense_hidden'),
        Dense(vocab_size, activation='softmax', name='output')  # Probabilidades para cada palabra
    ])
    
    # Configurar optimizador con tasa de aprendizaje personalizada
    optimizer = Adam(learning_rate=LEARNING_RATE)
    
    # Usar sparse_categorical_crossentropy (NO necesita one-hot encoding)
    model.compile(
        loss='sparse_categorical_crossentropy',
        optimizer=optimizer,
        metrics=['accuracy', 'sparse_top_k_categorical_accuracy']
    )
    
    return model

model = create_model(vocab_size, MAX_LEN)
model.summary()

I0000 00:00:1758846730.092595  150397 gpu_device.cc:2020] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 9683 MB memory:  -> device: 0, name: NVIDIA GeForce RTX 3060, pci bus id: 0000:01:00.0, compute capability: 8.6


## 8. Entrenamiento del Modelo con Early Stopping

Se entrena el modelo con Early Stopping para prevenir overfitting.

In [None]:
# Configurar Early Stopping
early_stopping = EarlyStopping(
    monitor='val_loss',     # Métrica a monitorear
    patience=5,             # Número de épocas sin mejora antes de parar
    restore_best_weights=True,  # Restaurar los mejores pesos
    verbose=1               # Mostrar información cuando se pare
)

print(f"Entrenando el modelo {'BiLSTM' if USE_BIDIRECTIONAL else 'LSTM'}...")
print(f"Arquitectura: {EMBEDDING_DIM}D embedding → {'Bi-' if USE_BIDIRECTIONAL else ''}LSTM({LSTM_UNITS}) → Dense({DENSE_UNITS}) → Softmax({vocab_size})")
print(f"Parámetros de entrenamiento: {EPOCHS} epochs, batch_size={BATCH_SIZE}, lr={LEARNING_RATE}")
print("Early Stopping habilitado: val_loss con patience=5")

history = model.fit(
    X_train, y_train,  # Usar conjuntos de entrenamiento divididos
    epochs=EPOCHS,
    verbose=VERBOSE_TRAINING,
    batch_size=BATCH_SIZE,
    validation_split=VALIDATION_SPLIT,  # Usar datos de entrenamiento para validación
    shuffle=True,
    callbacks=[early_stopping]  # Agregar Early Stopping
)

Entrenando el modelo LSTM...
Arquitectura: 300D embedding → LSTM(128) → Dense(128) → Softmax(30415)
Parámetros de entrenamiento: 30 epochs, batch_size=32, lr=0.001
Early Stopping habilitado: val_loss con patience=5
Epoch 1/30


2025-09-25 19:32:11.808522: I external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:473] Loaded cuDNN version 91300


[1m9507/9507[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m177s[0m 18ms/step - accuracy: 0.0777 - loss: 6.6866 - sparse_top_k_categorical_accuracy: 0.2336 - val_accuracy: 0.0947 - val_loss: 6.4900 - val_sparse_top_k_categorical_accuracy: 0.2523
Epoch 2/30
[1m9507/9507[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m173s[0m 18ms/step - accuracy: 0.1114 - loss: 6.0687 - sparse_top_k_categorical_accuracy: 0.2697 - val_accuracy: 0.1135 - val_loss: 6.3238 - val_sparse_top_k_categorical_accuracy: 0.2730
Epoch 3/30
[1m9507/9507[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m169s[0m 18ms/step - accuracy: 0.1302 - loss: 5.7086 - sparse_top_k_categorical_accuracy: 0.2893 - val_accuracy: 0.1186 - val_loss: 6.3299 - val_sparse_top_k_categorical_accuracy: 0.2813
Epoch 4/30
[1m9505/9507[0m [32m━━━━━━━━━━━━━━━━━━━[0m[37m━[0m [1m0s[0m 16ms/step - accuracy: 0.1451 - loss: 5.4439 - sparse_top_k_categorical_accuracy: 0.3045

## 9. Cálculo de la Perplejidad

Se immplementan las funciones para calcular la perplejidad.

**Fórmula:** `perplexity = exp(-average_log_likelihood)`

In [None]:
def calculate_perplexity(model, X_test, y_test, batch_size=32):
    """
    Calcula la perplejidad del modelo en el conjunto de prueba usando CPU.

    Args:
        model: Modelo entrenado
        X_test: Conjunto de prueba de entrada
        y_test: Conjunto de prueba de salida (etiquetas verdaderas)
        batch_size: Tamaño de batch para predict
    
    Returns:
        float: Valor de perplejidad
    """
    # Forzar CPU para evitar problemas de memoria en GPU
    with tf.device("/CPU:0"):
        predictions = model.predict(X_test, verbose=0, batch_size=batch_size)

    # Calcular log-likelihood promedio
    log_likelihoods = []
    for i in range(len(y_test)):
        true_word_idx = y_test[i]
        predicted_prob = predictions[i][true_word_idx]
        predicted_prob = max(predicted_prob, 1e-10)  # evitar log(0)
        log_likelihoods.append(np.log(predicted_prob))

    average_log_likelihood = np.mean(log_likelihoods)
    perplexity = np.exp(-average_log_likelihood)

    return perplexity

def interpret_perplexity(perplexity_value):
    """
    Interpreta el valor de perplejidad según rangos comunes.
    
    Args:
        perplexity_value (float): Valor de perplejidad calculado
        
    Returns:
        str: Interpretación del valor
    """
    if perplexity_value < 10:
        return "Excelente"
    elif perplexity_value < 50:
        return "Muy bueno"
    elif perplexity_value < 100:
        return "Bueno"
    elif perplexity_value < 200:
        return "Aceptable"
    elif perplexity_value < 500:
        return "Regular"
    else:
        return "Pobre"

In [None]:
def save_experiment_results(history, model, perplexity, vocab_size, X_train, X_test, MAX_LEN):
    """
    Guarda los resultados del experimento en un archivo JSON para llevar historial.
    
    Args:
        history: Historial del entrenamiento
        model: Modelo entrenado
        perplexity: Valor de perplejidad calculado
        vocab_size: Tamaño del vocabulario
        X_train, X_test: Conjuntos de datos para obtener tamaños
        MAX_LEN: Longitud máxima de secuencia
    """
    # Preparar datos del experimento
    experiment_data = {
        "timestamp": datetime.datetime.now().isoformat(),
        "configuration": {
            "model_type": "BiLSTM" if USE_BIDIRECTIONAL else "LSTM",
            "embedding_dim": EMBEDDING_DIM,
            "lstm_units": LSTM_UNITS,
            "dense_units": DENSE_UNITS,
            "epochs": EPOCHS,
            "batch_size": BATCH_SIZE,
            "learning_rate": LEARNING_RATE,
            "dataset_take": DATASET_TAKE,
            "max_len": MAX_LEN,
            "padding_type": PADDING_TYPE,
            "min_words_per_sentence": MIN_WORDS_PER_SENTENCE,
            "gpu_used": len(tf.config.list_physical_devices('GPU')) > 0 
        },
        "dataset_info": {
            "vocab_size": int(vocab_size),
            "train_samples": int(len(X_train)),
            "test_samples": int(len(X_test)),
            "dataset_name": DATASET_NAME
        },
        "training_results": {
            "final_train_loss": float(history.history['loss'][-1]),
            "final_train_accuracy": float(history.history['accuracy'][-1]),
            "final_val_loss": float(history.history.get('val_loss', [-1])[-1]) if 'val_loss' in history.history else None,
            "final_val_accuracy": float(history.history.get('val_accuracy', [-1])[-1]) if 'val_accuracy' in history.history else None,
            "epochs_trained": len(history.history['loss']),
            "model_parameters": int(model.count_params())
        },
        "evaluation_metrics": {
            "perplexity": float(perplexity),
            "perplexity_interpretation": interpret_perplexity(perplexity)
        }
    }
    
    # Nombre del archivo de historial
    results_file = "experiment_history.json"
    
    # Cargar historial existente o crear uno nuevo
    if os.path.exists(results_file):
        try:
            with open(results_file, 'r', encoding='utf-8') as f:
                history_data = json.load(f)
        except:
            history_data = {"experiments": []}
    else:
        history_data = {"experiments": []}
    
    # Agregar nuevo experimento
    experiment_data["experiment_id"] = len(history_data["experiments"]) + 1
    history_data["experiments"].append(experiment_data)
    
    # Guardar archivo actualizado
    with open(results_file, 'w', encoding='utf-8') as f:
        json.dump(history_data, f, indent=2, ensure_ascii=False)
    
    print(f"Experimento #{experiment_data['experiment_id']} guardado en {results_file}")
    return results_file

print("Función de guardado de experimentos definida exitosamente!")

## 10. Evaluación Completa del Modelo

Se evalua el rendimiento del modelo incluyendo perplejidad y métricas estándar.

In [None]:
def evaluate_model_performance(history, model, X_test, y_test):
    """
    Muestra métricas de rendimiento del modelo durante el entrenamiento y evaluación.
    """
    print("\n=== MÉTRICAS DE ENTRENAMIENTO ===")
    final_loss = history.history['loss'][-1]
    final_accuracy = history.history['accuracy'][-1]
    
    if 'val_loss' in history.history:
        final_val_loss = history.history['val_loss'][-1]
        final_val_accuracy = history.history['val_accuracy'][-1]
        print(f"Loss final: {final_loss:.4f} | Val Loss: {final_val_loss:.4f}")
        print(f"Accuracy final: {final_accuracy:.4f} | Val Accuracy: {final_val_accuracy:.4f}")
    else:
        print(f"Loss final: {final_loss:.4f}")
        print(f"Accuracy final: {final_accuracy:.4f}")
    
    # Evaluar en conjunto de prueba
    print("\n=== EVALUACIÓN EN CONJUNTO DE PRUEBA ===")
    test_results = model.evaluate(X_test, y_test, verbose=0)
    test_loss = test_results[0]
    test_accuracy = test_results[1]
    print(f"Test Loss: {test_loss:.4f}")
    print(f"Test Accuracy: {test_accuracy:.4f}")
    
    # Si hay métricas adicionales, mostrarlas también
    if len(test_results) > 2:
        test_top_k_accuracy = test_results[2]
        print(f"Test Top-K Accuracy: {test_top_k_accuracy:.4f}")
    
    # Calcular perplejidad
    print("\n=== CÁLCULO DE PERPLEJIDAD ===")
    perplexity = calculate_perplexity(model, X_test, y_test)
    interpretation = interpret_perplexity(perplexity)
    
    print(f"Perplejidad en conjunto de prueba: {perplexity:.2f}")
    print(f"Interpretación: {interpretation}")
    
    # Tabla de interpretación
    print("\n=== TABLA DE INTERPRETACIÓN DE PERPLEJIDAD ===")
    print("< 10:     Excelente")
    print("10-50:    Muy bueno") 
    print("50-100:   Bueno")
    print("100-200:  Aceptable")
    print("200-500:  Regular")
    print("> 500:    Pobre")
    
    # Guardar resultados del experimento automáticamente
    print("\n=== GUARDANDO RESULTADOS DEL EXPERIMENTO ===")
    try:
        save_experiment_results(history, model, perplexity, vocab_size, X_train, X_test, MAX_LEN)
    except Exception as e:
        print(f"Error al guardar experimento: {e}")
    
    return perplexity

# Evaluar rendimiento (incluyendo perplejidad)
perplexity = evaluate_model_performance(history, model, X_test, y_test)

## 11. Predicción de la Próxima Palabra

Se implementa la función `predict_next_word` para predecir la siguiente palabra dada una secuencia de entrada.

In [None]:
def predict_next_word(model, tokenizer, sentence, max_length, top_k=1):
    """
    Predice la(s) palabra(s) siguiente(s) dada una oración en español.
    
    Args:
        model: Modelo entrenado
        tokenizer: Tokenizador ajustado
        sentence (str): Oración de entrada
        max_length (int): Longitud máxima de secuencia
        top_k (int): Número de predicciones top a retornar
    
    Returns:
        str o list: Palabra predicha (top_k=1) o lista de predicciones (top_k>1)
    """
    # Tokenizar la oración
    sequence = tokenizer.texts_to_sequences([sentence])[0]

    if len(sequence) == 0:
        return "<no_reconocido>" if top_k == 1 else ["<no_reconocido>"]

    # Aplicar padding usando el mismo tipo configurado
    sequence_padded = pad_sequences([sequence], maxlen=max_length, padding=PADDING_TYPE, truncating='pre')

    # Predecir probabilidades
    prediction = model.predict(sequence_padded, verbose=VERBOSE_PREDICTION)
    
    if top_k == 1:
        # Retornar solo la predicción más probable
        predicted_idx = np.argmax(prediction[0])
        predicted_word = tokenizer.index_word.get(predicted_idx, "<desconocido>")
        return predicted_word
    else:
        # Retornar las top_k predicciones más probables
        top_indices = np.argsort(prediction[0])[-top_k:][::-1]
        predictions = []
        for idx in top_indices:
            word = tokenizer.index_word.get(idx, "<desconocido>")
            prob = prediction[0][idx]
            predictions.append((word, prob))
        return predictions

def generate_text(model, tokenizer, seed_text, max_length, num_words_to_generate=10):
    """
    Genera texto continuando desde un texto semilla.
    
    Args:
        model: Modelo entrenado
        tokenizer: Tokenizador ajustado
        seed_text (str): Texto inicial
        max_length (int): Longitud máxima de secuencia
        num_words_to_generate (int): Número de palabras a generar
    
    Returns:
        str: Texto generado
    """
    generated_text = seed_text
    
    for _ in range(num_words_to_generate):
        next_word = predict_next_word(model, tokenizer, generated_text, max_length)
        if next_word in ["<no_reconocido>", "<desconocido>"]:
            break
        generated_text += " " + next_word
    
    return generated_text

print("Funciones de predicción definidas exitosamente!")

## 12. Pruebas de Predicción de Siguiente Palabra

Se prueba el modelo con casos de prueba en español.

In [None]:
# Casos de prueba para predicción de siguiente palabra
test_cases = [
    "el gato se sentó en la",
    "los estudiantes abrieron sus",
    "la maestra escribió en el",
    "el niño jugó con un",
    "el pájaro voló sobre el",
    "el sol se elevó en el",
    "la casa tiene una",
    "me gusta comer",
    "vamos a la"
]

print(f"=== PREDICCIÓN DE SIGUIENTE PALABRA ({'BiLSTM' if USE_BIDIRECTIONAL else 'LSTM'}) ===")
for sentence in test_cases:
    next_word = predict_next_word(model, tokenizer, sentence, MAX_LEN)
    print(f"'{sentence}' → '{next_word}'")

## 13. Predicciones Top-K

Se muestran las K(3) predicciones más probables para algunos casos.

In [None]:
# Predicciones top-k para algunos casos
print(f"=== TOP-3 PREDICCIONES ===")
for sentence in test_cases[:3]:
    top_predictions = predict_next_word(model, tokenizer, sentence, MAX_LEN, top_k=3)
    print(f"'{sentence}':")
    for i, (word, prob) in enumerate(top_predictions, 1):
        print(f"  {i}. '{word}' (probabilidad: {prob:.4f})")
    print()

## 14. Generación de Texto

Se genera texto continuando desde un texto semilla.

In [None]:
# Generación de texto
print(f"=== GENERACIÓN DE TEXTO ===")
seed_texts = [
    "el perro",
    "los estudiantes",
    "en la casa"
]

for seed in seed_texts:
    generated = generate_text(model, tokenizer, seed, MAX_LEN, num_words_to_generate=8)
    print(f"Semilla: '{seed}'")
    print(f"Generado: '{generated}'")
    print()

## 15. Resumen Final del Modelo

Se muestra un resumen completo de las características y rendimiento del modelo.

In [None]:
print("=== RESUMEN DEL MODELO ===")
print(f"Vocabulario: {vocab_size:,} palabras")
print(f"Secuencias de entrenamiento: {len(X_train):,}")
print(f"Secuencias de prueba: {len(X_test):,}")
print(f"Longitud máxima de secuencia (MAX_LEN): {MAX_LEN}")
print(f"Arquitectura: {'BiLSTM' if USE_BIDIRECTIONAL else 'LSTM'}")
print(f"Parámetros del modelo: {model.count_params():,}")
print(f"Dataset utilizado: {DATASET_NAME} (primeras {DATASET_TAKE:,} muestras)")
print(f"Perplejidad final: {perplexity:.2f} ({interpret_perplexity(perplexity)})")

print("\n=== COMPONENTES IMPLEMENTADOS ===")
components = [
    "Carga del Dataset (spanish_billion_words_clean)",
    "Tokenización y Creación del Vocabulario", 
    "Creación del Conjunto de Entrenamiento (X, Y)",
    "Padding y Truncado (MAX_LEN ≤ 50)",
    "División del Conjunto (Train/Test 80%/20%)",
    "Construcción del Modelo LSTM/BiLSTM",
    "Entrenamiento con Early Stopping",
    "Cálculo de la Perplejidad",
    "Predicción de la Próxima Palabra",
    "Uso de sparse_categorical_crossentropy"
]

for component in components:
    print(component)

---

## Conclusiones

Este notebook implementa completamente los requerimientos de la Tarea 1:

1. **Dataset**: Se utilizó `spanish_billion_words_clean` de Hugging Face
2. **Tokenización**: Se Implementó con vocabulario único y mapeo palabra↔índice
3. **Preparación de datos**: Secuencias (X,Y) con padding/truncado (MAX_LEN≤50)
4. **División**: 80% entrenamiento / 20% prueba con `train_test_split`
5. **Modelo**: Arquitectura LSTM/BiLSTM configurable con embedding
6. **Entrenamiento**: Con Early Stopping y `sparse_categorical_crossentropy`
7. **Evaluación**: Perplejidad calculada 
8. **Predicción**: Función `predict_next_word`

El modelo puede alternar entre LSTM y BiLSTM simplemente cambiando `USE_BIDIRECTIONAL=True/False` en los parámetros globales.

**Parámetros recomendados para experimentación:**
- EMBEDDING_DIM: 100-300
- LSTM_UNITS: 64-128
- DENSE_UNITS: 64-128
- LEARNING_RATE: 0.001-0.01
- BATCH_SIZE: 8-32

## 16. Historial de Experimentos

Este bloque muestra todos los experimentos realizados, permitiendo comparar diferentes configuraciones y resultados.

In [None]:
def load_and_display_experiment_history():
    """
    Carga y muestra el historial completo de experimentos con comparaciones.
    """
    results_file = "experiment_history.json"
    
    if not os.path.exists(results_file):
        print("No hay historial de experimentos disponible.")
        print("Ejecuta el notebook completo para generar el primer experimento.")
        return
    
    try:
        with open(results_file, 'r', encoding='utf-8') as f:
            history_data = json.load(f)
        
        experiments = history_data.get("experiments", [])
        
        if not experiments:
            print("No hay experimentos en el historial.")
            return
        
        print(f"HISTORIAL DE EXPERIMENTOS ({len(experiments)} experimentos)")
        print("=" * 80)
        
        # Mostrar resumen de todos los experimentos
        print("\n🔍 RESUMEN COMPARATIVO:")
        print(f"{'ID':<3} {'Modelo':<7} {'Emb':<4} {'LSTM':<5} {'Dense':<6} {'Épocas':<7} {'Perplejidad':<12} {'Interp.':<12} {'GPU':<12}")
        print("-" * 85)
        
        for exp in experiments:
            config = exp['configuration']
            metrics = exp['evaluation_metrics']
            training = exp['training_results']
            
            print(f"{exp['experiment_id']:<3} "
                  f"{config['model_type']:<7} "
                  f"{config['embedding_dim']:<4} "
                  f"{config['lstm_units']:<5} "
                  f"{config['dense_units']:<6} "
                  f"{training['epochs_trained']:<7} "
                  f"{metrics['perplexity']:<12.2f} "
                  f"{metrics['perplexity_interpretation']:<12} "
                  f"{'Sí' if config['gpu_used'] else 'No':<12}"  
                )
        
        # Encontrar mejores y peores experimentos
        best_exp = min(experiments, key=lambda x: x['evaluation_metrics']['perplexity'])
        worst_exp = max(experiments, key=lambda x: x['evaluation_metrics']['perplexity'])
        
        print(f"\n MEJOR EXPERIMENTO (menor perplejidad):")
        print(f"   ID #{best_exp['experiment_id']}: {best_exp['configuration']['model_type']} "
              f"con perplejidad {best_exp['evaluation_metrics']['perplexity']:.2f} "
              f"({best_exp['evaluation_metrics']['perplexity_interpretation']})")
        
        print(f"\n PEOR EXPERIMENTO (mayor perplejidad):")
        print(f"   ID #{worst_exp['experiment_id']}: {worst_exp['configuration']['model_type']} "
              f"con perplejidad {worst_exp['evaluation_metrics']['perplexity']:.2f} "
              f"({worst_exp['evaluation_metrics']['perplexity_interpretation']})")
        
        # Mostrar estadísticas generales
        all_perplexities = [exp['evaluation_metrics']['perplexity'] for exp in experiments]
        avg_perplexity = sum(all_perplexities) / len(all_perplexities)
        
        print(f"\n ESTADÍSTICAS GENERALES:")
        print(f"   Perplejidad promedio: {avg_perplexity:.2f}")
        print(f"   Rango de perplejidad: {min(all_perplexities):.2f} - {max(all_perplexities):.2f}")
        
        # Contar modelos por tipo
        lstm_count = sum(1 for exp in experiments if exp['configuration']['model_type'] == 'LSTM')
        bilstm_count = sum(1 for exp in experiments if exp['configuration']['model_type'] == 'BiLSTM')
        
        print(f"   Experimentos LSTM: {lstm_count}")
        print(f"   Experimentos BiLSTM: {bilstm_count}")
        
        # Mostrar detalles del último experimento
        if experiments:
            last_exp = experiments[-1]
            print(f"\n ÚLTIMO EXPERIMENTO (ID #{last_exp['experiment_id']}):")
            # print(f"   Fecha: {datetime.datetime.fromisoformat(last_exp['timestamp']).strftime('%Y-%m-%d %H:%M:%S')}")
            print(f"   Modelo: {last_exp['configuration']['model_type']}")
            print(f"   Configuración: Emb={last_exp['configuration']['embedding_dim']}, "
                  f"LSTM={last_exp['configuration']['lstm_units']}, "
                  f"Dense={last_exp['configuration']['dense_units']}")
            print(f"   Entrenamiento: {last_exp['training_results']['epochs_trained']} épocas, "
                  f"batch_size={last_exp['configuration']['batch_size']}")
            print(f"   Resultados: Perplejidad={last_exp['evaluation_metrics']['perplexity']:.2f} "
                  f"({last_exp['evaluation_metrics']['perplexity_interpretation']})")
            print(f"   Accuracy final: {last_exp['training_results']['final_train_accuracy']:.4f}")
            if last_exp['training_results']['final_val_accuracy']:
                print(f"   Val Accuracy: {last_exp['training_results']['final_val_accuracy']:.4f}")
    
    except Exception as e:
        print(f" Error al cargar historial: {e}")

def show_experiment_details(experiment_id):
    """
    Muestra detalles completos de un experimento específico.
    
    Args:
        experiment_id (int): ID del experimento a mostrar
    """
    results_file = "experiment_history.json"
    
    if not os.path.exists(results_file):
        print("No hay historial de experimentos disponible.")
        return
    
    try:
        with open(results_file, 'r', encoding='utf-8') as f:
            history_data = json.load(f)
        
        experiments = history_data.get("experiments", [])
        experiment = next((exp for exp in experiments if exp['experiment_id'] == experiment_id), None)
        
        if not experiment:
            print(f"No se encontró experimento con ID #{experiment_id}")
            return
        
        print(f"DETALLES DEL EXPERIMENTO #{experiment_id}")
        print("=" * 50)
        
        #timestamp = datetime.datetime.fromisoformat(experiment['timestamp'])
        #print(f"Fecha: {timestamp.strftime('%Y-%m-%d %H:%M:%S')}")
        
        config = experiment['configuration']
        print(f"\n CONFIGURACIÓN:")
        print(f"   Modelo: {config['model_type']}")
        print(f"   Embedding: {config['embedding_dim']} dimensiones")
        print(f"   LSTM Units: {config['lstm_units']}")
        print(f"   Dense Units: {config['dense_units']}")
        print(f"   Épocas configuradas: {config['epochs']}")
        print(f"   Batch Size: {config['batch_size']}")
        print(f"   Learning Rate: {config['learning_rate']}")
        print(f"   Dataset samples: {config['dataset_take']:,}")
        print(f"   MAX_LEN: {config['max_len']}")
        
        dataset = experiment['dataset_info']
        print(f"\n DATOS:")
        print(f"   Vocabulario: {dataset['vocab_size']:,} palabras")
        print(f"   Entrenamiento: {dataset['train_samples']:,} muestras")
        print(f"   Prueba: {dataset['test_samples']:,} muestras")
        
        training = experiment['training_results']
        print(f"\n ENTRENAMIENTO:")
        print(f"   Épocas entrenadas: {training['epochs_trained']}")
        print(f"   Loss final: {training['final_train_loss']:.4f}")
        print(f"   Accuracy final: {training['final_train_accuracy']:.4f}")
        if training['final_val_loss']:
            print(f"   Validation Loss: {training['final_val_loss']:.4f}")
            print(f"   Validation Accuracy: {training['final_val_accuracy']:.4f}")
        print(f"   Parámetros del modelo: {training['model_parameters']:,}")
        
        metrics = experiment['evaluation_metrics']
        print(f"\n EVALUACIÓN:")
        print(f"   Perplejidad: {metrics['perplexity']:.2f}")
        print(f"   Interpretación: {metrics['perplexity_interpretation']}")
        
    except Exception as e:
        print(f"Error al mostrar detalles: {e}")

# Cargar y mostrar historial
load_and_display_experiment_history()