**Nota**: Se recomienda ejecutar este notebook en Google Colab para asegurar la compatibilidad y evitar problemas de dependencias. El entrenamiento de los modelos requiere una cantidad significativa de memoria RAM y potencia de c√≥mputo, que puede no estar disponible en todos los entornos locales.

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/antoniotrapote/chord-prediction-tfm/blob/main/anexos/notebooks/03_modelado/04_modelo_lstm.ipynb)
[![View on GitHub](https://img.shields.io/badge/View_on-GitHub-black?logo=github)](https://github.com/antoniotrapote/chord-prediction-tfm/blob/main/anexos/notebooks/03_modelado/04_modelo_lstm.ipynb)

# Long Short-Term Memory (LSTM) model - PyTorch
En este notebook hemos utilizado PyTorch para implementar y entrenar un modelo de red neuronal recurrente basado en Long Short-Term Memory (LSTM) para la predicci√≥n de acordes en secuencias musicales.

**dataset**: `songdb_funcional_v4`

**Contenido del notebook**:
1. Entorno (Colab) - comprobaci√≥n de versiones
2. Traer el CSV desde GitHub  
3. Cargar el CSV + tokenizar.  
4. Split train/val/test.  
5. Vocabulario + codificaci√≥n.
6. Dataset + DataLoaders.
7. Modelo LSTM.  
8. Definimos el entrenamiento y las m√©tricas (Top@k, MRR, PPL).  
9. Entrenamos el modelo.  
10. Evaluaci√≥n en test.  
11. Conclusiones.  
12. Funci√≥n para predicciones `predict_next(context, k=5)`.
13. Inferencia incremental (quick test).


## 1) Entorno (Colab)
El modelo fue originalmente entrenado en Google Colab, con las siguientes especificaciones:
>Python: 3.12.11 (main, Jun  4 2025, 08:56:18) [GCC 11.4.0]  
>PyTorch: 2.8.0+cu126  
>CUDA disponible: True  
>GPU: Tesla T4

In [1]:
#@title Semillas y determinismo
import random, os, numpy as np, torch
SEED = 42
random.seed(SEED); np.random.seed(SEED); torch.manual_seed(SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(SEED)
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

In [2]:
#@title Comprobar GPU/versions
import sys, torch
print("Python:", sys.version)
print("PyTorch:", torch.__version__)
print("CUDA disponible:", torch.cuda.is_available())
if torch.cuda.is_available():
    print("GPU:", torch.cuda.get_device_name(0))
else:
    print("‚ö†Ô∏è Activa GPU: Runtime ‚ñ∂ Change runtime type ‚ñ∂ GPU")


Python: 3.12.11 (main, Jun  4 2025, 08:56:18) [GCC 11.4.0]
PyTorch: 2.8.0+cu126
CUDA disponible: True
GPU: Tesla T4


## 2) Traer el CSV desde GitHub
Descargamos el dataset procesado desde el repositorio de GitHub.

In [3]:
import urllib.request

# Configuraci√≥n para descargar el dataset desde GitHub
USER = "antoniotrapote"
REPO = "chord-prediction-tfm"
BRANCH = "main"
PATH_IN_REPO = "anexos/data/songdb_funcional_v4.csv"
URL = f"https://raw.githubusercontent.com/{USER}/{REPO}/{BRANCH}/{PATH_IN_REPO}"

# Ruta local donde guardar el archivo
data_path = "/content/songdb_funcional_v4.csv"

# Descargar el archivo CSV desde GitHub
urllib.request.urlretrieve(URL, data_path)
print(f"Dataset descargado en: {data_path}")


Dataset descargado en: /content/songdb_funcional_v4.csv


## 3) Cargar CSV y tokenizar
Cargamos el archivo CSV en un DataFrame de pandas y transformamos las secuencias de acordes en listas de tokens.

In [4]:
import pandas as pd, ast, re

# Configuraci√≥n de datos
sequence_col = "funcional_prog"  # Columna de secuencia ("chordprog" para cifrado americano originales)
min_seq_len = 8  # Ignora secuencias muy cortas

df = pd.read_csv(data_path)
assert sequence_col in df.columns, f"Columna {sequence_col} no encontrada en el CSV."
print("Filas totales:", len(df))
display(df[[sequence_col]].head(3))

def parse_tokens_simple(s: str):
  """Si viene como lista en string, intenta parsear"""
  if isinstance(s, str) and s.strip().startswith("[") and s.strip().endswith("]"):
    try:
      lst = ast.literal_eval(s)
      if isinstance(lst, list):
        return [str(t) for t in lst]
    except Exception:
      pass

  # Normaliza separadores de comp√°s y saltos de l√≠nea a espacios
  s = str(s).replace("|", " ").replace("\n", " ")
  toks = [t for t in re.findall(r"\S+", s) if t.strip()]
  return toks

# Tokenizar y filtrar secuencias muy cortas
df["_tokens_"] = df[sequence_col].apply(parse_tokens_simple)
df = df[df["_tokens_"].apply(len) >= min_seq_len].reset_index(drop=True)
print(f"Filas tras filtro min_seq_len >= {min_seq_len}:", len(df))

Filas totales: 2613


Unnamed: 0,funcional_prog
0,vi #iv√∏ V/III V/VI vi IV ii V7 iii vi ii V7 I ...
1,VII VII I vi ii V7 VII VII I vi ii V7 I IV #iv...
2,i VI V/V V7 i VI V/V V7 i VI ii√∏ V7 i VI ii√∏ V...


Filas tras filtro min_seq_len >= 8: 2612


## 4) Split train/val/test
Dividimos el dataset en conjuntos de entrenamiento, validaci√≥n y test para evaluar el modelo de manera adecuada.

In [5]:
from sklearn.model_selection import train_test_split

# Par√°metros de divisi√≥n del dataset
val_size = 0.10     # 10% para validaci√≥n
test_size = 0.10    # 10% para test
random_state = 42   # Semilla para reproducibilidad

# Dividir en train/val/test
train_df, tmp_df = train_test_split(df, test_size=val_size+test_size, random_state=random_state, shuffle=True)
rel_test = test_size / (val_size + test_size) if (val_size + test_size) > 0 else 0.5
val_df, test_df = train_test_split(tmp_df, test_size=rel_test, random_state=random_state, shuffle=True)

# Extraer las secuencias tokenizadas
train_seqs = train_df["_tokens_"].tolist()
val_seqs   = val_df["_tokens_"].tolist()
test_seqs  = test_df["_tokens_"].tolist()

print(f"Train: {len(train_seqs)}, Val: {len(val_seqs)}, Test: {len(test_seqs)}")

Train: 2089, Val: 261, Test: 262


## 5) Vocabulario y codificaci√≥n
Construimos el vocabulario a partir de los datos de entrenamiento y definimos la codificaci√≥n de los tokens/acordes.

### Tokens especiales

Al construir el vocabulario incluimos **tokens especiales** que cumplen funciones clave durante el entrenamiento y la inferencia:

- **`<pad>`** (*padding*): usado para rellenar secuencias hasta que todas tengan la misma longitud. Permite entrenar en *batch* sin que las secuencias m√°s cortas generen errores.  
- **`<unk>`** (*unknown*): representa cualquier token desconocido (acorde no visto en el entrenamiento). Esto evita que el modelo falle si aparece un s√≠mbolo nuevo.  
- **`<bos>`** (*begin of sequence*): indica el inicio de una secuencia. Ayuda al modelo a aprender contextos desde el arranque.  
- **`<eos>`** (*end of sequence*): marca el final de una secuencia. Fundamental para que el modelo sepa d√≥nde detenerse al generar predicciones.

Estos tokens forman parte del **alfabeto m√≠nimo** que todo modelo de lenguaje necesita.  Son esenciales para manejar secuencias de longitud variable, gestionar vocabularios abiertos y proporcionar se√±ales claras sobre la estructura de las secuencias durante el entrenamiento y la inferencia.

### ¬øPor qu√© solo datos de entrenamiento para el vocabulario?

**Principio fundamental: Evitar Data Leakage (filtraci√≥n de datos)**

Construimos el vocabulario **√∫nicamente** con las secuencias de entrenamiento por estas razones cr√≠ticas:

1. **Evaluaci√≥n realista**: Si incluy√©ramos tokens de validaci√≥n/test en el vocabulario, el modelo tendr√≠a ventaja artificial al conocer todos los tokens posibles de antemano.

2. **Generalizaci√≥n real**: En producci√≥n, el modelo encontrar√° acordes/progresiones nunca vistos. Usar solo datos de entrenamiento simula esta condici√≥n realista.

3. **Prevenci√≥n de sobreajuste**: Evita que el modelo se beneficie indirectamente de conocer la distribuci√≥n completa de tokens del dataset.

4. **Manejo de tokens desconocidos**: Los tokens que aparecen en val/test pero no en train se mapean a `<unk>`, lo cual es **intencional** y mide la robustez del modelo ante la incertidumbre.

> **Nota**: Este es un est√°ndar en ML que asegura que nuestras m√©tricas reflejen el rendimiento real esperado en datos no vistos.

### Guardado del tokenizador

Guardamos el tokenizador `gru_tokenizer.json` (es decir, el diccionario que asigna tokens ‚ÜîÔ∏é √≠ndices) por varias razones:

1. **Reproducibilidad**: asegura que podamos volver a cargar el modelo y usar exactamente el mismo mapeo de tokens.  
2. **Inferencia**: durante la predicci√≥n, necesitamos convertir acordes a √≠ndices y de vuelta a acordes.  
3. **Compatibilidad**: si el tokenizador cambia, un modelo entrenado dejar√≠a de ser v√°lido.

Este archivo almacenan dos diccionarios:
- `stoi` (string ‚Üí √≠ndice)  
- `itos` (√≠ndice ‚Üí string)  
Este archivo queda en el directorio de trabajo junto a los pesos del modelo y se carga siempre antes de usar el modelo para predicciones.


In [None]:
from collections import Counter
import json

# Tokens especiales
PAD, UNK, BOS, EOS = "<pad>", "<unk>", "<bos>", "<eos>"
tokenizer_path = "lstm_tokenizer.json"  # Nombre del archivo del tokenizer

def build_vocab(seqs, min_freq=1):
    """
    Construye el vocabulario SOLO con secuencias de entrenamiento.
    
    IMPORTANTE: No incluir datos de validaci√≥n/test para evitar data leakage.
    Los tokens no vistos en entrenamiento se mapear√°n a <unk> durante la evaluaci√≥n.
    """
    c = Counter()
    for s in seqs:
        c.update(s)

    # Crear vocabulario: tokens especiales + tokens frecuentes
    vocab = [PAD, UNK, BOS, EOS] + [t for t,f in c.items() if f >= min_freq and t not in {PAD,UNK,BOS,EOS}]
    stoi = {t:i for i,t in enumerate(vocab)}  # string to index
    itos = {i:t for t,i in stoi.items()}     # index to string
    return vocab, stoi, itos

# üéØ Construir vocabulario SOLO con datos de entrenamiento (evita data leakage)
vocab, stoi, itos = build_vocab(train_seqs, min_freq=1)
vocab_size = len(vocab)
print("Tama√±o del vocabulario:", vocab_size)
print(f"üìä Tokens √∫nicos encontrados en entrenamiento: {vocab_size - 4}")  # -4 por tokens especiales

# Guardar el tokenizer para uso posterior
with open(tokenizer_path, "w") as f:
    json.dump({"vocab": vocab}, f, ensure_ascii=False, indent=2)
print(f"Tokenizer guardado en: {tokenizer_path}")

def encode(seq, add_bos=True):
    """
    Convierte una secuencia de tokens a √≠ndices num√©ricos.
    Los tokens no vistos en entrenamiento se mapean autom√°ticamente a <unk>.
    """
    ids = [stoi[BOS]] if add_bos else []
    ids += [stoi.get(t, stoi[UNK]) for t in seq]  # .get() maneja tokens desconocidos
    return ids

Tama√±o del vocabulario: 86
Tokenizer guardado en: lstm_tokenizer.json


## 6) Dataset (context‚Üínext) y DataLoaders
En este paso preparamos los datos para el entrenamiento:

- **Dataset (context ‚Üí next)**: cada ejemplo se construye como una secuencia de acordes (contexto) y el acorde que debe predecirse (siguiente).  
- **DataLoader**: organiza el dataset en *batches* y lo entrega al modelo durante el entrenamiento.

**Ventajas del DataLoader**:
- Agrupa varios ejemplos en paralelo (*batching*), aprovechando mejor la GPU.  
- Reordena los datos en cada √©poca (*shuffle*), lo que mejora la generalizaci√≥n.  
- Facilita el recorrido con bucles simples (`for batch in dataloader:`).  

En resumen, el DataLoader hace m√°s eficiente y ordenado el proceso de entrenamiento.

In [7]:
import torch
from torch.utils.data import Dataset, DataLoader

# Configuraci√≥n del modelo y entrenamiento
seq_len = 24
batch_size = 128

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

class NextTokenDataset(Dataset):
    def __init__(self, sequences, seq_len):
        self.samples = []
        for seq in sequences:
            ids = encode(seq, add_bos=True)
            if len(ids) <= seq_len: continue
            for i in range(seq_len, len(ids)):
                self.samples.append((ids[i-seq_len:i], ids[i]))
    def __len__(self): return len(self.samples)
    def __getitem__(self, idx):
        x, y = self.samples[idx]
        return torch.tensor(x, dtype=torch.long), torch.tensor(y, dtype=torch.long)

train_data = NextTokenDataset(train_seqs, seq_len)
val_data   = NextTokenDataset(val_seqs,   seq_len)
test_data  = NextTokenDataset(test_seqs,  seq_len)

train_loader = DataLoader(train_data, batch_size=batch_size, shuffle=True, drop_last=True)
val_loader   = DataLoader(val_data,   batch_size=batch_size, shuffle=False)
test_loader  = DataLoader(test_data,  batch_size=batch_size, shuffle=False)

print(f"Muestras de entrenamiento: {len(train_data)}")
print(f"Muestras de validaci√≥n: {len(val_data)}")
print(f"Muestras de test: {len(test_data)}")

Muestras de entrenamiento: 60979
Muestras de validaci√≥n: 7044
Muestras de test: 7669


## 7) Modelo LSTM

En este caso definimos una red **LSTM** (*Long Short-Term Memory*), una variante de las RNN dise√±ada para capturar dependencias a largo plazo en secuencias.  
La LSTM incorpora **puertas de entrada, olvido y salida**, lo que le permite retener informaci√≥n durante m√°s pasos que una GRU o una RNN simple.  

Esto hace que el modelo sea m√°s potente en teor√≠a para secuencias largas, aunque tambi√©n m√°s costoso en tiempo de entrenamiento y con mayor riesgo de sobreajuste en datasets peque√±os.

In [None]:
#@title Definici√≥n del modelo
import torch.nn as nn

class ChordLSTM(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_size, num_layers, dropout):
        super().__init__()
        self.emb = nn.Embedding(vocab_size, embedding_dim)
        self.rnn = nn.LSTM(embedding_dim, hidden_size, num_layers=num_layers,
                                   batch_first=True, dropout=dropout if num_layers>1 else 0.0)
        self.dropout = nn.Dropout(dropout)
        self.fc = nn.Linear(hidden_size, vocab_size)
    def forward(self, x):
        e = self.emb(x)
        o, _ = self.rnn(e)
        return self.fc(self.dropout(o[:, -1, :]))
    
# Par√°metros del modelo
embedding_dim = 128
hidden_size = 256
num_layers = 2
dropout = 0.2

## 8) Definimos el entrenamiento y las m√©tricas (Top@K, MRR, PPL)

Durante el entrenamiento evaluamos el modelo con varias m√©tricas:

- **Top@K**: mide si el acorde correcto aparece entre las *K* predicciones m√°s probables.  
  - Ej: Top@1 = acierto exacto, Top@3 = acierto si est√° en las 3 primeras opciones.  

- **MRR (Mean Reciprocal Rank)**: promedia la posici√≥n del acorde correcto en las predicciones.  
  - Un valor alto significa que el modelo suele colocar la respuesta correcta en posiciones cercanas al inicio.  

- **PPL (Perplexity)**: mide la ‚Äúincertidumbre‚Äù del modelo. Valores bajos indican predicciones m√°s seguras y consistentes.  

Estas m√©tricas combinadas nos dan una visi√≥n completa: precisi√≥n pr√°ctica (Top@K), calidad del ranking (MRR) y solidez estad√≠stica (PPL).

### Proceso de entrenamiento

En el entrenamiento definimos tres componentes clave:

- **GradScaler (AMP)**: activa el entrenamiento en precisi√≥n mixta en GPU. Esto acelera los c√°lculos y reduce memoria sin perder estabilidad num√©rica.  
- **Optimizador (AdamW)**: actualiza los par√°metros del modelo a partir de los gradientes. Incluye `weight_decay` como regularizaci√≥n para evitar sobreajuste.  
- **Funci√≥n de p√©rdida (CrossEntropyLoss)**: compara la predicci√≥n del modelo con el acorde correcto y gu√≠a el aprendizaje.

El bucle de entrenamiento consiste en:  
1. Pasar un *batch* por el modelo (*forward*).  
2. Calcular la p√©rdida con `CrossEntropyLoss`.  
3. Retropropagar los gradientes (*backward*).  
4. Actualizar par√°metros con AdamW (apoyado por GradScaler en GPU).  

Este ciclo se repite durante varias √©pocas hasta que el modelo converge.


In [9]:
import math, time, os, torch
import torch.nn.functional as F

def topk_metrics(logits, targets, ks=(1,3,5)):
    out = {}
    with torch.no_grad():
        for k in ks:
            topk = logits.topk(k, dim=-1).indices
            out[f"Top@{k}"] = (topk == targets.unsqueeze(1)).any(dim=1).float().mean().item()
        ranks = (logits.argsort(dim=-1, descending=True) == targets.unsqueeze(1)).nonzero(as_tuple=False)[:,1] + 1
        out["MRR"] = (1.0 / ranks.float()).mean().item()
    return out

def evaluate(model, loader, criterion):
    model.eval()
    total, n = 0.0, 0
    agg = {"Top@1":0.0,"Top@3":0.0,"Top@5":0.0,"MRR":0.0}
    with torch.no_grad():
        for x,y in loader:
            x,y = x.to(device), y.to(device)
            logits = model(x)
            loss = criterion(logits, y)
            b = x.size(0); total += loss.item()*b; n += b
            m = topk_metrics(logits, y)
            for k in agg: agg[k] += m[k]*b
    for k in agg: agg[k] /= max(1,n)
    return {"loss": total/max(1,n), "ppl": math.exp(total/max(1,n)), **agg}

def train_model(model, train_loader, val_loader, epochs, lr, weight_decay, grad_clip=1.0, amp=True, save_dir=".", save_name="best.pt"):
    os.makedirs(save_dir, exist_ok=True)
    scaler = torch.cuda.amp.GradScaler(enabled=(amp and device.type=='cuda'))
    opt = torch.optim.AdamW(model.parameters(), lr=lr, weight_decay=weight_decay)
    crit = torch.nn.CrossEntropyLoss()
    best_mrr, best_path = -1.0, os.path.join(save_dir, save_name)
    for ep in range(1, epochs+1):
        model.train(); t0 = time.time()
        for i,(x,y) in enumerate(train_loader,1):
            x,y = x.to(device), y.to(device)
            opt.zero_grad(set_to_none=True)
            with torch.cuda.amp.autocast(enabled=(amp and device.type=='cuda')):
                logits = model(x); loss = crit(logits,y)
            scaler.scale(loss).backward()
            if grad_clip is not None:
                scaler.unscale_(opt)
                torch.nn.utils.clip_grad_norm_(model.parameters(), grad_clip)
            scaler.step(opt); scaler.update()
            if i % 100 == 0: print(f"Ep{ep} step {i}/{len(train_loader)} loss {loss.item():.4f}")
        valm = evaluate(model, val_loader, crit)
        print(f"Epoch {ep} | val loss {valm['loss']:.4f} ppl {valm['ppl']:.2f} Top@1 {valm['Top@1']:.3f} Top@3 {valm['Top@3']:.3f} Top@5 {valm['Top@5']:.3f} MRR {valm['MRR']:.3f}")
        if valm["MRR"] > best_mrr:
            best_mrr = valm["MRR"]
            torch.save({"model_state": model.state_dict(), "config": {"data_path": data_path, "sequence_col": sequence_col, "val_size": val_size, "test_size": test_size, "random_state": random_state, "seq_len": seq_len, "batch_size": batch_size, "epochs": epochs, "lr": lr, "weight_decay": weight_decay, "dropout": dropout, "embedding_dim": embedding_dim, "hidden_size": hidden_size, "num_layers": num_layers, "grad_clip": grad_clip, "amp": amp, "save_dir": save_dir, "save_name": save_name, "tokenizer_path": tokenizer_path, "min_seq_len": min_seq_len}, "stoi": stoi, "itos": itos}, best_path)
            print("üî• Guardado best ->", best_path, "| MRR:", best_mrr)
    return best_mrr, best_path

## 9) Entrenamos el modelo

In [None]:
#@title Train
import torch, os, json

# Par√°metros de entrenamiento
epochs = 6
lr = 2e-3
weight_decay = 1e-4
grad_clip = 1.0
amp = True

# Configuraci√≥n de guardado
save_dir = "/content/models_lstm_v1"
save_name = "lstm_best.pt"

torch.manual_seed(random_state)

# Instanciar el modelo
model = ChordLSTM(vocab_size=len(vocab), embedding_dim=embedding_dim,
                          hidden_size=hidden_size, num_layers=num_layers,
                          dropout=dropout).to(device)

# Entrenar el modelo
best_mrr, best_path = train_model(model, train_loader, val_loader, epochs, lr, weight_decay,
                                  grad_clip=grad_clip, amp=amp, save_dir=save_dir, save_name=save_name)

print(f"MRR: {best_mrr} | Modelo guardado en: {best_path}")

  scaler = torch.cuda.amp.GradScaler(enabled=(amp and device.type=='cuda'))
  with torch.cuda.amp.autocast(enabled=(amp and device.type=='cuda')):


Ep1 step 100/476 loss 2.6424
Ep1 step 200/476 loss 2.3758
Ep1 step 300/476 loss 2.3740
Ep1 step 400/476 loss 2.1818
Epoch 1 | val loss 2.2173 ppl 9.18 Top@1 0.433 Top@3 0.666 Top@5 0.755 MRR 0.577
üî• Guardado best -> /content/models_lstm_v1/lstm_best.pt | MRR: 0.577345217986922
Ep2 step 100/476 loss 2.3947
Ep2 step 200/476 loss 1.9283
Ep2 step 300/476 loss 2.0877
Ep2 step 400/476 loss 2.1957
Epoch 2 | val loss 2.1397 ppl 8.50 Top@1 0.450 Top@3 0.679 Top@5 0.767 MRR 0.591
üî• Guardado best -> /content/models_lstm_v1/lstm_best.pt | MRR: 0.5912135202460909
Ep3 step 100/476 loss 1.7783
Ep3 step 200/476 loss 1.8136
Ep3 step 300/476 loss 2.2307
Ep3 step 400/476 loss 2.0544
Epoch 3 | val loss 2.1099 ppl 8.25 Top@1 0.457 Top@3 0.685 Top@5 0.772 MRR 0.597
üî• Guardado best -> /content/models_lstm_v1/lstm_best.pt | MRR: 0.5973487809461197
Ep4 step 100/476 loss 2.0788
Ep4 step 200/476 loss 1.7295
Ep4 step 300/476 loss 1.7985
Ep4 step 400/476 loss 1.8688
Epoch 4 | val loss 2.0949 ppl 8.12 Top@

## 10) Evaluaci√≥n en Test
Una vez entrenado el modelo, lo evaluamos en el conjunto de **test**:

- Se usa el mismo *pipeline* que en entrenamiento (forward + c√°lculo de p√©rdida y m√©tricas).  
- **No** se actualizan los par√°metros del modelo:  
  - Se desactiva el c√°lculo de gradientes (`torch.no_grad()`).  
  - Se mantiene el modelo en modo evaluaci√≥n (`model.eval()`), lo que desactiva capas como *dropout*.  

De este modo obtenemos m√©tricas (Top@K, MRR, PPL) que reflejan el rendimiento real del modelo en datos **nunca vistos**, asegurando una evaluaci√≥n justa y sin fugas de informaci√≥n.


In [11]:
#@title Test
import torch, os

# Cargar el mejor modelo guardado
model_path = os.path.join(save_dir, save_name)
ckpt = torch.load(model_path, map_location=device)
model.load_state_dict(ckpt["model_state"])


# Evaluar en conjunto de test
test_metrics = evaluate(model, test_loader, torch.nn.CrossEntropyLoss())

print("üìä M√©tricas finales en Test:")
print(f"  ‚Ä¢ Loss: {test_metrics['loss']:.4f}")
print(f"  ‚Ä¢ Perplexity: {test_metrics['ppl']:.2f}")
print(f"  ‚Ä¢ Top@1: {test_metrics['Top@1']:.3f}")
print(f"  ‚Ä¢ Top@3: {test_metrics['Top@3']:.3f}")
print(f"  ‚Ä¢ Top@5: {test_metrics['Top@5']:.3f}")
print(f"  ‚Ä¢ MRR: {test_metrics['MRR']:.3f}")

üìä M√©tricas finales en Test:
  ‚Ä¢ Loss: 2.1916
  ‚Ä¢ Perplexity: 8.95
  ‚Ä¢ Top@1: 0.434
  ‚Ä¢ Top@3: 0.679
  ‚Ä¢ Top@5: 0.760
  ‚Ä¢ MRR: 0.580


## 11) Conclusiones

Los resultados muestran que el modelo **LSTM** obtiene m√©tricas casi id√©nticas a la GRU y muy similares al baseline Kneser‚ÄìNey:  

| Modelo   | Top@1 | Top@3 | Top@5 | MRR   | PPL   |
|----------|-------|-------|-------|-------|-------|
| KN v2    | 0.433 | 0.661 | 0.741 | 0.573 |   ‚Äì   |
| GRU v2   | 0.432 | 0.678 | 0.762 | 0.580 | 8.99  |
| LSTM v2  | 0.434 | 0.679 | 0.760 | 0.580 | 8.95  |

Aunque la LSTM logra un resultado **ligeramente superior en Top@1 y Top@3**, la diferencia es m√≠nima y no supone una mejora sustancial sobre GRU o KN.  

Esto confirma que, en el dominio de la armon√≠a funcional, donde la predicci√≥n depende sobre todo de los √∫ltimos acordes del contexto, **los modelos complejos como LSTM no aportan una ventaja clara** frente a un modelo estad√≠stico bien afinado.  

Siguiendo el principio de parsimonia, consideramos que el baseline **KN con GridSearch** sigue siendo la opci√≥n m√°s estable, interpretable y eficiente para un despliegue en producci√≥n.


## 12) Funci√≥n para predicciones 
`predict_next(context, k=5)`

Esta funci√≥n facilita el uso del modelo desde el punto de vista del usuario: dado un **contexto** de acordes, devuelve las **K** sugerencias m√°s probables para el siguiente acorde.

**Qu√© hace paso a paso:**
1. **Preprocesado del contexto**  
   - Normaliza la entrada (lista de tokens) y a√±ade marcadores si procede (p. ej., `<bos>` al inicio).  
   - Convierte cada token a √≠ndice usando el diccionario `stoi` (los desconocidos pasan a `<unk>`).

2. **Inferencia con el modelo**  
   - Pone el modelo en modo evaluaci√≥n: `model.eval()` y `torch.no_grad()`.  
   - Pasa la secuencia al modelo (en el dispositivo correcto: CPU/GPU).  
   - Obtiene los **logits** para el siguiente paso y aplica `softmax` para convertir a probabilidades.

3. **Selecci√≥n Top-K**  
   - Toma los **K** √≠ndices con mayor probabilidad (`topk`).  
   - Convierte esos √≠ndices a tokens legibles usando `itos`.

4. **Salida legible**  
   - Devuelve una lista de pares `(token_predicho, probabilidad)` ordenada de mayor a menor.

**Notas pr√°cticas:**
- Si el modelo se entren√≥ con tokens funcionales (p. ej., `I`, `ii`, `V7`), aqu√≠ se devuelven esos mismos tokens.  
- Para entradas con s√≠mbolos no vistos, el mapeo a `<unk>` evita errores y mantiene la robustez.  
- Puede incorporarse filtrado opcional (p. ej., m√°scaras por tonalidad o evitar repeticiones) **despu√©s** de obtener `topk`.

En resumen, `predict_next` es el puente entre el usuario y el modelo: traduce el contexto a √≠ndices, ejecuta la inferencia y devuelve predicciones claras y ordenadas por probabilidad.


In [12]:
#@title predict_next()
import torch.nn.functional as F
def predict_next(context_tokens, k=5):
    model.eval()
    ids = [stoi.get(t, stoi["<unk>"]) for t in context_tokens]
    if len(ids) < seq_len:
        ids = [stoi["<bos>"]] * (seq_len - len(ids)) + ids
    else:
        ids = ids[-seq_len:]
    import torch
    x = torch.tensor(ids, dtype=torch.long, device=device).unsqueeze(0)
    with torch.no_grad():
        logits = model(x)
        probs = F.softmax(logits[0], dim=-1)
        topk = torch.topk(probs, k)
        return [(itos[i], float(p)) for i,p in zip(topk.indices.tolist(), topk.values.tolist())]

# Ejemplo r√°pido (si hay datos)
if len(train_seqs):
    ctx = train_seqs[0][:seq_len]
    print("Context:", ctx)
    print("Pred:", predict_next(ctx, k=5))

Context: ['III', 'III', '#IV', '#IV', 'bII', 'bII', 'natIII', 'natIII', 'III', '#IV', 'IV', 'VI', 'V', 'bVII', 'natVI', 'I', 'II', 'VII', 'VI', 'IV', 'III', 'I', 'VII', 'natVI']
Pred: [('IV', 0.1506534218788147), ('II', 0.13384999334812164), ('natVI', 0.07967973500490189), ('VI', 0.07328757643699646), ('bVII', 0.06727532297372818)]


## 13) Inferencia incremental (quick test)

In [13]:
# @title Stateful predictor para uso interactivo paso a paso
import torch, torch.nn.functional as F
from torch import nn

class StatefulPredictor:
    def __init__(self, model, stoi, itos, device, start_with_bos=True):
        self.model, self.stoi, self.itos = model.eval(), stoi, itos
        self.device = device
        self.start_with_bos = start_with_bos
        self.h = None  # (h,c) en LSTM; h en GRU

    def reset(self):
        self.h = None
        if self.start_with_bos and "<bos>" in self.stoi:
            self._step("<bos>")  # alinear con el entrenamiento

    def _step(self, token):
        tid = torch.tensor([[self.stoi.get(token, self.stoi["<unk>"])]], device=self.device)
        e = self.model.emb(tid)                             # (1,1,E)
        # Funciona igual para LSTM y GRU
        out, self.h = self.model.rnn(e, self.h)            # out: (1,1,H)
        logits = self.model.fc(out[:, -1, :])              # (1,V)
        return logits[0]

    def add(self, token, k=5):
        """Introduce el √∫ltimo acorde del contexto y devuelve predicci√≥n para el SIGUIENTE."""
        logits = self._step(token)
        probs = F.softmax(logits, dim=-1)
        topk = torch.topk(probs, k)
        return [(self.itos[i.item()], float(p.item())) for i,p in zip(topk.indices, topk.values)]

    def suggest(self, context_tokens, k=5):
        """Da una predicci√≥n para el siguiente acorde tras un contexto completo."""
        self.reset()
        preds = None
        for t in context_tokens:
            preds = self.add(t, k=k)  # la √∫ltima llamada produce la sugerencia para el siguiente
        return preds

In [14]:
sp = StatefulPredictor(model, stoi, itos, device)
sp.suggest(["ii","V"], k=5)

[('V', 0.2221945822238922),
 ('ii', 0.10717958956956863),
 ('V/V', 0.05786261335015297),
 ('II7', 0.04348348453640938),
 ('V7', 0.038056351244449615)]

In [15]:
sp.suggest(["i","vi", 'ii'], k=5)

[('V7', 0.6182572245597839),
 ('ii', 0.084834985435009),
 ('i', 0.06577493250370026),
 ('vi', 0.02957976795732975),
 ('v', 0.02462872862815857)]

In [16]:
sp.suggest(["i","bvi"], k=5)

[('i', 0.16813920438289642),
 ('v', 0.08122055232524872),
 ('bII7', 0.07875661551952362),
 ('III', 0.06942159682512283),
 ('bii', 0.05412622168660164)]

### Roadmap
- Ajuste de hiperpar√°metros (Ranadom Search)
- Re-ranking suave para evitar repes y favorecer cadencias.
