# üéºü§ñ ArmonIA - generaci√≥n de musica con redes neuronales

## Introducci√≥n

armonIA es un proyecto que busca generar m√∫sica utilizando redes neuronales. El objetivo es crear un modelo capaz de componer m√∫sica original en diferentes estilos de musica clasica, utilizando t√©cnicas de aprendizaje profundo y procesamiento de lenguaje natural. En este proyecto, se utilizar√° Torch para construir y entrenar el modelo.


### Prologo

Antes de comenzar con el desarrollo del proyecto, es importante entender los datos que se tienen y lo que cada uno representa, a continuaci√≥n se lista cada uno de los datos de entrada 

Caracter√≠sticas de entrada 

| Caracter√≠stica | Tipo de Variable | Descripci√≥n                                                                |
|----------------|------------------|----------------------------------------------------------------------------|
| Pitch          | Categ√≥rica       | Representa la altura de la nota musical (`note.pitch`).                    |
| Step           | Num√©rica         | Diferencia entre el `start` de la nota actual y el `start` de la anterior. |
| Duration       | Num√©rica         | Diferencia entre el `end` y el `start` de la nota actual.                  |
| Velocity       | Num√©rica         | Representa la velocidad de la nota (`note.velocity`).                      |


Como las variables Step y Duration son num√©ricas, se normalizan para que est√©n en el rango [0, 1]. La variable Velocity se normaliza para que est√© en el rango [0, 127]. La variable Pitch se convierte a una representaci√≥n num√©rica utilizando un diccionario de mapeo.

en este caso no es necesario eliminar los datos duplicados, ya que cada nota es √∫nica y no se repite en el tiempo. Sin embargo, es importante asegurarse de qe no haya datos nulos o vac√≠os en el conjunto de datos.

para la validaci√≥n del modelo es necesario normalizar los datos, ya que el modelo no podr√° predecir correctamente si los datos de entrada no est√°n en el mismo rango que los datos de entrenamiento. Por lo tanto, se debe guardar la media y la desviaci√≥n est√°ndar de cada variable para poder normalizar los datos de entrada durante la validaci√≥n.

| salida   | tipo de predicci√≥n | metrica   |
|----------|--------------------|-----------|
| pitch    | clasificacion      | accuracy  |
| step     | regresion          | mse / mae |
| duration | regresion          | mse / mae |
| velocity | regresion          | mse / mae |


Se realiza un dise√±o primero de la arquitectura del modelo, para luego proceder a la implementaci√≥n del mismo. El modelo se basa en una red neuronal LSTM (Long Short-Term Memory) que es capaz de aprender patrones en secuencias de datos. La arquitectura del modelo se puede ver en la siguiente imagen: 

pasos para mejorar

1. verificar validez de los datos
2. usar embedings para la variable Pitch, debido a que es categ√≥rica y no num√©rica.
3. verificar arquitectura del modelo


<div style="display: flex; gap: 32px; justify-content: center; item-align: center; width: 100%;">
    <!-- <img style="width:400px" src="https://www.researchgate.net/publication/385782855/figure/fig1/AS:11431281290276122@1731539282950/LSTM-model-architecture-for-song-generation-Adapted-from-9.ppm" /> -->
    <img src="./lstm.png" style="width:500px" alt="LSTM model architecture for song generation" />
    <div>
        Se utilizar√° un modelo LSTM para la generaci√≥n de m√∫sica debido a su capacidad para manejar secuencias de datos. El modelo tomar√° como entrada una secuencia de notas y acordes, y generar√° una nueva secuencia de notas y acordes como salida.
    </div>
</div>

## Fases del proyecto

### 1. Pre procesamiento de datos

Para entrenar un modelo de generaci√≥n de m√∫sica, es necesario contar con un conjunto de datos que contenga ejemplos de m√∫sica en el estilo deseado. En este caso, se utilizar√° un conjunto de datos de partituras musicales en formato MIDI. Se utilizar√°n bibliotecas como `pretty-midi` para procesar y analizar los archivos MIDI.

En esta etapa se realizar√°n las siguientes tareas:

1. Cargar los archivos MIDI y extraer las notas y acordes.
2. Convertir las notas y acordes en una representaci√≥n num√©rica que pueda ser utilizada por el modelo.
3. Dividir los datos en secuencias de longitud fija para facilitar el entrenamiento del modelo.
4. Normalizar los datos para mejorar la convergencia del modelo.
5. Dividir los datos en conjuntos de entrenamiento y validaci√≥n.



### 2. Construcci√≥n, entrenamiento y evaluaci√≥n del modelo

Para la construcci√≥n del modelo se utilizar√° la biblioteca `torch` para crear una red neuronal LSTM. El modelo tomar√° como entrada una secuencia de notas y acordes, y generar√° una nueva secuencia de notas y acordes como salida. Se utilizar√°n capas LSTM para capturar las dependencias temporales en los datos, y se aplicar√°n t√©cnicas de regularizaci√≥n como Dropout para evitar el sobreajuste.

Lista de pasos a seguir:

1. Definir la arquitectura del modelo LSTM.
2. Definir la funci√≥n de p√©rdida y el optimizador.
3. Implementar el bucle de entrenamiento y validaci√≥n.
4. Guardar el modelo entrenado para su uso posterior.
5. Evaluar el modelo utilizando m√©tricas como la p√©rdida y la precisi√≥n.


### 3. Generaci√≥n de m√∫sica

Para generar m√∫sica, se utilizar√° el modelo entrenado para predecir la siguiente nota o acorde dado una secuencia de notas y acordes inicial. Se implementar√° un algoritmo de muestreo para generar nuevas secuencias de notas y acordes, y se utilizar√°n t√©cnicas de post-procesamiento para convertir las secuencias generadas en archivos MIDI.

Lista de pasos a seguir:

1. Cargar el modelo entrenado.
2. Definir una secuencia inicial de notas y acordes.
3. Utilizar el modelo para predecir la siguiente nota o acorde.
4. Repetir el proceso para generar una secuencia completa de notas y acordes.
5. Convertir la secuencia generada en un archivo MIDI.

---

## 1. Pre procesamiento de datos

### 1.1 Impotar librerias necesarias

In [1]:
# source venv/bin/activate
#  python -m ipykernel install --user --name=myenv --display-name="Python (myenv)"

In [3]:
import os
import numpy as np
import random
from typing import List, Tuple, Dict, Any, Union 

import torch
import torch.nn as nn 
from torch.utils.data import Dataset, DataLoader

import pretty_midi

import matplotlib.pyplot as plt

from sklearn.preprocessing import MinMaxScaler, LabelEncoder
from sklearn.model_selection import train_test_split

import pandas as pd

# 1.2 Crear funciones para cargar y procesar los archivos MIDI

se crean las funciones necesarias para cargar y procesar los archivos MIDI. Se utiliza la biblioteca `pretty_midi` para cargar los archivos MIDI y extraer las notas y acordes. Se definen funciones para convertir las notas y acordes en una representaci√≥n num√©rica, dividir los datos en secuencias de longitud fija, normalizar los datos y dividir los datos en conjuntos de entrenamiento y validaci√≥n.




In [11]:
from dataset import MusicDataset
from pre import Preprocessor
from model import MusicLSTM

In [49]:
def process_files(file_list: List[str], preprocessor: Preprocessor) -> List[np.ndarray]:
    all_x, all_y = [], []
    for path in file_list:
        notes = preprocessor.load_midi_files(path)
        features = preprocessor.extract_features(notes)

        x_seq, y_seq = preprocessor.create_sequences(features, context_length=32)

        all_x.append(x_seq)
        all_y.append(y_seq)

    x = np.concatenate(all_x, axis=0)
    y = np.concatenate(all_y, axis=0)
    return x, y

In [91]:
# listar todos los archivos midi 
label_encoder = LabelEncoder()

# cargar los archivos midi
_path = "dataset/music_artist/mozart"
midifiles = [os.path.join(_path, f) for f in os.listdir(_path) if f.endswith('.mid')]
random.shuffle(midifiles)

# dividir en train test split 
spit_idx = int(len(midifiles) * 0.8)
train_files = midifiles[:spit_idx]
test_files = midifiles[spit_idx:]

print(f"total: {len(midifiles)}, train: {len(train_files)}, test: {len(test_files)}")


# cargar las notas, preprocesar y crear las secuencias
data_train = []
data_test = []

for path in train_files:
    notes = preprocessor.load_midi_files(path)
    features = preprocessor.extract_features(notes)

    data_train.append(features)

for path in test_files:
    notes = preprocessor.load_midi_files(path)
    features = preprocessor.extract_features(notes)

    data_test.append(features)

data_train = np.concatenate(data_train, axis=0)
data_test = np.concatenate(data_test, axis=0)

df_data_train = preprocessor.get_notes_dataframe(data_train)
df_data_test = preprocessor.get_notes_dataframe(data_test)



# df = preprocessor.get_notes_dataframe(data)

# df.head()


# # 1. Instanciar el preprocesador
# preprocessor = Preprocessor()

# # cargar los archivos midi y extraer las notas
# X_train, y_train = process_files(train_files, preprocessor)
# X_test, y_test = process_files(test_files, preprocessor)

total: 21, train: 16, test: 5


In [92]:
df_data_train.sample(4)

Unnamed: 0,pitch,step,duration,velocity
15283,65,0.107851,0.112184,71
18939,72,0.060154,0.458856,63
17567,76,0.205564,0.102782,50
6186,61,0.0,0.247934,45


como se observa en la tabla anterior, se tienen 38524 notas, de las cuales 46 son unicas

In [93]:
def validar_datos_notas(df, nombre="DataFrame"):
    errores = {}

    # Step < 0
    pasos_negativos = df[df["step"] < 0]
    if not pasos_negativos.empty:
        errores["step"] = pasos_negativos
        print(f"‚ö†Ô∏è {nombre}: Hay {len(pasos_negativos)} valores de `step` negativos.")

    # Duration < 0
    duraciones_negativas = df[df["duration"] < 0]
    if not duraciones_negativas.empty:
        errores["duration"] = duraciones_negativas
        print(f"‚ö†Ô∏è {nombre}: Hay {len(duraciones_negativas)} valores de `duration` negativos.")

    # Valores nulos
    nulos = df[df.isnull().any(axis=1)]
    if not nulos.empty:
        errores["nulls"] = nulos
        print(f"‚ö†Ô∏è {nombre}: Hay {len(nulos)} filas con valores nulos.")

    # Valores fuera de rango pitch
    pitch_out_of_range = df[(df["pitch"].astype(int) < 0) | (df["pitch"].astype(int) > 127)]
    if not pitch_out_of_range.empty:
        print(f"‚ö†Ô∏è {len(pitch_out_of_range)} notas tienen pitch fuera del rango MIDI (0‚Äì127).")

    # Valores fuera de rango velocity
    velocity_out_of_range = df[(df["velocity"].astype(int) < 0) | (df["velocity"].astype(int) > 127)]
    if not velocity_out_of_range.empty:
        print(f"‚ö†Ô∏è {len(velocity_out_of_range)} notas tienen velocity fuera del rango MIDI (0‚Äì127).")

    if not errores:
        print(f"‚úÖ {nombre}: Todo en orden. No se encontraron valores inv√°lidos.")
    
    return errores

validar_datos_notas(df_data_train, "Train")
validar_datos_notas(df_data_test, "Test")


‚úÖ Train: Todo en orden. No se encontraron valores inv√°lidos.
‚úÖ Test: Todo en orden. No se encontraron valores inv√°lidos.


{}

generar secuencias


In [None]:
context_window = 16

# crear secuencias
X_train, y_train = preprocessor.create_sequences(data_train, context_length=context_window)
X_test, y_test = preprocessor.create_sequences(data_test, context_length=context_window)

# normalizar los datos
X_train, y_train = preprocessor.normalize_features(X_train, y_train)
X_test, y_test = preprocessor.normalize_features(X_test, y_test)

In [103]:

pitches_train = X_train[:, :, 0].flatten().tolist() + y_train[:, 0].tolist()
label_encoder.fit(pitches_train)

# dataloader
train_dataset = MusicDataset(X_train, y_train, label_encoder)
test_dataset = MusicDataset(X_test, y_test, label_encoder)

train_loader = DataLoader(train_dataset, batch_size=16, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=16, shuffle=False)

### 2. Construcci√≥n del modelo


Caracter√≠sticas de entrada 

- Pitch (altura de la nota): variable categ¬¥orica que representa la nota musical.
- Step (tiempo): variable numerica que se debe calcular como el start de la nota actual menos el start de la nota anterior, y representa el espacio de tiempo que hay entre la   ota anterior y la nota actual.
- Duration (duraci√≥n): variable num√©rica, se calcula como la diferencia entre el tiempo en el que termina la nota actual (end) menos el tiempo en el que inicio la nota (start), o que refleja la duracion en tiempo de la nota.
- velocity (velocidad): variable num√©rica que representa la velocidad de la nota


Para construir el modelo de generaci√≥n de m√∫sica, se utilizar√° una red neuronal recurrente (RNN) con capas LSTM. Las RNN son adecuadas para tareas de secuencias, como la generaci√≥n de m√∫sica, ya que pueden capturar dependencias a largo plazo en los datos.
Se utilizar√° la biblioteca `torch` para construir el modelo. A continuaci√≥n se presenta un ejemplo de c√≥mo se puede definir una clase para el modelo:

In [104]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

device(type='cuda')

In [105]:
from tqdm import tqdm

def train_model(
        model: nn.Module, 
        dataloader: DataLoader, 
        epochs: int, 
        criterion_pitch: nn.Module, 
        criterion_reg: nn.Module, 
        optimizer: torch.optim.Optimizer, 
        device: torch.device, 
        alpha: float = 1.0,
        beta: float = 1.0,
        gamma: float = 1.0,
    ):
    """
    Entrena el modelo con p√©rdidas combinadas (pitch clasificaci√≥n + regresi√≥n).
    Args:
        model (nn.Module): The LSTM model to train.
        dataloader (DataLoader): DataLoader for the training data.
        epochs (int): Number of epochs to train.
        criterion_pitch (nn.Module): Loss function for pitch.
        criterion_reg (nn.Module): Loss function for regression targets.
        optimizer (torch.optim.Optimizer): Optimizer for training.
        device (torch.device): Device to train on (CPU or GPU).
        alpha (float): Weight for pitch loss.
        beta (float): Weight for step loss.
        gamma (float): Weight for duration and velocity loss.
    """

    # mover el modelo a la GPU si est√° disponible
    model.to(device)

    # activamos el modo de entrenamiento
    model.train()

    for epoch in range(epochs):
        total_loss = 0
        pitch_correct = 0
        pitch_total = 0

        loop = tqdm(dataloader, desc=f"Epoch {epoch+1}/{epochs}", leave=False)
        
        for batch_x, batch_y in loop:

            x_pitch, x_step, x_duration, x_velocity = batch_x
            y_pitch, y_step, y_duration, y_velocity = batch_y

            # mover los datos a la GPU si est√° disponible
            x_pitch = x_pitch.to(device)
            x_step = x_step.to(device)
            x_duration = x_duration.to(device)
            x_velocity = x_velocity.to(device)

            y_pitch = y_pitch.to(device)
            y_step = y_step.to(device).unsqueeze(1) # unsqueeze para que tenga la misma dimensi√≥n que el resto
            y_duration = y_duration.to(device).unsqueeze(1)
            y_velocity = y_velocity.to(device).unsqueeze(1)

            # Limpiar gradientes
            optimizer.zero_grad()

            # forward pass
            pitch_pred, step_pred, duration_pred, velocity_pred = model(x_pitch, x_step, x_duration, x_velocity)

            # calcular la p√©rdida para cada una de las caracter√≠sticas
            loss_pitch = criterion_pitch(pitch_pred, y_pitch)
            loss_step = criterion_reg(step_pred, y_step)
            loss_duration = criterion_reg(duration_pred, y_duration)
            loss_velocity = criterion_reg(velocity_pred, y_velocity)

            loss = loss_pitch + alpha * loss_step + beta * loss_duration + gamma * loss_velocity

            # backward pass y optimizaci√≥n
            loss.backward()
            optimizer.step()

            # Agregar la p√©rdida total
            total_loss += loss.item()


            # calcular la precisi√≥n de la predicci√≥n de pitch
            pitch_pred = torch.argmax(pitch_pred, dim=1)
            pitch_correct += (pitch_pred == y_pitch).sum().item()
            pitch_total += y_pitch.size(0)

        pitch_acc = pitch_correct / pitch_total * 100 if pitch_total > 0 else 0

        # √≠mprimir la p√©rdida total por cada epoch 
        print(f"üéµ Epoch {epoch+1}/{epochs} ‚Äî üí• Loss: {total_loss:.4f} ‚Äî üéØ Pitch Accuracy: {pitch_acc:.2f}%")


In [106]:
# Hiperpar√°metros
input_size = 4           # pitch, step, duration, velocity
hidden_size = 128
num_layers = 1
epochs = 30
learning_rate = 0.005

# Inicializar modelo
model = MusicLSTM(input_size=input_size, hidden_size=hidden_size, num_layers=num_layers)

# Funciones de p√©rdida
criterion_pitch = nn.CrossEntropyLoss()
criterion_reg = nn.MSELoss()

# Optimizador
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

# Llamar al entrenamiento
train_model(
    model=model,
    dataloader=train_loader,
    criterion_pitch=criterion_pitch,
    criterion_reg=criterion_reg,
    optimizer=optimizer,
    epochs=epochs,
    device=device,
)


                                                               

üéµ Epoch 1/30 ‚Äî üí• Loss: 4837.9141 ‚Äî üéØ Pitch Accuracy: 13.24%


                                                               

üéµ Epoch 2/30 ‚Äî üí• Loss: 4585.1403 ‚Äî üéØ Pitch Accuracy: 15.13%


                                                               

üéµ Epoch 3/30 ‚Äî üí• Loss: 4513.0558 ‚Äî üéØ Pitch Accuracy: 16.13%


                                                               

üéµ Epoch 4/30 ‚Äî üí• Loss: 4487.9478 ‚Äî üéØ Pitch Accuracy: 16.15%


                                                               

üéµ Epoch 5/30 ‚Äî üí• Loss: 4444.3874 ‚Äî üéØ Pitch Accuracy: 16.92%


                                                               

üéµ Epoch 6/30 ‚Äî üí• Loss: 4411.8927 ‚Äî üéØ Pitch Accuracy: 17.54%


                                                               

üéµ Epoch 7/30 ‚Äî üí• Loss: 4401.4398 ‚Äî üéØ Pitch Accuracy: 17.43%


                                                               

üéµ Epoch 8/30 ‚Äî üí• Loss: 4400.2699 ‚Äî üéØ Pitch Accuracy: 17.72%


                                                               

üéµ Epoch 9/30 ‚Äî üí• Loss: 4368.4383 ‚Äî üéØ Pitch Accuracy: 18.01%


                                                                

üéµ Epoch 10/30 ‚Äî üí• Loss: 4362.2227 ‚Äî üéØ Pitch Accuracy: 17.98%


                                                                

üéµ Epoch 11/30 ‚Äî üí• Loss: 4362.3863 ‚Äî üéØ Pitch Accuracy: 17.96%


                                                                

üéµ Epoch 12/30 ‚Äî üí• Loss: 4340.9977 ‚Äî üéØ Pitch Accuracy: 18.34%


                                                                

üéµ Epoch 13/30 ‚Äî üí• Loss: 4324.5536 ‚Äî üéØ Pitch Accuracy: 18.31%


                                                                

üéµ Epoch 14/30 ‚Äî üí• Loss: 4339.4479 ‚Äî üéØ Pitch Accuracy: 18.43%


                                                                

üéµ Epoch 15/30 ‚Äî üí• Loss: 4326.8419 ‚Äî üéØ Pitch Accuracy: 18.90%


                                                                

üéµ Epoch 16/30 ‚Äî üí• Loss: 4313.5152 ‚Äî üéØ Pitch Accuracy: 18.73%


                                                                

üéµ Epoch 19/30 ‚Äî üí• Loss: 4275.3470 ‚Äî üéØ Pitch Accuracy: 19.79%


                                                                

üéµ Epoch 20/30 ‚Äî üí• Loss: 4268.0610 ‚Äî üéØ Pitch Accuracy: 19.57%


                                                                

üéµ Epoch 21/30 ‚Äî üí• Loss: 4261.2472 ‚Äî üéØ Pitch Accuracy: 19.62%


                                                                

üéµ Epoch 22/30 ‚Äî üí• Loss: 4255.5222 ‚Äî üéØ Pitch Accuracy: 19.86%


                                                                

üéµ Epoch 23/30 ‚Äî üí• Loss: 4249.5241 ‚Äî üéØ Pitch Accuracy: 19.84%


                                                                

üéµ Epoch 24/30 ‚Äî üí• Loss: 4252.8439 ‚Äî üéØ Pitch Accuracy: 19.97%


                                                                

üéµ Epoch 25/30 ‚Äî üí• Loss: 4245.7735 ‚Äî üéØ Pitch Accuracy: 19.88%


                                                                

üéµ Epoch 26/30 ‚Äî üí• Loss: 4244.6975 ‚Äî üéØ Pitch Accuracy: 20.26%


                                                                

üéµ Epoch 27/30 ‚Äî üí• Loss: 4218.1713 ‚Äî üéØ Pitch Accuracy: 20.54%


                                                                

üéµ Epoch 28/30 ‚Äî üí• Loss: 4218.3016 ‚Äî üéØ Pitch Accuracy: 20.68%


                                                                

üéµ Epoch 29/30 ‚Äî üí• Loss: 4235.2262 ‚Äî üéØ Pitch Accuracy: 20.24%


                                                                

üéµ Epoch 30/30 ‚Äî üí• Loss: 4211.4160 ‚Äî üéØ Pitch Accuracy: 20.38%




In [19]:
def evaluate_model(
    model: nn.Module,
    dataloader: DataLoader,
    criterion_pitch: nn.Module,
    criterion_reg: nn.Module,
    device: torch.device,
    alpha: float = 1.0,
    beta: float = 1.0,
    gamma: float = 1.0,
) -> Tuple[float, float]:
    """
    Eval√∫a el modelo y retorna el loss total y la precisi√≥n del pitch.
    """

    model.eval()
    total_loss = 0
    correct_pitch = 0
    total_pitch = 0

    with torch.no_grad():
        for batch_x, batch_y in dataloader:

            x_pitch, x_step, x_duration, x_velocity = batch_x
            y_pitch, y_step, y_duration, y_velocity = batch_y

            # Mover al dispositivo
            x_pitch = x_pitch.to(device)
            x_step = x_step.to(device)
            x_duration = x_duration.to(device)
            x_velocity = x_velocity.to(device)

            y_pitch = y_pitch.to(device)
            y_step = y_step.to(device).unsqueeze(1)
            y_duration = y_duration.to(device).unsqueeze(1)
            y_velocity = y_velocity.to(device).unsqueeze(1)

            # Forward pass
            pitch_pred, step_pred, duration_pred, velocity_pred = model(x_pitch, x_step, x_duration, x_velocity)

            # Losses
            loss_pitch = criterion_pitch(pitch_pred, y_pitch)
            loss_step = criterion_reg(step_pred, y_step)
            loss_duration = criterion_reg(duration_pred, y_duration)
            loss_velocity = criterion_reg(velocity_pred, y_velocity)

            loss = loss_pitch + alpha * loss_step + beta * loss_duration + gamma * loss_velocity
            total_loss += loss.item()

            # Calcular precisi√≥n del pitch
            pred_labels = torch.argmax(pitch_pred, dim=1)
            correct_pitch += (pred_labels == y_pitch).sum().item()
            total_pitch += y_pitch.size(0)

    avg_loss = total_loss / len(dataloader)
    pitch_accuracy = 100 * correct_pitch / total_pitch

    print(f"üìä Validation ‚Äî Loss: {avg_loss:.4f} ‚Äî üéØ Pitch Accuracy: {pitch_accuracy:.2f}%")

    return avg_loss, pitch_accuracy


In [107]:
evaluate_model(
    model=model,
    dataloader=test_loader,
    criterion_pitch=criterion_pitch,
    criterion_reg=criterion_reg,
    device=device,
)



ValueError: y contains previously unseen labels: [np.int64(91)]

In [108]:
def generate_sequence(model, seed_sequence, length, context=10, label_encoder=None, scaler=None, device='cpu'):
    """
    Genera una secuencia de notas a partir de una semilla.

    Args:
        model: modelo entrenado
        seed_sequence: lista de notas [[pitch_name, step, duration, velocity], ...]
        length: n√∫mero de notas a generar
        context: tama√±o de ventana de contexto
        label_encoder: LabelEncoder entrenado para los pitch
        scaler: StandardScaler entrenado para step, duration y velocity
        device: 'cpu' o 'cuda'
    
    Returns:
        Lista de notas generadas en formato [pitch_name, step, duration, velocity]
    """
    model.eval()
    generated = []

    current_seq = seed_sequence.copy()

    for _ in range(length):
        # Tomar las √∫ltimas `context` notas
        context_seq = current_seq[-context:]

        # Codificar pitch + normalizar num√©ricos
        encoded_seq = []
        for note in context_seq:
            pitch_encoded = label_encoder.transform([note[0]])[0]
            scaled = scaler.transform([[note[1], note[2], note[3]]])[0]
            encoded_seq.append([pitch_encoded, *scaled])

        # Crear input tensor con forma (1, context, 4)
        input_tensor = torch.tensor(encoded_seq, dtype=torch.float32).unsqueeze(0).to(device)

        # Separar por caracter√≠sticas
        x_pitch = input_tensor[:, :, 0].long().unsqueeze(-1)      # (1, context, 1)
        x_step = input_tensor[:, :, 1].unsqueeze(-1)              # (1, context, 1)
        x_duration = input_tensor[:, :, 2].unsqueeze(-1)          # (1, context, 1)
        x_velocity = input_tensor[:, :, 3].unsqueeze(-1)          # (1, context, 1)

        with torch.no_grad():
            pitch_logits, step, duration, velocity = model(x_pitch, x_step, x_duration, x_velocity)

        # Decodificar pitch
        pitch_idx = torch.argmax(pitch_logits, dim=1).item()
        pitch_name = label_encoder.inverse_transform([pitch_idx])[0]

        # Desnormalizar valores continuos
        step_val, duration_val, velocity_val = scaler.inverse_transform(
            [[step.item(), duration.item(), velocity.item()]]
        )[0]

        # A√±adir nota generada
        generated.append([pitch_name, step_val, duration_val, velocity_val])
        current_seq.append([pitch_name, step_val, duration_val, velocity_val])

    return generated


In [109]:
def get_seed_from_dataset(dataset, index, label_encoder):
    (x_pitch, x_step, x_duration, x_velocity), _ = dataset[index]
    seed = []
    for i in range(len(x_pitch)):
        pitch_name = label_encoder.inverse_transform([x_pitch[i, 0].item()])[0]
        step = x_step[i, 0].item()
        duration = x_duration[i, 0].item()
        velocity = x_velocity[i, 0].item()
        seed.append([pitch_name, step, duration, velocity])
    return seed



In [115]:
# Par√°metros
context = 16
num_notes = 200
# device = 'cpu'  # o 'cuda' si est√°s usando GPU
label_encoder = train_dataset.label_encoder
scaler = preprocessor.scaler  # ya entrenado tambi√©n

# Semilla: las primeras 10 notas del set de entrenamiento
seed_sequence = get_seed_from_dataset(train_dataset, 0, label_encoder=label_encoder)

# Generar notas
generated_notes = generate_sequence(
    model=model,
    seed_sequence=seed_sequence,
    length=num_notes,
    context=context,
    device=device,
    label_encoder=label_encoder,
    scaler=scaler,
)


In [116]:
generated_notes

[[np.int64(65),
  np.float64(1.000150310593857),
  np.float64(0.44629484283875764),
  np.float64(55.17787146568298)],
 [np.int64(63),
  np.float64(1.0086907056032257),
  np.float64(0.4744820897623917),
  np.float64(59.57895338535309)],
 [np.int64(70),
  np.float64(1.3214991779890837),
  np.float64(0.4405950520564507),
  np.float64(63.12126922607422)],
 [np.int64(63),
  np.float64(0.3486481468341547),
  np.float64(0.4288296106710817),
  np.float64(60.17168712615967)],
 [np.int64(70),
  np.float64(1.6759110024789203),
  np.float64(0.4255158675491178),
  np.float64(61.84465730190277)],
 [np.int64(63),
  np.float64(0.27187044298388435),
  np.float64(0.41759289785376524),
  np.float64(60.24305236339569)],
 [np.int64(72),
  np.float64(1.740853904203498),
  np.float64(0.41844285118034125),
  np.float64(62.19760870933533)],
 [np.int64(63),
  np.float64(0.3791934750751085),
  np.float64(0.42559250201258164),
  np.float64(61.04648733139038)],
 [np.int64(72),
  np.float64(1.5783078941141284),
  n

In [113]:
def notes_to_midi(notes, output_file="output.mid"):
    midi = pretty_midi.PrettyMIDI()
    instrument = pretty_midi.Instrument(program=0)

    start_time = 0
    for pitch, step, duration, velocity in notes:
        start_time += step
        end_time = start_time + duration
        note = pretty_midi.Note(velocity=int(velocity), pitch=pitch, start=start_time, end=end_time)
        instrument.notes.append(note)

    midi.instruments.append(instrument)
    midi.write(output_file)


In [114]:
notes_to_midi(
    notes=generated_notes,
    output_file='generated_music.mid',
)

In [None]:
# Carga tu archivo MIDI
pm = pretty_midi.PrettyMIDI('generated_music_m.mid')

pm.instruments



[]