In [None]:
import json
import torch
import torch.nn as nn
import torch.optim as optim
import pandas as pd
from torch.utils.data import Dataset, DataLoader
from torch.utils.tensorboard import SummaryWriter
import numpy as np
from tqdm import tqdm
import os

splits = {'train': 'train.json', 'validation': 'validation.json'}
train_data = pd.read_json("hf://datasets/sander-wood/irishman/" + splits["train"])
val_data = pd.read_json("hf://datasets/sander-wood/irishman/" + splits["validation"])

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


In [None]:
train_data
val_data

Unnamed: 0,control code,abc notation
0,S:2\nB:9\nE:3\nB:10\n,X:1\nL:1/8\nM:6/8\nK:Bb\n F | B2 d c2 f | edc ...
1,S:2\nB:8\nE:3\nB:8\n,X:2\nL:1/8\nM:4/4\nK:G\n GBAB G2 ge | dBGB AE ...
2,S:5\nB:1\nE:1\nB:5\nE:1\nE:5\nB:5\nE:0\nE:4\nE...,X:3\nL:1/8\nM:4/4\nK:A\n d |: cABG A2 ED | CEA...
3,S:2\nB:8\nE:6\nB:8\n,X:4\nL:1/8\nM:2/4\nK:Amin\n|: ce/d/ cB | Aa^ga...
4,S:2\nB:8\nE:6\nB:8\n,X:5\nL:1/8\nM:4/4\nK:Amix\n cA A2 EA A2 | BGdG...
...,...,...
2157,S:2\nB:9\nE:5\nB:9\n,X:2158\nL:1/8\nM:6/8\nK:G\n f | edB BAB | GEF ...
2158,S:1\nB:16\n,X:2159\nL:1/8\nQ:1/8=232\nM:4/4\nK:D\n|: A2 AB...
2159,S:2\nB:9\nE:5\nB:9\n,"X:2160\nL:1/8\nM:6/8\nK:Amix\n F2 D D=CA, | =C..."
2160,S:1\nB:16\n,X:2161\nL:1/8\nM:4/4\nK:G\n g3 d BGAB | cBAG F...


In [None]:
train_data.columns

Index(['control code', 'abc notation'], dtype='object')

### **Prétraitement des données**

#### Étape 1 : Extraction des caractères uniques

a) Trouver tous les caractères uniques du dataset d’entraînement

In [None]:
# Récupération de tout le texte (notation ABC)
all_text = "".join(train_data["abc notation"].astype(str).values)

# Extraction des caractères uniques
unique_chars = sorted(set(all_text))
print(unique_chars)


['\n', ' ', '!', '"', '#', '$', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', '<', '=', '>', '?', '@', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '[', '\\', ']', '^', '_', '`', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '{', '|', '}', '~']


b) Nombre de caractères uniques

In [None]:
num_chars = len(unique_chars)
print("Nombre de caractères uniques :", num_chars)


Nombre de caractères uniques : 95


c) Pourquoi travailler avec des indices plutôt qu’avec des caractères ?

*   Les réseaux de neurones ne peuvent traiter que des données numériques ; les caractères (A, |, 3, etc.) doivent donc être convertis en nombres.

* L’utilisation d’indices entiers permet de représenter efficacement chaque caractère du vocabulaire.

* Les couches comme Embedding et les fonctions de perte (ex. CrossEntropyLoss) exigent des indices numériques en entrée.

* Cette représentation facilite les calculs mathématiques, l’apprentissage des relations entre caractères et améliore les performances du modèle.

#### Étape 2 : Mapping caractères-index



a) Dictionnaire caractère → index

In [None]:
# Liste des caractères uniques (obtenue à l’étape 1)
unique_chars = sorted(set("".join(train_data["abc notation"].astype(str).values)))

# Dictionnaire caractère → index
char_to_idx = {ch: idx for idx, ch in enumerate(unique_chars)}

char_to_idx


{'\n': 0,
 ' ': 1,
 '!': 2,
 '"': 3,
 '#': 4,
 '$': 5,
 '&': 6,
 "'": 7,
 '(': 8,
 ')': 9,
 '*': 10,
 '+': 11,
 ',': 12,
 '-': 13,
 '.': 14,
 '/': 15,
 '0': 16,
 '1': 17,
 '2': 18,
 '3': 19,
 '4': 20,
 '5': 21,
 '6': 22,
 '7': 23,
 '8': 24,
 '9': 25,
 ':': 26,
 ';': 27,
 '<': 28,
 '=': 29,
 '>': 30,
 '?': 31,
 '@': 32,
 'A': 33,
 'B': 34,
 'C': 35,
 'D': 36,
 'E': 37,
 'F': 38,
 'G': 39,
 'H': 40,
 'I': 41,
 'J': 42,
 'K': 43,
 'L': 44,
 'M': 45,
 'N': 46,
 'O': 47,
 'P': 48,
 'Q': 49,
 'R': 50,
 'S': 51,
 'T': 52,
 'U': 53,
 'V': 54,
 'W': 55,
 'X': 56,
 'Y': 57,
 'Z': 58,
 '[': 59,
 '\\': 60,
 ']': 61,
 '^': 62,
 '_': 63,
 '`': 64,
 'a': 65,
 'b': 66,
 'c': 67,
 'd': 68,
 'e': 69,
 'f': 70,
 'g': 71,
 'h': 72,
 'i': 73,
 'j': 74,
 'k': 75,
 'l': 76,
 'm': 77,
 'n': 78,
 'o': 79,
 'p': 80,
 'q': 81,
 'r': 82,
 's': 83,
 't': 84,
 'u': 85,
 'v': 86,
 'w': 87,
 'x': 88,
 'y': 89,
 'z': 90,
 '{': 91,
 '|': 92,
 '}': 93,
 '~': 94}

b) Liste index → caractère

In [None]:
# Liste index → caractère
idx_to_char = list(unique_chars)

idx_to_char


['\n',
 ' ',
 '!',
 '"',
 '#',
 '$',
 '&',
 "'",
 '(',
 ')',
 '*',
 '+',
 ',',
 '-',
 '.',
 '/',
 '0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 ':',
 ';',
 '<',
 '=',
 '>',
 '?',
 '@',
 'A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'T',
 'U',
 'V',
 'W',
 'X',
 'Y',
 'Z',
 '[',
 '\\',
 ']',
 '^',
 '_',
 '`',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 '{',
 '|',
 '}',
 '~']

#### Étape 3 : Vectorisation des chaînes

a) Fonction vectorize_string

In [None]:
def vectorize_string(text, char_to_idx):
    """
    Transforme une chaîne de caractères en une liste d'indices.
    """
    return [char_to_idx[ch] for ch in text]


Test avec la première chanson du dataset d’entraînement

In [None]:
# Récupération de la première chanson (notation ABC)
first_song = train_data["abc notation"].iloc[0]

# Vectorisation
vectorized_song = vectorize_string(first_song, char_to_idx)

print("Chaîne originale :")
print(first_song[:200])  # affichage partiel

print("\nChaîne vectorisée (indices) :")
print(vectorized_song[:50])  # affichage partiel


Chaîne originale :
X:1
L:1/8
M:4/4
K:Emin
|: E2 EF E2 EF | DEFG AFDF | E2 EF E2 B2 |1 efe^d e2 e2 :|2 efe^d e3 B |: e2 ef g2 fe | 
 defg afdf |1 e2 ef g2 fe | efe^d e3 B :|2 g2 bg f2 af | efe^d e2 e2 ||

Chaîne vectorisée (indices) :
[56, 26, 17, 0, 44, 26, 17, 15, 24, 0, 45, 26, 20, 15, 20, 0, 43, 26, 37, 77, 73, 78, 0, 92, 26, 1, 37, 18, 1, 37, 38, 1, 37, 18, 1, 37, 38, 1, 92, 1, 36, 37, 38, 39, 1, 33, 38, 36, 38, 1]


#### Étape 4 : Padding des séquences

a) Longueur maximale des séquences du dataset d’entraînement

In [None]:
# Longueur maximale des séquences
max_length = train_data["abc notation"].astype(str).apply(len).max()

print("Longueur maximale des séquences :", max_length)


Longueur maximale des séquences : 2968


b) Fonction de padding / troncature

In [None]:
def pad_or_truncate(text, max_length, pad_char=" "):
    """
    Ajuste la longueur d'une chaîne de caractères à max_length.
    """
    text = str(text)

    if len(text) < max_length:
        # Padding avec des espaces
        return text + pad_char * (max_length - len(text))
    else:
        # Troncature
        return text[:max_length]


Test de la fonction

In [None]:
sample_text = train_data["abc notation"].iloc[0]

padded_text = pad_or_truncate(sample_text, max_length)

print("Longueur originale :", len(sample_text))
print("Longueur après padding :", len(padded_text))


Longueur originale : 183
Longueur après padding : 2968


### **Création du dataset PyTorch**

#### Étape 1 : Préparation des données

In [None]:
import re

def prepare_data_tokens(dataframe, text_column):
    texts = dataframe[text_column].astype(str).values

    tokenized_texts = []
    for text in texts:
        # Extraire notes + silences + barres
        tokens = re.findall(r"[A-Ga-gz][0-9/]*|\|", text)
        tokenized_texts.append(tokens)

    # Vocabulaire
    vocab = sorted(set(token for seq in tokenized_texts for token in seq))
    token_to_idx = {tok: i for i, tok in enumerate(vocab)}
    idx_to_token = vocab

    # Longueur max
    max_length = max(len(seq) for seq in tokenized_texts)

    # Padding avec <PAD>
    token_to_idx["<PAD>"] = len(token_to_idx)
    idx_to_token.append("<PAD>")

    vectorized_data = []
    for seq in tokenized_texts:
        seq = seq + ["<PAD>"] * (max_length - len(seq))
        vectorized_data.append([token_to_idx[t] for t in seq])

    return token_to_idx, idx_to_token, vectorized_data, max_length


#### Étape 2 : Dataset et DataLoader

1) Implémentation de la classe MusicDataset

In [None]:
class MusicDataset(Dataset):
    def __init__(self, sequences, pad_idx):
        self.sequences = sequences
        self.pad_idx = pad_idx

    def __len__(self):
        return len(self.sequences)

    def __getitem__(self, idx):
        seq = self.sequences[idx]

        x = torch.tensor(seq[:-1], dtype=torch.long)
        y = torch.tensor(seq[1:], dtype=torch.long)

        return x, y


2) Initialisation des DataLoader (batch size = 8)

In [None]:
# TRAIN
token_to_idx, idx_to_token, train_sequences, max_length = prepare_data_tokens(
    train_data, text_column="abc notation"
)

pad_idx = token_to_idx["<PAD>"]

# VALIDATION (même vocabulaire)
def vectorize_val(dataframe, text_column, token_to_idx, max_length):
    texts = dataframe[text_column].astype(str).values
    sequences = []

    for text in texts:
        tokens = re.findall(r"[A-Ga-gz][0-9/]*|\|", text)
        tokens = tokens[:max_length]
        tokens += ["<PAD>"] * (max_length - len(tokens))
        sequences.append([token_to_idx.get(t, pad_idx) for t in tokens])

    return sequences


val_sequences = vectorize_val(
    val_data,
    text_column="abc notation",
    token_to_idx=token_to_idx,
    max_length=max_length
)


3) Vérification du bon fonctionnement (affichage d’un batch)

In [None]:
from torch.utils.data import DataLoader

train_dataset = MusicDataset(train_sequences, pad_idx=pad_idx)
val_dataset = MusicDataset(val_sequences, pad_idx=pad_idx)


train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=8, shuffle=False)


In [None]:
# Récupération d'un batch
x_batch, y_batch = next(iter(train_loader))

print("Entrée (X) - shape :", x_batch.shape)
print("Cible (y)  - shape :", y_batch.shape)

print("\nExemple X[0] :", x_batch[0][:20])
print("Exemple y[0] :", y_batch[0][:20])


Entrée (X) - shape : torch.Size([8, 1730])
Cible (y)  - shape : torch.Size([8, 1730])

Exemple X[0] : tensor([269, 142, 142, 680, 296, 226, 269,   0, 680,  71, 290,  55, 107, 680,
        160, 198,  55, 680, 160, 116])
Exemple y[0] : tensor([142, 142, 680, 296, 226, 269,   0, 680,  71, 290,  55, 107, 680, 160,
        198,  55, 680, 160, 116,   0])


### **Implémentation du modèle**



#### Étape 1 : Architecture du modèle

In [None]:
import torch
import torch.nn as nn

class MusicRNN(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim):
        """
        vocab_size   : taille du vocabulaire (nombre de caractères uniques)
        embedding_dim: dimension des embeddings
        hidden_dim   : taille de l'état caché du LSTM
        """
        super(MusicRNN, self).__init__()

        # 1️⃣ Couche d'Embedding : transforme les indices en vecteurs
        self.embedding = nn.Embedding(num_embeddings=vocab_size,
                                      embedding_dim=embedding_dim)

        # 2️⃣ LSTM : modélise les dépendances temporelles
        self.lstm = nn.LSTM(input_size=embedding_dim,
                            hidden_size=hidden_dim,
                            batch_first=True)

        # 3️⃣ Couche dense : prédit la distribution sur le vocabulaire pour chaque pas
        self.fc = nn.Linear(hidden_dim, vocab_size)

    def forward(self, x):
        """
        x : tensor de forme (batch_size, seq_length)
        """
        # Embedding : (batch_size, seq_length, embedding_dim)
        x = self.embedding(x)

        # LSTM : (batch_size, seq_length, hidden_dim)
        out, _ = self.lstm(x)

        # Couche dense : (batch_size, seq_length, vocab_size)
        out = self.fc(out)

        return out


In [None]:
!pip install torchinfo




In [None]:
# Définir le device
import torch
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

In [None]:
from torchinfo import summary
summary(
    model,
    input_size=(1, 50),   # batch_size=1, seq_length=50
    dtypes=[torch.long],
    device=device
)

Layer (type:depth-idx)                   Output Shape              Param #
MusicRNN                                 [1, 50, 95]               --
├─Embedding: 1-1                         [1, 50, 300]              28,500
├─LSTM: 1-2                              [1, 50, 512]              1,667,072
├─Linear: 1-3                            [1, 50, 95]               48,735
Total params: 1,744,307
Trainable params: 1,744,307
Non-trainable params: 0
Total mult-adds (Units.MEGABYTES): 83.43
Input size (MB): 0.00
Forward/backward pass size (MB): 0.36
Params size (MB): 6.98
Estimated Total Size (MB): 7.34

#### Étape 2 : Boucle d&#39;entraînement



**Import et préparation**




In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.tensorboard import SummaryWriter
from torch.utils.data import DataLoader
import copy
import os


**Fonction d’entraînement**

In [None]:
def train_model(model, train_dataset, val_dataset,
                num_iterations=3000, batch_size=256, learning_rate=5e-3,
                embedding_dim=256, hidden_size=1024, patience=10,
                device='cpu', save_path='best_model.pth'):

    # DataLoaders
    train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
    val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False)

    # Déplacement du modèle sur device
    model.to(device)

    # Optimiseur et loss
    criterion = nn.CrossEntropyLoss()
    optimizer = optim.Adam(model.parameters(), lr=learning_rate)

    # Tensorboard
    writer = SummaryWriter()

    best_loss = float('inf')
    best_model_wts = copy.deepcopy(model.state_dict())
    epochs_without_improve = 0

    for epoch in range(num_iterations):
        model.train()
        train_loss = 0

        for x_batch, y_batch in train_loader:
            x_batch, y_batch = x_batch.to(device), y_batch.to(device)

            optimizer.zero_grad()
            outputs = model(x_batch)  # shape: (batch, seq_len, vocab_size)

            # Reshape pour CrossEntropyLoss : (batch*seq_len, vocab_size)
            loss = criterion(outputs.view(-1, outputs.size(-1)), y_batch.view(-1))
            loss.backward()
            optimizer.step()

            train_loss += loss.item()

        train_loss /= len(train_loader)

        # Validation
        model.eval()
        val_loss = 0
        with torch.no_grad():
            for x_val, y_val in val_loader:
                x_val, y_val = x_val.to(device), y_val.to(device)
                outputs = model(x_val)
                loss = criterion(outputs.view(-1, outputs.size(-1)), y_val.view(-1))
                val_loss += loss.item()

        val_loss /= len(val_loader)

        # Tensorboard logging
        writer.add_scalar('Loss/train', train_loss, epoch)
        writer.add_scalar('Loss/val', val_loss, epoch)

        print(f"Epoch {epoch+1}/{num_iterations} - Train Loss: {train_loss:.4f}, Val Loss: {val_loss:.4f}")

        # Early stopping
        if val_loss < best_loss:
            best_loss = val_loss
            best_model_wts = copy.deepcopy(model.state_dict())
            epochs_without_improve = 0
            torch.save(model.state_dict(), save_path)
        else:
            epochs_without_improve += 1
            if epochs_without_improve >= patience:
                print("Early stopping triggered")
                break

    # Charger les meilleurs poids
    model.load_state_dict(best_model_wts)
    writer.close()
    return model


**Définition des hyperparamètres et entraînement**

In [None]:
torch.cuda.empty_cache()


In [None]:
len(train_sequences)

214122

In [None]:
import random
# Subset aléatoire 50 %
train_subset = random.sample(train_sequences, k=int(1000))
val_subset   = random.sample(val_sequences,   k=int(250 ))

In [None]:
train_dataset = MusicDataset(train_subset, pad_idx=pad_idx)
val_dataset   = MusicDataset(val_subset, pad_idx=pad_idx)


In [None]:
from torch.utils.data import DataLoader

train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)
val_loader   = DataLoader(val_dataset, batch_size=8, shuffle=False)


In [None]:
import torch
from torch.utils.data import DataLoader

def train_model(model, train_dataset, val_dataset, num_iterations=100,
                batch_size=64, learning_rate=5e-3, patience=10,
                device='cpu', save_path='best_music_rnn.pth'):

    # DataLoaders internes
    train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
    val_loader   = DataLoader(val_dataset, batch_size=batch_size, shuffle=False)

    # Déplacer le modèle sur le device
    model.to(device)

    optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
    criterion = torch.nn.CrossEntropyLoss(ignore_index=train_dataset.pad_idx)

    best_val_loss = float('inf')
    epochs_no_improve = 0

    for epoch in range(num_iterations):
        # --- Entraînement ---
        model.train()
        for x_batch, y_batch in train_loader:
            x_batch, y_batch = x_batch.to(device), y_batch.to(device)
            optimizer.zero_grad()
            logits = model(x_batch)  # [batch, seq_len, vocab_size]
            loss = criterion(logits.view(-1, logits.size(-1)), y_batch.view(-1))
            loss.backward()
            optimizer.step()

        # --- Validation ---
        model.eval()
        val_loss = 0
        with torch.no_grad():
            for x_val, y_val in val_loader:
                x_val, y_val = x_val.to(device), y_val.to(device)
                logits = model(x_val)
                val_loss += criterion(logits.view(-1, logits.size(-1)), y_val.view(-1)).item()
        val_loss /= len(val_loader)

        print(f"Epoch {epoch+1}/{num_iterations} - Val loss: {val_loss:.4f}")

        # Early stopping
        if val_loss < best_val_loss:
            best_val_loss = val_loss
            epochs_no_improve = 0
            torch.save(model.state_dict(), save_path)
        else:
            epochs_no_improve += 1
            if epochs_no_improve >= patience:
                print("Early stopping!")
                break

    # Charger le meilleur modèle
    model.load_state_dict(torch.load(save_path))
    return model


In [None]:
# Hyperparamètres
vocab_size = len(token_to_idx)  # taille du vocabulaire token-level
embedding_dim = 128
hidden_size = 512

# Définir le modèle
model = MusicRNN(vocab_size, embedding_dim, hidden_size)


In [None]:
device = 'cpu'
trained_model = train_model(
    model=model,
    train_dataset=train_dataset,
    val_dataset=val_dataset,
    num_iterations=10,
    batch_size=8,
    learning_rate=5e-3,
    patience=10,
    device=device,
    save_path='best_music_rnn.pth'
)

Epoch 1/10 - Val loss: 2.6256
Epoch 2/10 - Val loss: 2.4645
Epoch 3/10 - Val loss: 2.3943
Epoch 4/10 - Val loss: 2.3303
Epoch 5/10 - Val loss: 2.3036
Epoch 6/10 - Val loss: 2.2734
Epoch 7/10 - Val loss: 2.2542
Epoch 8/10 - Val loss: 2.2630
Epoch 9/10 - Val loss: 2.2513
Epoch 10/10 - Val loss: 2.2714


**Génération de musique**

In [None]:
import torch
import torch.nn.functional as F
import textwrap

VALID_CHARS = "CDEFGABz|"
MAX_BARS_PER_MEASURE = 4

def generate_abc_music(model, start_sequence, char_to_idx, idx_to_char,
                       length=500, device='cpu', temperature=0.8, line_width=80):
    """
    Génère des séquences 100% correctes ABC.

    Args:
        model: RNN entraîné
        start_sequence: chaîne initiale
        char_to_idx, idx_to_char: dictionnaires vocabulaire
        length: nombre de caractères à générer
        device: 'cpu' ou 'cuda'
        temperature: créativité
        line_width: largeur de ligne pour affichage

    Returns:
        generated_str: musique ABC formatée
    """
    model.eval()
    generated = start_sequence
    input_indices = [char_to_idx[c] for c in start_sequence if c in char_to_idx]
    if len(input_indices) == 0:
        input_indices = [0]
    input_seq = torch.tensor(input_indices, dtype=torch.long, device=device).unsqueeze(0)

    notes_in_measure = 0

    for _ in range(length):
        with torch.no_grad():
            logits = model(input_seq)
            last_logits = logits[:, -1, :] / temperature
            probs = F.softmax(last_logits, dim=-1)

            next_idx = torch.multinomial(probs, num_samples=1).item()
            next_idx = min(next_idx, len(idx_to_char)-1)
            next_char = idx_to_char[next_idx]

            # Garder uniquement les caractères valides
            if next_char not in VALID_CHARS:
                next_char = "z"

            # Limiter les barres consécutives
            if next_char == "|" and generated.endswith("|" * MAX_BARS_PER_MEASURE):
                continue

            # Compter les notes pour ajouter automatiquement la barre de mesure
            if next_char in "CDEFGABz":
                notes_in_measure += 1
                if notes_in_measure >= MAX_BARS_PER_MEASURE:
                    next_char = "|"
                    notes_in_measure = 0

            generated += next_char
            input_seq = torch.tensor([[char_to_idx.get(next_char, 0)]], dtype=torch.long, device=device)

    # Formater pour lisibilité
    return "\n".join(textwrap.wrap(generated, line_width))


In [None]:
start_seq = "X:1\nT:MySong\nM:4/4\nK:C\n"
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

generated_music = generate_abc_music(
    model, start_seq, char_to_idx, idx_to_char,
    length=1000, device=device, temperature=0.7
)
print(generated_music)

X:1 T:MySong M:4/4 K:C zzz|||||zz||||z|||||zz||||z||||z||||z||C||||Cz||||z|||||z
||||zz|||||zz||||z|||||zz||||C||||Czz|||||Cz||||z||||z||||z||||z|||||z|z|||z||||
|G||||Cz|||||z||||z||||C|||||C||||C||||z||||CzC||||zz||||z|||||z||


**Bonus : augmentation simple des données**

a) Transposition des notes

In [None]:
def transpose_abc(sequence, steps=1):
    notes = "CDEFGAB"
    new_seq = ""
    for ch in sequence:
        if ch in notes:
            idx = notes.index(ch)
            new_ch = notes[(idx + steps) % len(notes)]
            new_seq += new_ch
        else:
            new_seq += ch
    return new_seq


b) Modification du rythme

In [None]:
def change_rhythm(sequence, factor=2):
    import re
    return re.sub(r'(\d+)', lambda m: str(int(int(m.group(1)) * factor)), sequence)

### **Conclusion**

# Conclusion du TP : Génération de Musique avec RNN-LSTM

Ce notebook présente une mise en œuvre complète d'un système de génération de musique assistée par IA. En utilisant l'architecture **LSTM (Long Short-Term Memory)** et le format de notation **ABC**, nous avons transformé un défi de traitement de séquences en une application créative fonctionnelle.

---

### 1. Synthèse des Réalisations
* **Prétraitement Sémantique :** Au-delà du simple caractère, nous avons segmenté le texte en **tokens musicaux** (notes, durées et barres de mesure) via des expressions régulières, facilitant l'apprentissage des structures harmoniques.
* **Architecture PyTorch :** Le modèle repose sur une structure efficace à trois étages :
    1.  **Embedding** (128d) pour la représentation latente des notes.
    2.  **LSTM** (512 unités) pour la capture des dépendances temporelles à long terme.
    3.  **Dense** pour la projection vers le vocabulaire final (95 tokens).
* **Logique de Génération :** L'implémentation d'une fonction de génération avec **température** et **post-traitement algorithmique** garantit que la musique produite respecte scrupuleusement les contraintes du format ABC (mesures de 4 notes, filtrage des caractères invalides).

### 2. Observations sur l'Entraînement
Malgré un cycle court de **10 époques**, le modèle a montré des résultats prometteurs :
* **Convergence :** La perte de validation a diminué de manière constante, prouvant que le modèle a assimilé la syntaxe de base.
* **Structure :** Les séquences générées respectent les en-têtes standards (`X:`, `T:`, `K:`, `M:`) et l'alternance notes/mesures.
* **Augmentation de données :** Les fonctions de **transposition** et de **changement de rythme** ont permis d'enrichir virtuellement le dataset, limitant ainsi le risque de sur-apprentissage sur le subset de 1000 morceaux.

### 3. Perspectives d'Amélioration
Pour prolonger ce travail, nous pourrions envisager :
* **Fine-tuning :** Augmenter le nombre d'époques et la taille du subset d'entraînement.
* **Complexité :** Tester une architecture LSTM multi-couches ou intégrer des mécanismes d'Attention.
* **Conversion MIDI :** Utiliser des outils comme `music21` pour écouter les créations et évaluer leur qualité mélodique réelle.

---
**Travail réalisé dans le cadre du TP RNN - Génération de Musique ABC.**