In [1]:
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
import numpy as np
from tqdm import tqdm
import gc
import os

In [2]:
class SpectrogramSeparator(nn.Module):
    def __init__(self, n_mels=128, seq_len=800, n_sources=4, d_model=256, nhead=8, num_layers=4):
        super().__init__()
        self.n_sources = n_sources
        self.seq_len = seq_len
        self.n_mels = n_mels
        
        # Convolutional encoder
        self.conv_encoder = nn.Sequential(
            nn.Conv2d(1, 32, kernel_size=3, padding=1),
            nn.BatchNorm2d(32),
            nn.ReLU(),
            nn.Conv2d(32, 64, kernel_size=3, padding=1),
            nn.BatchNorm2d(64),
            nn.ReLU(),
            nn.Conv2d(64, 128, kernel_size=3, padding=1),
            nn.BatchNorm2d(128),
            nn.ReLU()
        )
        
        # Projection to d_model dimension
        self.flatten_proj = nn.Linear(128 * n_mels, d_model)
        
        # Positional encoding
        self.pos_encoding = nn.Parameter(torch.randn(seq_len, d_model))
        
        # Transformer encoder
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=d_model, 
            nhead=nhead, 
            dim_feedforward=d_model*4,
            batch_first=True
        )
        self.transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=num_layers)
        
        # Transformer decoder
        decoder_layer = nn.TransformerDecoderLayer(
            d_model=d_model, 
            nhead=nhead,
            dim_feedforward=d_model*4,
            batch_first=True
        )
        self.transformer_decoder = nn.TransformerDecoder(decoder_layer, num_layers=num_layers)
        
        # Source-specific queries (learnable)
        self.source_queries = nn.Parameter(torch.randn(n_sources, seq_len, d_model))
        
        # Output projection
        self.output_proj = nn.Sequential(
            nn.Linear(d_model, n_mels),
            nn.ReLU()
        )

    def forward(self, x):
        # x: (B, 128, 800)
        B = x.shape[0]
        
        # Add channel dimension and apply CNN
        x = x.unsqueeze(1)  # (B, 1, 128, 800)
        x = self.conv_encoder(x)  # (B, 128, 128, 800)
        
        # Prepare for transformer
        x = x.permute(0, 3, 1, 2)  # (B, T, C, M)
        B, T, C, M = x.shape
        x = x.reshape(B, T, C * M)  # (B, T, C*M)
        x = self.flatten_proj(x)  # (B, T, d_model)
        
        # Add positional encoding
        x = x + self.pos_encoding[:T]
        
        # Transformer encoder
        memory = self.transformer_encoder(x)  # (B, T, d_model)
        
        # Prepare source queries
        queries = self.source_queries.expand(B, -1, -1, -1)  # (B, S, T, d_model)
        S = queries.shape[1]
        queries = queries.reshape(B*S, T, -1)  # (B*S, T, d_model)
        
        # Expand memory for each source
        memory = memory.unsqueeze(1).expand(-1, S, -1, -1)  # (B, S, T, d_model)
        memory = memory.reshape(B*S, T, -1)  # (B*S, T, d_model)
        
        # Transformer decoder
        output = self.transformer_decoder(queries, memory)  # (B*S, T, d_model)
        
        # Project to mel spectrum
        output = self.output_proj(output)  # (B*S, T, n_mels)
        
        # Reshape to final format
        output = output.reshape(B, S, T, self.n_mels)  # (B, S, T, n_mels)
        output = output.permute(0, 1, 3, 2)  # (B, S, n_mels, T)
        
        return output

In [3]:
class OptimizedSpectrogramDataset(Dataset):
    def __init__(self, X_path, y_path, device='cpu', preload=True, pin_memory=False):
        """
        Dataset optimisé pour charger complètement les données en mémoire
        
        Args:
            X_path (str): Chemin vers le fichier .npy des mélanges
            y_path (str): Chemin vers le fichier .npy des sources
            device (str): Dispositif où stocker les données ('cpu' ou 'cuda')
            preload (bool): Si True, précharge toutes les données en mémoire
            pin_memory (bool): Si True, utilise torch.pin_memory() pour accélérer le transfert CPU->GPU
        """
        self.X_path = X_path
        self.y_path = y_path
        self.device = device
        self.X_data = None
        self.y_data = None
        self.pin_memory = pin_memory and device == 'cpu'  # pin_memory n'est utile que sur CPU
        
        # Préchargement des données
        if preload:
            self._preload_data()
    
    def _preload_data(self):
        """Précharge toutes les données en mémoire"""
        print(f"Préchargement des données depuis {self.X_path} et {self.y_path}...")
        
        # Charger les données
        X_data = np.load(self.X_path)
        y_data = np.load(self.y_path)
        
        # Convertir en tenseurs PyTorch
        self.X_data = torch.tensor(X_data, dtype=torch.float32, device=self.device)
        self.y_data = torch.tensor(y_data, dtype=torch.float32, device=self.device)
        
        if self.pin_memory and self.device == 'cpu':
            self.X_data = self.X_data.pin_memory()
            self.y_data = self.y_data.pin_memory()
        
        print(f"Données chargées en mémoire: X={self.X_data.shape}, y={self.y_data.shape}")
        
        # Libérer la mémoire numpy
        del X_data, y_data
        gc.collect()

    def __len__(self):
        if self.X_data is not None:
            return len(self.X_data)
        else:
            # Déterminer la taille sans charger toutes les données
            return len(np.load(self.X_path, mmap_mode='r'))

    def __getitem__(self, idx):
        if self.X_data is not None:
            # Récupérer depuis le cache préchargé
            return self.X_data[idx], self.y_data[idx]
        else:
            # Chargement à la volée (plus lent)
            X = np.load(self.X_path, mmap_mode='r')[idx]
            y = np.load(self.y_path, mmap_mode='r')[idx]
            X_tensor = torch.tensor(X, dtype=torch.float32)
            y_tensor = torch.tensor(y, dtype=torch.float32)
            return X_tensor, y_tensor

In [4]:
class SI_SDR_Loss(nn.Module):
    def __init__(self, eps=1e-8):
        super().__init__()
        self.eps = eps

    def forward(self, predictions, targets):
        """
        Args:
            predictions: tensor of shape [B, S, F, T] (batch, sources, freq_bins, time)
            targets: tensor of shape [B, S, F, T]
        Returns:
            SI-SDR loss (negative SI-SDR for minimization)
        """
        # Reshape to [B*S, F*T]
        B, S, F, T = predictions.shape
        predictions = predictions.reshape(B*S, -1)
        targets = targets.reshape(B*S, -1)

        # Zero-mean normalization
        predictions = predictions - torch.mean(predictions, dim=-1, keepdim=True)
        targets = targets - torch.mean(targets, dim=-1, keepdim=True)

        # Calculate SI-SDR
        alpha = (torch.sum(predictions * targets, dim=-1, keepdim=True) + self.eps) / (
            torch.sum(targets ** 2, dim=-1, keepdim=True) + self.eps)
        scaled_target = alpha * targets

        si_sdr = torch.sum(scaled_target ** 2, dim=-1) / (
            torch.sum((predictions - scaled_target) ** 2, dim=-1) + self.eps)
        si_sdr = 10 * torch.log10(si_sdr + self.eps)

        # Return negative mean for loss minimization
        return -si_sdr.mean()

In [5]:
def train_model(data_dir, results_dir, batch_size=8, num_epochs=4, 
                learning_rate=1e-5, gradient_accumulation_steps=8,
                preload_data=True, use_amp=True):
    """
    Fonction d'entraînement optimisée avec:
    - Préchargement des données
    - Mixed Precision Training (AMP)
    - Gradient Accumulation
    - Nettoyage de la mémoire GPU
    
    Args:
        data_dir: Répertoire contenant les données
        results_dir: Répertoire pour sauvegarder les modèles
        batch_size: Taille des batchs
        num_epochs: Nombre d'époques d'entraînement
        learning_rate: Taux d'apprentissage
        gradient_accumulation_steps: Nombre de pas pour l'accumulation de gradient
        preload_data: Si True, précharge les données en mémoire
        use_amp: Si True, utiliser le training en précision mixte
    """
    # Créer le répertoire de résultats s'il n'existe pas
    os.makedirs(os.path.join(results_dir, "models"), exist_ok=True)
    
    # Détection du dispositif
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print(f"Utilisation du dispositif: {device}")
    
    # Chemins des données
    X_train_path = os.path.join(data_dir, "processed/X_train.npy")
    y_train_path = os.path.join(data_dir, "processed/y_train.npy")
    X_test_path = os.path.join(data_dir, "processed/X_test.npy")
    y_test_path = os.path.join(data_dir, "processed/y_test.npy")
    
    # Datasets optimisés
    train_dataset = OptimizedSpectrogramDataset(
        X_train_path, y_train_path, 
        device='cpu',  # Toujours garder les données sur CPU pour éviter la saturation de la VRAM
        preload=preload_data,
        pin_memory=True
    )
    
    test_dataset = OptimizedSpectrogramDataset(
        X_test_path, y_test_path, 
        device='cpu',
        preload=preload_data,
        pin_memory=True
    )
    
    # DataLoaders optimisés
    train_loader = DataLoader(
        train_dataset, 
        batch_size=batch_size, 
        shuffle=True,
        num_workers=4,  # Utiliser plusieurs workers pour le chargement parallèle
        pin_memory=True  # Transfert CPU->GPU plus rapide
    )
    
    test_loader = DataLoader(
        test_dataset, 
        batch_size=batch_size, 
        shuffle=False,
        num_workers=4,
        pin_memory=True
    )
    
    # Initialiser le modèle, le critère et l'optimiseur
    model = SpectrogramSeparator().to(device)
    criterion = SI_SDR_Loss().to(device)
    optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
    
    # Activer le gradient checkpointing si disponible (économise de la mémoire)
    if hasattr(model, 'transformer_encoder') and hasattr(model.transformer_encoder, 'gradient_checkpointing_enable'):
        model.transformer_encoder.gradient_checkpointing_enable()
        print("Gradient checkpointing activé pour l'encodeur")
    
    if hasattr(model, 'transformer_decoder') and hasattr(model.transformer_decoder, 'gradient_checkpointing_enable'):
        model.transformer_decoder.gradient_checkpointing_enable()
        print("Gradient checkpointing activé pour le décodeur")
    
    # Initialiser le scaler pour la précision mixte (AMP)
    scaler = torch.cuda.amp.GradScaler() if use_amp else None
    
    best_loss = float('inf')
    
    for epoch in range(num_epochs):
        model.train()
        epoch_loss = 0.0
        optimizer.zero_grad()  # Réinitialiser une fois par époque
        
        pbar = tqdm(train_loader, desc=f"Epoch {epoch+1}/{num_epochs}", unit="batch")
        
        for batch_idx, (X_batch, y_batch) in enumerate(pbar):
            # Transférer les données sur GPU
            X_batch = X_batch.to(device, non_blocking=True)
            y_batch = y_batch.to(device, non_blocking=True)
            
            # Forward pass avec AMP si activé
            if use_amp:
                with torch.cuda.amp.autocast():
                    output = model(X_batch)
                    loss = criterion(output, y_batch) / gradient_accumulation_steps
                
                # Backward pass avec scaling
                scaler.scale(loss).backward()
                
                # Mise à jour des poids tous les n batchs
                if (batch_idx + 1) % gradient_accumulation_steps == 0:
                    scaler.step(optimizer)
                    scaler.update()
                    optimizer.zero_grad()
            else:
                # Mode normal (sans AMP)
                output = model(X_batch)
                loss = criterion(output, y_batch) / gradient_accumulation_steps
                loss.backward()
                
                # Mise à jour des poids tous les n batchs
                if (batch_idx + 1) % gradient_accumulation_steps == 0:
                    optimizer.step()
                    optimizer.zero_grad()
            
            # Multiplier par gradient_accumulation_steps pour obtenir la vraie valeur
            batch_loss = loss.item() * gradient_accumulation_steps
            epoch_loss += batch_loss
            pbar.set_postfix({"SI-SDR Loss": f"{batch_loss:.4f}"})
            
            # Libérer la mémoire GPU
            del X_batch, y_batch, output
            torch.cuda.empty_cache()
        
        # Vérifier s'il reste des gradients à appliquer
        if (batch_idx + 1) % gradient_accumulation_steps != 0:
            if use_amp:
                scaler.step(optimizer)
                scaler.update()
            else:
                optimizer.step()
            optimizer.zero_grad()
        
        avg_loss = epoch_loss / len(train_loader)
        print(f"Epoch {epoch+1}/{num_epochs}, Loss: {avg_loss:.4f}")

        # Évaluation sur le set de test
        model.eval()
        test_loss = 0.0
        with torch.no_grad():
            for X_test, y_test in test_loader:
                X_test = X_test.to(device, non_blocking=True)
                y_test = y_test.to(device, non_blocking=True)
                
                if use_amp:
                    with torch.cuda.amp.autocast():
                        output = model(X_test)
                        loss = criterion(output, y_test)
                else:
                    output = model(X_test)
                    loss = criterion(output, y_test)
                
                test_loss += loss.item()
                
                # Libérer la mémoire
                del X_test, y_test, output
                torch.cuda.empty_cache()
            
        avg_test_loss = test_loss / len(test_loader)
        print(f"Test Loss: {avg_test_loss:.4f}")

        # Sauvegarder le meilleur modèle
        if avg_test_loss < best_loss:
            best_loss = avg_test_loss
            torch.save({
                'epoch': epoch,
                'model_state_dict': model.state_dict(),
                'optimizer_state_dict': optimizer.state_dict(),
                'loss': best_loss,
            }, os.path.join(results_dir, "models/model.pth"))
            print(f"Meilleur modèle sauvegardé avec loss = {best_loss:.4f}")
        
        # Libérer la mémoire à la fin de chaque époque
        gc.collect()
        torch.cuda.empty_cache()

In [6]:
# Paramètres d'entraînement
DATA_DIR = "../data"
RESULTS_DIR = "../results"
BATCH_SIZE = 1  # Réduit pour économiser de la mémoire
NUM_EPOCHS = 8
LEARNING_RATE = 1e-5
GRADIENT_ACCUMULATION_STEPS = 8  # Équivaut à un batch_size effectif de 4
USE_AMP = False  # Utiliser la précision mixte

# Lancer l'entraînement
train_model(
    data_dir=DATA_DIR,
    results_dir=RESULTS_DIR,
    batch_size=BATCH_SIZE,
    num_epochs=NUM_EPOCHS,
    learning_rate=LEARNING_RATE,
    gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
    preload_data=True, 
    use_amp=USE_AMP
)

Utilisation du dispositif: cuda
Préchargement des données depuis ../data/processed/X_train.npy et ../data/processed/y_train.npy...
Données chargées en mémoire: X=torch.Size([2410, 128, 800]), y=torch.Size([2410, 4, 128, 800])
Préchargement des données depuis ../data/processed/X_test.npy et ../data/processed/y_test.npy...
Données chargées en mémoire: X=torch.Size([1319, 128, 800]), y=torch.Size([1319, 4, 128, 800])


Epoch 1/8: 100%|███████████████████████████| 2410/2410 [04:45<00:00,  8.45batch/s, SI-SDR Loss=4.1434]


Epoch 1/8, Loss: 12.5541
Test Loss: 12.5989
Meilleur modèle sauvegardé avec loss = 12.5989


Epoch 2/8: 100%|███████████████████████████| 2410/2410 [04:49<00:00,  8.33batch/s, SI-SDR Loss=3.9988]


Epoch 2/8, Loss: 9.9905
Test Loss: 11.1985
Meilleur modèle sauvegardé avec loss = 11.1985


Epoch 3/8: 100%|███████████████████████████| 2410/2410 [04:47<00:00,  8.38batch/s, SI-SDR Loss=6.8206]

Epoch 3/8, Loss: 8.8554





Test Loss: 10.8709
Meilleur modèle sauvegardé avec loss = 10.8709


Epoch 4/8: 100%|███████████████████████████| 2410/2410 [04:33<00:00,  8.82batch/s, SI-SDR Loss=7.5879]

Epoch 4/8, Loss: 8.6203





Test Loss: 10.8625
Meilleur modèle sauvegardé avec loss = 10.8625


Epoch 5/8: 100%|███████████████████████████| 2410/2410 [04:24<00:00,  9.12batch/s, SI-SDR Loss=2.6044]

Epoch 5/8, Loss: 8.5416





Test Loss: 10.8344
Meilleur modèle sauvegardé avec loss = 10.8344


Epoch 6/8: 100%|███████████████████████████| 2410/2410 [04:40<00:00,  8.58batch/s, SI-SDR Loss=5.8152]

Epoch 6/8, Loss: 8.6747





Test Loss: 13.4472


Epoch 7/8: 100%|███████████████████████████| 2410/2410 [04:42<00:00,  8.53batch/s, SI-SDR Loss=2.5275]


Epoch 7/8, Loss: 8.1957
Test Loss: 10.1391
Meilleur modèle sauvegardé avec loss = 10.1391


Epoch 8/8: 100%|███████████████████████████| 2410/2410 [04:39<00:00,  8.61batch/s, SI-SDR Loss=3.4511]

Epoch 8/8, Loss: 7.7623





Test Loss: 10.0299
Meilleur modèle sauvegardé avec loss = 10.0299
