In [2]:
# ============================================
# CELLULE 1: Titre
# ============================================
"""
Transformer (From Scratch) - Version GPU avec Optimiseur Configurable
"""

'\nTransformer (From Scratch) - Version GPU avec Optimiseur Configurable\n'

In [3]:
# ============================================
# CELLULE 2: Imports
# ============================================
# gere les structures de donnees de bases, le calcul du gradient automatique
import torch
# contient les blocs de construction des RN, couches pre-construites
import torch.nn as nn
# contient les algos d'optimisation
import torch.optim as optim
# pour creer les dataloaders (gere les flux de donnees)
import torch.utils.data as data
# contient les fonctions mathematiques
import math
# pour copier les onjets
import copy
import time
from datetime import timedelta

In [5]:
# ============================================
# CELLULE 3: Configuration du device avec choix GPU/CPU
# ============================================
# CHOIX DU DEVICE: Modifiez ici pour forcer CPU ou GPU
FORCE_DEVICE = "cpu"  # Options: "auto", "cpu", "cuda"

if FORCE_DEVICE == "auto":
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
elif FORCE_DEVICE == "cuda":
    if torch.cuda.is_available():
        device = torch.device("cuda")
    else:
        print("CUDA non disponible, utilisation du CPU")
        device = torch.device("cpu")
else:
    device = torch.device("cpu")

print("="*60)
print(f"üñ•Ô∏è  DEVICE UTILIS√â: {device}")
print("="*60)

if device.type == "cuda":
    print(f"‚úì GPU: {torch.cuda.get_device_name(0)}")
    print(f"‚úì M√©moire totale: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.2f} GB")
    print(f"‚úì M√©moire disponible: {(torch.cuda.get_device_properties(0).total_memory - torch.cuda.memory_allocated(0)) / 1024**3:.2f} GB")
else:
    print("Mode CPU activ√©")
print("="*60)

üñ•Ô∏è  DEVICE UTILIS√â: cpu
Mode CPU activ√©


In [6]:
# ============================================
# CELLULE 4: Classe AttentionMultiTetes
# ============================================
class AttentionMultiTetes(nn.Module):
    def __init__(self, d_modele, nb_tetes):
        super(AttentionMultiTetes, self).__init__()
        # S'assurer que la dimension du mod√®le (d_modele) est divisible par le nombre de t√™tes
        assert d_modele % nb_tetes == 0, "d_modele doit √™tre divisible par nb_tetes"
        
        # Initialisation des dimensions
        self.d_modele = d_modele # Dimension du mod√®le
        self.nb_tetes = nb_tetes # Nombre de t√™tes d'attention
        self.d_k = d_modele // nb_tetes # Dimension des cl√©s, requ√™tes et valeurs de chaque t√™te
        
        # Couches lin√©aires pour la transformation des entr√©es
        self.W_q = nn.Linear(d_modele, d_modele) # Transformation des Requ√™tes (Query)
        self.W_k = nn.Linear(d_modele, d_modele) # Transformation des Cl√©s (Key)
        self.W_v = nn.Linear(d_modele, d_modele) # Transformation des Valeurs (Value)
        self.W_o = nn.Linear(d_modele, d_modele) # Transformation de Sortie (Output)
    
    def attention_produit_scalaire_normalisee(self, Q, K, V, masque=None):
        # Calcul des scores d'attention
        scores_attn = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.d_k)
        
        # Appliquer le masque si fourni (utile pour ignorer le rembourrage/padding)
        if masque is not None:
            scores_attn = scores_attn.masked_fill(masque == 0, -1e9)
        
        # Application du Softmax pour obtenir les probabilit√©s d'attention
        probs_attn = torch.softmax(scores_attn, dim=-1)
        
        # Multiplier par les valeurs pour obtenir la sortie finale
        sortie = torch.matmul(probs_attn, V)
        return sortie
    
    def separer_tetes(self, x):
        # Redimensionner l'entr√©e pour avoir plusieurs t√™tes d'attention
        taille_batch, long_seq, d_modele = x.size()
        return x.view(taille_batch, long_seq, self.nb_tetes, self.d_k).transpose(1, 2)
    
    def combiner_tetes(self, x):
        # Combiner les t√™tes multiples pour revenir √† la forme originale
        taille_batch, _, long_seq, d_k = x.size()
        return x.transpose(1, 2).contiguous().view(taille_batch, long_seq, self.d_modele)
    
    def forward(self, Q, K, V, masque=None):
        # Appliquer les transformations lin√©aires et s√©parer les t√™tes
        Q = self.separer_tetes(self.W_q(Q))
        K = self.separer_tetes(self.W_k(K))
        V = self.separer_tetes(self.W_v(V))
        
        # Effectuer l'attention par produit scalaire normalis√©e
        sortie_attn = self.attention_produit_scalaire_normalisee(Q, K, V, masque)
        
        # Combiner les t√™tes et appliquer la transformation de sortie finale
        sortie = self.W_o(self.combiner_tetes(sortie_attn))
        return sortie

In [7]:
# ============================================
# CELLULE 5: Classe ReseauNeuronesPositionnel
# ============================================
class ReseauNeuronesPositionnel(nn.Module):
    def __init__(self, d_modele, d_ff):
        super(ReseauNeuronesPositionnel, self).__init__()
        # Premi√®re couche lin√©aire (expansion de la dimension)
        self.fc1 = nn.Linear(d_modele, d_ff)
        # Seconde couche lin√©aire (retour √† la dimension originale du mod√®le)
        self.fc2 = nn.Linear(d_ff, d_modele)
        # Fonction d'activation non-lin√©aire
        self.relu = nn.ReLU()
    
    def forward(self, x):
        # Passage dans la premi√®re couche, activation ReLU, puis seconde couche
        return self.fc2(self.relu(self.fc1(x)))

In [8]:
# ============================================
# CELLULE 6: Classe EncodagePositionnel
# ============================================
class EncodagePositionnel(nn.Module):
    def __init__(self, d_modele, long_max_seq):
        super(EncodagePositionnel, self).__init__()
        
        # Cr√©ation d'une matrice d'encodage positionnel (pe) remplie de z√©ros
        pe = torch.zeros(long_max_seq, d_modele)
        
        # Cr√©ation d'un vecteur de positions (0, 1, 2, ..., long_max_seq)
        position = torch.arange(0, long_max_seq, dtype=torch.float).unsqueeze(1)
        
        # Calcul du terme de division pour les fr√©quences sinus et cosinus
        terme_div = torch.exp(torch.arange(0, d_modele, 2).float() * -(math.log(10000.0) / d_modele))
        
        # Application de la fonction sinus aux indices pairs (0, 2, 4...)
        pe[:, 0::2] = torch.sin(position * terme_div)
        
        # Application de la fonction cosinus aux indices impairs (1, 3, 5...)
        pe[:, 1::2] = torch.cos(position * terme_div)
        
        # Enregistrer 'pe' comme un buffer (ne sera pas consid√©r√© comme un param√®tre entra√Ænable)
        self.register_buffer('pe', pe.unsqueeze(0))
    
    def forward(self, x):
        # Ajoute l'encodage positionnel aux plongements (embeddings) d'entr√©e
        return x + self.pe[:, :x.size(1)]

In [9]:
# ============================================
# CELLULE 7: Classe CoucheEncodeur
# ============================================
class CoucheEncodeur(nn.Module):
    def __init__(self, d_modele, nb_tetes, d_ff, dropout):
        super(CoucheEncodeur, self).__init__()
        # Auto-attention multi-t√™tes
        self.auto_attn = AttentionMultiTetes(d_modele, nb_tetes)
        # R√©seau de neurones positionnel (Feed-Forward)
        self.reseau_positionnel = ReseauNeuronesPositionnel(d_modele, d_ff)
        # Couches de normalisation
        self.norm1 = nn.LayerNorm(d_modele)
        self.norm2 = nn.LayerNorm(d_modele)
        # Couche de dropout pour la r√©gularisation
        self.dropout = nn.Dropout(dropout)
    
    def forward(self, x, masque):
        # √âtape 1 : Auto-attention et connexion r√©siduelle suivie d'une normalisation
        sortie_attn = self.auto_attn(x, x, x, masque)
        x = self.norm1(x + self.dropout(sortie_attn))
        
        # √âtape 2 : R√©seau Feed-Forward et connexion r√©siduelle suivie d'une normalisation
        sortie_ff = self.reseau_positionnel(x)
        x = self.norm2(x + self.dropout(sortie_ff))
        
        return x

In [10]:
# ============================================
# CELLULE 8: Classe CoucheDecodeur
# ============================================
class CoucheDecodeur(nn.Module):
    def __init__(self, d_modele, nb_tetes, d_ff, dropout):
        super(CoucheDecodeur, self).__init__()
        # Auto-attention pour les tokens de la cible (d√©j√† g√©n√©r√©s)
        self.auto_attn = AttentionMultiTetes(d_modele, nb_tetes)
        # Attention crois√©e pour regarder la sortie de l'encodeur
        self.attn_croisee = AttentionMultiTetes(d_modele, nb_tetes)
        # R√©seau de neurones positionnel (Feed-Forward)
        self.reseau_positionnel = ReseauNeuronesPositionnel(d_modele, d_ff)
        
        # Couches de normalisation
        self.norm1 = nn.LayerNorm(d_modele)
        self.norm2 = nn.LayerNorm(d_modele)
        self.norm3 = nn.LayerNorm(d_modele)
        # Couche de dropout pour la r√©gularisation
        self.dropout = nn.Dropout(dropout)
    
    def forward(self, x, sortie_encodeur, masque_src, masque_tgt):
        # √âtape 1 : Auto-attention sur la cible avec masque (pour ne pas voir le futur)
        sortie_auto_attn = self.auto_attn(x, x, x, masque_tgt)
        x = self.norm1(x + self.dropout(sortie_auto_attn))
        
        # √âtape 2 : Attention crois√©e (Requ√™te vient du d√©codeur, Cl√©/Valeur de l'encodeur)
        sortie_attn_croisee = self.attn_croisee(x, sortie_encodeur, sortie_encodeur, masque_src)
        x = self.norm2(x + self.dropout(sortie_attn_croisee))
        
        # √âtape 3 : R√©seau Feed-Forward
        sortie_ff = self.reseau_positionnel(x)
        x = self.norm3(x + self.dropout(sortie_ff))
        return x

In [11]:
# ============================================
# CELLULE 9: Classe Transformer
# ============================================
class Transformer(nn.Module):
    def __init__(self, taille_vocab_src, taille_vocab_tgt, d_modele, nb_tetes, nb_couches, d_ff, long_max_seq, dropout):
        super(Transformer, self).__init__()
        # Couches de plongement (embeddings) pour la source et la cible
        self.plongement_encodeur = nn.Embedding(taille_vocab_src, d_modele)
        self.plongement_decodeur = nn.Embedding(taille_vocab_tgt, d_modele)
        # Module d'encodage positionnel
        self.encodage_positionnel = EncodagePositionnel(d_modele, long_max_seq)
        
        # Listes de couches pour l'encodeur et le d√©codeur
        self.couches_encodeur = nn.ModuleList([CoucheEncodeur(d_modele, nb_tetes, d_ff, dropout) for _ in range(nb_couches)])
        self.couches_decodeur = nn.ModuleList([CoucheDecodeur(d_modele, nb_tetes, d_ff, dropout) for _ in range(nb_couches)])
        
        # Couche lin√©aire finale pour la pr√©diction des mots
        self.fc = nn.Linear(d_modele, taille_vocab_tgt)
        self.dropout = nn.Dropout(dropout)
    
    def generer_masque(self, src, tgt):
        # Masque pour ignorer les jetons de rembourrage (padding) dans la source
        masque_src = (src != 0).unsqueeze(1).unsqueeze(2)
        # Masque pour ignorer le rembourrage dans la cible
        masque_tgt = (tgt != 0).unsqueeze(1).unsqueeze(3)
        
        # Masque triangulaire pour emp√™cher le d√©codeur de regarder les mots futurs
        long_seq = tgt.size(1)
        masque_causal = (1 - torch.triu(torch.ones(1, long_seq, long_seq, device=tgt.device), diagonal=1)).bool()
        masque_tgt = masque_tgt & masque_causal
        
        return masque_src, masque_tgt
    
    def forward(self, src, tgt):
        # 1. G√©n√©ration des masques
        masque_src, masque_tgt = self.generer_masque(src, tgt)
        
        # 2. Pr√©paration des entr√©es (Embedding + Encodage Positionnel)
        src_embedded = self.dropout(self.encodage_positionnel(self.plongement_encodeur(src)))
        tgt_embedded = self.dropout(self.encodage_positionnel(self.plongement_decodeur(tgt)))
        
        # 3. Passage √† travers les couches de l'encodeur
        sortie_encodeur = src_embedded
        for couche_enc in self.couches_encodeur:
            sortie_encodeur = couche_enc(sortie_encodeur, masque_src)
        
        # 4. Passage √† travers les couches du d√©codeur
        sortie_decodeur = tgt_embedded
        for couche_dec in self.couches_decodeur:
            sortie_decodeur = couche_dec(sortie_decodeur, sortie_encodeur, masque_src, masque_tgt)
        
        # 5. Projection finale vers le vocabulaire de sortie
        output = self.fc(sortie_decodeur)
        return output

In [12]:
# ============================================
# CELLULE 10: Configuration des hyperparam√®tres
# ============================================
print("\n" + "="*60)
print("‚öôÔ∏è  CONFIGURATION DES HYPERPARAM√àTRES")
print("="*60)

# Configuration des hyperparam√®tres du mod√®le
taille_vocab_src = 5000
taille_vocab_tgt = 5000
d_modele = 256
nb_tetes = 4
nb_couches = 3
d_ff = 1024
long_max_seq = 5000  # Longueur maximale support√©e
dropout = 0.1

# ‚öôÔ∏è PARAM√àTRES D'ENTRA√éNEMENT OPTIMIS√âS POUR GPU
if device.type == "cuda":
    taille_batch = 32  # Batch optimis√© pour GPU
    longueur_seq = 512  # S√©quence plus longue pour GPU
    print("‚úì Configuration GPU optimis√©e")
else:
    taille_batch = 4
    longueur_seq = 128
    print("Configuration CPU (r√©duite)")

print(f"\nParam√®tres du mod√®le:")
print(f"  - Vocabulaire source: {taille_vocab_src}")
print(f"  - Vocabulaire cible: {taille_vocab_tgt}")
print(f"  - Dimension mod√®le: {d_modele}")
print(f"  - Nombre de t√™tes: {nb_tetes}")
print(f"  - Nombre de couches: {nb_couches}")
print(f"  - Dimension FF: {d_ff}")
print(f"  - Longueur max s√©quence: {long_max_seq}")
print(f"  - Dropout: {dropout}")

print(f"\nParam√®tres d'entra√Ænement:")
print(f"  - Taille batch: {taille_batch}")
print(f"  - Longueur s√©quence: {longueur_seq}")

# Calcul de la m√©moire estim√©e
memoire_estimee_mb = (taille_batch * longueur_seq * longueur_seq * 4) / (1024**2)
print(f"  - M√©moire estim√©e pour l'attention: ~{memoire_estimee_mb:.2f} MB")
print("="*60)



‚öôÔ∏è  CONFIGURATION DES HYPERPARAM√àTRES
Configuration CPU (r√©duite)

Param√®tres du mod√®le:
  - Vocabulaire source: 5000
  - Vocabulaire cible: 5000
  - Dimension mod√®le: 256
  - Nombre de t√™tes: 4
  - Nombre de couches: 3
  - Dimension FF: 1024
  - Longueur max s√©quence: 5000
  - Dropout: 0.1

Param√®tres d'entra√Ænement:
  - Taille batch: 4
  - Longueur s√©quence: 128
  - M√©moire estim√©e pour l'attention: ~0.25 MB


In [15]:
# ============================================
# CELLULE 11: Initialisation du mod√®le
# ============================================
print("\nüî® Initialisation du Transformer...")
debut_init = time.time()

transformer = Transformer(
    taille_vocab_src,
    taille_vocab_tgt,
    d_modele,
    nb_tetes,
    nb_couches,
    d_ff,
    long_max_seq,
    dropout
).to(device)

fin_init = time.time()
nb_parametres = sum(p.numel() for p in transformer.parameters())

print(f"‚úì Mod√®le initialis√© en {fin_init - debut_init:.2f}s")
print(f"‚úì Nombre de param√®tres: {nb_parametres:,}")
print(f"‚úì Taille du mod√®le: ~{nb_parametres * 4 / (1024**2):.2f} MB")

# G√©n√©ration de donn√©es d'exemple al√©atoires
print("\nüìä G√©n√©ration des donn√©es d'entra√Ænement...")
src_donnees = torch.randint(1, taille_vocab_src, (taille_batch, longueur_seq)).to(device)
tgt_donnees = torch.randint(1, taille_vocab_tgt, (taille_batch, longueur_seq)).to(device)
print("‚úì Donn√©es g√©n√©r√©es avec succ√®s!")

if device.type == "cuda":
    memoire_modele = torch.cuda.memory_allocated(device) / (1024**2)
    print(f"‚úì M√©moire GPU utilis√©e: {memoire_modele:.2f} MB")


üî® Initialisation du Transformer...
‚úì Mod√®le initialis√© en 0.10s
‚úì Nombre de param√®tres: 9,374,600
‚úì Taille du mod√®le: ~35.76 MB

üìä G√©n√©ration des donn√©es d'entra√Ænement...
‚úì Donn√©es g√©n√©r√©es avec succ√®s!


In [16]:
# ============================================
# CELLULE 12: Configuration de l'optimiseur (CHOIX MULTIPLE)
# ============================================
print("\n" + "="*60)
print("CONFIGURATION DE L'OPTIMISEUR")
print("="*60)

# CHOISISSEZ VOTRE OPTIMISEUR ICI
OPTIMISEUR_CHOISI = "Adam"  # Options: "Adam", "SGD", "AdamW", "RMSprop", "Adagrad"

# Configuration des hyperparam√®tres d'optimisation
learning_rate = 0.001

# Dictionnaire des optimiseurs disponibles
optimiseurs_disponibles = {
    "Adam": lambda: optim.Adam(
        transformer.parameters(), 
        lr=learning_rate, 
        betas=(0.9, 0.98), 
        eps=1e-9
    ),
    "AdamW": lambda: optim.AdamW(
        transformer.parameters(), 
        lr=learning_rate, 
        betas=(0.9, 0.98), 
        eps=1e-9,
        weight_decay=0.01
    ),
    "SGD": lambda: optim.SGD(
        transformer.parameters(), 
        lr=learning_rate, 
        momentum=0.9
    ),
    "RMSprop": lambda: optim.RMSprop(
        transformer.parameters(), 
        lr=learning_rate, 
        alpha=0.99, 
        eps=1e-8
    ),
    "Adagrad": lambda: optim.Adagrad(
        transformer.parameters(), 
        lr=learning_rate, 
        lr_decay=0
    )
}

# Cr√©ation de l'optimiseur
if OPTIMISEUR_CHOISI in optimiseurs_disponibles:
    optimiser = optimiseurs_disponibles[OPTIMISEUR_CHOISI]()
    print(f"‚úì Optimiseur s√©lectionn√©: {OPTIMISEUR_CHOISI}")
    print(f"‚úì Learning rate: {learning_rate}")
else:
    print(f"‚ùå Optimiseur '{OPTIMISEUR_CHOISI}' non reconnu!")
    print(f"Options disponibles: {', '.join(optimiseurs_disponibles.keys())}")
    raise ValueError(f"Optimiseur invalide: {OPTIMISEUR_CHOISI}")

print("="*60)


CONFIGURATION DE L'OPTIMISEUR
‚úì Optimiseur s√©lectionn√©: Adam
‚úì Learning rate: 0.001


In [17]:
# ============================================
# CELLULE 13: Fonction de chronom√©trage
# ============================================
def formater_temps(secondes):
    """Formate les secondes en format lisible"""
    return str(timedelta(seconds=int(secondes)))

def afficher_progression(epoch, nb_epochs, temps_ecoule, perte):
    """Affiche la progression avec temps √©coul√© et estim√©"""
    temps_par_epoch = temps_ecoule / (epoch + 1)
    temps_restant = temps_par_epoch * (nb_epochs - epoch - 1)
    
    barre_progression = "‚ñà" * int(30 * (epoch + 1) / nb_epochs)
    barre_vide = "‚ñë" * (30 - int(30 * (epoch + 1) / nb_epochs))
    pourcentage = 100 * (epoch + 1) / nb_epochs
    
    print(f"[{barre_progression}{barre_vide}] {pourcentage:.1f}% | "
          f"√âpoque: {epoch+1}/{nb_epochs} | "
          f"Perte: {perte:.4f} | "
          f" {formater_temps(temps_ecoule)} / ~{formater_temps(temps_ecoule + temps_restant)}")

In [22]:
# ============================================
# CELLULE 14: Entra√Ænement
# ============================================
# D√©finition de la fonction de perte
criterion = nn.CrossEntropyLoss(ignore_index=0)

# Passage du mod√®le en mode entra√Ænement
transformer.train()

print("\n" + "="*60)
print("üöÄ D√âBUT DE L'ENTRA√éNEMENT")
print("="*60)

# Nombre d'√©poques (plus √©lev√© pour GPU)
nb_epochs = 100 if device.type == "cuda" else 150
print(f"Nombre d'√©poques: {nb_epochs}")
print(f"Optimiseur: {OPTIMISEUR_CHOISI}")
print("="*60 + "\n")

temps_debut_entrainement = time.time()

try:
    for epoch in range(nb_epochs):
        debut_epoch = time.time()
        
        # R√©initialisation des gradients
        optimiser.zero_grad()
        
        # Passage en avant
        sortie = transformer(src_donnees, tgt_donnees[:, :-1])
        
        # Calcul de la perte
        perte = criterion(sortie.contiguous().view(-1, taille_vocab_tgt),
                       tgt_donnees[:, 1:].contiguous().view(-1))
        
        # R√©tropropagation
        perte.backward()
        
        # Mise √† jour des poids
        optimiser.step()
        
        # Affichage de la progression
        temps_ecoule = time.time() - temps_debut_entrainement
        afficher_progression(epoch, nb_epochs, temps_ecoule, perte.item())
        
        # Lib√©ration de la m√©moire GPU si n√©cessaire
        if device.type == "cuda" and epoch % 150 == 0:
            torch.cuda.empty_cache()

except RuntimeError as e:
    if "out of memory" in str(e) or "not enough memory" in str(e):
        print("\n‚ùå ERREUR: M√©moire insuffisante!")
        print("üí° Solutions:")
        print(f"   - R√©duisez 'taille_batch' (actuellement: {taille_batch})")
        print(f"   - R√©duisez 'longueur_seq' (actuellement: {longueur_seq})")
        print("   - R√©duisez 'nb_couches' ou 'd_modele'")
        if device.type == "cuda":
            print("   - Lib√©rez la m√©moire GPU: torch.cuda.empty_cache()")
    raise e

temps_fin_entrainement = time.time()
temps_total_entrainement = temps_fin_entrainement - temps_debut_entrainement

print("\n" + "="*60)
print(f"‚úÖ ENTRA√éNEMENT TERMIN√â en {formater_temps(temps_total_entrainement)}")
print("="*60)


üöÄ D√âBUT DE L'ENTRA√éNEMENT
Nombre d'√©poques: 150
Optimiseur: Adam

[‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë] 0.7% | √âpoque: 1/150 | Perte: 0.0082 |  0:00:00 / ~0:00:33
[‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë] 1.3% | √âpoque: 2/150 | Perte: 0.0080 |  0:00:00 / ~0:00:31
[‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë] 2.0% | √âpoque: 3/150 | Perte: 0.0080 |  0:00:00 / ~0:00:30
[‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë] 2.7% | √âpoque: 4/150 | Perte: 0.0077 |  0:00:00 / ~0:00:30
[‚ñà‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë] 3.3% | √âpoque: 5/150 | Perte: 0.0079 |  0:00:01 / ~0:00:30
[‚ñà‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë‚ñë] 4.0% | √âpoque: 6/150 | Perte: 0.0077 |  0:00:01 / ~0:00:30
[‚ñà‚ñë‚ñ

In [20]:
# ============================================
# CELLULE 15: Validation
# ============================================
print("\nüîç D√âBUT DE LA VALIDATION...")
debut_validation = time.time()

transformer.eval()

# G√©n√©ration de donn√©es de validation
print(f"G√©n√©ration des donn√©es de validation (batch={taille_batch}, seq={longueur_seq})...")
val_src_donnees = torch.randint(1, taille_vocab_src, (taille_batch, longueur_seq)).to(device)
val_tgt_donnees = torch.randint(1, taille_vocab_tgt, (taille_batch, longueur_seq)).to(device)

with torch.no_grad():
    val_sortie = transformer(val_src_donnees, val_tgt_donnees[:, :-1])
    perte_val = criterion(val_sortie.contiguous().view(-1, taille_vocab_tgt),
                        val_tgt_donnees[:, 1:].contiguous().view(-1))

fin_validation = time.time()
temps_validation = fin_validation - debut_validation

print(f"‚úì Perte de Validation: {perte_val.item():.4f}")
print(f"‚úì Temps de validation: {temps_validation:.2f}s")


üîç D√âBUT DE LA VALIDATION...
G√©n√©ration des donn√©es de validation (batch=4, seq=128)...
‚úì Perte de Validation: 10.1278
‚úì Temps de validation: 0.06s


In [21]:
# ============================================
# CELLULE 16: R√©sum√© final
# ============================================
print("\n" + "="*60)
print("üìä R√âSUM√â DE L'EX√âCUTION")
print("="*60)
print(f"üñ•Ô∏è  Device utilis√©: {device}")
if device.type == "cuda":
    print(f"üíæ M√©moire GPU finale: {torch.cuda.memory_allocated(device) / (1024**2):.2f} MB")
    print(f"üíæ M√©moire GPU max: {torch.cuda.max_memory_allocated(device) / (1024**2):.2f} MB")
print(f"üéØ Optimiseur: {OPTIMISEUR_CHOISI}")
print(f"üì¶ Taille batch: {taille_batch}")
print(f"üìè Longueur s√©quence: {longueur_seq}")
print(f"üî¢ Nombre de param√®tres: {nb_parametres:,}")
print(f"\n‚è±Ô∏è  Temps d'initialisation: {fin_init - debut_init:.2f}s")
print(f"‚è±Ô∏è  Temps d'entra√Ænement: {formater_temps(temps_total_entrainement)}")
print(f"‚è±Ô∏è  Temps de validation: {temps_validation:.2f}s")
print(f"‚è±Ô∏è  Temps total: {formater_temps(time.time() - debut_init + (fin_init - debut_init))}")
print("="*60)


üìä R√âSUM√â DE L'EX√âCUTION
üñ•Ô∏è  Device utilis√©: cpu
üéØ Optimiseur: Adam
üì¶ Taille batch: 4
üìè Longueur s√©quence: 128
üî¢ Nombre de param√®tres: 9,374,600

‚è±Ô∏è  Temps d'initialisation: 0.10s
‚è±Ô∏è  Temps d'entra√Ænement: 0:00:19
‚è±Ô∏è  Temps de validation: 0.06s
‚è±Ô∏è  Temps total: 0:01:50
