# Entra√Æner un mod√®le Transformer pour la traduction

**Objectif p√©dagogique :** Apprendre √† construire et entra√Æner un mod√®le de traduction automatique Anglais ‚Üí Fran√ßais

## Installation et imports

**Objectif :** Installer les biblioth√®ques modernes pour le deep learning et le NLP

In [None]:
# Installation des packages modernes (ex√©cuter une seule fois)
# !pip install transformers datasets torch torchvision torchaudio
# !pip install pandas matplotlib tqdm scikit-learn

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import DataLoader, Dataset
from torch.nn.utils.rnn import pad_sequence

# Biblioth√®ques pour NLP moderne
from transformers import AutoTokenizer
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from tqdm.auto import tqdm
import math
import os
from typing import List
from timeit import default_timer as timer

## Configuration et d√©tection mat√©riel

**Concept important :** Il est crucial de d√©tecter si un GPU est disponible pour acc√©l√©rer l'entra√Ænement !

In [None]:
DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"üñ•Ô∏è  Device utilis√©: {DEVICE}")

# Configuration de la reproductibilit√©
SEED = 42
torch.manual_seed(SEED)
np.random.seed(SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed(SEED)
    # Configuration pour performances reproductibles sur GPU
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

## Hyperparam√®tres

In [None]:
EMB_SIZE = 256  # Dimension des embeddings (doit √™tre divisible par NHEAD)
NHEAD = 8       # Nombre de t√™tes d'attention (8 divise 256)
FFN_HID_DIM = 512  # Dimension de la couche feed-forward

# Adaptation de la batch size selon les capacit√©s du device
BATCH_SIZE = 64 if DEVICE.type == 'cuda' else 32  # GPU peut traiter plus de donn√©es

NUM_ENCODER_LAYERS = 3
NUM_DECODER_LAYERS = 3
NUM_EPOCHS = 15  # Nombre d'√©poques d'entra√Ænement
LEARNING_RATE = 0.0001  # Taux d'apprentissage conservateur

print(f"üìä Batch size: {BATCH_SIZE}")
print(f"üß† Embedding size: {EMB_SIZE}")
print(f"üëÅÔ∏è  Attention heads: {NHEAD}")
print(f"üî• Epochs: {NUM_EPOCHS}")

## Chargement des donn√©es

**Dataset :** Nous utilisons un dataset de phrases parall√®les Anglais-Fran√ßais

In [None]:
# Chargement du dataset (fourni)
try:
    import kagglehub
    path = kagglehub.dataset_download("devicharith/language-translation-englishfrench")
    csv_path = os.path.join(path, 'eng_-french.csv')
except:
    # Alternative: mettre votre chemin local
    csv_path = 'eng_-french.csv'

# Chargement avec pandas et s√©lection des colonnes n√©cessaires
df = pd.read_csv(
    csv_path,
    usecols=['English words/sentences', 'French words/sentences']
)
df = df.dropna()  # Supprimer les valeurs manquantes

print(f"üìä Dataset size: {len(df)} exemples")
# Affichage des premi√®res lignes pour v√©rification
print(df.head())

## Tokenisation moderne

**Concept :** Les tokenizers pr√©-entra√Æn√©s sont plus efficaces que construire le sien from scratch

Les tokenizers pr√©-entra√Æn√©s sont construits √† partir de corpus massifs et vari√©s, ce qui leur permet de produire une segmentation plus coh√©rente et plus compacte que celle obtenue √† partir de donn√©es limit√©es.
Cette segmentation r√©duit le nombre de tokens par texte, ce qui diminue le co√ªt de calcul et am√©liore l‚Äôutilisation du contexte par le mod√®le.
Ils sont aussi parfaitement align√©s avec les embeddings et les architectures existantes, garantissant une compatibilit√© et des performances optimales.
Construire son tokenizer from scratch introduit donc souvent une segmentation sous-optimale, de la dette technique et une perte de performance globale.

In [None]:
# TODO: Initialisez les tokenizers pour anglais et fran√ßais
# Aide: utilisez AutoTokenizer.from_pretrained() avec "bert-base-uncased" pour EN et "camembert-base" pour FR

from transformers import AutoTokenizer

tokenizer_en = # TODO: Tokenizer anglais
tokenizer_fr = # TODO: Tokenizer fran√ßais

# Test des tokenizers
test_en = "Hello I love machine learning"
test_fr = "Bonjour j'adore l'apprentissage automatique"

print(f"üî§ Tokenization EN: {tokenizer_en.tokenize(test_en)}")
print(f"üî§ Tokenization FR: {tokenizer_fr.tokenize(test_fr)}")

print("‚úÖ Tokenizers initialis√©s !")

## Construction du vocabulaire

In [None]:
# Tokens sp√©ciaux (fourni)
PAD_IDX = 0  # Padding
BOS_IDX = 1  # Beginning of Sentence
EOS_IDX = 2  # End of Sentence
UNK_IDX = 3  # Unknown word

def build_vocab(sentences, tokenizer, max_vocab=10000):
    """Construction du vocabulaire √† partir des phrases"""
    word_count = {}

    # TODO: Parcourez toutes les phrases et comptez les mots
    for sentence in sentences:
        tokens = tokenizer.tokenize(str(sentence))
        for token in tokens:
            # TODO: Incr√©mentez le compteur pour ce token en utilisant word_count.get()
            word_count[token] = # TODO: Compl√©tez

    # TODO: Triez les mots par fr√©quence (du plus fr√©quent au moins fr√©quent)
    # Utilisez la fonction sorted() avec une key appropri√©e
    sorted_words = # TODO: utilisez sorted() avec une key appropri√©e

    # Cr√©ation du vocabulaire avec tokens sp√©ciaux
    vocab = {"<pad>": PAD_IDX, "<bos>": BOS_IDX, "<eos>": EOS_IDX, "<unk>": UNK_IDX}

    # TODO: Ajoutez les mots les plus fr√©quents au vocabulaire
    for word, _ in sorted_words[:max_vocab-4]:  # -4 pour les tokens sp√©ciaux
        vocab[word] = # TODO: Compl√©tez avec la taille actuelle du vocabulaire

    return vocab

# Construction des vocabulaires
vocab_en = build_vocab(df['English words/sentences'], tokenizer_en)
vocab_fr = build_vocab(df['French words/sentences'], tokenizer_fr)

print(f"üìñ Vocabulaire EN: {len(vocab_en)} mots")
print(f"üìñ Vocabulaire FR: {len(vocab_fr)} mots")

## Dataset personnalis√©

**Architecture :** PyTorch utilise des classes Dataset pour organiser les donn√©es

In [None]:
def text_to_indices(text, tokenizer, vocab, max_len=50):
    """Convertit un texte en indices avec BOS et EOS"""
    tokens = tokenizer.tokenize(str(text))[:max_len-2]  # Place pour BOS/EOS

    # TODO: Convertissez les tokens en indices
    # Aide: utilisez vocab.get(token, UNK_IDX) pour g√©rer les mots inconnus
    indices = [BOS_IDX] +  [TODO: liste en compr√©hension] + [EOS_IDX]

    return torch.tensor(indices, dtype=torch.long)

class TranslationDataset(Dataset):
    def __init__(self, df):
        self.df = df.reset_index(drop=True)

    def __len__(self):
        # TODO: Retournez la taille du dataset
        return # TODO

    def __getitem__(self, idx):
        # TODO: R√©cup√©rez les textes anglais et fran√ßais √† partir de self.df
        en_text = # TODO
        fr_text = # TODO

        # TODO: Convertissez en indices en utilisant text_to_indices
        en_indices = # TODO
        fr_indices = # TODO

        return en_indices, fr_indices

print("‚úÖ Classes Dataset d√©finies !")

## DataLoaders

**Concept :** Le padding permet de traiter des phrases de longueurs diff√©rentes dans le m√™me batch

In [None]:
def collate_batch(batch):
    """Fonction pour cr√©er des batchs avec padding"""
    src_batch, tgt_batch = zip(*batch)

    # TODO: Utilisez pad_sequence pour padding des s√©quences
    # Aide: padding_value=PAD_IDX, batch_first=True
    src_batch = # TODO
    tgt_batch = # TODO

    return src_batch, tgt_batch

# TODO: Divisez les donn√©es en train/test
# Aide: utilisez train_test_split avec test_size=0.1
train_df, test_df = # TODO

# TODO: Cr√©ez les datasets avec TranslationDataset
train_dataset = # TODO
test_dataset = # TODO

# TODO: Cr√©ez les DataLoaders
# Aide: batch_size=BATCH_SIZE, shuffle=True pour train, collate_fn=collate_batch
train_loader = DataLoader(# TODO)
test_loader = DataLoader(# TODO)

print(f"üîÑ Training batches: {len(train_loader)}")
print(f"üîÑ Test batches: {len(test_loader)}")

## Architecture du mod√®le Transformer

**Architecture :** Le Transformer utilise l'attention pour "encoder" les relations entre mots

In [None]:
class PositionalEncoding(nn.Module):
    """Encodage positionnel pour que le mod√®le comprenne l'ordre des mots"""
    def __init__(self, d_model, dropout=0.1, max_len=5000):
        super().__init__()
        self.dropout = nn.Dropout(p=dropout)

        # TODO: Cr√©ez le tensor d'encodage positionnel
        # uniquement des z√©ros au d√©but
        pe = # TODO
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)

        # Formule math√©matique pour l'encodage positionnel
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term) # Positions paires: sin
        pe[:, 1::2] = torch.cos(position * div_term) # Positions impaires: cos
        pe = pe.unsqueeze(0)

        self.register_buffer('pe', pe)

    def forward(self, x):
        # TODO: Ajoutez l'encodage positionnel aux embeddings
        # Attention: prendre seulement la longueur n√©cessaire
        x = x + # TODO
        return self.dropout(x)

print("‚úÖ PositionalEncoding d√©fini !")

In [None]:
class TransformerTranslator(nn.Module):
    """Mod√®le Transformer complet pour la traduction"""
    def __init__(self, src_vocab_size, tgt_vocab_size, d_model=512, nhead=8,
                 num_encoder_layers=6, num_decoder_layers=6, dim_feedforward=2048, dropout=0.1):
        super().__init__()

        self.d_model = d_model

        # TODO: Cr√©ez les couches d'embedding pour source et target
        # Aide: nn.Embedding(vocab_size, d_model)
        self.src_embedding = # TODO
        self.tgt_embedding = # TODO

        # TODO: Ajoutez l'encodage positionnel avec PostionalEncoding
        self.pos_encoding = # TODO

        # TODO: Cr√©ez le Transformer
        # Aide: nn.Transformer avec tous les param√®tres, batch_first=True
        self.transformer = # TODO

        # TODO: Couche de sortie pour pr√©dire les mots
        # Aide: nn.Linear(d_model, tgt_vocab_size)
        self.output_projection = # TODO

        # Initialisation des poids (bonne pratique)
        self.init_weights()

    def init_weights(self):
        """Initialisation Xavier/Glorot pour meilleure convergence
        PyTorch utilise par d√©faut : Normal(0, 1) pour les embeddings
        PyTorch utilise : Uniform(-1/sqrt(in_features), 1/sqrt(in_features)) pour les Linear
        Les embeddings avec Normal(0,1) peuvent √™tre trop grands Uniform(-0.1, 0.1) plus stable pour l'attention"""
        initrange = 0.1
        self.src_embedding.weight.data.uniform_(-initrange, initrange)
        self.tgt_embedding.weight.data.uniform_(-initrange, initrange)
        self.output_projection.bias.data.zero_()
        self.output_projection.weight.data.uniform_(-initrange, initrange)

    def forward(self, src, tgt, src_mask=None, tgt_mask=None,
                src_key_padding_mask=None, tgt_key_padding_mask=None):

        # TODO: Appliquez les embeddings avec scaling et encodage positionnel
        # Aide: embedding * sqrt(d_model), puis pos_encoding
        src_emb = # TODO
        tgt_emb = # TODO

        # TODO: Passez dans le Transformer
        output = # TODO

        # TODO: Retournez la projection finale
        return # TODO

print("‚úÖ Mod√®le Transformer d√©fini !")

## Cr√©ation des masques

**Concept crucial :** Les masques emp√™chent le mod√®le de "tricher" en regardant les mots futurs

In [None]:
def create_masks(src, tgt):
    """Cr√©e les masques n√©cessaires pour l'attention"""
    src_seq_len = src.shape[1]
    tgt_seq_len = tgt.shape[1]

    # Emp√™che le d√©codeur de voir les mots futurs
    tgt_mask = torch.triu(
        torch.ones(tgt_seq_len, tgt_seq_len, device=src.device) * float('-inf'),
        diagonal=1
    ).bool()

    # TODO: Cr√©ez les masques de padding
    # Aide: (src == PAD_IDX) pour identifier les tokens de padding
    src_padding_mask = # TODO
    tgt_padding_mask = # TODO

    return None, tgt_mask, src_padding_mask, tgt_padding_mask

print("‚úÖ Fonction de masques d√©finie !")

## Initialisation du mod√®le

In [None]:
# TODO: Initialisez le mod√®le avec vos hyperparam√®tres
model = # TODO
# N'oubliez pas de mettre sur le bon device !

# TODO: Comptez les param√®tres
total_params = sum(# TODO: utilisez p.numel() pour compter tous les param√®tres)
trainable_params = sum(# TODO: pareil mais avec if p.requires_grad)

print(f"üßÆ Param√®tres totaux: {total_params:,}")
print(f"üßÆ Param√®tres entra√Ænables: {trainable_params:,}")

# Estimation m√©moire approximative
memory_mb = (total_params * 4) / (1024**2)  # 4 bytes par param√®tre float32
print(f"üíæ M√©moire approximative: {memory_mb:.1f} MB")

## Configuration de l'entra√Ænement

**Optimisation :** Le gradient clipping √©vite les explosions de gradient

In [None]:
# TODO: D√©finissez la fonction de co√ªt
# Aide: nn.CrossEntropyLoss avec ignore_index=PAD_IDX
criterion = # TODO

# TODO: D√©finissez l'optimiseur
# Aide: torch.optim.AdamW avec lr=LEARNING_RATE betas=(0.9, 0.98), eps=1e-9 et weight_decay=0.01
optimizer = # TODO

# TODO: Ajoutez un scheduler
# Aide: torch.optim.lr_scheduler.StepLR avec step_size=5 et gamma=0.7
scheduler = # TODO

print("‚úÖ Optimiseurs configur√©s !")

## Fonctions d'entra√Ænement

In [None]:
def train_epoch(model, train_loader, criterion, optimizer, device):
    """Entra√Æne le mod√®le pour une √©poque"""
    # TODO: Mettez le mod√®le en mode entra√Ænement avec la m√©thode .train()
    model.# TODO

    total_loss = 0
    num_batches = len(train_loader)

    for src, tgt in tqdm(train_loader, desc="Training"):
        # TODO: D√©placez les donn√©es sur le bon device avec .to(device)
        src, tgt = # TODO

        # TODO: Pr√©parez les donn√©es (input = tout sauf dernier, output = tout sauf premier)
        tgt_input = # TODO
        tgt_output = # TODO

        # TODO: Cr√©ez les masques avec create_masks
        src_mask, tgt_mask, src_padding_mask, tgt_padding_mask = # TODO

        # TODO: Forward pass
        logits = model(# TODO: tous les arguments n√©cessaires)

        # TODO: Calculez la loss
        loss = criterion(# TODO: reshape appropri√© pour logits et tgt_output)

        # TODO: Backward pass avec gradient clipping
        # Reset gradients avec zero_grad()
        optimizer.#TODO
        # Calcul gradients avec .backward()
        loss.#TODO
        # Gradient clipping
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
        optimizer.step()

        total_loss += loss.item()

    return total_loss / num_batches

print("‚úÖ Fonction train_epoch d√©finie !")

In [None]:
def evaluate(model, test_loader, criterion, device):
    """√âvalue le mod√®le sur les donn√©es de test"""
    # TODO: Mettez le mod√®le en mode √©valuation
    model.# TODO

    total_loss = 0
    num_batches = len(test_loader)

    # TODO: Utilisez torch.no_grad() dans le with pour √©conomiser la m√©moire
    with # TODO:
        for src, tgt in tqdm(test_loader, desc="Evaluating"):

            src, tgt = src.to(device), tgt.to(device)

            tgt_input = tgt[:, :-1]
            tgt_output = tgt[:, 1:]

            src_mask, tgt_mask, src_padding_mask, tgt_padding_mask = create_masks(src, tgt_input)

            logits = model(src, tgt_input, src_mask, tgt_mask, src_padding_mask, tgt_padding_mask)
            loss = criterion(logits.reshape(-1, logits.shape[-1]), tgt_output.reshape(-1))

            total_loss += loss.item()

    return total_loss / num_batches

print("‚úÖ Fonction evaluate d√©finie !")

## Boucle d'entra√Ænement principale

In [None]:
# Listes pour stocker l'historique
train_losses = []
val_losses = []
best_val_loss = float('inf')

print("üöÄ D√©but de l'entra√Ænement !")
print("=" * 60)

for epoch in range(NUM_EPOCHS):
    start_time = timer()

    # TODO: Entra√Ænement
    train_loss = train_epoch(# TODO: arguments)

    # TODO: Validation
    val_loss = evaluate(# TODO: arguments)

    scheduler.step()

    end_time = timer()

    # Sauvegarde de l'historique
    train_losses.append(train_loss)
    val_losses.append(val_loss)

    # Affichage des r√©sultats
    print(f"Epoch {epoch+1}/{NUM_EPOCHS}:")
    print(f"  üìä Train Loss: {train_loss:.4f}")
    print(f"  üìä Val Loss: {val_loss:.4f}")
    print(f"  ‚è±Ô∏è  Time: {end_time - start_time:.2f}s")
    print(f"  üéöÔ∏è  LR: {scheduler.get_last_lr()[0]:.6f}")

    if val_loss < best_val_loss:
        best_val_loss = val_loss
        torch.save({
            'epoch': epoch,
            'model_state_dict': model.state_dict(),
            'optimizer_state_dict': optimizer.state_dict(),
            'val_loss': val_loss,
            'vocab_en': vocab_en,
            'vocab_fr': vocab_fr
        }, 'best_model_students.pt')
        print(f"  üéØ Nouveau meilleur mod√®le sauvegard√©!")

    print("-" * 50)

print("‚úÖ Entra√Ænement termin√© !")

## Visualisation des r√©sultats

In [None]:

plt.figure(figsize=(12, 8))

# Subplot 1: Courbes de loss
plt.subplot(2, 2, 1)
plt.plot(range(1, len(train_losses) + 1), train_losses,
         label='Train Loss', color='blue', linewidth=2)
plt.plot(range(1, len(val_losses) + 1), val_losses,
         label='Validation Loss', color='red', linewidth=2)
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.title('√âvolution des losses pendant l\'entra√Ænement')
plt.legend()
plt.grid(True, alpha=0.3)

# Subplot 2: Diff√©rence train/val (d√©tection overfitting)
plt.subplot(2, 2, 2)
diff_losses = [t - v for t, v in zip(train_losses, val_losses)]
plt.plot(range(1, len(diff_losses) + 1), diff_losses,
         color='orange', linewidth=2)
plt.axhline(y=0, color='black', linestyle='--', alpha=0.5)
plt.xlabel('Epochs')
plt.ylabel('Train Loss - Val Loss')
plt.title('√âcart Train/Validation (Overfitting)')
plt.grid(True, alpha=0.3)

# Subplot 3: Learning rate √©volution
plt.subplot(2, 2, 3)
lrs = [LEARNING_RATE * (scheduler.gamma ** (i // scheduler.step_size))
       for i in range(len(train_losses))]
plt.plot(range(1, len(lrs) + 1), lrs, color='green', linewidth=2)
plt.xlabel('Epochs')
plt.ylabel('Learning Rate')
plt.title('√âvolution du Learning Rate')
plt.yscale('log')  # √âchelle logarithmique pour mieux voir
plt.grid(True, alpha=0.3)

# Subplot 4: Am√©lioration par √©poque
plt.subplot(2, 2, 4)
val_improvements = [0] + [val_losses[i-1] - val_losses[i]
                          for i in range(1, len(val_losses))]
colors = ['green' if x > 0 else 'red' for x in val_improvements]
plt.bar(range(1, len(val_improvements) + 1), val_improvements, color=colors, alpha=0.7)
plt.axhline(y=0, color='black', linestyle='-', alpha=0.5)
plt.xlabel('Epochs')
plt.ylabel('Am√©lioration Val Loss')
plt.title('Am√©lioration par √âpoque')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Sauvegarde du graphique
plt.savefig('training_analysis_correction.png', dpi=300, bbox_inches='tight')

# Analyse automatique des r√©sultats
print("üìà Analyse automatique des r√©sultats:")
print("=" * 50)
print(f"  üèÜ Meilleure val loss: {best_val_loss:.4f}")
print(f"  üìä Loss finale train: {train_losses[-1]:.4f}")
print(f"  üìä Loss finale val: {val_losses[-1]:.4f}")
print(f"  üìâ R√©duction train loss: {((train_losses[0] - train_losses[-1]) / train_losses[0] * 100):.1f}%")
print(f"  üìâ R√©duction val loss: {((val_losses[0] - val_losses[-1]) / val_losses[0] * 100):.1f}%")

# D√©tection automatique des probl√®mes
final_gap = train_losses[-1] - val_losses[-1]
if final_gap > 0.5:
    print(f"  ‚ö†Ô∏è  OVERFITTING d√©tect√© (√©cart: {final_gap:.3f})")
elif final_gap < -0.2:
    print(f"  ‚ö†Ô∏è  UNDERFITTING possible (√©cart: {final_gap:.3f})")
else:
    print(f"  ‚úÖ √âquilibre train/val correct (√©cart: {final_gap:.3f})")

# Convergence
if len(val_losses) > 5:
    recent_std = np.std(val_losses[-5:])
    if recent_std < 0.01:
        print(f"  ‚úÖ Convergence stable (std r√©cente: {recent_std:.4f})")
    else:
        print(f"  üìä Convergence en cours (std r√©cente: {recent_std:.4f})")

## Test du mod√®le

**Le moment de v√©rit√© :** Votre mod√®le sait-il traduire ?

In [None]:
checkpoint = torch.load('best_model_students_correction.pt', map_location=DEVICE)
model.load_state_dict(checkpoint['model_state_dict'])
print(f"‚úÖ Meilleur mod√®le charg√© (√©poque {checkpoint['epoch']}, val_loss: {checkpoint['val_loss']:.4f})")

# Vocabulaire invers√© pour la conversion
idx_to_word_fr = {idx: word for word, idx in vocab_fr.items()}

def translate_sentence(model, sentence, max_length=50, verbose=False):
    """Traduit une phrase anglaise en fran√ßais avec d√©codage greedy"""
    model.eval()

    with torch.no_grad():
        # Pr√©processing de la phrase source
        src_indices = text_to_indices(sentence, tokenizer_en, vocab_en)
        src = src_indices.unsqueeze(0).to(DEVICE)

        if verbose:
            print(f"Source tokens: {[vocab_en_inv.get(idx.item(), '<unk>') for idx in src_indices]}")

        # Initialisation avec BOS token
        tgt = torch.tensor([[BOS_IDX]], device=DEVICE)

        # G√©n√©ration auto-r√©gressive mot par mot
        for step in range(max_length):
            # Cr√©ation des masques pour l'√©tat actuel
            src_mask, tgt_mask, src_padding_mask, tgt_padding_mask = create_masks(src, tgt)

            # Pr√©diction du prochain token
            logits = model(
                src, tgt,
                src_mask, tgt_mask,
                src_padding_mask, tgt_padding_mask
            )

            # S√©lection du token le plus probable (greedy)
            next_token = logits[0, -1].argmax().unsqueeze(0).unsqueeze(0)

            if verbose:
                probs = F.softmax(logits[0, -1], dim=0)
                top_tokens = probs.topk(3)
                print(f"Step {step}: Top tokens: {[(idx_to_word_fr.get(idx.item(), '<unk>'), prob.item()) for idx, prob in zip(top_tokens.indices, top_tokens.values)]}")

            # Arr√™t si EOS g√©n√©r√©
            if next_token.item() == EOS_IDX:
                break

            # Ajout du nouveau token √† la s√©quence
            tgt = torch.cat([tgt, next_token], dim=1)

        # Conversion des indices vers les mots
        translation = []
        for idx in tgt[0][1:]:  # Ignorer BOS au d√©but
            word = idx_to_word_fr.get(idx.item(), '<unk>')
            if word in ['<eos>', '<pad>']:
                break
            translation.append(word)

        # Post-processing basique pour am√©liorer la lisibilit√©
        result = ' '.join(translation)
        # Corrections de ponctuation basiques
        result = result.replace(' ,', ',').replace(' .', '.').replace(' !', '!').replace(' ?', '?').replace('_', '')

        return result

print("‚úÖ Fonction de traduction d√©finie !")

# Vocabulaire invers√© pour debug
vocab_en_inv = {idx: word for word, idx in vocab_en.items()}

In [None]:
# Tests complets avec analyse de qualit√©

test_sentences = [
    "Hello, how are you?",
    "I love machine learning.",
    "The weather is beautiful today.",
    "Thank you very much.",
    "Good morning!",
    "What is your name?",
    "I am learning French.",
    "The book is on the table.",
    "Where are you going?",
    "This is a difficult problem."
]

# Traductions de r√©f√©rence pour comparaison
references = [
    "Bonjour, comment allez-vous ?",
    "J'adore l'apprentissage automatique.",
    "Le temps est beau aujourd'hui.",
    "Merci beaucoup.",
    "Bonjour !",
    "Comment vous appelez-vous ?",
    "J'apprends le fran√ßais.",
    "Le livre est sur la table.",
    "O√π allez-vous ?",
    "C'est un probl√®me difficile."
]

print("üéØ Test de traduction avec √©valuation:")
print("=" * 70)

total_score = 0
for i, sentence in enumerate(test_sentences):
    translation = translate_sentence(model, sentence)

    print(f"\nüìù Test {i+1}:")
    print(f"üá¨üáß EN: {sentence}")
    print(f"ü§ñ AI: {translation}")
    print(f"üìö REF: {references[i]}")

    # √âvaluation qualitative simple
    prediction_words = set(translation.lower().split())
    reference_words = set(references[i].lower().split())

    if prediction_words and reference_words:
        overlap = len(prediction_words & reference_words)
        union = len(prediction_words | reference_words)
        jaccard = overlap / union if union > 0 else 0
        total_score += jaccard

        if jaccard > 0.6:
            quality = "üü¢ Excellent"
        elif jaccard > 0.4:
            quality = "üü° Correct"
        elif jaccard > 0.2:
            quality = "üü† Partiel"
        else:
            quality = "üî¥ Faible"

        print(f"üìä Similarit√©: {jaccard:.2f} {quality}")

    print("-" * 40)

average_score = total_score / len(test_sentences)
print(f"\nüèÜ Score moyen: {average_score:.3f}")

if average_score > 0.5:
    print("üéâ Performance globale: BONNE !")
elif average_score > 0.3:
    print("üëç Performance globale: Correcte")
else:
    print("üìö Performance globale: √Ä am√©liorer")

In [None]:
# Test interactif

print("‚ú® Test interactif - Ajoutez vos propres phrases:")
print("=" * 50)

# Vos phrases personnalis√©es que vous pouvez modifier
custom_sentences = [
    "The cat is sleeping on the sofa.",
    "I want to travel to Paris.",
    "Can you help me please?",
    "The students are working hard.",
    "Technology is changing the world."
]

for i, sentence in enumerate(custom_sentences):
    print(f"\nüß™ Test personnalis√© {i+1}:")
    translation = translate_sentence(model, sentence)
    print(f"üá¨üáß EN: {sentence}")
    print(f"üá´üá∑ FR: {translation}")

    # Analyse d√©taill√©e pour 1 exemple
    if i == 0:
        print("\nüîç Analyse d√©taill√©e:")
        detailed_translation = translate_sentence(model, sentence, verbose=True)