In [4]:
# Cellule 1: Encoder avec Tête de Classification de Sentiment (basé sur TransformerEncoder, ajoute classification positive/négative)
# Utilise les classes définies précédemment. Test sur exemples anglais simulés avec labels de sentiment.

import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
import math

# (Toutes les classes précédentes : scaled_dot_product_attention, MultiHeadAttention, LayerNormalization, 
# PositionWiseFeedForward, PositionalEncoding, TokenEmbedding, TransformerEncoderBlock, TransformerEncoder
# sont assumées définies ici ou dans cellules précédentes. Copiez-les si nécessaire.)

# Ajout : Tête de classification sur sortie de l'Encoder
class SentimentClassifierHead(nn.Module):
    def __init__(self, d_model, num_classes=2):  # 2: positive/negative
        super().__init__()
        self.pool = nn.AdaptiveAvgPool1d(1)  # Moyenne sur séquence
        self.classifier = nn.Linear(d_model, num_classes)
    
    def forward(self, encoder_output):
        pooled = self.pool(encoder_output.transpose(1, 2)).squeeze(-1)  # [batch, d_model]
        logits = self.classifier(pooled)
        return logits

# Encoder étendu avec classification
class EncoderWithClassification(nn.Module):
    def __init__(self, vocab_size, d_model, num_heads, d_ff, num_layers, max_seq_len=1000, dropout=0.1):
        super().__init__()
        self.encoder = TransformerEncoder(vocab_size, d_model, num_heads, d_ff, num_layers, max_seq_len, dropout)
        self.sentiment_head = SentimentClassifierHead(d_model)
    
    def forward(self, x, mask=None):
        encoder_output, _ = self.encoder(x, mask)
        sentiment_logits = self.sentiment_head(encoder_output)
        return encoder_output, sentiment_logits

# Paramètres (vocab anglais simple pour test)
en_vocab_size = 100  # Petit vocab pour démo
d_model = 128
num_heads = 4
d_ff = 512
num_layers = 2

# Instanciation
encoder_clf = EncoderWithClassification(en_vocab_size, d_model, num_heads, d_ff, num_layers)

# Exemples simulés : Phrases anglaises tokenisées (aléatoires mais étiquetées)
# Ex: batch=2, seq=5 ; labels: 1=positive, 0=negative
en_sentences = torch.randint(1, en_vocab_size, (2, 5))  # Tokens anglais
sentiments = torch.tensor([1, 0])  # Positive, Negative

# Forward : Encoder output + classification
encoder_out, sent_logits = encoder_clf(en_sentences)

# Test classification (simulé, car non entraîné : aléatoire)
sent_preds = sent_logits.argmax(dim=-1)
print("=== Test Encoder + Classification Sentiment ===")
print(f"English input shape: {en_sentences.shape}")
print(f"Encoder output shape: {encoder_out.shape}")
print(f"Sentiment logits: {sent_logits}")
print(f"Sentiment predictions: {sent_preds} (0=neg, 1=pos)")
print(f"True labels: {sentiments}")
print("✓ Encoder traite l'anglais + classe le sentiment ! (aléatoire sans entraînement)")

=== Test Encoder + Classification Sentiment ===
English input shape: torch.Size([2, 5])
Encoder output shape: torch.Size([2, 5, 128])
Sentiment logits: tensor([[-0.0549,  0.0309],
        [ 0.0787,  0.0022]], grad_fn=<AddmmBackward0>)
Sentiment predictions: tensor([1, 0]) (0=neg, 1=pos)
True labels: tensor([1, 0])
✓ Encoder traite l'anglais + classe le sentiment ! (aléatoire sans entraînement)


In [5]:
# Cellule 2: Decoder pour Génération de Traduction Français (basé sur TransformerDecoder précédent)
# Utilise encoder_out pour cross-attention. Test sur tokens français simulés.

# (Classes précédentes : create_causal_mask, CrossMultiHeadAttention, TransformerDecoderBlock, TransformerDecoder
# assumées définies.)

# Decoder inchangé, mais vocab français
fr_vocab_size = 100  # Petit vocab français pour démo
decoder = TransformerDecoder(fr_vocab_size, d_model, num_heads, d_ff, num_layers)

# Exemples : Tokens français cibles (aléatoires pour démo)
fr_sentences = torch.randint(1, fr_vocab_size, (2, 6))  # Cible plus longue

# Masque causal
tgt_len = fr_sentences.size(1)
self_mask = create_causal_mask(tgt_len).unsqueeze(0).unsqueeze(1).expand(2, num_heads, -1, -1)  # Ajusté

# Forward : Génération avec cross-attention sur encoder_out (de Cellule 1)
decoder_out = decoder(fr_sentences, encoder_out, self_mask)

print("\n=== Test Decoder + Génération Traduction ===")
print(f"French target shape: {fr_sentences.shape}")
print(f"Decoder output shape: {decoder_out.shape}")
print(f"Exemple decoder_out[0, 0, :5]: {decoder_out[0, 0, :5]}")
print("✓ Decoder génère français à partir d'encoder anglais ! (aléatoire sans entraînement)")


=== Test Decoder + Génération Traduction ===
French target shape: torch.Size([2, 6])
Decoder output shape: torch.Size([2, 6, 128])
Exemple decoder_out[0, 0, :5]: tensor([ 1.0130,  0.2200, -3.5152, -0.4402, -0.4495], grad_fn=<SliceBackward0>)
✓ Decoder génère français à partir d'encoder anglais ! (aléatoire sans entraînement)


In [13]:
# Cellule 3: Modèle Seq2Seq Complet + Entraînement sur Données Réelles Minimales (Petit Paragraphe) + 10 Époques + Sauvegarde (CORRIGÉ)
# Correction: Vocab étendu pour inclure tous les indices (jusqu'à 38 pour FR). Données ajustées pour indices valides.
# Ajout: Décodeurs pour afficher mots EN/FR. Sortie: Phrase EN, Sentiment, Traduction Générée (mots).

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader

# (Assumons classes précédentes définies : TranslationWithSentiment, create_causal_mask, etc.)

# Vocab étendu pour couvrir tous les tokens (EN jusqu'à 32, FR jusqu'à 38)
en_vocab = {
    '<pad>': 0, '<sos>': 1, '<eos>': 2, 'I': 3, 'love': 4, 'reading': 5, 'books': 6, 'They': 7, 'transport': 8,
    'me': 9, 'to': 10, 'other': 11, 'worlds': 12, 'The': 13, 'characters': 14, 'feel': 15, 'real': 16,
    'Stories': 17, 'inspire': 18, 'But': 19, 'dislike': 20, 'long': 21, 'novels': 22, 'take': 23, 'too': 24,
    'much': 25, 'time': 26, 'Short': 27, 'stories': 28, 'are': 29, 'better': 30, 'quick': 31, 'and': 32, 'engaging': 33
}
fr_vocab = {
    '<pad>': 0, '<sos>': 1, '<eos>': 2, 'J\'aime': 3, 'lire': 4, 'des': 5, 'livres': 6, 'Ils': 7, 'me': 8,
    'transportent': 9, 'dans': 10, 'd\'autres': 11, 'mondes': 12, 'Les': 13, 'personnages': 14, 'semblent': 15,
    'réels': 16, 'histoires': 17, 'm\'inspirent': 18, 'Mais': 19, 'je': 20, 'n\'aime': 21, 'pas': 22,
    'les': 23, 'romans': 24, 'longs': 25, 'prennent': 26, 'trop': 27, 'de': 28, 'temps': 29, 'récits': 30,
    'courts': 31, 'sont': 32, 'mieux': 33, 'rapides': 34, 'et': 35, 'captivants': 36
}

en_vocab_size = len(en_vocab)  # 34
fr_vocab_size = len(fr_vocab)  # 37
d_model = 64
num_heads = 2
d_ff = 128
num_layers = 1

# Données réelles corrigées : Indices valides (max EN=32 -> 'stories', ajusté)
train_data = [
    # Positive
    ([3, 4, 5, 6], [3, 4, 5, 6, 2], 1),  # "I love reading books" -> "J'aime lire des livres"
    ([7, 8, 9, 10, 11, 12], [7, 8, 9, 10, 11, 12, 2], 1),  # "They transport me to other worlds"
    ([13, 14, 15, 16], [13, 14, 15, 16, 2], 1),  # "The characters feel real"
    ([17, 18, 3], [17, 18, 2], 1),  # "Stories inspire me" (ajusté FR pour 'm\'inspirent')
    # Negative/Mixed
    ([19, 3, 20, 21, 22], [19, 20, 21, 22, 23, 24, 2], 0),  # "But I dislike long novels" -> "Mais je n'aime pas les romans longs"
    ([7, 23, 24, 25, 26], [7, 26, 27, 28, 29, 2], 0),  # "They take too much time" -> "Ils prennent trop de temps"
    ([27, 28, 29, 30], [30, 31, 32, 33, 2], 0),  # "Short stories are better" -> "Récits courts sont mieux"
    ([7, 29, 31, 32, 33], [7, 32, 34, 35, 36, 2], 1),  # "They are quick and engaging" -> "Ils sont rapides et captivants"
]

# Décodeurs simples pour afficher mots
en_rev_vocab = {v: k for k, v in en_vocab.items()}
fr_rev_vocab = {v: k for k, v in fr_vocab.items()}

def decode_tokens(tokens, rev_vocab):
    words = [rev_vocab.get(t.item(), '<UNK>') for t in tokens if t.item() not in [0, 1, 2]]
    return ' '.join(words)

class MinimalDataset(Dataset):
    def __init__(self, data, max_len=12):  # Réduit max_len
        self.data = data
        self.max_len = max_len
    
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        en_tokens, fr_tokens, sent_label = self.data[idx]
        en_padded = torch.tensor(en_tokens + [0] * (self.max_len - len(en_tokens)))
        fr_input_tokens = [1] + fr_tokens[:-1]
        fr_input = torch.tensor(fr_input_tokens + [0] * (self.max_len - len(fr_input_tokens)))
        fr_target = torch.tensor(fr_tokens + [0] * (self.max_len - len(fr_tokens)))
        sent_label = torch.tensor(sent_label)
        return en_padded, fr_input, fr_target, sent_label

dataset = MinimalDataset(train_data)
dataloader = DataLoader(dataset, batch_size=1, shuffle=True)

# Modèle
device = torch.device('cpu')
model = TranslationWithSentiment(en_vocab_size, fr_vocab_size, d_model, num_heads, d_ff, num_layers).to(device)

# Loss et Optimizer
trans_criterion = nn.CrossEntropyLoss(ignore_index=0)
sent_criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# Entraînement : 10 époques
model.train()
for epoch in range(30):
    total_loss = 0
    for en_batch, fr_input, fr_target, sent_batch in dataloader:
        en_batch, fr_input, fr_target, sent_batch = [t.to(device) for t in [en_batch, fr_input, fr_target, sent_batch]]
        
        tgt_mask = create_causal_mask(fr_input.size(1)).unsqueeze(0).unsqueeze(1).expand(1, num_heads, -1, -1).to(device)
        trans_logits, sent_logits = model(en_batch, fr_input, tgt_mask)
        
        trans_loss = trans_criterion(trans_logits.view(-1, fr_vocab_size), fr_target.view(-1))
        sent_loss = sent_criterion(sent_logits, sent_batch)
        loss = trans_loss + sent_loss
        
        optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
        optimizer.step()
        total_loss += loss.item()
    
    avg_loss = total_loss / len(dataloader)
    print(f"Epoch {epoch+1}/10, Average Loss: {avg_loss:.4f}")

print("✓ Entraînement sur données réelles terminé (10 époques) !")

# Sauvegarde
torch.save(model.state_dict(), 'real_paragraph_translation_sentiment_model.pth')
print("Modèle sauvegardé en 'real_paragraph_translation_sentiment_model.pth'")

# Test post-entraînement avec affichage mots/sentiment/traduction
model.eval()
with torch.no_grad():
    # Test sur première phrase positive
    test_en_tokens = torch.tensor([[3, 4, 5, 6, 0] * 2]).to(device)  # "I love reading books" padded
    en_phrase = decode_tokens(test_en_tokens[0], en_rev_vocab)
    generated, sent_pred = model.translate(test_en_tokens, max_len=6, sos_token=1, eos_token=2)
    gen_fr_tokens = torch.tensor(generated[0]).unsqueeze(0).to(device)
    fr_translation = decode_tokens(gen_fr_tokens[0], fr_rev_vocab)
    
    print(f"\n=== Test Sortie ===")
    print(f"Phrase EN: {en_phrase}")
    print(f"Sentiment: {'Positive' if sent_pred == 1 else 'Negative'}")
    print(f"Traduction Générée FR: {fr_translation}")
    print("✓ Test OK !")

Epoch 1/10, Average Loss: 4.5281
Epoch 2/10, Average Loss: 3.7747
Epoch 3/10, Average Loss: 3.4055
Epoch 4/10, Average Loss: 3.0040
Epoch 5/10, Average Loss: 2.6981
Epoch 6/10, Average Loss: 2.3240
Epoch 7/10, Average Loss: 2.0172
Epoch 8/10, Average Loss: 1.7378
Epoch 9/10, Average Loss: 1.4866
Epoch 10/10, Average Loss: 1.2587
Epoch 11/10, Average Loss: 1.0354
Epoch 12/10, Average Loss: 0.8614
Epoch 13/10, Average Loss: 0.7927
Epoch 14/10, Average Loss: 0.7021
Epoch 15/10, Average Loss: 0.5905
Epoch 16/10, Average Loss: 0.5311
Epoch 17/10, Average Loss: 0.4392
Epoch 18/10, Average Loss: 0.3617
Epoch 19/10, Average Loss: 0.2824
Epoch 20/10, Average Loss: 0.2498
Epoch 21/10, Average Loss: 0.2034
Epoch 22/10, Average Loss: 0.1995
Epoch 23/10, Average Loss: 0.1502
Epoch 24/10, Average Loss: 0.1151
Epoch 25/10, Average Loss: 0.1073
Epoch 26/10, Average Loss: 0.0803
Epoch 27/10, Average Loss: 0.0810
Epoch 28/10, Average Loss: 0.0704
Epoch 29/10, Average Loss: 0.0505
Epoch 30/10, Average Lo

In [14]:
# Cellule 1: Chargement du Modèle Sauvegardé et Préparation pour Génération Améliorée
# Charge le modèle .pth sauvegardé. Ajoute un décodeur beam search simple pour meilleure génération.
# Utilise les vocabs et classes précédentes.

import torch
import torch.nn as nn

# (Assumons vocabs et classes définies : en_vocab, fr_vocab, en_rev_vocab, fr_rev_vocab, TranslationWithSentiment, etc.)

# Paramètres (mêmes que lors de l'entraînement)
en_vocab_size = len(en_vocab)
fr_vocab_size = len(fr_vocab)
d_model = 64
num_heads = 2
d_ff = 128
num_layers = 1

# Chargement du modèle
device = torch.device('cpu')
model = TranslationWithSentiment(en_vocab_size, fr_vocab_size, d_model, num_heads, d_ff, num_layers).to(device)
model.load_state_dict(torch.load('real_paragraph_translation_sentiment_model.pth', map_location=device))
model.eval()

print("✓ Modèle chargé depuis 'real_paragraph_translation_sentiment_model.pth'")

✓ Modèle chargé depuis 'real_paragraph_translation_sentiment_model.pth'


In [17]:
# Cellule 2: Fonction de Génération Améliorée avec Beam Search Simple et Décodeur de Texte (CORRIGÉ)
# Correction: tgt shape [1, seq_len] pour tokens (pas [1, seq_len, 1]). Mask ajusté pour compatibilité.

def improved_translate(model, src_en, beam_width=3, max_len=10, sos_token=1, eos_token=2, device='cpu'):
    model.eval()
    with torch.no_grad():
        encoder_out, sent_logits = model.encoder_clf(src_en.to(device))
        sent_pred = sent_logits.argmax(dim=-1).item()
        
        # Beam search simple (batch=1 assumé)
        beams = [(torch.tensor([sos_token]), 0.0)]  # (sequence [seq_len], score)
        for _ in range(max_len):
            new_beams = []
            for seq, score in beams:
                tgt = seq.unsqueeze(0).to(device)  # [1, seq_len] tokens
                tgt_len = tgt.size(1)
                self_mask = create_causal_mask(tgt_len).unsqueeze(0).unsqueeze(0).expand(1, num_heads, -1, -1).to(device)
                dec_out = model.decoder(tgt, encoder_out, self_mask)
                next_logits = model.generator(dec_out[:, -1, :])  # [1, vocab]
                topk_probs, topk_ids = next_logits.topk(beam_width, dim=-1)
                for i in range(beam_width):
                    new_seq = torch.cat([seq, topk_ids[0, i].unsqueeze(0)], dim=0)
                    new_score = score + torch.log(topk_probs[0, i] + 1e-8)
                    new_beams.append((new_seq, new_score))
            # Top beam_width
            beams = sorted(new_beams, key=lambda x: x[1], reverse=True)[:beam_width]
            if eos_token in beams[0][0]:
                break
        
        best_seq = beams[0][0]
        return best_seq.cpu().tolist(), sent_pred

def decode_sentence(tokens, rev_vocab):
    words = []
    for t in tokens:
        if t == 1: continue  # <sos>
        if t == 2: break  # <eos>
        if t == 0: continue  # <pad>
        words.append(rev_vocab.get(t, '<UNK>'))
    return ' '.join(words)

print("✓ Fonctions de génération améliorée et décodage prêtes ! (Shape tgt corrigée)")

✓ Fonctions de génération améliorée et décodage prêtes ! (Shape tgt corrigée)


In [18]:
# Cellule 3: Test sur un Petit Paragraphe Réel - Génération de Texte et Traduction Complète (CORRIGÉ)
# Input: Paragraphe EN tokenisé. Sortie: Phrases EN, Sentiments, Traductions FR générées (mots lisibles).

# Paragraphe exemple tokenisé (basé sur train_data, concaténé pour test)
paragraph_en = [
    [3, 4, 5, 6],  # "I love reading books"
    [7, 8, 9, 10, 11, 12],  # "They transport me to other worlds"
    [13, 14, 15, 16],  # "The characters feel real"
    [17, 18, 3],  # "Stories inspire me"
    [19, 3, 20, 21, 22],  # "But I dislike long novels"
    [7, 23, 24, 25, 26],  # "They take too much time"
    [27, 28, 29, 30],  # "Short stories are better"
    [7, 29, 31, 32, 33]  # "They are quick and engaging"
]

print("=== Génération de Texte et Traduction sur Paragraphe Réel ===")
with torch.no_grad():
    for i, en_tokens in enumerate(paragraph_en):
        # Pad à max_len=12
        padded_en = torch.tensor([en_tokens + [0] * (12 - len(en_tokens))]).to(device)
        en_text = decode_sentence(padded_en[0], en_rev_vocab)
        
        gen_tokens, sent_pred = improved_translate(model, padded_en, beam_width=3, max_len=8)
        fr_text = decode_sentence(gen_tokens, fr_rev_vocab)
        sentiment = 'Positive' if sent_pred == 1 else 'Negative'
        
        print(f"\nPhrase {i+1}:")
        print(f"  EN: {en_text}")
        print(f"  Sentiment: {sentiment}")
        print(f"  FR Générée: {fr_text}")

print("\n✓ Génération et traduction complètes affichées ! (Beam search corrigé)")

=== Génération de Texte et Traduction sur Paragraphe Réel ===

Phrase 1:
  EN: <UNK> <UNK> <UNK> <UNK>
  Sentiment: Positive
  FR Générée: J'aime lire des livres

Phrase 2:
  EN: <UNK> <UNK> <UNK> <UNK> <UNK> <UNK>
  Sentiment: Positive
  FR Générée: Ils me transportent dans d'autres mondes

Phrase 3:
  EN: <UNK> <UNK> <UNK> <UNK>
  Sentiment: Positive
  FR Générée: Les personnages semblent réels

Phrase 4:
  EN: <UNK> <UNK> <UNK>
  Sentiment: Positive
  FR Générée: histoires m'inspirent

Phrase 5:
  EN: <UNK> <UNK> <UNK> <UNK> <UNK>
  Sentiment: Negative
  FR Générée: Mais je n'aime pas les romans

Phrase 6:
  EN: <UNK> <UNK> <UNK> <UNK> <UNK>
  Sentiment: Negative
  FR Générée: Ils prennent trop de temps

Phrase 7:
  EN: <UNK> <UNK> <UNK> <UNK>
  Sentiment: Negative
  FR Générée: récits courts sont mieux

Phrase 8:
  EN: <UNK> <UNK> <UNK> <UNK> <UNK>
  Sentiment: Positive
  FR Générée: Ils sont rapides et captivants

✓ Génération et traduction complètes affichées ! (Beam search corri