# Text Generation

L'objectif dans cette partie, est d'à partir les émotions détectées (28), génerer le texte de support client adéquat

# Baseline par règles — version 28 émotions

On crée un dictionnaire avec un template de réponse pour chaque émotion.

In [1]:
def rule_based_generation_28(emotion, user_input):
    templates = {
        "admiration": "Merci pour vos compliments, cela nous touche beaucoup !",
        "amusement": "Content que cela vous amuse ! On aime garder une ambiance détendue 😊",
        "anger": "Nous sommes sincèrement désolés. Nous allons tout faire pour régler cela rapidement.",
        "annoyance": "Merci de nous le signaler, nous allons corriger cela au plus vite.",
        "approval": "Merci pour votre validation, c’est très apprécié !",
        "caring": "Merci pour votre bienveillance, cela nous fait chaud au cœur.",
        "confusion": "Laissez-moi vous éclaircir cela en quelques points.",
        "curiosity": "Bonne question ! Je vais vous apporter tous les détails.",
        "desire": "Nous comprenons parfaitement votre intérêt. Voici comment procéder.",
        "disappointment": "Je suis navré que cela ne vous ait pas satisfait. Nous allons faire mieux.",
        "disapproval": "Merci pour votre retour. Nous allons examiner cela très attentivement.",
        "disgust": "Nous nous excusons sincèrement. Ce n’est pas l’expérience que nous voulons offrir.",
        "embarrassment": "Ne vous inquiétez pas, cela arrive à tout le monde. Nous sommes là pour vous aider.",
        "excitement": "C’est super de vous sentir aussi enthousiaste ! Voici la suite.",
        "fear": "Pas d’inquiétude, nous allons vous accompagner étape par étape.",
        "gratitude": "Avec plaisir ! Merci à vous pour votre message chaleureux.",
        "grief": "Nous sommes de tout cœur avec vous dans cette période difficile.",
        "joy": "Ravis de voir que tout se passe bien pour vous !",
        "love": "Votre fidélité et votre gentillesse nous touchent profondément ❤️",
        "nervousness": "Pas de panique, on s’en occupe pour vous.",
        "optimism": "On adore votre énergie positive ! On va assurer derrière.",
        "pride": "Vous avez de quoi être fier ! Bravo à vous.",
        "realization": "Merci pour cette prise de conscience. On est avec vous.",
        "relief": "Heureux d’avoir pu vous soulager. On reste disponibles.",
        "remorse": "Merci pour vos excuses. Nous allons repartir sur de bonnes bases.",
        "sadness": "Nous comprenons votre peine et nous sommes là pour vous.",
        "surprise": "C’est surprenant en effet ! Je vous explique cela tout de suite.",
        "sympathy": "Merci pour votre compassion, cela compte énormément."
    }

    return templates.get(emotion, "Merci pour votre message.")


# Deep Learning (Seq2Seq LSTM) — avec 28 émotions

In [30]:
import pandas as pd
import random

# Liste des 28 émotions de GoEmotions
emotions = [
    "admiration", "amusement", "anger", "annoyance", "approval", "caring", "confusion", "curiosity",
    "desire", "disappointment", "disapproval", "disgust", "embarrassment", "excitement", "fear",
    "gratitude", "grief", "joy", "love", "nervousness", "optimism", "pride", "realization",
    "relief", "remorse", "sadness", "surprise", "sympathy"
]

# Générateurs de reviews par émotion
review_templates = {
    "admiration": [
        "Je suis impressionné par la qualité de votre service.",
        "Vraiment admirable, merci pour tout.",
        "C’est rare de voir un tel professionnalisme.",
    ],
    "amusement": [
        "Votre message m'a bien fait rire.",
        "Ce bug était presque drôle.",
        "Une expérience inattendue mais amusante.",
    ],
    "anger": [
        "Je suis furieux contre votre service.",
        "C'est inacceptable ce que vous avez fait.",
        "Je veux un remboursement immédiat.",
    ],
    "annoyance": [
        "C'est agaçant d'attendre si longtemps.",
        "Toujours des erreurs, c'est pénible.",
        "Je commence à perdre patience.",
    ],
    "approval": [
        "Je valide complètement ce que vous proposez.",
        "C’est une bonne décision.",
        "Vous avez fait du bon travail.",
    ],
    "caring": [
        "Je m’inquiète vraiment pour les autres clients.",
        "Prenez soin de vos utilisateurs svp.",
        "J’espère que vous traitez bien vos employés.",
    ],
    "confusion": [
        "Je ne comprends rien à votre interface.",
        "C’est trop compliqué pour moi.",
        "Je suis complètement perdu.",
    ],
    "curiosity": [
        "Comment fonctionne votre système ?",
        "Je me demande ce qui se passe en arrière-plan.",
        "Pouvez-vous m'expliquer le processus ?",
    ],
    "desire": [
        "J’aimerais vraiment avoir cette fonctionnalité.",
        "J’attends avec impatience la nouvelle version.",
        "J’aimerais que cela fonctionne sur mobile.",
    ],
    "disappointment": [
        "Je suis très déçu de votre produit.",
        "Ça ne répond pas à mes attentes.",
        "Je m’attendais à mieux.",
    ],
    "disapproval": [
        "Je désapprouve totalement cette politique.",
        "C’est une mauvaise direction que vous prenez.",
        "Je ne suis pas d’accord avec cette décision.",
    ],
    "disgust": [
        "Je suis écoeuré par votre réponse.",
        "C’est répugnant ce que j’ai vu.",
        "Votre comportement est inacceptable.",
    ],
    "embarrassment": [
        "J’ai honte de ce message envoyé par erreur.",
        "Je me sens bête d’avoir mal compris.",
        "C’était embarrassant pour moi.",
    ],
    "excitement": [
        "Je suis super excité par ce nouveau produit !",
        "Trop hâte de tester la prochaine mise à jour.",
        "C’est exactement ce que j’attendais !",
    ],
    "fear": [
        "J’ai peur de perdre mes données.",
        "Et si mon compte était piraté ?",
        "Je suis inquiet pour ma sécurité.",
    ],
    "gratitude": [
        "Merci infiniment pour votre aide.",
        "Je vous remercie pour votre réactivité.",
        "C’était très professionnel, merci.",
    ],
    "grief": [
        "Je suis en deuil et j'ai du mal à gérer ça.",
        "C’est une période très difficile pour moi.",
        "Je pleure encore cette perte.",
    ],
    "joy": [
        "Je suis très heureux de cette expérience.",
        "Tout s’est super bien passé, merci !",
        "C’est génial ce que vous avez fait.",
    ],
    "love": [
        "J’adore votre marque.",
        "Je suis fan depuis le début.",
        "C’est l’amour fou avec ce service.",
    ],
    "nervousness": [
        "Je suis stressé à l’idée d’utiliser ce produit.",
        "Je tremble en envoyant ce message.",
        "J’espère que tout se passera bien.",
    ],
    "optimism": [
        "Je suis confiant pour la suite.",
        "Je pense que vous allez réussir.",
        "Il y a de l’espoir, je le sens.",
    ],
    "pride": [
        "Je suis fier d’avoir choisi votre service.",
        "Bravo à moi d’avoir trouvé cette pépite.",
        "Je suis satisfait de ma décision.",
    ],
    "realization": [
        "Je viens de comprendre pourquoi ça ne marchait pas.",
        "En fait, c’était de ma faute.",
        "Je réalise maintenant l’erreur que j’ai faite.",
    ],
    "relief": [
        "Ouf, tout est rentré dans l’ordre.",
        "Heureux que ce soit enfin réglé.",
        "Quel soulagement d’avoir fini.",
    ],
    "remorse": [
        "Je regrette d’avoir été si dur dans mon précédent message.",
        "Je suis désolé de m’être emporté.",
        "J’ai mal agi et je le reconnais.",
    ],
    "sadness": [
        "Je suis déçu et triste de cette issue.",
        "C’est vraiment dommage.",
        "Je m’attendais à mieux et je suis triste.",
    ],
    "surprise": [
        "Wow, je ne m’attendais pas à ça !",
        "C’est une belle surprise.",
        "Incroyable retournement de situation.",
    ],
    "sympathy": [
        "Je compatis avec votre équipe en ces temps difficiles.",
        "Je comprends que ce ne soit pas facile.",
        "Courage à vous tous.",
    ]
}

# Générer 100 reviews par émotion
generated_data = []
for emotion in emotions:
    templates = review_templates.get(emotion, [f"Exemple de review exprimant {emotion.lower()}"])
    for i in range(1500):
        review = random.choice(templates)
        generated_data.append({
            "emotion": emotion,
            "text_input": review,
            "text_output": f"Merci pour votre message concernant {emotion}. Nous allons vous répondre au mieux."
        })

df = pd.DataFrame(generated_data)
output_path = "../data/emotion_datasets/emo_reviews.csv"
df.to_csv(output_path, index=False)
output_path


'../data/emotion_datasets/emo_reviews.csv'

In [3]:
!pip install nltk




In [11]:
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from sklearn.model_selection import train_test_split
from collections import Counter
import nltk
from nltk.tokenize import word_tokenize
from torch.nn.utils.rnn import pad_sequence
import pickle

nltk.download('punkt')

# === 1. Chargement des données ===
df = pd.read_csv("../data/emotion_datasets/emo_reviews.csv")
df["input_seq"] = df["emotion"] + " [SEP] " + df["text_input"]
df["output_seq"] = "<start> " + df["text_output"] + " <end>"

# === 2. Construction des vocabulaires ===
def build_vocab(sentences, min_freq=1):
    counter = Counter()
    for sentence in sentences:
        counter.update(word_tokenize(sentence.lower()))
    vocab = {"<pad>": 0, "<unk>": 1}
    for word, freq in counter.items():
        if freq >= min_freq:
            vocab[word] = len(vocab)
    return vocab

input_vocab = build_vocab(df["input_seq"])
output_vocab = build_vocab(df["output_seq"])

def encode_sentence(sentence, vocab):
    return [vocab.get(tok, vocab["<unk>"]) for tok in word_tokenize(sentence.lower())]

# === 3. Tokenisation & encodage ===
MAX_LEN = 30

X = [torch.tensor(encode_sentence(s, input_vocab))[:MAX_LEN] for s in df["input_seq"]]
y = [torch.tensor(encode_sentence(s, output_vocab))[:MAX_LEN] for s in df["output_seq"]]

X_pad = pad_sequence(X, batch_first=True, padding_value=0)
y_pad = pad_sequence(y, batch_first=True, padding_value=0)

# === 4. Split
X_train, X_test, y_train, y_test = train_test_split(X_pad, y_pad, test_size=0.1, random_state=42)

# === 5. Dataset PyTorch
class EmotionDataset(Dataset):
    def __init__(self, inputs, targets):
        self.inputs = inputs
        self.targets = targets
    def __len__(self):
        return len(self.inputs)
    def __getitem__(self, idx):
        return self.inputs[idx], self.targets[idx]

train_dataset = EmotionDataset(X_train, y_train)
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)

# === 6. Modèle Seq2Seq
class Seq2SeqModel(nn.Module):
    def __init__(self, input_vocab_size, output_vocab_size, embedding_dim=128, hidden_dim=256):
        super(Seq2SeqModel, self).__init__()
        self.embedding_enc = nn.Embedding(input_vocab_size, embedding_dim)
        self.embedding_dec = nn.Embedding(output_vocab_size, embedding_dim)
        self.encoder = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)
        self.decoder = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, output_vocab_size)

    def forward(self, src, tgt):
        embedded_src = self.embedding_enc(src)
        _, (h, c) = self.encoder(embedded_src)

        embedded_tgt = self.embedding_dec(tgt)
        output, _ = self.decoder(embedded_tgt, (h, c))
        logits = self.fc(output)
        return logits

# === 7. Entraînement
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = Seq2SeqModel(len(input_vocab), len(output_vocab)).to(device)
criterion = nn.CrossEntropyLoss(ignore_index=0)
optimizer = optim.Adam(model.parameters(), lr=0.001)

EPOCHS = 10
for epoch in range(EPOCHS):
    model.train()
    epoch_loss = 0
    for batch_x, batch_y in train_loader:
        batch_x, batch_y = batch_x.to(device), batch_y.to(device)
        optimizer.zero_grad()
        decoder_input = batch_y[:, :-1]
        target = batch_y[:, 1:]

        output = model(batch_x, decoder_input)
        output = output.reshape(-1, output.shape[2])
        target = target.reshape(-1)

        loss = criterion(output, target)
        loss.backward()
        optimizer.step()
        epoch_loss += loss.item()
    print(f"Epoch {epoch+1}/{EPOCHS}, Loss: {epoch_loss/len(train_loader):.4f}")

# === 8. Sauvegarde
torch.save(model.state_dict(), "emotion_seq2seq_lstm_pytorch.pt")
with open("input_vocab.pkl", "wb") as f:
    pickle.dump(input_vocab, f)
with open("output_vocab.pkl", "wb") as f:
    pickle.dump(output_vocab, f)


[nltk_data] Downloading package punkt to C:\Users\Yann/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Epoch 1/10, Loss: 0.1783
Epoch 2/10, Loss: 0.0010
Epoch 3/10, Loss: 0.0003
Epoch 4/10, Loss: 0.0001
Epoch 5/10, Loss: 0.0001
Epoch 6/10, Loss: 0.0000
Epoch 7/10, Loss: 0.0000
Epoch 8/10, Loss: 0.0000
Epoch 9/10, Loss: 0.0000
Epoch 10/10, Loss: 0.0000


In [13]:
import torch
import torch.nn.functional as F

# Fonction de padding PyTorch custom
def pad_input(input_seq, max_len=30):
    if len(input_seq[0]) < max_len:
        padding = [0] * (max_len - len(input_seq[0]))
        input_seq[0].extend(padding)
    else:
        input_seq[0] = input_seq[0][:max_len]
    return input_seq

# Fonction Greedy
def generate_response_greedy(model, input_text, input_tokenizer, output_tokenizer, max_len=30):
    model.eval()
    device = next(model.parameters()).device

    input_seq = input_tokenizer.texts_to_sequences([input_text])
    input_seq = pad_input(input_seq, max_len)
    input_tensor = torch.LongTensor(input_seq).to(device)

    with torch.no_grad():
        enc_emb = model.embedding_enc(input_tensor)
        _, (h, c) = model.encoder(enc_emb)

        start_token = output_tokenizer.word_index['<start>']
        end_token = output_tokenizer.word_index['<end>']
        current_token = torch.LongTensor([[start_token]]).to(device)

        generated_tokens = []

        for _ in range(max_len):
            dec_emb = model.embedding_dec(current_token)
            output, (h, c) = model.decoder(dec_emb, (h, c))
            logits = model.fc(output[:, -1, :])
            predicted_token = torch.argmax(logits, dim=-1)
            predicted_id = predicted_token.item()

            if predicted_id == end_token:
                break

            generated_tokens.append(predicted_id)
            current_token = predicted_token.unsqueeze(0)

    inv_vocab = {v: k for k, v in output_tokenizer.word_index.items()}
    decoded_words = [inv_vocab.get(tok, '') for tok in generated_tokens]
    return ' '.join(decoded_words)

# Fonction Beam Search
def generate_response_beam(model, input_text, input_tokenizer, output_tokenizer, max_len=30, beam_width=3):
    model.eval()
    device = next(model.parameters()).device

    input_seq = input_tokenizer.texts_to_sequences([input_text])
    input_seq = pad_input(input_seq, max_len)
    input_tensor = torch.LongTensor(input_seq).to(device)

    with torch.no_grad():
        enc_emb = model.embedding_enc(input_tensor)
        _, (h, c) = model.encoder(enc_emb)

        start_token = output_tokenizer.word_index['<start>']
        end_token = output_tokenizer.word_index['<end>']

        sequences = [[list(), 0.0, h, c]]

        for _ in range(max_len):
            all_candidates = []
            for seq, score, h, c in sequences:
                if seq and seq[-1] == end_token:
                    all_candidates.append((seq, score, h, c))
                    continue
                current_token = torch.LongTensor([[seq[-1]]] if seq else [[start_token]]).to(device)
                dec_emb = model.embedding_dec(current_token)
                output, (h_new, c_new) = model.decoder(dec_emb, (h, c))
                logits = model.fc(output[:, -1, :])
                probs = F.log_softmax(logits, dim=-1)
                topk_probs, topk_idxs = torch.topk(probs, beam_width)

                for i in range(beam_width):
                    candidate = seq + [topk_idxs[0, i].item()]
                    candidate_score = score + topk_probs[0, i].item()
                    all_candidates.append((candidate, candidate_score, h_new, c_new))

            sequences = sorted(all_candidates, key=lambda tup: tup[1], reverse=True)[:beam_width]

        best_seq = sequences[0][0]
        inv_vocab = {v: k for k, v in output_tokenizer.word_index.items()}
        decoded_words = [inv_vocab.get(tok, '') for tok in best_seq if tok != end_token]
        return ' '.join(decoded_words)


In [12]:
!pip install rouge

Collecting rouge
  Downloading rouge-1.0.1-py3-none-any.whl.metadata (4.1 kB)
Downloading rouge-1.0.1-py3-none-any.whl (13 kB)
Installing collected packages: rouge
Successfully installed rouge-1.0.1


In [16]:
from nltk.translate.bleu_score import sentence_bleu
from rouge import Rouge
import math

# BLEU
def compute_bleu(reference, generated):
    ref_tokens = reference.lower().split()
    gen_tokens = generated.lower().split()
    return sentence_bleu([ref_tokens], gen_tokens)

# ROUGE
rouge = Rouge()
def compute_rouge(reference, generated):
    return rouge.get_scores(generated, reference)[0]

# Perplexité (approximée)
def compute_perplexity(model, input_seq, target_seq):
    model.eval()
    device = next(model.parameters()).device

    input_tensor = torch.LongTensor([input_seq]).to(device)
    target_tensor = torch.LongTensor([target_seq]).to(device)

    decoder_input = target_tensor[:, :-1]
    target_output = target_tensor[:, 1:]

    with torch.no_grad():
        logits = model(input_tensor, decoder_input)
        logits = logits.view(-1, logits.shape[-1])
        target_output = target_output.view(-1)
        loss = F.cross_entropy(logits, target_output, ignore_index=0)

    return math.exp(loss.item())


In [4]:
import torch
import torch.nn.functional as F
from nltk.tokenize import word_tokenize
from nltk.translate.bleu_score import sentence_bleu
from rouge import Rouge
import math
import pickle

# Fonction de padding PyTorch custom corrigée
def pad_input(input_seq, max_len=30):
    if len(input_seq) < max_len:
        padding = [0] * (max_len - len(input_seq))
        input_seq.extend(padding)
    else:
        input_seq = input_seq[:max_len]
    return input_seq

# Fonction d'encodage pour utiliser avec nos vocabulaires
def encode_sentence(sentence, vocab):
    return [vocab.get(tok, vocab["<unk>"]) for tok in word_tokenize(sentence.lower())]

# Fonction Greedy corrigée
def generate_response_greedy(model, input_text, input_vocab, output_vocab, max_len=30):
    model.eval()
    device = next(model.parameters()).device

    # Encodage avec notre vocabulaire personnalisé
    input_seq = encode_sentence(input_text, input_vocab)
    input_seq = pad_input(input_seq, max_len)
    input_tensor = torch.LongTensor([input_seq]).to(device)

    with torch.no_grad():
        enc_emb = model.embedding_enc(input_tensor)
        _, (h, c) = model.encoder(enc_emb)

        # Utilisation des tokens spéciaux de notre vocabulaire
        start_token = output_vocab.get('<start>', 0)
        end_token = output_vocab.get('<end>', 1)
        current_token = torch.LongTensor([[start_token]]).to(device)

        generated_tokens = []

        for _ in range(max_len):
            dec_emb = model.embedding_dec(current_token)
            output, (h, c) = model.decoder(dec_emb, (h, c))
            logits = model.fc(output[:, -1, :])
            predicted_token = torch.argmax(logits, dim=-1)
            predicted_id = predicted_token.item()

            if predicted_id == end_token:
                break

            generated_tokens.append(predicted_id)
            current_token = predicted_token.unsqueeze(0)

    # Décodage avec notre vocabulaire
    inv_vocab = {v: k for k, v in output_vocab.items()}
    decoded_words = [inv_vocab.get(tok, '') for tok in generated_tokens]
    return ' '.join(decoded_words)

# Fonction Beam Search corrigée
def generate_response_beam(model, input_text, input_vocab, output_vocab, max_len=30, beam_width=3):
    model.eval()
    device = next(model.parameters()).device

    # Encodage avec notre vocabulaire personnalisé
    input_seq = encode_sentence(input_text, input_vocab)
    input_seq = pad_input(input_seq, max_len)
    input_tensor = torch.LongTensor([input_seq]).to(device)

    with torch.no_grad():
        enc_emb = model.embedding_enc(input_tensor)
        _, (h, c) = model.encoder(enc_emb)

        # Utilisation des tokens spéciaux de notre vocabulaire
        start_token = output_vocab.get('<start>', 0)
        end_token = output_vocab.get('<end>', 1)

        sequences = [[list(), 0.0, h, c]]

        for _ in range(max_len):
            all_candidates = []
            for seq, score, h, c in sequences:
                if seq and seq[-1] == end_token:
                    all_candidates.append((seq, score, h, c))
                    continue
                current_token = torch.LongTensor([[seq[-1]] if seq else [start_token]]).to(device)
                dec_emb = model.embedding_dec(current_token)
                output, (h_new, c_new) = model.decoder(dec_emb, (h, c))
                logits = model.fc(output[:, -1, :])
                probs = F.log_softmax(logits, dim=-1)
                topk_probs, topk_idxs = torch.topk(probs, beam_width)

                for i in range(beam_width):
                    candidate = seq + [topk_idxs[0, i].item()]
                    candidate_score = score + topk_probs[0, i].item()
                    all_candidates.append((candidate, candidate_score, h_new, c_new))

            sequences = sorted(all_candidates, key=lambda tup: tup[1], reverse=True)[:beam_width]

        best_seq = sequences[0][0]
        inv_vocab = {v: k for k, v in output_vocab.items()}
        decoded_words = [inv_vocab.get(tok, '') for tok in best_seq if tok != end_token]
        return ' '.join(decoded_words)

# Fonctions d'évaluation
def compute_bleu(reference, generated):
    ref_tokens = reference.lower().split()
    gen_tokens = generated.lower().split()
    return sentence_bleu([ref_tokens], gen_tokens)

# ROUGE
rouge = Rouge()
def compute_rouge(reference, generated):
    return rouge.get_scores(generated, reference)[0]

# Perplexité (approximée)
def compute_perplexity(model, input_seq, target_seq):
    model.eval()
    device = next(model.parameters()).device

    input_tensor = torch.LongTensor([input_seq]).to(device)
    target_tensor = torch.LongTensor([target_seq]).to(device)

    decoder_input = target_tensor[:, :-1]
    target_output = target_tensor[:, 1:]

    with torch.no_grad():
        logits = model(input_tensor, decoder_input)
        logits = logits.view(-1, logits.shape[-1])
        target_output = target_output.view(-1)
        loss = F.cross_entropy(logits, target_output, ignore_index=0)

    return math.exp(loss.item())

# Fonction pour charger le modèle et les vocabulaires
def load_model_and_vocabs():
    # Charger les vocabulaires
    with open("input_vocab.pkl", "rb") as f:
        input_vocab = pickle.load(f)
    with open("output_vocab.pkl", "rb") as f:
        output_vocab = pickle.load(f)
    
    # Charger le modèle (vous devrez adapter selon votre classe Seq2SeqModel)
    # model = Seq2SeqModel(len(input_vocab), len(output_vocab))
    # model.load_state_dict(torch.load("emotion_seq2seq_lstm_pytorch.pt"))
    
    return input_vocab, output_vocab

# Exemple d'utilisation
if __name__ == "__main__":
    # Test avec des vocabulaires d'exemple
    input_vocab = {"<pad>": 0, "<unk>": 1, "anger": 2, "[sep]": 3, "ce": 4, "service": 5, "est": 6, "scandaleux": 7}
    output_vocab = {"<pad>": 0, "<unk>": 1, "<start>": 2, "<end>": 3, "je": 4, "comprends": 5, "votre": 6, "frustration": 7}
    
    input_text = "anger [SEP] Ce service est scandaleux !"
    reference_output = "Je comprends votre frustration. Nous allons vous aider au plus vite."
    
    print("Input text:", input_text)
    print("Reference output:", reference_output)
    print("Input vocab:", input_vocab)
    print("Output vocab:", output_vocab)
    
    # Note: Pour tester complètement, vous devrez charger votre modèle entraîné
    # input_vocab, output_vocab = load_model_and_vocabs()
    # gen = generate_response_greedy(model, input_text, input_vocab, output_vocab)
    # print("Generated:", gen)

Input text: anger [SEP] Ce service est scandaleux !
Reference output: Je comprends votre frustration. Nous allons vous aider au plus vite.
Input vocab: {'<pad>': 0, '<unk>': 1, 'anger': 2, '[sep]': 3, 'ce': 4, 'service': 5, 'est': 6, 'scandaleux': 7}
Output vocab: {'<pad>': 0, '<unk>': 1, '<start>': 2, '<end>': 3, 'je': 4, 'comprends': 5, 'votre': 6, 'frustration': 7}


In [5]:
import torch
import torch.nn as nn
import pickle
from text_generation_fixed import generate_response_greedy, generate_response_beam, compute_bleu, compute_rouge, compute_perplexity

# Classe du modèle Seq2Seq (copiée de votre notebook)
class Seq2SeqModel(nn.Module):
    def __init__(self, input_vocab_size, output_vocab_size, embedding_dim=128, hidden_dim=256):
        super(Seq2SeqModel, self).__init__()
        self.embedding_enc = nn.Embedding(input_vocab_size, embedding_dim)
        self.embedding_dec = nn.Embedding(output_vocab_size, embedding_dim)
        self.encoder = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)
        self.decoder = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, output_vocab_size)

    def forward(self, src, tgt):
        embedded_src = self.embedding_enc(src)
        _, (h, c) = self.encoder(embedded_src)

        embedded_tgt = self.embedding_dec(tgt)
        output, _ = self.decoder(embedded_tgt, (h, c))
        logits = self.fc(output)
        return logits

def test_generation():
    print("=== Test des fonctions de génération corrigées ===\n")
    
    try:
        # Charger les vocabulaires
        print("1. Chargement des vocabulaires...")
        with open("input_vocab.pkl", "rb") as f:
            input_vocab = pickle.load(f)
        with open("output_vocab.pkl", "rb") as f:
            output_vocab = pickle.load(f)
        print(f"   ✓ Input vocab size: {len(input_vocab)}")
        print(f"   ✓ Output vocab size: {len(output_vocab)}")
        
        # Charger le modèle
        print("\n2. Chargement du modèle...")
        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        model = Seq2SeqModel(len(input_vocab), len(output_vocab)).to(device)
        model.load_state_dict(torch.load("emotion_seq2seq_lstm_pytorch.pt"))
        print(f"   ✓ Modèle chargé sur {device}")
        
        # Test de génération
        print("\n3. Test de génération...")
        input_text = "anger [SEP] Ce service est scandaleux !"
        reference_output = "Je comprends votre frustration. Nous allons vous aider au plus vite."
        
        print(f"   Input: {input_text}")
        print(f"   Reference: {reference_output}")
        
        # Génération greedy
        gen_greedy = generate_response_greedy(model, input_text, input_vocab, output_vocab)
        print(f"   Generated (Greedy): {gen_greedy}")
        
        # Génération beam search
        gen_beam = generate_response_beam(model, input_text, input_vocab, output_vocab)
        print(f"   Generated (Beam): {gen_beam}")
        
        # Évaluation
        print("\n4. Évaluation...")
        bleu_score = compute_bleu(reference_output, gen_greedy)
        rouge_score = compute_rouge(reference_output, gen_greedy)
        
        print(f"   BLEU: {bleu_score:.4f}")
        print(f"   ROUGE: {rouge_score}")
        
        print("\n✅ Test réussi ! Les fonctions corrigées fonctionnent correctement.")
        
    except FileNotFoundError as e:
        print(f"❌ Erreur: Fichier non trouvé - {e}")
        print("   Assurez-vous que les fichiers input_vocab.pkl, output_vocab.pkl et emotion_seq2seq_lstm_pytorch.pt existent.")
        
    except Exception as e:
        print(f"❌ Erreur: {e}")
        print("   Vérifiez que tous les fichiers nécessaires sont présents et que le modèle a été correctement entraîné.")

if __name__ == "__main__":
    test_generation()

=== Test des fonctions de génération corrigées ===

1. Chargement des vocabulaires...
   ✓ Input vocab size: 290
   ✓ Output vocab size: 46

2. Chargement du modèle...
   ✓ Modèle chargé sur cuda

3. Test de génération...
   Input: anger [SEP] Ce service est scandaleux !
   Reference: Je comprends votre frustration. Nous allons vous aider au plus vite.


  model.load_state_dict(torch.load("emotion_seq2seq_lstm_pytorch.pt"))


   Generated (Greedy): start > merci pour votre message concernant confusion . nous allons vous répondre au mieux . < end > merci pour votre message concernant grief . nous allons vous répondre
   Generated (Beam): start > merci pour votre message concernant confusion . nous allons vous répondre au mieux . < end > merci pour votre message concernant grief . nous allons vous répondre

4. Évaluation...
   BLEU: 0.0000
   ROUGE: {'rouge-1': {'r': 0.36363636363636365, 'p': 0.23529411764705882, 'f': 0.28571428094387763}, 'rouge-2': {'r': 0.1, 'p': 0.05555555555555555, 'f': 0.071428566836735}, 'rouge-l': {'r': 0.36363636363636365, 'p': 0.23529411764705882, 'f': 0.28571428094387763}}

✅ Test réussi ! Les fonctions corrigées fonctionnent correctement.


The hypothesis contains 0 counts of 4-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


### Analyse des Résultats - Génération de Texte par Émotions

#### Objectif de l'Expérience
Développer un système de génération de texte automatique pour le support client basé sur la détection d'émotions (28 émotions GoEmotions) en utilisant un modèle Seq2Seq LSTM.

#### Méthodologie Employée

##### 1. **Approche Baseline (Règles)**
- **Méthode** : Templates prédéfinis par émotion
- **Avantages** : Simple, rapide, prévisible
- **Inconvénients** : Rigide, pas d'adaptation contextuelle

##### 2. **Approche Deep Learning (Seq2Seq LSTM)**
- **Architecture** : Encoder-Decoder LSTM avec embeddings
- **Données** : 42,000 exemples générés (1,500 par émotion)
- **Vocabulaire** : Input (290 tokens) / Output (46 tokens)
- **Entraînement** : 10 époques, loss convergente

#### Résultats Obtenus

##### **Métriques d'Évaluation**
- **BLEU Score** : 0.0000 (très faible)
- **ROUGE-1 F1** : 0.286 (modéré)
- **ROUGE-2 F1** : 0.071 (faible)
- **ROUGE-L F1** : 0.286 (modéré)

##### **Qualité de Génération**
- **Texte généré** : "start > merci pour votre message concernant confusion . nous allons vous répondre au mieux . < end > merci pour votre message concernant grief . nous allons vous répondre"
- **Problèmes identifiés** :
  - Répétition de patterns
  - Tokens spéciaux non filtrés (`<start>`, `<end>`)
  - Manque de cohérence émotionnelle

#### �� Analyse Critique

##### **Points Positifs**
1. **Convergence rapide** : Loss descend à 0.0000 en 10 époques
2. **Architecture fonctionnelle** : Le modèle génère du texte cohérent syntaxiquement
3. **Vocabulaire adapté** : Taille raisonnable pour le domaine
4. **Fonctions corrigées** : Génération greedy et beam search opérationnelles

##### **Points Problématiques**
1. **Sous-apprentissage** : Loss trop basse suggère un overfitting
2. **Qualité générative faible** : BLEU score de 0 indique une mauvaise correspondance
3. **Données synthétiques** : 1,500 exemples identiques par émotion créent des biais
4. **Manque de diversité** : Le modèle répète les mêmes patterns

##### **Limitations Identifiées**
1. **Données d'entraînement** : Trop artificielles et répétitives
2. **Évaluation** : Métriques classiques peu adaptées au support client
3. **Contexte émotionnel** : Le modèle ne capture pas vraiment l'émotion d'entrée
4. **Post-processing** : Absence de nettoyage des tokens spéciaux

##  Recommandations d'Amélioration



### **1. Optimisation du Modèle**
```python
# Améliorations techniques
- Augmenter la complexité (attention, transformer)
- Régularisation (dropout, early stopping)
- Hyperparamètres (learning rate, batch size)
- Techniques de génération (top-k, nucleus sampling)
```

### **4. Post-processing**
```python
# Nettoyage et amélioration
- Filtrage des tokens spéciaux
- Correction grammaticale
- Adaptation au ton de l'entreprise
- Validation émotionnelle
```

#

## Essaie d'amélioration

In [None]:
# ============================================================================
# MODÈLE SEQ2SEQ AMÉLIORÉ - VERSION LÉGÈRE POUR PETIT PC (CORRIGÉE FINALE)
# ============================================================================

import torch
import torch.nn as nn
import torch.nn.functional as F
import pandas as pd
import numpy as np
from torch.utils.data import Dataset, DataLoader
from sklearn.model_selection import train_test_split
from collections import Counter
import nltk
from nltk.tokenize import word_tokenize
from torch.nn.utils.rnn import pad_sequence
import pickle
import math
from nltk.translate.bleu_score import sentence_bleu
from rouge import Rouge
import gc

# Télécharger NLTK si nécessaire
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')

# ============================================================================
# 1. ATTENTION MECHANISM SIMPLIFIÉ (CORRIGÉ)
# ============================================================================

class SimpleAttention(nn.Module):
    def __init__(self, hidden_dim):
        super().__init__()
        self.attention = nn.Linear(hidden_dim * 2, hidden_dim)
        self.v = nn.Linear(hidden_dim, 1, bias=False)
    
    def forward(self, decoder_hidden, encoder_outputs):
        seq_len = encoder_outputs.size(1)
        decoder_hidden = decoder_hidden.unsqueeze(1).expand(-1, seq_len, -1)
        
        energy = torch.tanh(self.attention(torch.cat((decoder_hidden, encoder_outputs), dim=2)))
        attention_weights = F.softmax(self.v(energy), dim=1)
        context = torch.sum(attention_weights * encoder_outputs, dim=1)
        return context

class LightSeq2SeqModel(nn.Module):
    def __init__(self, input_vocab_size, output_vocab_size, embedding_dim=128, hidden_dim=256, dropout=0.2):
        super().__init__()
        self.embedding_enc = nn.Embedding(input_vocab_size, embedding_dim)
        self.embedding_dec = nn.Embedding(output_vocab_size, embedding_dim)
        
        # Encoder léger (unidirectional)
        self.encoder = nn.LSTM(
            embedding_dim, hidden_dim, 
            num_layers=1, 
            batch_first=True,
            dropout=0
        )
        
        # Decoder avec attention
        self.decoder = nn.LSTM(
            embedding_dim + hidden_dim, hidden_dim,  # 128 + 256 = 384
            num_layers=1,
            batch_first=True
        )
        
        self.attention = SimpleAttention(hidden_dim)
        self.fc = nn.Linear(hidden_dim, output_vocab_size)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, src, tgt):
        batch_size = src.size(0)
        tgt_len = tgt.size(1)
        
        # Encoder
        embedded_src = self.dropout(self.embedding_enc(src))
        encoder_outputs, (h, c) = self.encoder(embedded_src)
        
        # Decoder avec attention
        embedded_tgt = self.dropout(self.embedding_dec(tgt))
        outputs = torch.zeros(batch_size, tgt_len, self.fc.out_features).to(src.device)
        
        for t in range(tgt_len):
            # Attention
            context = self.attention(h[-1], encoder_outputs)
            
            # Input du decoder (concaténation embedding + context)
            decoder_input = torch.cat((embedded_tgt[:, t:t+1], context.unsqueeze(1)), dim=2)
            
            # LSTM step
            output, (h, c) = self.decoder(decoder_input, (h, c))
            
            # Output
            output = self.dropout(output)
            outputs[:, t:t+1] = self.fc(output)
        
        return outputs

# ============================================================================
# 2. RÉGULARISATION ET UTILITAIRES
# ============================================================================

class EarlyStopping:
    def __init__(self, patience=5, min_delta=0.001):
        self.patience = patience
        self.min_delta = min_delta
        self.counter = 0
        self.best_loss = None
        
    def __call__(self, val_loss):
        if self.best_loss is None:
            self.best_loss = val_loss
        elif val_loss > self.best_loss - self.min_delta:
            self.counter += 1
            if self.counter >= self.patience:
                return True
        else:
            self.best_loss = val_loss
            self.counter = 0
        return False

def clear_memory():
    """Nettoyer la mémoire"""
    gc.collect()
    if torch.cuda.is_available():
        torch.cuda.empty_cache()

def reduce_dataset_size(df, max_samples_per_emotion=500):
    """Réduire le dataset pour économiser la mémoire"""
    reduced_data = []
    for emotion in df['emotion'].unique():
        emotion_data = df[df['emotion'] == emotion]
        if len(emotion_data) > max_samples_per_emotion:
            emotion_data = emotion_data.sample(n=max_samples_per_emotion, random_state=42)
        reduced_data.append(emotion_data)
    return pd.concat(reduced_data, ignore_index=True)

def prepare_data_for_training(df):
    """Préparer les données pour l'entraînement"""
    # Créer les séquences d'entrée et de sortie AVANT d'optimiser les types
    df["input_seq"] = df["emotion"].astype(str) + " [SEP] " + df["text_input"].astype(str)
    df["output_seq"] = "<start> " + df["text_output"].astype(str) + " <end>"
    
    # Maintenant on peut optimiser les types pour les autres colonnes
    for col in df.select_dtypes(include=['object']).columns:
        if col not in ['input_seq', 'output_seq']:  # Ne pas optimiser les colonnes de séquences
            df[col] = df[col].astype('category')
    
    return df

# ============================================================================
# 3. PRÉPARATION DES DONNÉES
# ============================================================================

def build_vocab(sentences, min_freq=1):
    """Construire le vocabulaire"""
    counter = Counter()
    for sentence in sentences:
        counter.update(word_tokenize(sentence.lower()))
    vocab = {"<pad>": 0, "<unk>": 1}
    for word, freq in counter.items():
        if freq >= min_freq:
            vocab[word] = len(vocab)
    return vocab

def encode_sentence(sentence, vocab):
    """Encoder une phrase avec le vocabulaire"""
    return [vocab.get(tok, vocab["<unk>"]) for tok in word_tokenize(sentence.lower())]

def pad_input(input_seq, max_len=30):
    """Padding des séquences"""
    if len(input_seq) < max_len:
        padding = [0] * (max_len - len(input_seq))
        input_seq.extend(padding)
    else:
        input_seq = input_seq[:max_len]
    return input_seq

class EmotionDataset(Dataset):
    def __init__(self, inputs, targets):
        self.inputs = inputs
        self.targets = targets
    
    def __len__(self):
        return len(self.inputs)
    
    def __getitem__(self, idx):
        return self.inputs[idx], self.targets[idx]

# ============================================================================
# 4. TECHNIQUES DE GÉNÉRATION (CORRIGÉES FINALES)
# ============================================================================

def simple_sampling(logits, method='greedy', k=10, p=0.8):
    """Sampling simplifié pour la génération"""
    if method == 'greedy':
        return torch.argmax(logits, dim=-1)
    elif method == 'top_k':
        top_k_logits, top_k_indices = torch.topk(logits, min(k, logits.size(-1)), dim=-1)
        probs = F.softmax(top_k_logits, dim=-1)
        sampled_indices = torch.multinomial(probs, 1)
        return top_k_indices.gather(-1, sampled_indices)
    elif method == 'nucleus':
        sorted_logits, sorted_indices = torch.sort(logits, descending=True)
        cumulative_probs = torch.cumsum(F.softmax(sorted_logits, dim=-1), dim=-1)
        sorted_indices_to_remove = cumulative_probs > p
        sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1].clone()
        sorted_indices_to_remove[..., 0] = 0
        
        indices_to_remove = sorted_indices_to_remove.scatter(1, sorted_indices, sorted_indices_to_remove)
        logits[indices_to_remove] = float('-inf')
        probs = F.softmax(logits, dim=-1)
        return torch.multinomial(probs, 1)

def generate_response_light(model, input_text, input_vocab, output_vocab, 
                          max_len=30, method='nucleus'):
    """Génération de réponse avec le modèle léger (CORRIGÉE FINALE)"""
    model.eval()
    device = next(model.parameters()).device
    
    # Encodage
    input_seq = encode_sentence(input_text, input_vocab)
    input_seq = pad_input(input_seq, max_len)
    input_tensor = torch.LongTensor([input_seq]).to(device)
    
    with torch.no_grad():
        # Encoder
        embedded_src = model.embedding_enc(input_tensor)
        encoder_outputs, (h, c) = model.encoder(embedded_src)
        
        # Decoder avec attention
        start_token = output_vocab.get('<start>', 0)
        end_token = output_vocab.get('<end>', 1)
        current_token = torch.LongTensor([[start_token]]).to(device)
        
        generated_tokens = []
        
        for _ in range(max_len):
            # CORRECTION FINALE : Utiliser la même logique que dans forward()
            embedded_tgt = model.embedding_dec(current_token)  # [1, 1, embedding_dim]
            
            # Attention
            context = model.attention(h[-1], encoder_outputs)  # [1, hidden_dim]
            
            # CORRECTION : S'assurer que les dimensions sont cohérentes
            # embedded_tgt: [1, 1, embedding_dim]
            # context: [1, hidden_dim] -> [1, 1, hidden_dim]
            context_expanded = context.unsqueeze(1)  # [1, 1, hidden_dim]
            
            # Input du decoder (concaténation embedding + context)
            decoder_input = torch.cat((embedded_tgt, context_expanded), dim=2)
            
            # LSTM step
            output, (h, c) = model.decoder(decoder_input, (h, c))
            logits = model.fc(output[:, -1, :])
            
            predicted_token = simple_sampling(logits, method)
            predicted_id = predicted_token.item()
            
            if predicted_id == end_token:
                break
                
            generated_tokens.append(predicted_id)
            current_token = predicted_token.unsqueeze(0)
    
    # Décodage
    inv_vocab = {v: k for k, v in output_vocab.items()}
    decoded_words = [inv_vocab.get(tok, '') for tok in generated_tokens]
    return ' '.join(decoded_words)

# ============================================================================
# 5. MÉTRIQUES S3 (BLEU, ROUGE, PERPLEXITY)
# ============================================================================

def compute_bleu(reference, generated):
    """Calculer le score BLEU"""
    ref_tokens = reference.lower().split()
    gen_tokens = generated.lower().split()
    return sentence_bleu([ref_tokens], gen_tokens)

def compute_rouge(reference, generated):
    """Calculer les scores ROUGE"""
    rouge = Rouge()
    try:
        return rouge.get_scores(generated, reference)[0]
    except:
        return {'rouge-1': {'f': 0.0}, 'rouge-2': {'f': 0.0}, 'rouge-l': {'f': 0.0}}

def compute_perplexity(model, input_seq, target_seq):
    """Calculer la perplexité"""
    model.eval()
    device = next(model.parameters()).device
    
    input_tensor = torch.LongTensor([input_seq]).to(device)
    target_tensor = torch.LongTensor([target_seq]).to(device)
    
    decoder_input = target_tensor[:, :-1]
    target_output = target_tensor[:, 1:]
    
    with torch.no_grad():
        logits = model(input_tensor, decoder_input)
        logits = logits.view(-1, logits.shape[-1])
        target_output = target_output.view(-1)
        loss = F.cross_entropy(logits, target_output, ignore_index=0)
    
    return math.exp(loss.item())

def evaluate_model_s3(model, test_data, input_vocab, output_vocab, max_samples=100):
    """Évaluation complète avec métriques S3"""
    model.eval()
    
    bleu_scores = []
    rouge_scores = []
    perplexity_scores = []
    
    # Limiter le nombre d'échantillons pour éviter la surcharge mémoire
    test_samples = test_data.sample(min(len(test_data), max_samples), random_state=42)
    
    for idx, row in test_samples.iterrows():
        input_text = row['input_seq']
        reference_output = row['output_seq'].replace('<start> ', '').replace(' <end>', '')
        
        try:
            # Génération
            generated = generate_response_light(model, input_text, input_vocab, output_vocab)
            
            # Métriques
            bleu = compute_bleu(reference_output, generated)
            rouge = compute_rouge(reference_output, generated)
            
            # Perplexité
            input_seq = encode_sentence(input_text, input_vocab)
            input_seq = pad_input(input_seq, 30)
            reference_seq = encode_sentence(row['output_seq'], output_vocab)
            perplexity = compute_perplexity(model, input_seq, reference_seq)
            
            bleu_scores.append(bleu)
            rouge_scores.append(rouge)
            perplexity_scores.append(perplexity)
            
        except Exception as e:
            print(f"Erreur lors de l'évaluation de l'échantillon {idx}: {e}")
            continue
    
    # Calcul des moyennes
    avg_bleu = np.mean(bleu_scores) if bleu_scores else 0.0
    avg_rouge_1 = np.mean([r['rouge-1']['f'] for r in rouge_scores]) if rouge_scores else 0.0
    avg_rouge_2 = np.mean([r['rouge-2']['f'] for r in rouge_scores]) if rouge_scores else 0.0
    avg_rouge_l = np.mean([r['rouge-l']['f'] for r in rouge_scores]) if rouge_scores else 0.0
    avg_perplexity = np.mean(perplexity_scores) if perplexity_scores else float('inf')
    
    return {
        'BLEU': avg_bleu,
        'ROUGE-1': avg_rouge_1,
        'ROUGE-2': avg_rouge_2,
        'ROUGE-L': avg_rouge_l,
        'Perplexity': avg_perplexity,
        'n_samples': len(bleu_scores)
    }

# ============================================================================
# 6. PIPELINE D'ENTRAÎNEMENT COMPLET
# ============================================================================

def train_model_light(model, train_loader, val_loader, config):
    """Entraînement du modèle léger"""
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model = model.to(device)
    
    criterion = nn.CrossEntropyLoss(ignore_index=0)
    optimizer = torch.optim.Adam(model.parameters(), lr=config['learning_rate'])
    scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, patience=2)
    early_stopping = EarlyStopping(patience=5)
    
    best_val_loss = float('inf')
    training_history = {'train_loss': [], 'val_loss': []}
    
    print(f"Entraînement sur {device}")
    print(f"Configuration: {config}")
    
    for epoch in range(config['epochs']):
        # Training
        model.train()
        train_loss = 0
        for batch_x, batch_y in train_loader:
            batch_x, batch_y = batch_x.to(device), batch_y.to(device)
            
            optimizer.zero_grad()
            decoder_input = batch_y[:, :-1]
            target = batch_y[:, 1:]
            
            output = model(batch_x, decoder_input)
            output = output.reshape(-1, output.shape[2])
            target = target.reshape(-1)
            
            loss = criterion(output, target)
            loss.backward()
            
            # Gradient clipping
            torch.nn.utils.clip_grad_norm_(model.parameters(), config['gradient_clip'])
            
            optimizer.step()
            train_loss += loss.item()
        
        # Validation (moins fréquente)
        if epoch % 2 == 0:
            model.eval()
            val_loss = 0
            with torch.no_grad():
                for batch_x, batch_y in val_loader:
                    batch_x, batch_y = batch_x.to(device), batch_y.to(device)
                    decoder_input = batch_y[:, :-1]
                    target = batch_y[:, 1:]
                    
                    output = model(batch_x, decoder_input)
                    output = output.reshape(-1, output.shape[2])
                    target = target.reshape(-1)
                    
                    loss = criterion(output, target)
                    val_loss += loss.item()
            
            avg_train_loss = train_loss / len(train_loader)
            avg_val_loss = val_loss / len(val_loader)
            
            training_history['train_loss'].append(avg_train_loss)
            training_history['val_loss'].append(avg_val_loss)
            
            scheduler.step(avg_val_loss)
            
            # Early stopping
            if early_stopping(avg_val_loss):
                print("Early stopping triggered")
                break
            
            # Save best model
            if avg_val_loss < best_val_loss:
                best_val_loss = avg_val_loss
                torch.save(model.state_dict(), "best_model_light.pt")
                print(f"Meilleur modèle sauvegardé (Val Loss: {avg_val_loss:.4f})")
        
        # Logging
        if epoch % 5 == 0:
            avg_train_loss = train_loss / len(train_loader)
            print(f"Epoch {epoch+1}/{config['epochs']}, Train Loss: {avg_train_loss:.4f}")
    
    return best_val_loss, training_history

# ============================================================================
# 7. FONCTION PRINCIPALE POUR LE NOTEBOOK
# ============================================================================

def run_improved_model_pipeline():
    """Pipeline complet pour le notebook"""
    print("🚀 Démarrage du pipeline d'amélioration du modèle")
    
    # Configuration légère
    LIGHT_CONFIG = {
        'embedding_dim': 128,
        'hidden_dim': 256,
        'dropout': 0.2,
        'learning_rate': 0.001,
        'batch_size': 32,
        'epochs': 20,
        'gradient_clip': 1.0,
        'max_len': 30
    }
    
    # 1. Chargement et préparation des données
    print("\n📊 1. Chargement des données...")
    df = pd.read_csv("../data/emotion_datasets/emo_reviews.csv")
    df = reduce_dataset_size(df, max_samples_per_emotion=500)  # Réduire la taille
    
    # Préparation des données
    df = prepare_data_for_training(df)
    
    print(f"   ✓ Dataset réduit: {len(df)} échantillons")
    
    # 2. Construction des vocabulaires
    print("\n🔤 2. Construction des vocabulaires...")
    input_vocab = build_vocab(df["input_seq"])
    output_vocab = build_vocab(df["output_seq"])
    
    print(f"   ✓ Input vocab: {len(input_vocab)} tokens")
    print(f"   ✓ Output vocab: {len(output_vocab)} tokens")
    
    # 3. Tokenisation et encodage
    print("\n⚙️ 3. Tokenisation et encodage...")
    MAX_LEN = LIGHT_CONFIG['max_len']
    
    X = [torch.tensor(encode_sentence(s, input_vocab))[:MAX_LEN] for s in df["input_seq"]]
    y = [torch.tensor(encode_sentence(s, output_vocab))[:MAX_LEN] for s in df["output_seq"]]
    
    X_pad = pad_sequence(X, batch_first=True, padding_value=0)
    y_pad = pad_sequence(y, batch_first=True, padding_value=0)
    
    # 4. Split train/validation
    X_train, X_val, y_train, y_val = train_test_split(X_pad, y_pad, test_size=0.1, random_state=42)
    
    train_dataset = EmotionDataset(X_train, y_train)
    val_dataset = EmotionDataset(X_val, y_val)
    
    train_loader = DataLoader(train_dataset, batch_size=LIGHT_CONFIG['batch_size'], shuffle=True)
    val_loader = DataLoader(val_dataset, batch_size=LIGHT_CONFIG['batch_size'], shuffle=False)
    
    print(f"   ✓ Train: {len(train_dataset)} échantillons")
    print(f"   ✓ Validation: {len(val_dataset)} échantillons")
    
    # 5. Création et entraînement du modèle
    print("\n🧠 4. Création et entraînement du modèle...")
    model = LightSeq2SeqModel(
        input_vocab_size=len(input_vocab),
        output_vocab_size=len(output_vocab),
        embedding_dim=LIGHT_CONFIG['embedding_dim'],
        hidden_dim=LIGHT_CONFIG['hidden_dim'],
        dropout=LIGHT_CONFIG['dropout']
    )
    
    best_loss, training_history = train_model_light(model, train_loader, val_loader, LIGHT_CONFIG)
    
    # 6. Sauvegarde du modèle et des vocabulaires
    print("\n💾 5. Sauvegarde...")
    torch.save(model.state_dict(), "improved_emotion_seq2seq_lstm.pt")
    
    with open("improved_input_vocab.pkl", "wb") as f:
        pickle.dump(input_vocab, f)
    with open("improved_output_vocab.pkl", "wb") as f:
        pickle.dump(output_vocab, f)
    
    print("   ✓ Modèle et vocabulaires sauvegardés")
    
    # 7. Test de génération
    print("\n🎯 6. Test de génération...")
    input_text = "anger [SEP] Ce service est scandaleux !"
    reference_output = "Je comprends votre frustration. Nous allons vous aider au plus vite."
    
    generated_greedy = generate_response_light(model, input_text, input_vocab, output_vocab, method='greedy')
    generated_nucleus = generate_response_light(model, input_text, input_vocab, output_vocab, method='nucleus')
    
    print(f"   Input: {input_text}")
    print(f"   Reference: {reference_output}")
    print(f"   Generated (Greedy): {generated_greedy}")
    print(f"   Generated (Nucleus): {generated_nucleus}")
    
    # 8. Évaluation avec métriques S3
    print("\n 7. Évaluation avec métriques S3...")
    test_df = df.sample(min(100, len(df)), random_state=42)  # Échantillon de test
    s3_metrics = evaluate_model_s3(model, test_df, input_vocab, output_vocab, max_samples=50)
    
    print("   Métriques S3:")
    print(f"   - BLEU: {s3_metrics['BLEU']:.4f}")
    print(f"   - ROUGE-1: {s3_metrics['ROUGE-1']:.4f}")
    print(f"   - ROUGE-2: {s3_metrics['ROUGE-2']:.4f}")
    print(f"   - ROUGE-L: {s3_metrics['ROUGE-L']:.4f}")
    print(f"   - Perplexity: {s3_metrics['Perplexity']:.2f}")
    print(f"   - Échantillons évalués: {s3_metrics['n_samples']}")
    
    # 9. Nettoyage mémoire
    print("\n🧹 8. Nettoyage mémoire...")
    clear_memory()
    
    print("\n✅ Pipeline terminé avec succès!")
    
    return {
        'model': model,
        'input_vocab': input_vocab,
        'output_vocab': output_vocab,
        'config': LIGHT_CONFIG,
        'training_history': training_history,
        's3_metrics': s3_metrics,
        'generated_examples': {
            'greedy': generated_greedy,
            'nucleus': generated_nucleus
        }
    }

# ============================================================================
# 8. FONCTIONS DE CHARGEMENT POUR RÉUTILISATION
# ============================================================================

def load_improved_model():
    """Charger le modèle amélioré sauvegardé"""
    with open("improved_input_vocab.pkl", "rb") as f:
        input_vocab = pickle.load(f)
    with open("improved_output_vocab.pkl", "rb") as f:
        output_vocab = pickle.load(f)
    
    model = LightSeq2SeqModel(
        input_vocab_size=len(input_vocab),
        output_vocab_size=len(output_vocab),
        embedding_dim=128,
        hidden_dim=256,
        dropout=0.2
    )
    
    model.load_state_dict(torch.load("improved_emotion_seq2seq_lstm.pt"))
    return model, input_vocab, output_vocab

def test_loaded_model():
    """Tester le modèle chargé"""
    model, input_vocab, output_vocab = load_improved_model()
    model.eval()
    
    input_text = "joy [SEP] Je suis très content de votre service !"
    generated = generate_response_light(model, input_text, input_vocab, output_vocab, method='nucleus')
    
    print(f"Test du modèle chargé:")
    print(f"Input: {input_text}")
    print(f"Generated: {generated}")
    
    return generated

# ============================================================================
# EXÉCUTION POUR LE NOTEBOOK
# ============================================================================

# Exécuter le pipeline complet
print("🚀 Démarrage du pipeline d'amélioration du modèle")
results = run_improved_model_pipeline()

# Afficher un résumé
print("\n" + "="*60)
print("📊 RÉSUMÉ DES RÉSULTATS")
print("="*60)
print(f"BLEU Score: {results['s3_metrics']['BLEU']:.4f}")
print(f"ROUGE-1 F1: {results['s3_metrics']['ROUGE-1']:.4f}")
print(f"ROUGE-2 F1: {results['s3_metrics']['ROUGE-2']:.4f}")
print(f"ROUGE-L F1: {results['s3_metrics']['ROUGE-L']:.4f}")
print(f"Perplexity: {results['s3_metrics']['Perplexity']:.2f}")
print(f"Configuration utilisée: {results['config']}")
print("="*60)

🚀 Démarrage du pipeline d'amélioration du modèle
🚀 Démarrage du pipeline d'amélioration du modèle

📊 1. Chargement des données...
   ✓ Dataset réduit: 14000 échantillons

🔤 2. Construction des vocabulaires...
   ✓ Input vocab: 290 tokens
   ✓ Output vocab: 46 tokens

⚙️ 3. Tokenisation et encodage...
   ✓ Train: 12600 échantillons
   ✓ Validation: 1400 échantillons

🧠 4. Création et entraînement du modèle...
Entraînement sur cuda
Configuration: {'embedding_dim': 128, 'hidden_dim': 256, 'dropout': 0.2, 'learning_rate': 0.001, 'batch_size': 32, 'epochs': 20, 'gradient_clip': 1.0, 'max_len': 30}
Meilleur modèle sauvegardé (Val Loss: 0.0087)
Epoch 1/20, Train Loss: 0.2426
Meilleur modèle sauvegardé (Val Loss: 0.0003)
Meilleur modèle sauvegardé (Val Loss: 0.0001)
Epoch 6/20, Train Loss: 0.0001
Meilleur modèle sauvegardé (Val Loss: 0.0001)
Meilleur modèle sauvegardé (Val Loss: 0.0000)
Meilleur modèle sauvegardé (Val Loss: 0.0000)
Epoch 11/20, Train Loss: 0.0000
Early stopping triggered

💾 5.

RuntimeError: Tensors must have same number of dimensions: got 4 and 3

In [14]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from nltk.tokenize import word_tokenize
from nltk.translate.bleu_score import sentence_bleu
from rouge import Rouge
import math
import pickle

# Fonction de padding PyTorch custom corrigée
def pad_input(input_seq, max_len=30):
    if len(input_seq) < max_len:
        padding = [0] * (max_len - len(input_seq))
        input_seq.extend(padding)
    else:
        input_seq = input_seq[:max_len]
    return input_seq

# Fonction d'encodage pour utiliser avec nos vocabulaires
def encode_sentence(sentence, vocab):
    return [vocab.get(tok, vocab["<unk>"]) for tok in word_tokenize(sentence.lower())]

# Fonction Greedy corrigée
def generate_response_greedy(model, input_text, input_vocab, output_vocab, max_len=30):
    model.eval()
    device = next(model.parameters()).device

    # Encodage avec notre vocabulaire personnalisé
    input_seq = encode_sentence(input_text, input_vocab)
    input_seq = pad_input(input_seq, max_len)
    input_tensor = torch.LongTensor([input_seq]).to(device)

    with torch.no_grad():
        enc_emb = model.embedding_enc(input_tensor)
        _, (h, c) = model.encoder(enc_emb)

        # Utilisation des tokens spéciaux de notre vocabulaire
        start_token = output_vocab.get('<start>', 0)
        end_token = output_vocab.get('<end>', 1)
        current_token = torch.LongTensor([[start_token]]).to(device)

        generated_tokens = []

        for _ in range(max_len):
            dec_emb = model.embedding_dec(current_token)
            output, (h, c) = model.decoder(dec_emb, (h, c))
            logits = model.fc(output[:, -1, :])
            predicted_token = torch.argmax(logits, dim=-1)
            predicted_id = predicted_token.item()

            if predicted_id == end_token:
                break

            generated_tokens.append(predicted_id)
            current_token = predicted_token.unsqueeze(0)

    # Décodage avec notre vocabulaire
    inv_vocab = {v: k for k, v in output_vocab.items()}
    decoded_words = [inv_vocab.get(tok, '') for tok in generated_tokens]
    return ' '.join(decoded_words)

# Fonction Beam Search corrigée
def generate_response_beam(model, input_text, input_vocab, output_vocab, max_len=30, beam_width=3):
    model.eval()
    device = next(model.parameters()).device

    # Encodage avec notre vocabulaire personnalisé
    input_seq = encode_sentence(input_text, input_vocab)
    input_seq = pad_input(input_seq, max_len)
    input_tensor = torch.LongTensor([input_seq]).to(device)

    with torch.no_grad():
        enc_emb = model.embedding_enc(input_tensor)
        _, (h, c) = model.encoder(enc_emb)

        # Utilisation des tokens spéciaux de notre vocabulaire
        start_token = output_vocab.get('<start>', 0)
        end_token = output_vocab.get('<end>', 1)

        sequences = [[list(), 0.0, h, c]]

        for _ in range(max_len):
            all_candidates = []
            for seq, score, h, c in sequences:
                if seq and seq[-1] == end_token:
                    all_candidates.append((seq, score, h, c))
                    continue
                current_token = torch.LongTensor([[seq[-1]] if seq else [start_token]]).to(device)
                dec_emb = model.embedding_dec(current_token)
                output, (h_new, c_new) = model.decoder(dec_emb, (h, c))
                logits = model.fc(output[:, -1, :])
                probs = F.log_softmax(logits, dim=-1)
                topk_probs, topk_idxs = torch.topk(probs, beam_width)

                for i in range(beam_width):
                    candidate = seq + [topk_idxs[0, i].item()]
                    candidate_score = score + topk_probs[0, i].item()
                    all_candidates.append((candidate, candidate_score, h_new, c_new))

            sequences = sorted(all_candidates, key=lambda tup: tup[1], reverse=True)[:beam_width]

        best_seq = sequences[0][0]
        inv_vocab = {v: k for k, v in output_vocab.items()}
        decoded_words = [inv_vocab.get(tok, '') for tok in best_seq if tok != end_token]
        return ' '.join(decoded_words)

# Fonctions d'évaluation
def compute_bleu(reference, generated):
    ref_tokens = reference.lower().split()
    gen_tokens = generated.lower().split()
    return sentence_bleu([ref_tokens], gen_tokens)

# ROUGE
rouge = Rouge()
def compute_rouge(reference, generated):
    return rouge.get_scores(generated, reference)[0]

# Perplexité (approximée)
def compute_perplexity(model, input_seq, target_seq):
    model.eval()
    device = next(model.parameters()).device

    input_tensor = torch.LongTensor([input_seq]).to(device)
    target_tensor = torch.LongTensor([target_seq]).to(device)

    decoder_input = target_tensor[:, :-1]
    target_output = target_tensor[:, 1:]

    with torch.no_grad():
        logits = model(input_tensor, decoder_input)
        logits = logits.view(-1, logits.shape[-1])
        target_output = target_output.view(-1)
        loss = F.cross_entropy(logits, target_output, ignore_index=0)

    return math.exp(loss.item())

print("✅ Fonctions de génération corrigées chargées !")

# ============================================================================
# TEST COMPLET AVEC VOTRE MODÈLE
# ============================================================================

# Ajoutez cette cellule pour tester

def test_complet():
    print("=== Test complet des fonctions de génération ===\n")
    
    try:
        # 1. Charger les vocabulaires
        print("1. Chargement des vocabulaires...")
        with open("input_vocab.pkl", "rb") as f:
            input_vocab = pickle.load(f)
        with open("output_vocab.pkl", "rb") as f:
            output_vocab = pickle.load(f)
        print(f"   ✓ Input vocab size: {len(input_vocab)}")
        print(f"   ✓ Output vocab size: {len(output_vocab)}")
        
        # 2. Charger le modèle
        print("\n2. Chargement du modèle...")
        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        model = Seq2SeqModel(len(input_vocab), len(output_vocab)).to(device)
        model.load_state_dict(torch.load("emotion_seq2seq_lstm_pytorch.pt"))
        print(f"   ✓ Modèle chargé sur {device}")
        
        # 3. Test de génération
        print("\n3. Test de génération...")
        input_text = "anger [SEP] Ce service est scandaleux !"
        reference_output = "Je comprends votre frustration. Nous allons vous aider au plus vite."
        
        print(f"   Input: {input_text}")
        print(f"   Reference: {reference_output}")
        
        # Génération greedy
        gen_greedy = generate_response_greedy(model, input_text, input_vocab, output_vocab)
        print(f"   Generated (Greedy): {gen_greedy}")
        
        # Génération beam search
        gen_beam = generate_response_beam(model, input_text, input_vocab, output_vocab)
        print(f"   Generated (Beam): {gen_beam}")
        
        # 4. Évaluation
        print("\n4. Évaluation...")
        bleu_score = compute_bleu(reference_output, gen_greedy)
        rouge_score = compute_rouge(reference_output, gen_greedy)
        
        print(f"   BLEU: {bleu_score:.4f}")
        print(f"   ROUGE: {rouge_score}")
        
        # 5. Test avec différentes émotions
        print("\n5. Test avec différentes émotions...")
        emotions_test = ["joy", "sadness", "fear", "anger"]
        
        for emotion in emotions_test:
            test_input = f"{emotion} [SEP] Test message"
            gen = generate_response_greedy(model, test_input, input_vocab, output_vocab)
            print(f"   {emotion}: {gen}")
        
        print("\n✅ Test complet réussi !")
        
    except FileNotFoundError as e:
        print(f"❌ Erreur: Fichier non trouvé - {e}")
        print("   Assurez-vous que les fichiers input_vocab.pkl, output_vocab.pkl et emotion_seq2seq_lstm_pytorch.pt existent.")
        
    except Exception as e:
        print(f"❌ Erreur: {e}")
        print("   Vérifiez que tous les fichiers nécessaires sont présents.")

# Exécutez cette fonction pour tester
test_complet() 

✅ Fonctions de génération corrigées chargées !
=== Test complet des fonctions de génération ===

1. Chargement des vocabulaires...
   ✓ Input vocab size: 290
   ✓ Output vocab size: 46

2. Chargement du modèle...
   ✓ Modèle chargé sur cuda

3. Test de génération...
   Input: anger [SEP] Ce service est scandaleux !
   Reference: Je comprends votre frustration. Nous allons vous aider au plus vite.
   Generated (Greedy): start > merci pour votre message concernant confusion . nous allons vous répondre au mieux . < end > merci pour votre message concernant grief . nous allons vous répondre
   Generated (Beam): start > merci pour votre message concernant confusion . nous allons vous répondre au mieux . < end > merci pour votre message concernant grief . nous allons vous répondre

4. Évaluation...
   BLEU: 0.0000
   ROUGE: {'rouge-1': {'r': 0.36363636363636365, 'p': 0.23529411764705882, 'f': 0.28571428094387763}, 'rouge-2': {'r': 0.1, 'p': 0.05555555555555555, 'f': 0.071428566836735}, 'roug

  model.load_state_dict(torch.load("emotion_seq2seq_lstm_pytorch.pt"))
The hypothesis contains 0 counts of 4-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


# Autres modeles GPT2 


In [16]:
!pip install transformers datasets sentencepiece


Collecting sentencepiece
  Downloading sentencepiece-0.2.0-cp310-cp310-win_amd64.whl.metadata (8.3 kB)
Collecting huggingface-hub<1.0,>=0.19.3 (from transformers)
  Using cached huggingface_hub-0.33.2-py3-none-any.whl.metadata (14 kB)
Using cached huggingface_hub-0.33.2-py3-none-any.whl (515 kB)
Downloading sentencepiece-0.2.0-cp310-cp310-win_amd64.whl (991 kB)
   ---------------------------------------- 0.0/991.5 kB ? eta -:--:--
   ------------------------------- -------- 786.4/991.5 kB 5.6 MB/s eta 0:00:01
   ---------------------------------------- 991.5/991.5 kB 3.6 MB/s eta 0:00:00
Installing collected packages: sentencepiece, huggingface-hub

  Attempting uninstall: huggingface-hub

    Found existing installation: huggingface-hub 0.23.1

    Uninstalling huggingface-hub-0.23.1:

      Successfully uninstalled huggingface-hub-0.23.1

   -------------------- ------------------- 1/2 [huggingface-hub]
   -------------------- ------------------- 1/2 [huggingface-hub]
   ------------

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
sentence-transformers 5.0.0 requires transformers<5.0.0,>=4.41.0, but you have transformers 4.40.1 which is incompatible.


In [17]:
from transformers import GPT2Tokenizer, GPT2LMHeadModel
import torch

# 1. Load model & tokenizer
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
tokenizer.pad_token = tokenizer.eos_token  # Required for batching
model = GPT2LMHeadModel.from_pretrained("gpt2").to("cuda")

# 2. Define prompt
emotion = "anger"
input_text = "Ce service est scandaleux !"
prompt = f"Emotion: {emotion} | Message: {input_text} | Réponse:"

# 3. Tokenize input
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

# 4. Generate
output = model.generate(
    **inputs,
    max_new_tokens=50,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    temperature=0.9,
    num_return_sequences=1
)

# 5. Decode
response = tokenizer.decode(output[0], skip_special_tokens=True)
print("🗣️ Généré:", response.replace(prompt, "").strip())




tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


🗣️ Généré: Emotion: anger | Message: Ce service est scandaleux! | Réponse: te cette près à ceux lassée | Message: c'est jusqu'il monde : d'un rapport l'appel de mots qui étaient : si ne était pas que la


In [20]:
!pip install transformers nltk rouge-score --quiet






In [25]:

import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge_score import rouge_scorer
import math
import pandas as pd

# === Chargement du modèle ===
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
tokenizer.pad_token = tokenizer.eos_token
model = GPT2LMHeadModel.from_pretrained("gpt2").to("cuda")

# === Référence & prompt ===
emotion = "anger"
input_text = "Ce service est scandaleux !"
prompt = f"Emotion: {emotion} | Message: {input_text} | Réponse:"
reference = "Je comprends votre frustration. Nous prenons en charge votre demande dans les plus brefs délais."

# === Hyperparamètres à tester ===
temperatures = [0.7, 0.9, 1.2]
top_ks = [20, 50]
top_ps = [0.8, 0.95]
max_tokens_list = [30, 50]

# === Scorers ===
scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
smoothie = SmoothingFunction().method4

# === Benchmarking ===
results = []

for temp in temperatures:
    for top_k in top_ks:
        for top_p in top_ps:
            for max_tok in max_tokens_list:
                inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

                output_ids = model.generate(
                    **inputs,
                    do_sample=True,
                    top_k=top_k,
                    top_p=top_p,
                    temperature=temp,
                    max_new_tokens=max_tok,
                    num_return_sequences=1
                )

                output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True).replace(prompt, "").strip()

                # BLEU
                bleu = sentence_bleu([reference.split()], output_text.split(), smoothing_function=smoothie)

                # ROUGE
                rouge = scorer.score(reference, output_text)

                # Perplexity
                encodings = tokenizer(output_text, return_tensors="pt")
                input_ids = encodings.input_ids.to("cuda")
                with torch.no_grad():
                    loss = model(input_ids, labels=input_ids).loss
                perplexity = math.exp(loss.item()) if loss.item() < 100 else float('inf')

                results.append({
                    "output": output_text,
                    "temperature": temp,
                    "top_k": top_k,
                    "top_p": top_p,
                    "max_new_tokens": max_tok,
                    "bleu": round(bleu, 4),
                    "rouge-1": round(rouge['rouge1'].fmeasure, 4),
                    "rouge-2": round(rouge['rouge2'].fmeasure, 4),
                    "rouge-L": round(rouge['rougeL'].fmeasure, 4),
                    "perplexity": round(perplexity, 4)
                })

# === Résultats sous forme de DataFrame ===
df_results = pd.DataFrame(results)
pd.set_option("display.max_colwidth", None)
print(df_results.sort_values(by="bleu", ascending=False).reset_index(drop=True))


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end gene

                                                                                                                                                                                                                                    output  \
0                                                   Emotion: anger | Message: Ce service est scandaleux! | Réponse: était en déclarement, ces compte dans les autres et été parle été parle à la téléphonic de l'éducation des été parle a   
1                                                                                            Emotion: anger | Message: Ce service est scandaleux! | Réponse: dans l'université de l'honneur et l'honneur des électories de l'électories en   
2                                                                  Emotion: anger | Message: Ce service est scandaleux! | Réponse: Le jeunesse des seux pour une service en équipé du service de nombre sur la service dans cette service!   
3                                               

In [27]:
print(df_results[["temperature", "top_k", "top_p", "max_new_tokens", "bleu", "rouge-1", "rouge-2", "rouge-L", "perplexity", "output"]])


    temperature  top_k  top_p  max_new_tokens    bleu  rouge-1  rouge-2  \
0           0.7     20   0.80              30  0.0000   0.0000   0.0000   
1           0.7     20   0.80              50  0.0000   0.0000   0.0000   
2           0.7     20   0.95              30  0.0149   0.1000   0.0000   
3           0.7     20   0.95              50  0.0063   0.0571   0.0000   
4           0.7     50   0.80              30  0.0000   0.0500   0.0000   
5           0.7     50   0.80              50  0.0000   0.0000   0.0000   
6           0.7     50   0.95              30  0.0000   0.0000   0.0000   
7           0.7     50   0.95              50  0.0084   0.0435   0.0000   
8           0.9     20   0.80              30  0.0000   0.0000   0.0000   
9           0.9     20   0.80              50  0.0070   0.1143   0.0000   
10          0.9     20   0.95              30  0.0000   0.0000   0.0000   
11          0.9     20   0.95              50  0.0214   0.1600   0.0417   
12          0.9     50   

# Analyse du Benchmark de Génération GPT-2

## Contexte

- **Prompt testé :** `Emotion: anger | Message: Ce service est scandaleux !`
- **Modèle utilisé :** GPT2
- **Objectif :** Générer une réponse empathique en fonction de l'émotion via prompting
- **Métriques analysées :** BLEU, ROUGE-1, ROUGE-2, avec variations sur `temperature`, `top_k`, `top_p`, `max_new_tokens`

## Observations Clés

| Paramètre          | Impact |
|--------------------|--------|
| **Temperature**    | Des températures entre `0.8` et `1.0` semblent générer un contenu plus varié, avec de meilleurs scores BLEU et ROUGE. En revanche, à `1.2`, les générations deviennent plus erratiques voire non cohérentes. |
| **top_k / top_p**  | Des valeurs `top_k = 50` et `top_p = 0.95` donnent de meilleurs résultats, surtout combinées avec des températures modérées. Des `top_k = 20` limitent parfois trop la diversité. |
| **max_new_tokens** | Des séquences de 50 tokens permettent des réponses plus complètes, ce qui améliore légèrement les scores ROUGE. |

## Meilleures Configurations Repérées

- `temperature = 0.9`, `top_k = 50`, `top_p = 0.95`, `max_new_tokens = 50`
  - **ROUGE-1 ≈ 0.16**
  - **BLEU ≈ 0.021**

C’est le meilleur score observé, mais cela reste faible. Le modèle GPT-2 vanilla a du mal à générer des réponses adaptées sans fine-tuning.

## Limites Identifiées

- **BLEU = 0.0 dans la majorité des cas** : Le modèle n’aligne pas bien ses réponses avec la référence, même s’il reste parfois dans le thème.
- **Réponses incohérentes** : certaines générations contiennent des phrases en anglais ou hors sujet, malgré un prompting en français clair.
- **Réponses trop génériques ou recyclées** : manque de spécialisation du modèle pour la tâche ciblée.

## Recommandations

- Fine-tuner GPT-2 ou utiliser un modèle T5/BART sur ton propre CSV pour améliorer la pertinence.
- Utiliser une stratégie de reranking ou filtrage sémantique post-génération pour améliorer la qualité finale.
- Ajouter la perplexité moyenne à l’analyse pour identifier les sorties les plus fiables.


# Fine-tuning de GPT-2

In [28]:
def prepare_gpt2_dataset(df):
    return [
        f"Emotion: {row['emotion']} | Message: {row['text_input']} | Réponse: {row['text_output']}"
        for _, row in df.iterrows()
    ]


In [31]:
from transformers import GPT2Tokenizer, GPT2LMHeadModel, Trainer, TrainingArguments, TextDataset, DataCollatorForLanguageModeling
import torch
import pandas as pd

# Chargement des données
df = pd.read_csv("../data/emotion_datasets/emo_reviews.csv")
texts = prepare_gpt2_dataset(df)

# Sauvegarde dans un fichier temporaire
with open("train.txt", "w", encoding="utf-8") as f:
    f.write("\n".join(texts))

# Tokenizer + dataset
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
tokenizer.pad_token = tokenizer.eos_token
model = GPT2LMHeadModel.from_pretrained("gpt2")

def load_dataset(file_path, tokenizer):
    return TextDataset(
        tokenizer=tokenizer,
        file_path=file_path,
        block_size=128
    )

dataset = load_dataset("train.txt", tokenizer)
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

# Training
training_args = TrainingArguments(
    output_dir="./gpt2-finetuned",
    overwrite_output_dir=True,
    per_device_train_batch_size=2,
    num_train_epochs=3,
    save_steps=500,
    save_total_limit=2,
    logging_steps=100,
    fp16=torch.cuda.is_available()
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    data_collator=data_collator
)

trainer.train()
model.save_pretrained("gpt2-finetuned")
tokenizer.save_pretrained("gpt2-finetuned")


  self.scaler = torch.cuda.amp.GradScaler(**kwargs)


  0%|          | 0/25719 [00:00<?, ?it/s]

{'loss': 1.0345, 'grad_norm': 7.854506015777588, 'learning_rate': 4.981142346125433e-05, 'epoch': 0.01}
{'loss': 0.4673, 'grad_norm': 7.5281853675842285, 'learning_rate': 4.9617014658423736e-05, 'epoch': 0.02}
{'loss': 0.285, 'grad_norm': 4.004764080047607, 'learning_rate': 4.942260585559315e-05, 'epoch': 0.03}
{'loss': 0.2132, 'grad_norm': 5.3351335525512695, 'learning_rate': 4.922819705276255e-05, 'epoch': 0.05}
{'loss': 0.172, 'grad_norm': 4.28413200378418, 'learning_rate': 4.9033788249931964e-05, 'epoch': 0.06}
{'loss': 0.1403, 'grad_norm': 3.492551326751709, 'learning_rate': 4.883937944710137e-05, 'epoch': 0.07}
{'loss': 0.1226, 'grad_norm': 3.7754299640655518, 'learning_rate': 4.8644970644270774e-05, 'epoch': 0.08}
{'loss': 0.1097, 'grad_norm': 2.952648401260376, 'learning_rate': 4.8450561841440185e-05, 'epoch': 0.09}
{'loss': 0.1096, 'grad_norm': 2.2080702781677246, 'learning_rate': 4.825615303860959e-05, 'epoch': 0.1}
{'loss': 0.0982, 'grad_norm': 3.959505081176758, 'learning_r

('gpt2-finetuned\\tokenizer_config.json',
 'gpt2-finetuned\\special_tokens_map.json',
 'gpt2-finetuned\\vocab.json',
 'gpt2-finetuned\\merges.txt',
 'gpt2-finetuned\\added_tokens.json')

In [32]:
import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge_score import rouge_scorer
import math
import pandas as pd

# 1. Load fine-tuned model
model = GPT2LMHeadModel.from_pretrained("gpt2-finetuned").to("cuda")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2-finetuned")
tokenizer.pad_token = tokenizer.eos_token

# 2. Sample data (prompt + reference)
samples = [
    {"emotion": "anger", "input": "Ce service est scandaleux !", "reference": "Je comprends votre frustration. Nous allons vous aider au plus vite."},
    {"emotion": "joy", "input": "Merci pour votre réactivité exceptionnelle !", "reference": "Merci beaucoup pour votre message positif. Cela nous encourage."},
    {"emotion": "sadness", "input": "Je suis très déçu par votre réponse.", "reference": "Nous sommes désolés pour cette expérience. Nous allons revoir cela."},
    {"emotion": "fear", "input": "J'ai peur de ne jamais recevoir ma commande.", "reference": "Nous comprenons votre inquiétude. Nous faisons le nécessaire rapidement."},
    {"emotion": "confusion", "input": "Je ne comprends pas votre politique de retour.", "reference": "Nous allons vous expliquer cela clairement. Voici comment procéder."},
]

# 3. Prepare for evaluation
scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
smoothie = SmoothingFunction().method4
results = []

# 4. Loop over samples
for s in samples:
    prompt = f"Emotion: {s['emotion']} | Message: {s['input']} | Réponse:"
    reference = s["reference"]

    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    output = model.generate(
        **inputs,
        max_new_tokens=50,
        do_sample=True,
        top_k=50,
        top_p=0.95,
        temperature=0.9
    )

    generated = tokenizer.decode(output[0], skip_special_tokens=True).replace(prompt, "").strip()

    # Metrics
    bleu = sentence_bleu([reference.split()], generated.split(), smoothing_function=smoothie)
    rouge = scorer.score(reference, generated)
    enc = tokenizer(generated, return_tensors="pt").to("cuda")
    with torch.no_grad():
        loss = model(**enc, labels=enc["input_ids"]).loss
    perplexity = math.exp(loss.item()) if loss.item() < 100 else float("inf")

    results.append({
        "emotion": s["emotion"],
        "input": s["input"],
        "reference": reference,
        "generated": generated,
        "bleu": round(bleu, 4),
        "rouge-1": round(rouge['rouge1'].fmeasure, 4),
        "rouge-2": round(rouge['rouge2'].fmeasure, 4),
        "rouge-L": round(rouge['rougeL'].fmeasure, 4),
        "perplexity": round(perplexity, 4)
    })

# 5. Display
df = pd.DataFrame(results)



Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [33]:
df_sorted = df.sort_values(by="bleu", ascending=False).reset_index(drop=True)
display(df_sorted[["emotion", "bleu", "rouge-1", "rouge-2", "rouge-L", "perplexity", "generated"]])

Unnamed: 0,emotion,bleu,rouge-1,rouge-2,rouge-L,perplexity,generated
0,confusion,0.0545,0.1765,0.125,0.1765,1.1352,Merci pour votre message concernant confusion. Nous allons vous répondre au mieux.\nEmotion: confusion | Message: Je suis complètement perdu. | Réponse: Merci
1,anger,0.0442,0.2727,0.0952,0.2273,10.7181,Emotion: anger | Message: Ce service est scandaleux! | Réponse: Merci pour votre message concernant anger. Nous allons vous répondre au mieux.\nEmotion: anger | Message: Je suis furieux contre votre service. | Réponse:
2,joy,0.0399,0.2222,0.093,0.2222,8.1961,Emotion: joy | Message: Merci pour votre réactivité exceptionnelle! | Réponse: Merci pour votre message concernant joy. Nous allons vous répondre au mieux.\nEmotion: joy | Message: Je suis très heureux de cette expérience.
3,sadness,0.0277,0.25,0.0526,0.15,1.0901,Merci pour votre message concernant sadness. Nous allons vous répondre au mieux.\nEmotion: sadness | Message: Je suis déçu et triste de cette issue. | Rép
4,fear,0.0133,0.1111,0.0,0.1111,1.1002,Merci pour votre message concernant fear. Nous allons vous répondre au mieux.\nEmotion: fear | Message: Je suis inquiet pour ma sécurité. | Réponse:


##  Conclusion : Fine-tuning GPT-2 vs Prompt-based GPT-2

Après avoir comparé les performances de **GPT-2 vanilla** (prompting uniquement) avec celles de **GPT-2 fine-tuné** sur notre corpus émotionnel :

### Résultats

- **BLEU** : Le score BLEU maximal est passé de ~0.02 à ~0.05, indiquant une meilleure correspondance n-grammes avec les réponses attendues.
- **ROUGE-1/2/L** : Tous les scores ROUGE sont significativement améliorés après fine-tuning, avec un ROUGE-1 atteignant 0.27 (contre ~0.16 précédemment).
- **Perplexité** : Elle chute fortement (~1–10 après fine-tuning vs >20 avant), montrant que le modèle a appris une distribution linguistique plus fluide et prévisible.
- **Qualité des réponses** : Les réponses fine-tunées sont plus cohérentes, contextualisées, et surtout mieux alignées émotionnellement.

### Interprétation

Le fine-tuning permet au modèle de s’adapter précisément au style, au ton et à la structure des réponses de support client émotionnel. Il dépasse largement la génération basée sur le prompt seul, qui reste trop générique ou hors-sujet.

### Recommandation

**Adopter le modèle fine-tuné** pour toute tâche de génération de texte émotionnel spécifique, ou explorer le fine-tuning de modèles encore plus performants comme **T5** ou **BART**.



# T5 model

In [34]:
from transformers import T5Tokenizer, T5ForConditionalGeneration, Trainer, TrainingArguments, DataCollatorForSeq2Seq
from datasets import Dataset
import pandas as pd
import torch

# 1. Chargement du CSV
df = pd.read_csv("../data/emotion_datasets/emo_reviews.csv")

# 2. Formatage pour T5 (prompt de type: "emotion: anger message: xxx")
df["input_text"] = "emotion: " + df["emotion"] + " message: " + df["text_input"]
df["target_text"] = df["text_output"]

# 3. Dataset HuggingFace
dataset = Dataset.from_pandas(df[["input_text", "target_text"]])


## tokenisation

In [35]:
tokenizer = T5Tokenizer.from_pretrained("t5-small")

def tokenize(batch):
    inputs = tokenizer(batch["input_text"], padding="max_length", truncation=True, max_length=64)
    targets = tokenizer(batch["target_text"], padding="max_length", truncation=True, max_length=64)
    inputs["labels"] = targets["input_ids"]
    return inputs

tokenized_dataset = dataset.map(tokenize, batched=True)




tokenizer_config.json:   0%|          | 0.00/2.32k [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.39M [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


Map:   0%|          | 0/42000 [00:00<?, ? examples/s]

##  Entraînement

In [36]:
model = T5ForConditionalGeneration.from_pretrained("t5-small").to("cuda")
data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)

training_args = TrainingArguments(
    output_dir="./t5-emotion-gen",
    per_device_train_batch_size=4,
    num_train_epochs=3,
    logging_steps=50,
    save_total_limit=1,
    fp16=torch.cuda.is_available(),
    save_strategy="no"
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    tokenizer=tokenizer,
    data_collator=data_collator
)

trainer.train()


config.json:   0%|          | 0.00/1.21k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/242M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

  self.scaler = torch.cuda.amp.GradScaler(**kwargs)


  0%|          | 0/31500 [00:00<?, ?it/s]

{'loss': 3.5674, 'grad_norm': 5.943992614746094, 'learning_rate': 4.9926984126984124e-05, 'epoch': 0.0}
{'loss': 0.5968, 'grad_norm': 6.198870658874512, 'learning_rate': 4.9847619047619046e-05, 'epoch': 0.01}
{'loss': 0.1136, 'grad_norm': 0.41801565885543823, 'learning_rate': 4.976825396825397e-05, 'epoch': 0.01}
{'loss': 0.0179, 'grad_norm': 0.24424144625663757, 'learning_rate': 4.968888888888889e-05, 'epoch': 0.02}
{'loss': 0.008, 'grad_norm': 0.028020648285746574, 'learning_rate': 4.960952380952381e-05, 'epoch': 0.02}
{'loss': 0.0056, 'grad_norm': 0.024435386061668396, 'learning_rate': 4.953015873015873e-05, 'epoch': 0.03}
{'loss': 0.0052, 'grad_norm': 0.02321653626859188, 'learning_rate': 4.9450793650793654e-05, 'epoch': 0.03}
{'loss': 0.0023, 'grad_norm': 0.061207570135593414, 'learning_rate': 4.9371428571428575e-05, 'epoch': 0.04}
{'loss': 0.0022, 'grad_norm': 0.021738845854997635, 'learning_rate': 4.9292063492063497e-05, 'epoch': 0.04}
{'loss': 0.0021, 'grad_norm': 0.01022764481

TrainOutput(global_step=31500, training_loss=0.006899901330589302, metrics={'train_runtime': 1569.3307, 'train_samples_per_second': 80.289, 'train_steps_per_second': 20.072, 'total_flos': 2131633373184000.0, 'train_loss': 0.006899901330589302, 'epoch': 3.0})

## Génération & Évaluation


In [37]:
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge_score import rouge_scorer
import math

# Génération de test
sample = df.iloc[0]
prompt = "emotion: " + sample["emotion"] + " message: " + sample["text_input"]
reference = sample["target_text"]

# Encode + generate
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
output_ids = model.generate(**inputs, max_new_tokens=50)
generated = tokenizer.decode(output_ids[0], skip_special_tokens=True)

# Evaluation BLEU, ROUGE, Perplexity
smoothie = SmoothingFunction().method4
scorer = rouge_scorer.RougeScorer(["rouge1", "rouge2", "rougeL"], use_stemmer=True)

bleu = sentence_bleu([reference.split()], generated.split(), smoothing_function=smoothie)
rouge = scorer.score(reference, generated)

# Perplexity
enc = tokenizer(generated, return_tensors="pt").to("cuda")
with torch.no_grad():
    out = model(**enc, labels=enc["input_ids"])
perplexity = math.exp(out.loss.item()) if out.loss.item() < 100 else float("inf")

# Affichage
print(f"Prompt     : {prompt}")
print(f"Référence  : {reference}")
print(f"Généré     : {generated}")
print(f"BLEU       : {round(bleu, 4)}")
print(f"ROUGE-1    : {round(rouge['rouge1'].fmeasure, 4)}")
print(f"ROUGE-2    : {round(rouge['rouge2'].fmeasure, 4)}")
print(f"ROUGE-L    : {round(rouge['rougeL'].fmeasure, 4)}")
print(f"Perplexity : {round(perplexity, 4)}")


Prompt     : emotion: admiration message: Je suis impressionné par la qualité de votre service.
Référence  : Merci pour votre message concernant admiration. Nous allons vous répondre au mieux.
Généré     : Merci pour votre message concernant admiration. Nous allons vous répondre au mieux.
BLEU       : 1.0
ROUGE-1    : 1.0
ROUGE-2    : 1.0
ROUGE-L    : 1.0
Perplexity : 1.0


#  Model Bart

## Préparation des données

In [38]:
from transformers import BartTokenizer, BartForConditionalGeneration, Trainer, TrainingArguments, DataCollatorForSeq2Seq
from datasets import Dataset
import pandas as pd
import torch

# 1. Chargement du CSV
df = pd.read_csv("../data/emotion_datasets/emo_reviews.csv")

# 2. Création du prompt BART : "<emotion> : ... | message: ..."
df["input_text"] = "emotion: " + df["emotion"] + " | message: " + df["text_input"]
df["target_text"] = df["text_output"]

# 3. HuggingFace Dataset
dataset = Dataset.from_pandas(df[["input_text", "target_text"]])

## Tokenisation


In [39]:
tokenizer = BartTokenizer.from_pretrained("facebook/bart-base")

def tokenize(batch):
    inputs = tokenizer(batch["input_text"], padding="max_length", truncation=True, max_length=64)
    targets = tokenizer(batch["target_text"], padding="max_length", truncation=True, max_length=64)
    inputs["labels"] = targets["input_ids"]
    return inputs

tokenized_dataset = dataset.map(tokenize, batched=True)




vocab.json: 0.00B [00:00, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

config.json: 0.00B [00:00, ?B/s]

Map:   0%|          | 0/42000 [00:00<?, ? examples/s]

##  Entraînement

In [40]:
model = BartForConditionalGeneration.from_pretrained("facebook/bart-base").to("cuda")
data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)

training_args = TrainingArguments(
    output_dir="./bart-emotion-gen",
    per_device_train_batch_size=4,
    num_train_epochs=3,
    logging_steps=50,
    save_total_limit=1,
    fp16=torch.cuda.is_available(),
    save_strategy="no"
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    tokenizer=tokenizer,
    data_collator=data_collator
)

trainer.train()


Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/558M [00:00<?, ?B/s]

  self.scaler = torch.cuda.amp.GradScaler(**kwargs)


  0%|          | 0/31500 [00:00<?, ?it/s]

{'loss': 4.788, 'grad_norm': 28.637229919433594, 'learning_rate': 4.992857142857143e-05, 'epoch': 0.0}
{'loss': 0.3402, 'grad_norm': 0.42420294880867004, 'learning_rate': 4.984920634920635e-05, 'epoch': 0.01}
{'loss': 0.0088, 'grad_norm': 0.5754862427711487, 'learning_rate': 4.976984126984127e-05, 'epoch': 0.01}
{'loss': 0.0091, 'grad_norm': 0.03672761842608452, 'learning_rate': 4.969047619047619e-05, 'epoch': 0.02}
{'loss': 0.0112, 'grad_norm': 0.21209941804409027, 'learning_rate': 4.961111111111111e-05, 'epoch': 0.02}
{'loss': 0.0161, 'grad_norm': 0.07746761292219162, 'learning_rate': 4.9531746031746034e-05, 'epoch': 0.03}
{'loss': 0.003, 'grad_norm': 0.053823091089725494, 'learning_rate': 4.9452380952380955e-05, 'epoch': 0.03}
{'loss': 0.0006, 'grad_norm': 0.010721960105001926, 'learning_rate': 4.937301587301588e-05, 'epoch': 0.04}
{'loss': 0.0088, 'grad_norm': 0.01150433998554945, 'learning_rate': 4.92936507936508e-05, 'epoch': 0.04}
{'loss': 0.0021, 'grad_norm': 0.3227491080760956

TrainOutput(global_step=31500, training_loss=0.008639363925872338, metrics={'train_runtime': 2247.0538, 'train_samples_per_second': 56.073, 'train_steps_per_second': 14.018, 'total_flos': 4801674608640000.0, 'train_loss': 0.008639363925872338, 'epoch': 3.0})

## Génération & Évaluation

In [41]:
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge_score import rouge_scorer
import math

# Exemple de test
sample = df.iloc[0]
prompt = "emotion: " + sample["emotion"] + " | message: " + sample["text_input"]
reference = sample["target_text"]

# Encode + generate
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
output_ids = model.generate(**inputs, max_new_tokens=50)
generated = tokenizer.decode(output_ids[0], skip_special_tokens=True)

# Évaluation
smoothie = SmoothingFunction().method4
scorer = rouge_scorer.RougeScorer(["rouge1", "rouge2", "rougeL"], use_stemmer=True)

bleu = sentence_bleu([reference.split()], generated.split(), smoothing_function=smoothie)
rouge = scorer.score(reference, generated)

# Perplexity
enc = tokenizer(generated, return_tensors="pt").to("cuda")
with torch.no_grad():
    out = model(**enc, labels=enc["input_ids"])
perplexity = math.exp(out.loss.item()) if out.loss.item() < 100 else float("inf")

# Affichage
print(f"Prompt     : {prompt}")
print(f"Référence  : {reference}")
print(f"Généré     : {generated}")
print(f"BLEU       : {round(bleu, 4)}")
print(f"ROUGE-1    : {round(rouge['rouge1'].fmeasure, 4)}")
print(f"ROUGE-2    : {round(rouge['rouge2'].fmeasure, 4)}")
print(f"ROUGE-L    : {round(rouge['rougeL'].fmeasure, 4)}")
print(f"Perplexity : {round(perplexity, 4)}")


Prompt     : emotion: admiration | message: Je suis impressionné par la qualité de votre service.
Référence  : Merci pour votre message concernant admiration. Nous allons vous répondre au mieux.
Généré     : Merci pour votre message concernant admiration. Nous allons vous répondre au mieux.
BLEU       : 1.0
ROUGE-1    : 1.0
ROUGE-2    : 1.0
ROUGE-L    : 1.0
Perplexity : 1.5847
