In [None]:
# Exercice 1

import pandas as pd
import os

def verify_dataset_structure(base_path: str):
    """
    Vérifie la structure réelle du dataset
    """
    try:
        # Construction des chemins
        train_path = os.path.join(base_path, "train.csv")
        test_path = os.path.join(base_path, "test.csv")
        
        # Vérification de l'existence des fichiers
        print("🔍 Vérification des fichiers...")
        if not os.path.exists(train_path):
            print(f"❌ Le fichier train.csv n'existe pas dans {train_path}")
            return
        if not os.path.exists(test_path):
            print(f"❌ Le fichier test.csv n'existe pas dans {test_path}")
            return
            
        # Chargement des données pour inspection
        train_df = pd.read_csv(train_path)
        test_df = pd.read_csv(test_path)
        
        print("\n📊 Structure du Dataset:")
        print("\nColonnes du train.csv:")
        print(train_df.columns.tolist())
        
        print("\nAperçu des premières lignes train.csv:")
        print(train_df.head())
        
        print("\nInformations sur le dataset train:")
        print(train_df.info())
        
        print("\nDescription statistique train:")
        print(train_df.describe())
        
        return train_df, test_df
        
    except Exception as e:
        print(f"❌ Erreur lors de la vérification: {e}")
        return None, None

def main():
    base_path = "/Users/ludovicveltz/Documents/Bootcamp_GENAI_2025/Crashcourse/WEEK_6/DAY_1/DATASET"
    train_df, test_df = verify_dataset_structure(base_path)

if __name__ == "__main__":
    main()



🔍 Vérification des fichiers...

📊 Structure du Dataset:

Colonnes du train.csv:
['id', 'premise', 'hypothesis', 'lang_abv', 'language', 'label']

Aperçu des premières lignes train.csv:
           id                                            premise  \
0  5130fd2cb5  and these comments were considered in formulat...   
1  5b72532a0b  These are issues that we wrestle with in pract...   
2  3931fbe82a  Des petites choses comme celles-là font une di...   
3  5622f0c60b  you know they can't really defend themselves l...   
4  86aaa48b45  ในการเล่นบทบาทสมมุติก็เช่นกัน โอกาสที่จะได้แสด...   

                                          hypothesis lang_abv language  label  
0  The rules developed in the interim were put to...       en  English      0  
1  Practice groups are not permitted to work on t...       en  English      2  
2              J'essayais d'accomplir quelque chose.       fr   French      0  
3  They can't defend themselves because of their ...       en  English      0  
4    เ

In [5]:
import pandas as pd
import os
from typing import Dict, Tuple

class NLIDatasetExplorer:
    def __init__(self, base_path: str):
        """
        Initialisation de l'explorateur pour le dataset NLI multilingue
        """
        self.base_path = base_path
        self.label_map = {
            0: "Contradiction",
            1: "Neutre",
            2: "Implication"
        }
        
    def load_datasets(self, train_sample_size: int = 100, test_sample_size: int = 50):
        try:
            train_df = pd.read_csv(os.path.join(self.base_path, "train.csv"))
            test_df = pd.read_csv(os.path.join(self.base_path, "test.csv"))
            
            # Correction du groupby deprecated
            train_sample = (train_df.groupby(['language', 'label'])
                        .apply(lambda x: x.sample(min(len(x), train_sample_size//len(train_df['language'].unique()))))
                        .reset_index(drop=True))
            
            return train_sample, test_df
            
        except Exception as e:
            print(f"❌ Erreur: {e}")
            return None, None


    def explore_dataset(self, train_df: pd.DataFrame) -> Dict:
        """
        Analyse exploratoire du dataset NLI
        """
        stats = {
            'distribution_langues': train_df['language'].value_counts().to_dict(),
            'distribution_labels': train_df['label'].value_counts().to_dict(),
            'longueur_moyenne': {
                'premise': train_df['premise'].str.len().mean(),
                'hypothesis': train_df['hypothesis'].str.len().mean()
            },
            'exemples_par_langue': {}
        }
        
        # Extraire un exemple par langue
        for lang in train_df['language'].unique():
            exemple = train_df[train_df['language'] == lang].iloc[0]
            stats['exemples_par_langue'][lang] = {
                'premise': exemple['premise'],
                'hypothesis': exemple['hypothesis'],
                'label': self.label_map[exemple['label']]
            }
            
        return stats

def main():
    base_path = "/Users/ludovicveltz/Documents/Bootcamp_GENAI_2025/Crashcourse/WEEK_6/DAY_1/DATASET"
    explorer = NLIDatasetExplorer(base_path)
    
    train_df, test_df = explorer.load_datasets()
    
    if train_df is not None:
        stats = explorer.explore_dataset(train_df)
        
        print("\n📊 Analyse du Dataset NLI Multilingue:")
        
        print("\nDistribution par langue:")
        for lang, count in stats['distribution_langues'].items():
            print(f"{lang}: {count} exemples")
        
        print("\nDistribution des labels:")
        for label_id, count in stats['distribution_labels'].items():
            print(f"{explorer.label_map[label_id]}: {count} exemples")
        
        print("\nLongueur moyenne des textes:")
        print(f"Premise: {stats['longueur_moyenne']['premise']:.0f} caractères")
        print(f"Hypothesis: {stats['longueur_moyenne']['hypothesis']:.0f} caractères")
        
        print("\nExemples par langue:")
        for lang, exemple in stats['exemples_par_langue'].items():
            print(f"\n{lang}:")
            print(f"Premise: {exemple['premise'][:100]}...")
            print(f"Hypothesis: {exemple['hypothesis'][:100]}...")
            print(f"Label: {exemple['label']}")

if __name__ == "__main__":
    main()



📊 Analyse du Dataset NLI Multilingue:

Distribution par langue:
Arabic: 18 exemples
Bulgarian: 18 exemples
Chinese: 18 exemples
English: 18 exemples
French: 18 exemples
German: 18 exemples
Greek: 18 exemples
Hindi: 18 exemples
Russian: 18 exemples
Spanish: 18 exemples
Swahili: 18 exemples
Thai: 18 exemples
Turkish: 18 exemples
Urdu: 18 exemples
Vietnamese: 18 exemples

Distribution des labels:
Contradiction: 90 exemples
Neutre: 90 exemples
Implication: 90 exemples

Longueur moyenne des textes:
Premise: 101 caractères
Hypothesis: 51 caractères

Exemples par langue:

Arabic:
Premise: كان للتلاميذ بمثابة ناصح، ومعلم، وقسيس، وعم، وصديق حقيقي....
Hypothesis: لقد كان مفيدًا جدًا لطلابه....
Label: Contradiction

Bulgarian:
Premise: Като член на Вътрешния кръг ще получите избрано място по време на Конвенцията и специални покани за ...
Hypothesis: Членовете на Вътрешния кръг получават различни бонуси....
Label: Contradiction

Chinese:
Premise: 我今天早上到那里, 呃，我忘了是我问了一个问题还是他进来了, 随便吧。...
Hypothesis:

  train_sample = (train_df.groupby(['language', 'label'])


In [4]:
# Exercice 2

import torch
from transformers import T5ForConditionalGeneration, AutoTokenizer
import pandas as pd
import gc
from typing import List
from tqdm import tqdm

class T5SummarizerLight:
    def __init__(self, model_name: str = "t5-small"):
        """
        Version optimisée du summarizer T5
        """
        # Vérification et configuration CUDA
        self.device = "cpu"  
        if torch.cuda.is_available():
            # Limitation de la mémoire CUDA
            torch.cuda.set_per_process_memory_fraction(0.7)  # Utilise 70% max de la VRAM
            self.device = "cuda"
        print(f"Utilisation de : {self.device}")
        
        # Paramètres optimisés
        self.batch_size = 4  # Batch size réduit
        self.max_length = 100  # Longueur maximale réduite
        
        # Chargement progressif
        print("Chargement du tokenizer...")
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        
        print("Chargement du modèle...")
        self.model = T5ForConditionalGeneration.from_pretrained(
            model_name,
            low_cpu_mem_usage=True,  # Optimisation mémoire CPU
            torch_dtype=torch.float32  # Précision standard
        ).to(self.device)

    def clean_memory(self):
        """Nettoyage mémoire amélioré"""
        if self.device == "cuda":
            torch.cuda.empty_cache()
        gc.collect()

    def summarize_single_text(self, text: str) -> str:
        """
        Traitement d'un seul texte à la fois
        """
        try:
            input_text = f"summarize: {text}"
            
            # Tokenization avec gestion de la longueur
            inputs = self.tokenizer(
                input_text,
                max_length=512,
                truncation=True,
                return_tensors="pt"
            ).to(self.device)
            
            # Génération avec paramètres optimisés
            with torch.no_grad():
                output_ids = self.model.generate(
                    inputs.input_ids,
                    max_length=self.max_length,
                    num_beams=2,  # Réduit pour économiser la mémoire
                    length_penalty=1.5,
                    early_stopping=True
                )
            
            summary = self.tokenizer.decode(output_ids[0], skip_special_tokens=True)
            self.clean_memory()
            return summary
            
        except Exception as e:
            print(f"Erreur lors du résumé: {e}")
            return ""

    def process_texts(self, texts: List[str], sample_size: int = None) -> List[str]:
        """
        Traitement des textes avec gestion d'échantillon
        """
        if sample_size:
            texts = texts[:sample_size]
        
        summaries = []
        for text in tqdm(texts, desc="Génération des résumés"):
            summary = self.summarize_single_text(text)
            summaries.append(summary)
            
        return summaries

def display_results(results_df):
    """
    Affiche les résultats avec un meilleur formatage
    """
    print("\n📊 Résultats de la génération :\n")
    
    for idx, row in results_df.iterrows():
        print(f"Exemple {idx + 1}")
        print("-" * 80)
        print(f"Texte Original :")
        print(f"{row['Texte_Original']}\n")
        print(f"Résumé Généré :")
        print(f"{row['Résumé_Généré']}\n")
        print(f"Hypothèse :")
        print(f"{row['Hypothèse']}\n")
        print("=" * 80 + "\n")

def main():
    try:
        # Chemin des données
        base_path = "/Users/ludovicveltz/Documents/Bootcamp_GENAI_2025/Crashcourse/WEEK_6/DAY_1/DATASET"
        
        # Chargement avec gestion d'erreurs
        print("Chargement des données...")
        try:
            train_df = pd.read_csv(f"{base_path}/train.csv")
        except Exception as e:
            print(f"Erreur de chargement des données: {e}")
            return
        
        # Échantillon très réduit pour test
        sample_size = 5  # Commencez avec un petit échantillon
        train_sample = train_df.sample(n=sample_size, random_state=42)
        
        # Initialisation et traitement
        print("Initialisation du summarizer...")
        summarizer = T5SummarizerLight()
        
        print("\nTraitement des textes...")
        premises = train_sample['premise'].tolist()
        summaries = summarizer.process_texts(premises)
        
        # Création et sauvegarde des résultats
        results_df = pd.DataFrame({
            'Texte_Original': premises,
            'Résumé_Généré': summaries,
            'Hypothèse': train_sample['hypothesis'].tolist()
        })
        
        # Modification de l'affichage
        pd.set_option('display.max_colwidth', None)
        pd.set_option('display.expand_frame_repr', False)  # Évite le retour à la ligne automatique
        pd.set_option('display.max_rows', None)  # Affiche toutes les lignes

        # Pour l'affichage des résultats
        print("\nRésultats :")
        pd.set_option('display.max_colwidth', None)
        display_results(results_df)
        
        # Statistiques additionnelles
        print("\n📈 Statistiques :")
        print(f"Longueur moyenne des textes originaux : {results_df['Texte_Original'].str.len().mean():.0f} caractères")
        print(f"Longueur moyenne des résumés générés : {results_df['Résumé_Généré'].str.len().mean():.0f} caractères")
        print(f"Longueur moyenne des hypothèses : {results_df['Hypothèse'].str.len().mean():.0f} caractères")
        
        # Sauvegarde
        try:
            results_df.to_csv(f"{base_path}/t5_summaries_results_light.csv", index=False)
            print("\n✅ Résultats sauvegardés dans t5_summaries_results_light.csv")
        except Exception as e:
            print(f"\n❌ Erreur lors de la sauvegarde : {e}")
        
    finally:
        # Nettoyage final
        if 'summarizer' in locals():
            summarizer.clean_memory()

if __name__ == "__main__":
    main()




Chargement des données...
Initialisation du summarizer...
Utilisation de : cpu
Chargement du tokenizer...
Chargement du modèle...

Traitement des textes...


Génération des résumés: 100%|██████████| 5/5 [00:18<00:00,  3.67s/it]


Résultats :

📊 Résultats de la génération :

Exemple 1
--------------------------------------------------------------------------------
Texte Original :
Кто? Она спросила его с неожиданным интересом.

Résumé Généré :
на сросила ео с неоиданнм интересом.

Hypothèse :
Она спросила, как это сделать, так как с её точки зрения это казалось невозможным.


Exemple 2
--------------------------------------------------------------------------------
Texte Original :
Others are Zao (in Tohoku) and a number of resorts in Joshin-etsu Kogen National Park in the Japan Alps, where there are now splendid facilities thanks to the 1998 Winter Olympic Games in Nagano.

Résumé Généré :
a number of resorts in the japanese Alps are now in the area thanks to the 1998 winter games in Nagano.

Hypothèse :
There are a lot of resorts in the national park.


Exemple 3
--------------------------------------------------------------------------------
Texte Original :
trying to keep grass alive during a summer on a pi




In [6]:
# Exercice 3

import numpy as np
from rouge_score import rouge_scorer
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
import nltk
from typing import Dict, List, Tuple

class SummaryEvaluator:
    def __init__(self):
        """
        Initialisation de l'évaluateur avec différentes métriques
        """
        # Initialisation du scorer ROUGE
        self.rouge_scorer = rouge_scorer.RougeScorer(
            ['rouge1', 'rouge2', 'rougeL'],
            use_stemmer=True
        )
        
        # Configuration NLTK
        try:
            nltk.download('punkt')
        except:
            print("⚠️ Attention: Impossible de télécharger les ressources NLTK")
            
        self.smoothing = SmoothingFunction().method1
        
    def calculate_exact_match(self, generated: str, reference: str) -> float:
        """
        Calcule la correspondance exacte (très stricte)
        """
        return float(generated.strip() == reference.strip())
    
    def calculate_rouge_scores(self, generated: str, reference: str) -> Dict[str, float]:
        """
        Calcule les scores ROUGE
        """
        try:
            scores = self.rouge_scorer.score(reference, generated)
            return {
                'rouge1_f': scores['rouge1'].fmeasure,
                'rouge2_f': scores['rouge2'].fmeasure,
                'rougeL_f': scores['rougeL'].fmeasure
            }
        except Exception as e:
            print(f"⚠️ Erreur ROUGE: {e}")
            return {'rouge1_f': 0.0, 'rouge2_f': 0.0, 'rougeL_f': 0.0}
    
    def calculate_bleu_score(self, generated: str, reference: str) -> float:
        """
        Calcule le score BLEU
        """
        try:
            reference_tokens = nltk.word_tokenize(reference)
            generated_tokens = nltk.word_tokenize(generated)
            return sentence_bleu([reference_tokens], generated_tokens, 
                               smoothing_function=self.smoothing)
        except Exception as e:
            print(f"⚠️ Erreur BLEU: {e}")
            return 0.0
    
    def evaluate_summaries(self, 
                         generated_summaries: List[str], 
                         reference_summaries: List[str]) -> Dict[str, float]:
        """
        Évalue les résumés avec plusieurs métriques
        """
        metrics = {
            'exact_match': [],
            'rouge1': [],
            'rouge2': [],
            'rougeL': [],
            'bleu': []
        }
        
        for gen, ref in zip(generated_summaries, reference_summaries):
            # Exact match
            metrics['exact_match'].append(self.calculate_exact_match(gen, ref))
            
            # ROUGE scores
            rouge_scores = self.calculate_rouge_scores(gen, ref)
            metrics['rouge1'].append(rouge_scores['rouge1_f'])
            metrics['rouge2'].append(rouge_scores['rouge2_f'])
            metrics['rougeL'].append(rouge_scores['rougeL_f'])
            
            # BLEU score
            metrics['bleu'].append(self.calculate_bleu_score(gen, ref))
        
        # Calcul des moyennes
        return {k: np.mean(v) for k, v in metrics.items()}

def display_evaluation_results(metrics: Dict[str, float], 
                             generated_summaries: List[str], 
                             reference_summaries: List[str]):
    """
    Affiche les résultats d'évaluation avec explications
    """
    print("\n📊 Résultats de l'évaluation :")
    print("\nMétriques globales :")
    print(f"{'Métrique':<15} {'Score':<10} {'Interprétation'}")
    print("-" * 60)
    
    interpretations = {
        'exact_match': "Correspondance exacte (très stricte)",
        'rouge1': "Chevauchement de mots uniques",
        'rouge2': "Chevauchement de bigrammes",
        'rougeL': "Plus longue sous-séquence commune",
        'bleu': "Précision des n-grammes"
    }
    
    for metric, score in metrics.items():
        print(f"{metric:<15} {score:.4f}     {interpretations[metric]}")
    
    print("\n💡 Analyse des résultats :")
    print("""
1. Scores faibles attendus car :
   - T5 est entraîné pour le résumé, pas pour NLI
   - Les hypothèses NLI ne sont pas des résumés classiques
   - La tâche demande du raisonnement logique
   
2. Améliorations possibles :
   - Fine-tuning de T5 sur des données NLI
   - Adaptation du prompt pour la tâche NLI
   - Utilisation d'un modèle spécialisé pour NLI
    """)
    
    # Exemples détaillés
    print("\n📝 Exemples détaillés :")
    for i in range(min(3, len(generated_summaries))):
        print(f"\nExemple {i+1}:")
        print(f"Généré    : {generated_summaries[i]}")
        print(f"Référence : {reference_summaries[i]}")
        
        # Scores individuels
        rouge_scores = rouge_scorer.RougeScorer(['rouge1'], use_stemmer=True)\
            .score(reference_summaries[i], generated_summaries[i])
        print(f"ROUGE-1   : {rouge_scores['rouge1'].fmeasure:.4f}")

def main():
    try:
        # Chemin des données
        base_path = "/Users/ludovicveltz/Documents/Bootcamp_GENAI_2025/Crashcourse/WEEK_6/DAY_1/DATASET"
        
        # Chargement avec gestion d'erreurs
        print("Chargement des données...")
        try:
            train_df = pd.read_csv(f"{base_path}/train.csv")
        except Exception as e:
            print(f"Erreur de chargement des données: {e}")
            return
        
        # Échantillon très réduit pour test
        sample_size = 5  # Commencez avec un petit échantillon
        train_sample = train_df.sample(n=sample_size, random_state=42)
        
        # Initialisation et traitement
        print("Initialisation du summarizer...")
        summarizer = T5SummarizerLight()
        
        print("\nTraitement des textes...")
        premises = train_sample['premise'].tolist()
        summaries = summarizer.process_texts(premises)
        
        # Évaluation
        print("\nÉvaluation des résultats...")
        evaluator = SummaryEvaluator()
        metrics = evaluator.evaluate_summaries(summaries, train_sample['hypothesis'].tolist())
        
        # Affichage des résultats
        display_evaluation_results(
            metrics,
            summaries,
            train_sample['hypothesis'].tolist()
        )
        
    except Exception as e:
        print(f"Erreur lors de l'exécution: {e}")
    finally:
        # Nettoyage final
        if 'summarizer' in locals():
            summarizer.clean_memory()

if __name__ == "__main__":
    main()




Chargement des données...
Initialisation du summarizer...
Utilisation de : cpu
Chargement du tokenizer...
Chargement du modèle...

Traitement des textes...


Génération des résumés: 100%|██████████| 5/5 [00:18<00:00,  3.64s/it]
[nltk_data] Downloading package punkt to
[nltk_data]     /Users/ludovicveltz/nltk_data...
[nltk_data]   Package punkt is already up-to-date!



Évaluation des résultats...

📊 Résultats de l'évaluation :

Métriques globales :
Métrique        Score      Interprétation
------------------------------------------------------------
exact_match     0.0000     Correspondance exacte (très stricte)
rouge1          0.2783     Chevauchement de mots uniques
rouge2          0.1167     Chevauchement de bigrammes
rougeL          0.2392     Plus longue sous-séquence commune
bleu            0.0540     Précision des n-grammes

💡 Analyse des résultats :

1. Scores faibles attendus car :
   - T5 est entraîné pour le résumé, pas pour NLI
   - Les hypothèses NLI ne sont pas des résumés classiques
   - La tâche demande du raisonnement logique
   
2. Améliorations possibles :
   - Fine-tuning de T5 sur des données NLI
   - Adaptation du prompt pour la tâche NLI
   - Utilisation d'un modèle spécialisé pour NLI
    

📝 Exemples détaillés :

Exemple 1:
Généré    : на сросила ео с неоиданнм интересом.
Référence : Она спросила, как это сделать, так как с 

In [8]:
pip install evaluate


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Collecting evaluate
  Downloading evaluate-0.4.3-py3-none-any.whl.metadata (9.2 kB)
Downloading evaluate-0.4.3-py3-none-any.whl (84 kB)
Installing collected packages: evaluate
Successfully installed evaluate-0.4.3
Note: you may need to restart the kernel to use updated packages.


In [None]:
# Exercice 4

import pandas as pd
import torch
from transformers import T5ForConditionalGeneration, AutoTokenizer
from rouge_score import rouge_scorer
import nltk
from nltk.tokenize import sent_tokenize
from typing import List, Dict
import numpy as np
from tqdm import tqdm
import gc

class T5SummarizerLight:
    def __init__(self, model_name: str = "t5-small"):
        """
        Version optimisée du summarizer T5
        """
        # Configuration du device
        self.device = "cpu"
        if torch.cuda.is_available():
            torch.cuda.set_per_process_memory_fraction(0.7)
            self.device = "cuda"
        print(f"Utilisation de : {self.device}")
        
        # Paramètres
        self.max_length = 100
        
        # Chargement du modèle
        print("Chargement du tokenizer...")
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        
        print("Chargement du modèle...")
        self.model = T5ForConditionalGeneration.from_pretrained(
            model_name,
            low_cpu_mem_usage=True,
            torch_dtype=torch.float32
        ).to(self.device)

    def clean_memory(self):
        """Nettoyage mémoire"""
        if self.device == "cuda":
            torch.cuda.empty_cache()
        gc.collect()

    def process_single_text(self, text: str) -> str:
        """
        Traitement d'un seul texte
        """
        try:
            # Préparation de l'entrée
            input_text = f"summarize: {text}"
            inputs = self.tokenizer(
                input_text,
                max_length=512,
                truncation=True,
                return_tensors="pt"
            ).to(self.device)
            
            # Génération
            with torch.no_grad():
                output_ids = self.model.generate(
                    inputs.input_ids,
                    max_length=self.max_length,
                    num_beams=2,
                    length_penalty=1.5,
                    early_stopping=True
                )
            
            summary = self.tokenizer.decode(output_ids[0], skip_special_tokens=True)
            self.clean_memory()
            return summary
            
        except Exception as e:
            print(f"⚠️ Erreur de génération: {e}")
            return ""

    def process_texts(self, texts: List[str]) -> List[str]:
        """
        Traitement d'une liste de textes
        """
        summaries = []
        for text in tqdm(texts, desc="Génération des résumés"):
            summary = self.process_single_text(text)
            summaries.append(summary)
        return summaries

class ROUGEEvaluator:
    def __init__(self):
        """
        Évaluateur ROUGE
        """
        print("Initialisation de l'évaluateur ROUGE...")
        try:
            self.scorer = rouge_scorer.RougeScorer(
                ['rouge1', 'rouge2', 'rougeL'],
                use_stemmer=True
            )
            try:
                nltk.download('punkt', quiet=True)
            except:
                print("⚠️ Note: NLTK punkt non téléchargé")
            print("✅ Évaluateur ROUGE initialisé")
        except Exception as e:
            print(f"❌ Erreur d'initialisation: {e}")
            raise

    def evaluate_summary(self, generated: str, reference: str) -> Dict:
        """
        Évaluation d'un résumé
        """
        try:
            scores = self.scorer.score(reference, generated)
            return {
                'rouge1': scores['rouge1'].fmeasure,
                'rouge2': scores['rouge2'].fmeasure,
                'rougeL': scores['rougeL'].fmeasure
            }
        except Exception as e:
            print(f"⚠️ Erreur d'évaluation: {e}")
            return {'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0}

    def evaluate_batch(self, generated_texts: List[str], reference_texts: List[str]) -> Dict:
        """
        Évaluation d'un lot de résumés
        """
        all_scores = []
        print("\n📊 Évaluation des résumés...")
        for gen, ref in zip(generated_texts, reference_texts):
            scores = self.evaluate_summary(gen, ref)
            all_scores.append(scores)
        
        avg_scores = {
            metric: np.mean([s[metric] for s in all_scores])
            for metric in ['rouge1', 'rouge2', 'rougeL']
        }
        
        self.display_results(avg_scores, generated_texts, reference_texts)
        return avg_scores

    def display_results(self, scores: Dict, generated_texts: List[str], reference_texts: List[str]):
        """
        Affichage des résultats
        """
        print("\n📈 Scores ROUGE moyens :")
        print(f"ROUGE-1 : {scores['rouge1']:.4f}")
        print(f"ROUGE-2 : {scores['rouge2']:.4f}")
        print(f"ROUGE-L : {scores['rougeL']:.4f}")
        
        print("\n📝 Exemples d'évaluation :")
        for i in range(min(3, len(generated_texts))):
            print(f"\nExemple {i+1}:")
            print(f"Généré    : {generated_texts[i]}")
            print(f"Référence : {reference_texts[i]}")
            scores = self.evaluate_summary(generated_texts[i], reference_texts[i])
            print(f"Scores    : ROUGE-1={scores['rouge1']:.4f}, "
                  f"ROUGE-2={scores['rouge2']:.4f}, "
                  f"ROUGE-L={scores['rougeL']:.4f}")

def main():
    try:
        base_path = "/Users/ludovicveltz/Documents/Bootcamp_GENAI_2025/Crashcourse/WEEK_6/DAY_1/DATASET"
        
        print("Chargement des données...")
        train_df = pd.read_csv(f"{base_path}/train.csv")
        
        sample_size = 5
        train_sample = train_df.sample(n=sample_size, random_state=42)
        
        print("Initialisation du summarizer...")
        summarizer = T5SummarizerLight()
        
        print("\nTraitement des textes...")
        premises = train_sample['premise'].tolist()
        summaries = summarizer.process_texts(premises)
        
        print("\nÉvaluation ROUGE...")
        evaluator = ROUGEEvaluator()
        scores = evaluator.evaluate_batch(
            generated_texts=summaries,
            reference_texts=train_sample['hypothesis'].tolist()
        )
        
    except Exception as e:
        print(f"❌ Erreur: {e}")
    finally:
        if 'summarizer' in locals():
            summarizer.clean_memory()

if __name__ == "__main__":
    main()


Chargement des données...
Initialisation du summarizer...
Utilisation de : cpu
Chargement du tokenizer...
Chargement du modèle...

Traitement des textes...


Génération des résumés: 100%|██████████| 5/5 [00:18<00:00,  3.65s/it]


Évaluation ROUGE...
Initialisation de l'évaluateur ROUGE...
✅ Évaluateur ROUGE initialisé

📊 Évaluation des résumés...

📈 Scores ROUGE moyens :
ROUGE-1 : 0.2783
ROUGE-2 : 0.1167
ROUGE-L : 0.2392

📝 Exemples d'évaluation :

Exemple 1:
Généré    : на сросила ео с неоиданнм интересом.
Référence : Она спросила, как это сделать, так как с её точки зрения это казалось невозможным.
Scores    : ROUGE-1=0.0000, ROUGE-2=0.0000, ROUGE-L=0.0000

Exemple 2:
Généré    : a number of resorts in the japanese Alps are now in the area thanks to the 1998 winter games in Nagano.
Référence : There are a lot of resorts in the national park.
Scores    : ROUGE-1=0.3871, ROUGE-2=0.2069, ROUGE-L=0.3226

Exemple 3:
Généré    : trying to keep grass alive during a summer on a piece of ground that big was expensive.
Référence : There was no cost in keeping the grass alive in the summer time.
Scores    : ROUGE-1=0.3333, ROUGE-2=0.0714, ROUGE-L=0.2667





In [5]:
# Exercice 5

class ROUGEUnderstanding:
    def __init__(self):
        """
        Classe pour comprendre le comportement des scores ROUGE
        """
        self.scorer = rouge_scorer.RougeScorer(
            ['rouge1', 'rouge2', 'rougeL'],
            use_stemmer=True  # Activation du stemming par défaut
        )
        
        # Scorer sans stemming pour comparaison
        self.scorer_no_stem = rouge_scorer.RougeScorer(
            ['rouge1', 'rouge2', 'rougeL'],
            use_stemmer=False
        )

    def run_all_tests(self):
        """
        Exécute tous les tests de compréhension ROUGE
        """
        print("\n🔍 Tests de compréhension ROUGE\n")
        
        self.test_exact_match()
        self.test_null_prediction()
        self.test_stemming_effect()
        self.test_ngram_analysis()
        self.test_symmetry()

    def test_exact_match(self):
        """
        Test 1: Correspondance exacte
        """
        print("\n1️⃣ Test de correspondance exacte")
        reference = "Le chat noir dort sur le canapé."
        prediction = "Le chat noir dort sur le canapé."
        
        scores = self.scorer.score(reference, prediction)
        
        print("\nTexte identique :")
        print(f"Référence : {reference}")
        print(f"Prédiction: {prediction}")
        print("\nScores :")
        print(f"ROUGE-1 : {scores['rouge1'].fmeasure:.4f}")
        print(f"ROUGE-2 : {scores['rouge2'].fmeasure:.4f}")
        print(f"ROUGE-L : {scores['rougeL'].fmeasure:.4f}")
        print("\n💡 Note: Les scores parfaits (1.0) indiquent une correspondance exacte")

    def test_null_prediction(self):
        """
        Test 2: Prédiction vide
        """
        print("\n2️⃣ Test de prédiction vide")
        reference = "Le chat noir dort."
        prediction = ""
        
        scores = self.scorer.score(reference, prediction)
        
        print("\nPrédiction vide :")
        print(f"Référence : {reference}")
        print(f"Prédiction: [vide]")
        print("\nScores :")
        print(f"ROUGE-1 : {scores['rouge1'].fmeasure:.4f}")
        print(f"ROUGE-2 : {scores['rouge2'].fmeasure:.4f}")
        print(f"ROUGE-L : {scores['rougeL'].fmeasure:.4f}")
        print("\n💡 Note: Les scores nuls (0.0) indiquent l'absence de correspondance")

    def test_stemming_effect(self):
        """
        Test 3: Effet du stemming
        """
        print("\n3️⃣ Test de l'effet du stemming")
        reference = "Les chats noirs dorment sur les canapés."
        prediction = "Le chat noir dort sur le canapé."
        
        # Avec stemming
        scores_stem = self.scorer.score(reference, prediction)
        # Sans stemming
        scores_no_stem = self.scorer_no_stem.score(reference, prediction)
        
        print("\nComparaison avec/sans stemming :")
        print(f"Référence : {reference}")
        print(f"Prédiction: {prediction}")
        print("\nScores avec stemming :")
        print(f"ROUGE-1 : {scores_stem['rouge1'].fmeasure:.4f}")
        print(f"ROUGE-2 : {scores_stem['rouge2'].fmeasure:.4f}")
        print("\nScores sans stemming :")
        print(f"ROUGE-1 : {scores_no_stem['rouge1'].fmeasure:.4f}")
        print(f"ROUGE-2 : {scores_no_stem['rouge2'].fmeasure:.4f}")
        print("\n💡 Note: Le stemming améliore les scores en normalisant les variations morphologiques")

    def test_ngram_analysis(self):
        """
        Test 4: Analyse des n-grammes
        """
        print("\n4️⃣ Test d'analyse des n-grammes")
        reference = "Le chat noir dort paisiblement sur le canapé confortable."
        predictions = [
            "Le chat noir dort sur le canapé.",  # Bonne correspondance
            "Un chat noir se repose sur le canapé.",  # Correspondance partielle
            "Un félin sombre sommeille sur le sofa."  # Correspondance faible
        ]
        
        print("\nAnalyse de différents niveaux de correspondance :")
        for i, pred in enumerate(predictions, 1):
            scores = self.scorer.score(reference, pred)
            print(f"\nPrédiction {i}:")
            print(f"Texte: {pred}")
            print(f"ROUGE-1: {scores['rouge1'].fmeasure:.4f}")
            print(f"ROUGE-2: {scores['rouge2'].fmeasure:.4f}")
        
        print("\n💡 Note: ROUGE-2 est plus strict car il vérifie les paires de mots consécutifs")

    def test_symmetry(self):
        """
        Test 5: Symétrie des scores
        """
        print("\n5️⃣ Test de symétrie")
        text1 = "Le chat noir dort."
        text2 = "Le chien noir court."
        
        scores_1_2 = self.scorer.score(text1, text2)
        scores_2_1 = self.scorer.score(text2, text1)
        
        print("\nTest de symétrie :")
        print(f"Texte 1 : {text1}")
        print(f"Texte 2 : {text2}")
        print("\nScores (1 -> 2) :")
        print(f"ROUGE-1 : {scores_1_2['rouge1'].fmeasure:.4f}")
        print(f"ROUGE-2 : {scores_1_2['rouge2'].fmeasure:.4f}")
        print("\nScores (2 -> 1) :")
        print(f"ROUGE-1 : {scores_2_1['rouge1'].fmeasure:.4f}")
        print(f"ROUGE-2 : {scores_2_1['rouge2'].fmeasure:.4f}")
        print("\n💡 Note: Les scores peuvent varier selon l'ordre référence/prédiction")

def main():
    try:
        # Tests de compréhension ROUGE
        print("\n🎯 Lancement des tests de compréhension ROUGE...")
        rouge_understanding = ROUGEUnderstanding()
        rouge_understanding.run_all_tests()
        
    except Exception as e:
        print(f"❌ Erreur lors des tests: {e}")

if __name__ == "__main__":
    main()



🎯 Lancement des tests de compréhension ROUGE...

🔍 Tests de compréhension ROUGE


1️⃣ Test de correspondance exacte

Texte identique :
Référence : Le chat noir dort sur le canapé.
Prédiction: Le chat noir dort sur le canapé.

Scores :
ROUGE-1 : 1.0000
ROUGE-2 : 1.0000
ROUGE-L : 1.0000

💡 Note: Les scores parfaits (1.0) indiquent une correspondance exacte

2️⃣ Test de prédiction vide

Prédiction vide :
Référence : Le chat noir dort.
Prédiction: [vide]

Scores :
ROUGE-1 : 0.0000
ROUGE-2 : 0.0000
ROUGE-L : 0.0000

💡 Note: Les scores nuls (0.0) indiquent l'absence de correspondance

3️⃣ Test de l'effet du stemming

Comparaison avec/sans stemming :
Référence : Les chats noirs dorment sur les canapés.
Prédiction: Le chat noir dort sur le canapé.

Scores avec stemming :
ROUGE-1 : 0.5333
ROUGE-2 : 0.1538

Scores sans stemming :
ROUGE-1 : 0.2667
ROUGE-2 : 0.0000

💡 Note: Le stemming améliore les scores en normalisant les variations morphologiques

4️⃣ Test d'analyse des n-grammes

Analyse de d

In [11]:
!pip install langdetect
!pip install transformers
!pip install sentencepiece


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Collecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m766.0 kB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: langdetect
  Building wheel for langdetect (setup.py) ... [?25ldone
[?25h  Created wheel for langdetect: filename=langdetect-1.0.9-py3-none-any.whl size=993284 sha256=1ef566991e8afa15f7586f59c134676004ddc227800c31711b752df31cf03d96
  Stored in directory: /Users/ludovicveltz/Library/Caches/pip/wheels/d1/c1/d9/7e068de779d863bc8f8fc9467d85e25cfe47fa5051fff1a1bb
Successfully built langdetect
Installing collected packages: langdetect
Successfully installed langdetect-1.0.9


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)




huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)




In [15]:
!pip uninstall -y protobuf
!pip install protobuf==3.20.0
!pip install --upgrade transformers


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Found existing installation: protobuf 4.25.6
Uninstalling protobuf-4.25.6:
  Successfully uninstalled protobuf-4.25.6


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Collecting protobuf==3.20.0
  Downloading protobuf-3.20.0-py2.py3-none-any.whl.metadata (720 bytes)
Downloading protobuf-3.20.0-py2.py3-none-any.whl (162 kB)
Installing collected packages: protobuf
Successfully installed protobuf-3.20.0


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)




In [18]:
# Exercice 5

!pip install --upgrade protobuf==3.20.0 sentencepiece --quiet

import os
os.environ['PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION'] = 'python'

from transformers import MBartForConditionalGeneration, MBart50TokenizerFast, AutoTokenizer, T5ForConditionalGeneration
from langdetect import detect
import pandas as pd
import torch
from typing import List, Dict
import numpy as np
from tqdm import tqdm
import gc
from rouge_score import rouge_scorer

class MultilingualModelComparator:
    def __init__(self):
        """
        Initialisation du comparateur avec modèles multilingues
        """
        self.models = {}
        self.tokenizers = {}
        self.device = "cuda" if torch.cuda.is_available() else "cpu"
        self.rouge_scorer = rouge_scorer.RougeScorer(
            ['rouge1', 'rouge2', 'rougeL'],
            use_stemmer=True
        )
        print(f"🖥️ Utilisation de : {self.device}")

    def clean_memory(self):
        """
        Nettoyage de la mémoire GPU/CPU
        """
        try:
            for model in self.models.values():
                model.cpu()
            if torch.cuda.is_available():
                torch.cuda.empty_cache()
            gc.collect()
            print("🧹 Mémoire nettoyée")
        except Exception as e:
            print(f"⚠️ Erreur lors du nettoyage mémoire: {e}")

    def load_model(self, model_name: str):
        """
        Chargement des modèles multilingues
        """
        print(f"\n📚 Chargement du modèle {model_name}...")
        try:
            if model_name == "mbart-large-50":
                self.tokenizers[model_name] = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50")
                self.models[model_name] = MBartForConditionalGeneration.from_pretrained(
                    "facebook/mbart-large-50",
                    low_cpu_mem_usage=True
                ).to(self.device)
            elif "mt5" in model_name:
                self.tokenizers[model_name] = AutoTokenizer.from_pretrained(f"google/{model_name}")
                self.models[model_name] = T5ForConditionalGeneration.from_pretrained(
                    f"google/{model_name}",
                    low_cpu_mem_usage=True
                ).to(self.device)
            print(f"✅ Modèle {model_name} chargé avec succès")
        except Exception as e:
            print(f"❌ Erreur lors du chargement de {model_name}: {e}")
            raise

    def detect_language_simple(self, text: str) -> str:
        """
        Détection simple de la langue basée sur les caractères
        """
        # Détection basique pour le russe (cyrillique)
        if any(ord('а') <= ord(c) <= ord('я') for c in text.lower()):
            return 'ru'
        # Détection basique pour le chinois
        if any('\u4e00' <= c <= '\u9fff' for c in text):
            return 'zh'
        # Par défaut, on suppose de l'anglais
        return 'en'


    def preprocess_text(self, text: str, model_name: str) -> Dict:
        """
        Prétraitement avec détection de langue
        """
        lang = self.detect_language(text)
        if model_name == "mbart-large-50":
            src_lang = f"xx_{lang}" if lang != "unknown" else "xx_en"
            return {
                "text": text,
                "src_lang": src_lang,
                "tgt_lang": src_lang  # Même langue pour le résumé
            }
        return {"text": text, "lang": lang}

    def summarize_with_mbart(self, text: str, model_name: str, lang_info: Dict) -> str:
        """
        Génération de résumé avec mBART
        """
        try:
            self.tokenizers[model_name].src_lang = lang_info["src_lang"]
            inputs = self.tokenizers[model_name](
                text,
                max_length=512,
                truncation=True,
                return_tensors="pt"
            ).to(self.device)

            with torch.no_grad():
                outputs = self.models[model_name].generate(
                    inputs.input_ids,
                    forced_bos_token_id=self.tokenizers[model_name].lang_code_to_id[lang_info["tgt_lang"]],
                    max_length=150,
                    num_beams=2,
                    length_penalty=1.5,
                    early_stopping=True
                )

            summary = self.tokenizers[model_name].decode(outputs[0], skip_special_tokens=True)
            return summary
        except Exception as e:
            print(f"⚠️ Erreur mBART: {e}")
            return ""

    def summarize_with_mt5(self, text: str, model_name: str, lang_info: Dict) -> str:
        """
        Génération de résumé avec mT5
        """
        try:
            input_text = f"summarize: {text}"
            inputs = self.tokenizers[model_name](
                input_text,
                max_length=512,
                truncation=True,
                return_tensors="pt"
            ).to(self.device)

            with torch.no_grad():
                outputs = self.models[model_name].generate(
                    inputs.input_ids,
                    max_length=150,
                    num_beams=2,
                    length_penalty=1.5,
                    early_stopping=True
                )

            summary = self.tokenizers[model_name].decode(outputs[0], skip_special_tokens=True)
            return summary
        except Exception as e:
            print(f"⚠️ Erreur mT5: {e}")
            return ""

    def compare_models(self, texts: List[str], references: List[str]) -> pd.DataFrame:
        """
        Comparaison des modèles multilingues
        """
        models_to_compare = ['mbart-large-50', 'mt5-small', 'mt5-base']
        results = []

        for model_name in models_to_compare:
            print(f"\n🔄 Traitement avec {model_name}...")
            self.load_model(model_name)
            
            for i, (text, ref) in enumerate(zip(texts, references)):
                # Prétraitement avec détection de langue
                processed = self.preprocess_text(text, model_name)
                
                # Génération du résumé
                if "mbart" in model_name:
                    summary = self.summarize_with_mbart(text, model_name, processed)
                else:
                    summary = self.summarize_with_mt5(text, model_name, processed)
                
                # Calcul des scores ROUGE
                rouge_scores = self.compute_rouge_per_row(summary, ref)
                
                results.append({
                    'model': model_name,
                    'text_id': i,
                    'language': processed.get('lang', processed.get('src_lang')),
                    'original': text,
                    'reference': ref,
                    'generated': summary,
                    'rouge1': rouge_scores['rouge1'],
                    'rouge2': rouge_scores['rouge2'],
                    'rougeL': rouge_scores['rougeL']
                })
            
            self.clean_memory()

        return pd.DataFrame(results)

def display_results(df: pd.DataFrame):
    """
    Affichage amélioré des résultats
    """
    print("\n📊 Résultats de la comparaison des modèles\n")
    
    # Scores moyens par modèle et par langue
    print("Scores ROUGE moyens par modèle et langue :")
    mean_scores = df.groupby(['model', 'language'])[['rouge1', 'rouge2', 'rougeL']].mean()
    print(mean_scores)
    
    # Exemples détaillés
    print("\n📝 Exemples de génération par modèle :")
    for model in df['model'].unique():
        for lang in df['language'].unique():
            sample = df[(df['model'] == model) & (df['language'] == lang)].iloc[0]
            print(f"\n🤖 Modèle : {model} | Langue : {lang}")
            print(f"Original  : {sample['original'][:100]}...")
            print(f"Généré    : {sample['generated']}")
            print(f"Référence : {sample['reference']}")
            print(f"ROUGE-1   : {sample['rouge1']:.4f}")
            print(f"ROUGE-2   : {sample['rouge2']:.4f}")
            print(f"ROUGE-L   : {sample['rougeL']:.4f}")

def main():
    try:
        # Chargement des données
        base_path = "/Users/ludovicveltz/Documents/Bootcamp_GENAI_2025/Crashcourse/WEEK_6/DAY_1/DATASET"
        print("Chargement des données...")
        train_df = pd.read_csv(f"{base_path}/train.csv")
        
        # Échantillon très réduit pour test
        sample_size = 2  # Réduit à 2 pour test
        train_sample = train_df.sample(n=sample_size, random_state=42)
        
        # Initialisation du comparateur
        comparator = MultilingualModelComparator()
        
        # Comparaison des modèles
        results_df = comparator.compare_models(
            texts=train_sample['premise'].tolist(),
            references=train_sample['hypothesis'].tolist()
        )
        
        # Affichage des résultats
        display_results(results_df)
        
        # Sauvegarde des résultats
        results_df.to_csv(f"{base_path}/multilingual_model_comparison_results.csv", index=False)
        print("\n✅ Résultats sauvegardés dans multilingual_model_comparison_results.csv")
        
    except Exception as e:
        print(f"❌ Erreur: {e}")
    finally:
        if 'comparator' in locals():
            comparator.clean_memory()

if __name__ == "__main__":
    main()


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Chargement des données...
🖥️ Utilisation de : cpu

🔄 Traitement avec mbart-large-50...

📚 Chargement du modèle mbart-large-50...
❌ Erreur lors du chargement de mbart-large-50: Couldn't build proto file into descriptor pool: duplicate file name sentencepiece_model.proto
❌ Erreur: Couldn't build proto file into descriptor pool: duplicate file name sentencepiece_model.proto
🧹 Mémoire nettoyée
