W7_D3 DAILY CHALLENGE 

# Défi quotidien : évaluer de grands modèles linguistiques

👩‍🏫 👩🏿‍🏫 Ce que vous apprendrez
L’importance d’évaluer les LLM en termes de performances, de fiabilité et de sécurité.
Les défis liés à l’évaluation du LLM.
Un aperçu des différentes méthodes d’évaluation, y compris les mesures de chevauchement de contenu, les mesures basées sur des modèles, l’évaluation humaine et les tests contradictoires.
Compréhension approfondie des métriques BLEU, ROUGE et Perplexity.
Réflexion critique dans le choix de la bonne mesure d’évaluation pour différentes applications.

🛠️ Ce que vous allez créer
Vous réaliserez des exercices pour appliquer les scores BLEU et ROUGE à un échantillon de texte, analyser les scores de perplexité, effectuer des tests contradictoires et proposer des améliorations aux méthodologies d'évaluation LLM.

# 1. Compréhension théorique

Expliquez pourquoi l’évaluation des LLM est plus complexe que celle des logiciels traditionnels.
Identifier les principales raisons pour lesquelles il faut évaluer la sécurité d’un LLM.
Décrivez comment les tests contradictoires contribuent à l’amélioration du LLM.
Discutez des limites des mesures d’évaluation automatisées et de la façon dont elles se comparent à l’évaluation humaine.

 - Les LLM sont plus complexes à évaluer car ils produisent des sorties ouvertes (open-ended), 
   avec une infinité de réponses valides selon le contexte, contrairement aux logiciels traditionnels.
 - Il faut évaluer la sécurité pour détecter la toxicité, biais, hallucinations et abus potentiels.
 - Les tests contradictoires testent la robustesse en exposant le modèle à des inputs difficiles.
 - Les mesures automatiques sont rapides mais peu fiables sur la qualité sémantique ou la créativité, contrairement aux évaluations humaines plus coûteuses mais pertinentes.


## 2. BLEU et ROUGE

Calculez le score BLEU pour l'exemple suivant :

Référence : « Malgré le recours croissant à l’intelligence artificielle dans divers secteurs, la surveillance humaine reste essentielle pour garantir une mise en œuvre éthique et efficace. »
Généré : « Bien que l’IA soit de plus en plus utilisée dans les industries, la supervision humaine reste nécessaire pour une application éthique et efficace. »
Calculez le score ROUGE pour l'exemple suivant :

Référence : « Face au changement climatique rapide, les initiatives mondiales doivent se concentrer sur la réduction des émissions de carbone et le développement de sources d’énergie durables pour atténuer l’impact environnemental. »
Généré : « Pour lutter contre le changement climatique, les efforts mondiaux devraient viser à réduire les émissions de carbone et à renforcer le développement des énergies renouvelables. »
Fournir une analyse des limites de BLEU et ROUGE lors de l’évaluation de textes créatifs ou contextuels.

Proposez des améliorations ou des méthodes alternatives pour évaluer la génération de texte.

In [None]:
%pip install rouge-score

from nltk.translate.bleu_score import sentence_bleu
from rouge_score import rouge_scorer

### BLEU
reference_bleu = ["Malgré le recours croissant à l’intelligence artificielle dans divers secteurs, la surveillance humaine reste essentielle pour garantir une mise en œuvre éthique et efficace.".split()]
generated_bleu = "Bien que l’IA soit de plus en plus utilisée dans les industries, la supervision humaine reste nécessaire pour une application éthique et efficace.".split()

bleu_score = sentence_bleu(reference_bleu, generated_bleu)
print(f"Score BLEU : {bleu_score:.4f}")

### ROUGE
scorer = rouge_scorer.RougeScorer(["rouge1", "rouge2", "rougeL"], use_stemmer=True)
reference_rouge = "Face au changement climatique rapide, les initiatives mondiales doivent se concentrer sur la réduction des émissions de carbone et le développement de sources d’énergie durables pour atténuer l’impact environnemental."
generated_rouge = "Pour lutter contre le changement climatique, les efforts mondiaux devraient viser à réduire les émissions de carbone et à renforcer le développement des énergies renouvelables."
rouge_scores = scorer.score(reference_rouge, generated_rouge)
print(f"Scores ROUGE : {rouge_scores}")

 #Limites BLEU/ROUGE : ils ignorent la sémantique et pénalisent la paraphrase correcte. Peu fiables pour textes créatifs.
#Alternatives : BERTScore (prise en compte de la sémantique), évaluation humaine, tests contradictoires.

Analyse rapide :

* **Score BLEU = 0.0000** :
  Très mauvais score, indique qu'aucune correspondance exacte de n-grammes n’a été trouvée (probablement à cause d’une reformulation forte ou synonymes). Cela montre que BLEU est trop strict, surtout sur des textes paraphrasés.

* **ROUGE-1 (f1 ≈ 47%)** :
  Bon rappel et précision moyens sur les mots uniques. Ça montre une certaine similarité lexicale mais pas parfaite.

* **ROUGE-2 (f1 ≈ 21%)** :
  Score faible sur les bigrammes (groupes de 2 mots), donc peu de similarité sur la structure de phrases.

* **ROUGE-L (f1 ≈ 41%)** :
  Indique une certaine correspondance sur les séquences longues (longest common subsequence), meilleure qu’un hasard mais pas excellente.

### Conclusion :

BLEU échoue totalement car trop sensible aux reformulations ; ROUGE capte mieux la similarité mais reste limité. Le texte généré est *paraphrasé* correctement mais *très différent lexicalement*. Résultat classique pour textes paraphrasés ou résumés.


## 3. Analyse Perplexité

Comparez la perplexité des deux modèles de langage en fonction de la probabilité attribuée à un mot :

Modèle A : Attribue une probabilité de 0,8 à « l’atténuation ».
Modèle B : Attribue une probabilité de 0,4 à « l’atténuation ».
Déterminez quel modèle présente le moins de perplexité et expliquez pourquoi.

Étant donné un modèle de langage dont le score de perplexité est de 100, discutez de ses implications en termes de performances et des moyens possibles de l’améliorer.

In [5]:
import math

# Perplexité = 1 / P(mot) donc modèle A a perplexité 1/0.8 = 1.25, modèle B = 1/0.4 = 2.5
perplexity_A = 1 / 0.8
perplexity_B = 1 / 0.4
print(f"Perplexité Modèle A : {perplexity_A:.2f}")
print(f"Perplexité Modèle B : {perplexity_B:.2f}")

# Modèle A est meilleur car perplexité plus faible = prédictions plus confiantes.

# Perplexité = 100 implique mauvaise prédiction, probablement sur données hors distribution.
# Pour l'améliorer : affiner le modèle, ajouter données pertinentes, ajuster hyperparamètres.

Perplexité Modèle A : 1.25
Perplexité Modèle B : 2.50


Analyse :

* **Modèle A (perplexité 1.25)** prédit le mot avec beaucoup plus de confiance (proba 0.8), il est donc **meilleur** et plus sûr sur cette prédiction.

* **Modèle B (perplexité 2.5)** est deux fois plus incertain (proba 0.4), ce qui indique un modèle **moins performant** pour ce mot précis.

### Conclusion :

**Perplexité plus basse = meilleur modèle** pour la prédiction de ce mot. Modèle A est **plus sûr et performant** ici.


## 4. Évaluation humaine

Évaluez la fluidité de la réponse de ce chatbot à l'aide d'une échelle de Likert (1 à 5) : « Toutes mes excuses, mais je ne comprends pas. Pourriez-vous reformuler votre question ? »
Justifiez votre note.
Proposez une version améliorée de la réponse et expliquez pourquoi elle est meilleure.

In [6]:
# 4. Évaluation humaine
# Note Likert de 1 (très mauvais) à 5 (très bon)
# Exemple : "Toutes mes excuses, mais je ne comprends pas. Pourriez-vous reformuler votre question ?"
likert_note = 4
print(f"Note Likert : {likert_note}")
# Justification : réponse polie, claire, mais peut être améliorée en étant plus engageante.

# Version améliorée : "Je suis désolé, je n'ai pas bien compris. Pouvez-vous préciser ou reformuler votre question s'il vous plaît ?"
# Amélioration : langage plus humain, engage l'utilisateur à clarifier.

Note Likert : 4


### Analyse :

* **Note 4/5** = bonne fluidité générale.
* Points positifs : phrase claire, polie, compréhensible.
* Point d’amélioration : manque un ton plus naturel ou empathique pour atteindre 5/5 (un peu robotique).

### Conclusion :

Réponse correcte mais améliorable avec un style plus humain ou engageant (ex : « Bien sûr, pouvez-vous préciser votre demande ? »).


## 5. Test contradictoire

Identifiez l’erreur potentielle qu’un LLM pourrait commettre en répondant à la question : « Quelle est la capitale de la France ? »

Attendu : « Paris. »
Proposez une méthode pour améliorer la robustesse contre de telles erreurs.

Créez au moins trois questions délicates qui pourraient remettre en question la robustesse, la détection des biais ou l’exactitude factuelle d’un LLM.

In [7]:
# Erreur possible : hallucination, exemple "Lyon" ou "Marseille" au lieu de "Paris".
# Solution : cross-validation avec bases de connaissances fiables, filtres de factualité.

# Trois questions pièges :
questions_difficiles = [
    "Quel est le président actuel de la France en 2050 ?", # Futur
    "Combien de pattes a un dragon ?", # Entité fictive
    "Quelle est la capitale de l'Atlantide ?" # Mythe
]
print(f"Questions difficiles : {questions_difficiles}")

Questions difficiles : ['Quel est le président actuel de la France en 2050 ?', 'Combien de pattes a un dragon ?', "Quelle est la capitale de l'Atlantide ?"]


### Analyse :

* **Question 1** : piège temporel → un bon LLM doit reconnaître l’absence d’information sur le futur.
* **Question 2** : entité fictive → vérifier la capacité à reconnaître un être imaginaire sans inventer une réponse crédible.
* **Question 3** : mythe / lieu inexistant → test de gestion des faits mythologiques et de détection de l’inexistence.

### Conclusion :

Ces questions testent :

* **robustesse factuelle**,
* **détection de fiction**,
* **gestion du contexte temporel**.
  Elles visent à détecter hallucinations et excès de confiance du modèle.


## 6. Analyse comparative

Choisissez une tâche PNL (par exemple, traduction automatique, résumé de texte, réponse à des questions).
Comparez et opposez au moins trois mesures d’évaluation différentes (BLEU, ROUGE, BERTScore, Perplexité, Évaluation humaine, etc.).
Discutez de la mesure la plus appropriée pour la tâche choisie et pourquoi.

In [None]:
# Exempl : Résumé de texte
# BLEU : utile mais trop strict sur le mot à mot.
# ROUGE : mesure la couverture, mieux pour résumé.
# BERTScore : encode le sens, mieux sur paraphrase.
# Perplexité : peu utile car ne corrèle pas avec la qualité perçue.
# Évaluation humaine : indispensable pour sens global et fluidité.

# Conclusion : pour résumé, ROUGE et BERTScore sont les plus pertinents, avec un complément humain.

print("\nConclusion : combinaison ROUGE + BERTScore + évaluation humaine recommandée pour les résumés.")


Conclusion : combinaison ROUGE + BERTScore + évaluation humaine recommandée pour les résumés.


### Analyse directe :

* **ROUGE** : mesure la couverture lexicale → utile pour vérifier si les informations clés sont présentes.
* **BERTScore** : intègre la similarité sémantique → capte mieux la reformulation et la paraphrase.
* **Évaluation humaine** : essentielle pour juger la qualité perçue (fluidité, pertinence, logique).

### Conclusion finale :

Cette combinaison est équilibrée : **quantitatif (ROUGE + BERTScore)** + **qualitatif (humain)**, idéale pour évaluer des résumés, surtout sur des textes ouverts et variés.


## 7. Bilan

### Bilan rapide de l’exercice

Cet exercice couvre les points essentiels de l’évaluation des LLM :

* **Évaluation théorique** : importance d’évaluer non seulement la performance mais aussi la sécurité et la fiabilité des LLM, avec des limites des mesures automatiques sur des tâches complexes.

* **Métriques automatiques** :

  * **BLEU** trop strict, peu adapté aux paraphrases.
  * **ROUGE** pertinent pour la couverture d’informations mais limité sur la sémantique.
  * **BERTScore** et **évaluation humaine** mieux adaptés aux contextes créatifs.

* **Perplexité** : mesure utile pour la prédiction brute mais insuffisante pour évaluer la qualité finale perçue par l’utilisateur.

* **Évaluation humaine** : indispensable pour juger la fluidité et la pertinence.

* **Tests contradictoires** : utiles pour détecter biais, hallucinations et faiblesses en généralisation.

* **Conclusion générale** : aucun indicateur n’est suffisant seul ; il faut **combiner métriques automatiques, évaluation humaine et tests de robustesse** pour une évaluation fiable des LLM.
