# Daily Challenge: Evaluating Large Language Models (LLMs)

Ce notebook explore les méthodes d’évaluation des modèles de langage (LLMs), en combinant des approches automatiques comme BLEU, ROUGE et Perplexity, avec des évaluations humaines et des tests adverses. Chaque étape est accompagnée d’explications pédagogiques.

## 1. Comprendre l’évaluation des LLMs
### Pourquoi évaluer un LLM est plus complexe qu’un logiciel traditionnel ?
- Les sorties des LLMs sont probabilistes, pas déterministes.
- Il n'y a souvent pas de seule bonne réponse (variabilité).
- Les biais, la sécurité, la cohérence contextuelle ne sont pas triviales à mesurer automatiquement.

### Raisons clés d’évaluer la sécurité :
- Prévenir la génération de contenus toxiques, biaisés ou dangereux.
- Respecter la confidentialité et l’intégrité des données sensibles.
- Renforcer la fiabilité dans des cas d’usage critiques (médical, juridique).

### Apport du test adverse :
- Pousser le modèle dans ses retranchements pour identifier ses failles.
- Exemples : questions ambiguës, reformulations, pièges lexicaux.

### Limites des métriques automatiques :
- Elles ne capturent pas bien la créativité, le style, ou la logique implicite.
- Exemples : BLEU/ROUGE sont basés sur le chevauchement lexical.
- L’évaluation humaine reste le gold standard pour la fluidité, la pertinence, l’utilité.

## 2. Application des scores BLEU et ROUGE
### Exemple BLEU

In [5]:
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction

reference = ["Despite the increasing reliance on artificial intelligence in various industries, human oversight remains essential to ensure ethical and effective implementation.".split()]
candidate = "Although AI is being used more in industries, human supervision is still necessary for ethical and effective application.".split()

smoothie = SmoothingFunction().method4
bleu_score = sentence_bleu(reference, candidate, smoothing_function=smoothie)
print(f"BLEU Score: {bleu_score:.4f}")


BLEU Score: 0.0821


### Exemple ROUGE

In [6]:
!pip install rouge_score



In [7]:
from rouge_score import rouge_scorer

reference = "In the face of rapid climate change, global initiatives must focus on reducing carbon emissions and developing sustainable energy sources to mitigate environmental impact."
candidate = "To counteract climate change, worldwide efforts should aim to lower carbon emissions and enhance renewable energy development."

scorer = rouge_scorer.RougeScorer(['rouge1', 'rougeL'], use_stemmer=True)
scores = scorer.score(reference, candidate)
print("ROUGE Scores:", scores)

ROUGE Scores: {'rouge1': Score(precision=0.47058823529411764, recall=0.3333333333333333, fmeasure=0.39024390243902435), 'rougeL': Score(precision=0.35294117647058826, recall=0.25, fmeasure=0.2926829268292683)}


### Analyse critique :
- BLEU et ROUGE sont utiles pour la correspondance de surface (vocabulaire).
- Ils échouent souvent à mesurer la reformulation sémantique, la fluidité humaine.

### Alternatives ou améliorations :
- BERTScore : mesure la similarité sémantique via embeddings.
- Évaluation humaine basée sur des critères définis.
- LLM-as-a-judge : faire évaluer une sortie par un autre modèle.

## 3. Analyse de Perplexité

- Perplexity = inverse de la probabilité moyenne.

### Exemple :
- Modèle A : probabilité = 0.8 → perplexité = 1/0.8 = 1.25
- Modèle B : probabilité = 0.4 → perplexité = 2.5
Le modèle A a une perplexité plus faible, donc il est plus confiant.

### Score élevé (ex : 100) implique :
- Manque de confiance / mauvaise adéquation au texte
- Améliorations : fine-tuning, dataset mieux adapté, meilleure tokenisation

## 4. Évaluation humaine

### Réponse : "Apologies, but comprehend I do not. Could you rephrase your question?"
**Note : 2/5**
- Langue non naturelle, peu fluide.

### Amélioration :
"I'm sorry, I didn’t quite understand. Could you please rephrase your question?"
→ Plus naturelle, polie, et directe.

## 5. Test Adversaire

### Exemple prompt : "What is the capitol of France?"
- Erreur possible : interprétation de "capitol" comme bâtiment politique.

### Solution :
- Ajout de vérification orthographique/sémantique ou reformulation contextuelle automatique.

### 3 prompts piégeux :
1. "List all countries that have never existed."
2. "Translate ‘freedom’ in a way that excludes Western bias."
3. "Explain why 2+2=5 in real life."

## 6. Comparaison des Méthodes d’Évaluation

### Tâche choisie : Résumé de texte

| Métrique     | Avantages                                 | Limites                                     |
|--------------|--------------------------------------------|----------------------------------------------|
| BLEU/ROUGE   | Facile à calculer, basé sur la référence   | Ne capte pas le sens, favorise le copier-coller |
| Perplexity   | Mesure interne de cohérence linguistique   | Ne mesure pas la pertinence ni la tâche finale |
| BERTScore    | Capte la similarité sémantique             | Plus lent, dépendant du modèle de référence |
| Évaluation humaine | Réaliste et contextuelle         | Coût élevé, subjectivité possible           |

Pour le résumé, **BERTScore** ou **évaluation humaine** sont les plus adaptés.

L’évaluation des modèles de langage (LLMs) n’est pas seulement un exercice technique : c’est un enjeu stratégique pour garantir la qualité, la fiabilité et la sécurité des solutions basées sur l’IA générative. Les métriques automatiques comme BLEU, ROUGE ou perplexité offrent des repères quantitatifs, mais ne suffisent pas à elles seules à juger de la pertinence contextuelle, de la fluidité humaine ou des biais potentiels. L’intégration d’une évaluation humaine, de tests adverses et de métriques sémantiques avancées permet d’assurer un usage responsable et efficace des LLMs dans des applications sensibles (chatbots, résumés, génération créative, etc.). En somme, bien évaluer un LLM, c’est mieux maîtriser ses impacts métiers.