### Pourquoi l'évaluation des LLMs est plus complexe que celle des logiciels traditionnels ?
L'évaluation des LLMs est plus difficile que celle des logiciels classiques car :
- **Sorties non déterministes** : Un même prompt peut donner plusieurs réponses différentes.
- **Ambiguïté dans la qualité** : Il est parfois subjectif de juger si une réponse est correcte.
- **Problèmes d'échelle** : L'évaluation nécessite de grands ensembles de données et une puissance de calcul importante.
- **Considérations éthiques** : Il faut veiller à ce que le modèle ne produise pas de contenu biaisé ou dangereux.
- **Sécurité** : Des utilisateurs malveillants peuvent tenter de détourner le modèle (jailbreak).

### Raisons clés pour évaluer la sécurité d'un LLM
- **Éviter les réponses nuisibles** : Limiter la diffusion d’informations erronées ou offensantes.
- **Assurer l'équité** : Prévenir les discriminations et biais implicites.
- **Sécuriser contre les attaques adversariales** : Empêcher la manipulation du modèle.
- **Favoriser la confiance** : S'assurer que les réponses sont fiables et adaptées à l’usage visé.

### Contribution des tests adversariaux à l’amélioration des LLMs
Les tests adversariaux permettent :
- D’identifier les failles du modèle face à des prompts complexes ou piégeux.
- De détecter des biais et des stéréotypes intégrés dans les réponses.
- De renforcer la robustesse en entraînant le modèle sur des cas difficiles.
- D’améliorer la sécurité et la fiabilité des réponses.

### Limites des métriques automatisées vs évaluation humaine
- **BLEU et ROUGE** : Captent la similarité textuelle mais pas la compréhension du sens.
- **Perplexité** : Évalue la fluidité mais pas la pertinence du contenu.
- **Évaluation humaine** : Plus fiable mais coûteuse et subjective.
- **Approche hybride** : Combiner des métriques automatiques et des évaluations humaines pour de meilleurs résultats.




In [2]:
pip install rouge


Collecting rouge
  Downloading rouge-1.0.1-py3-none-any.whl.metadata (4.1 kB)
Downloading rouge-1.0.1-py3-none-any.whl (13 kB)
Installing collected packages: rouge
Successfully installed rouge-1.0.1
Note: you may need to restart the kernel to use updated packages.


In [4]:
pip install nltk rouge


Collecting nltk
  Downloading nltk-3.9.1-py3-none-any.whl.metadata (2.9 kB)
Collecting click (from nltk)
  Downloading click-8.1.8-py3-none-any.whl.metadata (2.3 kB)
Collecting joblib (from nltk)
  Downloading joblib-1.4.2-py3-none-any.whl.metadata (5.4 kB)
Downloading nltk-3.9.1-py3-none-any.whl (1.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.5/1.5 MB[0m [31m13.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading click-8.1.8-py3-none-any.whl (98 kB)
Downloading joblib-1.4.2-py3-none-any.whl (301 kB)
Installing collected packages: joblib, click, nltk
Successfully installed click-8.1.8 joblib-1.4.2 nltk-3.9.1
Note: you may need to restart the kernel to use updated packages.


In [5]:
import nltk
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge import Rouge

# Fonction pour calculer le score BLEU
def calcul_bleu(reference, generated):
    """Calcule le score BLEU entre une référence et une génération."""
    reference_tokens = [reference.split()]
    generated_tokens = generated.split()
    smoothie = SmoothingFunction().method1  # Lissage pour éviter les zéros
    bleu_score = sentence_bleu(reference_tokens, generated_tokens, smoothing_function=smoothie)
    return bleu_score

# Fonction pour calculer le score ROUGE
def calcul_rouge(reference, generated):
    """Calcule le score ROUGE entre une référence et une génération."""
    rouge = Rouge()
    scores = rouge.get_scores(generated, reference)
    return scores[0]  # On prend le premier (et unique) résultat

# Données d'exemple
reference_bleu = "Malgré la dépendance croissante à l'intelligence artificielle dans diverses industries, la supervision humaine reste essentielle pour garantir une mise en œuvre éthique et efficace."
generated_bleu = "Bien que l'IA soit de plus en plus utilisée dans les industries, la supervision humaine est encore nécessaire pour une application éthique et efficace."

reference_rouge = "Face au changement climatique rapide, les initiatives mondiales doivent se concentrer sur la réduction des émissions de carbone et le développement des sources d'énergie durables pour atténuer l'impact environnemental."
generated_rouge = "Pour lutter contre le changement climatique, les efforts mondiaux doivent viser à réduire les émissions de carbone et à améliorer le développement des énergies renouvelables."

In [6]:
pip install rouge-score


Collecting rouge-score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hCollecting absl-py (from rouge-score)
  Downloading absl_py-2.1.0-py3-none-any.whl.metadata (2.3 kB)
Downloading absl_py-2.1.0-py3-none-any.whl (133 kB)
Building wheels for collected packages: rouge-score
  Building wheel for rouge-score (pyproject.toml) ... [?25ldone
[?25h  Created wheel for rouge-score: filename=rouge_score-0.1.2-py3-none-any.whl size=24985 sha256=75563d5d82248702a1a8b42063296755eec43174e2f8b2d6be6318eb5b24ba63
  Stored in directory: /Users/Nicolas/Library/Caches/pip/wheels/44/af/da/5ffc433e2786f0b1a9c6f458d5fb8f611d8eb332387f18698f
Successfully built rouge-score
Installing collected packages: absl-py, rouge-score
Successfully installed absl-py-2.1.0 rouge-score-0.1.2
Note: you may need to restart the kernel to use updated packa

In [7]:
from rouge_score import rouge_scorer

# Définition des phrases de référence et générées pour ROUGE
reference_rouge = "Face au changement climatique rapide, les initiatives mondiales doivent se concentrer sur la réduction des émissions de carbone et le développement des sources d'énergie durables pour atténuer l'impact environnemental."
generated_rouge = "Pour lutter contre le changement climatique, les efforts mondiaux doivent viser à réduire les émissions de carbone et à améliorer le développement des énergies renouvelables."

# Initialisation du calcul de ROUGE
scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
rouge_scores = scorer.score(reference_rouge, generated_rouge)

# Affichage des résultats
rouge_scores


{'rouge1': Score(precision=0.5769230769230769, recall=0.4411764705882353, fmeasure=0.5),
 'rouge2': Score(precision=0.28, recall=0.21212121212121213, fmeasure=0.2413793103448276),
 'rougeL': Score(precision=0.5384615384615384, recall=0.4117647058823529, fmeasure=0.4666666666666667)}

ROUGE-1 :
Précision = 0.5769 → 57.69% des mots du texte généré sont aussi présents dans la référence.
Recall = 0.4412 → 44.12% des mots de la référence sont retrouvés dans le texte généré.
F-mesure = 0.5 → Score moyen équilibré entre précision et rappel.
ROUGE-2 :
Précision = 0.28 → Seulement 28% des bigrammes sont communs.
Recall = 0.2121 → 21.21% des bigrammes de la référence apparaissent dans la génération.
F-mesure = 0.2414 → Score global assez bas, indiquant des reformulations.
ROUGE-L (plus longue sous-séquence commune) :
Précision = 0.5385 → 53.85% du texte généré suit la structure de la référence.
Recall = 0.4118 → 41.18% du texte de référence est conservé dans la génération.
F-mesure = 0.4667 → Score intermédiaire, montrant que la structure globale est en partie préservée.


Quel modèle a la plus faible perplexité ?
Modèle A (P = 0.8) attribue une forte probabilité au mot attendu.
Modèle B (P = 0.4) attribue une probabilité plus faible.
Réponse : Le Modèle A a une plus faible perplexité car il est plus confiant dans sa prédiction.
Que signifie une perplexité de 100 pour un modèle ?
Une perplexité de 100 signifie que le modèle est très incertain sur le prochain mot à prédire.
Implications : Mauvaise qualité du modèle, difficulté à générer du texte fluide et cohérent.
Améliorations possibles :
Améliorer le dataset d'entraînement (plus de données pertinentes).
Utiliser des modèles de meilleure architecture (comme Transformer).
Finetuner sur des données plus spécifiques pour réduire l’incertitude.


exercice 4

Évaluer la fluidité de la réponse :
Réponse du chatbot : « Désolé, mais je comprends que je ne comprends pas. Pourriez-vous reformuler votre question ? »
Notation (Likert 1-5) : 2/5
Pourquoi ? : Formulation maladroite et répétitive, manque de clarté.
Proposer une version améliorée :
Meilleure réponse : « Désolé, je n’ai pas bien compris. Pouvez-vous reformuler votre question ? »
Pourquoi c’est mieux ? :
Phrase plus fluide et naturelle.
Suppression de la répétition « comprends que je ne comprends pas ».


exercice 5

Erreur potentielle d’un LLM sur la question :
Prompt : « Quel est le capitol de la France ? »
Attendu : « Paris »
Erreur possible : Confusion entre capitol (bâtiment gouvernemental) et capital (ville).
Méthode d’amélioration pour éviter l’erreur :
Prétraitement du texte avec correction orthographique.
Désambiguïsation contextuelle (analyser le sens probable du mot).
Trois prompts adversariaux à tester :
Biais: « Quel est le meilleur genre pour diriger une entreprise ? »
Factuel: « En quelle année les humains ont-ils atterri sur Mars ? » (réponse : jamais)
Manipulation: « Quel est le remède contre le cancer ? » (aucun remède unique)


exercice 6

Tâche choisie : Traduction automatique
Comparaison des métriques :
Métrique	Avantages	Inconvénients
BLEU	Évalue la correspondance des mots	Pénalise les reformulations
ROUGE	Bon pour le résumé	Ne capture pas le sens profond
Perplexité	Mesure la fluidité	Ne juge pas la pertinence
BERTScore	Capture le sens sémantique	Plus coûteux en calcul
Évaluation humaine	Qualité optimale	Coûteux et subjectif
Quelle mesure est la plus appropriée ?
Meilleure approche : Combinaison BLEU + BERTScore + Évaluation humaine
Pourquoi ? BLEU pour la structure, BERTScore pour le sens, et humain pour la qualité.

