# **1. Understanding LLM Evaluation:**

* Les LLMs sont non déterministes, produisent des réponses ouvertes, et leur évaluation dépend de critères subjectifs comme la pertinence ou la sécurité.
* Les principales raisons d'évaluer la sécurité d'un modèle est  d'éviter les dérives, limiter les biais, protéger les utilisateurs et respecter les cadres légaux et éthiques.
* les tests adversial contribuent a l'amélioration d'un llm en identifiant des failles via des entrées piégeuses, ce qui permet de renforcer la robustesse du modèle.
* Les métriques d'évalutions automatisées manquent de nuance et de compréhension contextuelle. L’humain reste plus fiable, mais plus lent et coûteux.

# **2. Applying BLEU and ROUGE Metrics:**

In [None]:
!pip install rouge_score

In [4]:
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge_score import rouge_scorer

In [6]:
reference_bleu =["Despite the increasing reliance on artificial intelligence in various industries, human oversight remains essential to ensure ethical and effective implementation."]
generated_bleu = "Although AI is being used more in industries, human supervision is still necessary for ethical and effective application."

ref_tokens = [reference_bleu[0].lower().split()]
gen_tokens = generated_bleu.split()

smoothie = SmoothingFunction().method1
bleu_score = sentence_bleu(ref_tokens, gen_tokens, smoothing_function=smoothie)

print("Bleu Score: ", bleu_score)

Bleu Score:  0.06296221772093169


In [7]:
reference_rouge = "In the face of rapid climate change, global initiatives must focus on reducing carbon emissions and developing sustainable energy sources to mitigate environmental impact."
generated_rouge = "To counteract climate change, worldwide efforts should aim to lower carbon emissions and enhance renewable energy development."

scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
scores = scorer.score(reference_rouge, generated_rouge)

for metric, score in scores.items():
    print(f"{metric}: {score}")

rouge1: Score(precision=0.47058823529411764, recall=0.3333333333333333, fmeasure=0.39024390243902435)
rouge2: Score(precision=0.1875, recall=0.13043478260869565, fmeasure=0.15384615384615383)
rougeL: Score(precision=0.35294117647058826, recall=0.25, fmeasure=0.2926829268292683)


Le bleu score et le rouge score ne prennent pas en  compte le sens, ce qui pénalise les reformulations valides. Par exemple, deux phrases au sens équivalent mais avec des mots différents obtiennent un score faible. De plus, ils ne tiennent pas compte de la fluidité, de la grammaire ni de la cohérence. Ces métriques sont donc mal adaptées aux textes contextuels ou originaux.



Pour dépasser ces limites, on peut utiliser BERTScore, qui compare le sens des phrases via des modèles de langage, ou METEOR, qui reconnaît les synonymes et les variations grammaticales. L’évaluation humaine reste essentielle pour juger la pertinence, la clarté et la créativité, surtout dans les tâches ouvertes comme le résumé, la génération de dialogue ou la narration.

# **3. Perplexity Analysis:**

In [9]:
prob_model_a = 0.8
prob_model_b = 0.4

perplexity_a = 1 / prob_model_a
perplexity_b = 1 / prob_model_b

print("Perplexity Model A: ", perplexity_a)
print("Perplexity Model B: ", perplexity_b)

Perplexity Model A:  1.25
Perplexity Model B:  2.5


Le modèle A a une perplexité plus faible (1,25), ce qui signifie qu’il est plus confiant et performant pour prédire le mot « mitigation ». Une faible perplexité indique une meilleure compréhension du contexte.

Un modèle avec une perplexité de 100 montre une forte incertitude dans ses prédictions. Cela reflète une mauvaise performance. Pour l’améliorer, on peut enrichir les données d'entraînement, ajuster les hyperparamètres ou utiliser un modèle plus avancé et spécialisé.

# **4. Human Evaluation Exercise:**

j'évaluerai la fluidité de la réponse de ce chatbot a 2 sur 5 sur l'echelle de likert dû à la formulation "comprehend I do not" qui inverse les mots d'une phrase naturellement formulée, ce qui nuit à la fluidité de la phrase même si celle-ci reste compréhensible.

Une reformultion potentielle de la phrase pourrait être : "Sorry, I didn’t understand. Could you rephrase your question?". Cela rend la phrase plus fluide et plus naturelle.

# **5. Adversarial Testing Exercise:**

Un LLM pourrait se tromper en répondant à la question en raison de la confusion entre “capitol” et “capital”.
Le mot “capitol” désigne généralement un batiment. Un LLM pourrait donc répondre par erreur en parlant d’un bâtiment gouvernemental plutôt que de la ville.

Pour améliorer la robustesse d’un LLM face à ce type d’erreurs, on pourrait intégrer une phase de correction orthographique et sémantique du prompt avant génération de la réponse.

1. Robustesse (orthographe ou formulation étrange)
« Quelle est la capitale de l’Allemagne de l’est ? »

2. Fausse information
« Combien de lunes a la Terre ? Trois ou quatre ? »

3. Logique et déduction
« Paul a deux fois l’âge de sa sœur. Sa sœur a 10 ans de plus que Paul. Quel âge a Paul ?

# **6. Comparative Analysis of Evaluation Methods:**

Le text summarization consiste à condenser un texte tout en conservant les idées essentielles.

ROUGE mesure les n-grammes communs entre le résumé généré et un résumé de référence. Il est simple et courant, mais ne reconnaît pas les reformulations.

BERTScore compare le sens grâce à des modèles comme BERT. Il détecte mieux les synonymes et paraphrases, ce qui le rend plus pertinent pour les résumés sémantiquement corrects.

Évaluation humaine juge la fidélité, la clarté et la fluidité. C’est la méthode la plus fiable, mais aussi la plus coûteuse.

Bien que BERTScore soit utile dans ce contexte pour évaluer si le résumé reflète bien le sens du texte original, l’évaluation humaine reste malgré tout la plus complète et la plus appropriée, car elle permet d’apprécier des aspects qualitatifs comme la clarté, la fidélité au contenu et la cohérence globale.