![Logo Nortal](images/logo_nortal.png)


# NORTevAL - die Kunst der LLM-Evaluierung: Eine Reise durch Metriken und NLP-Tests

Willkommen zu unserem spannenden Projekt, in dem wir uns mit der Evaluierung von Language Models (LLMs) beschäftigen. In der Welt der Künstlichen Intelligenz spielen LLMs eine zentrale Rolle, aber wie bewerten wir ihre Leistung und Qualität? 

Das ist die Frage, die wir in diesem Jupyter Notebook beantworten werden...

## Hintergrund
Language Models sind das Rückgrat vieler moderner KI-Anwendungen, von Spracherkennung bis hin zu Textgenerierung. Die Genauigkeit und Zuverlässigkeit dieser Modelle ist entscheidend für ihre Funktionalität. 
Doch wie können wir sicher sein, dass ein LLM gut funktioniert? Hier kommen unsere Evaluierungsmethoden ins Spiel.

## Ziel des Notebooks
In diesem Notebook präsentieren wir unser selbst entwickeltes Python-Modul, das eine Reihe von Metriken und NLP-Tests nutzt, um die Leistung von LLMs zu bewerten. Von BLEU und ROUGE für die Bewertung der Textqualität bis hin zu Sentimentanalyse, Hate Speech Detection und der Messung der semantischen Ähnlichkeit zwischen Prompts und Antworten - wir decken ein breites Spektrum ab.

![Evaluierung eines Language Models](images/evaluation_image.png)
*Evaluierungsprozess eines Language Models*

## Unsere Methode: Ein vielseitiger Ansatz

Unser Modul geht über traditionelle Metriken hinaus und integriert moderne NLP-Techniken, um eine umfassende Bewertung von Language Models zu ermöglichen. In der sich schnell entwickelnden Welt der künstlichen Intelligenz ist es entscheidend, ein tiefes Verständnis dafür zu entwickeln, wie gut Modelle menschliche Sprache verstehen und generieren können. Hier zunächst eine kurze Erläuterung zu den Metriken BLEU und ROUGE, die in der Bewertung von maschineller Übersetzung und Textgenerierung weit verbreitet sind:
&nbsp;

1. **BLEU**: 
Diese Metrik misst, wie nahe die von einem Modell generierte Übersetzung einer menschlichen Referenzübersetzung kommt. BLEU bewertet die Qualität der Übersetzung, indem sie die Übereinstimmung der N-Gramme (Wortsequenzen verschiedener Längen) zwischen dem generierten und dem Referenztext berechnet.
&nbsp;

2. **ROUGE**: 
ROUGE wird häufig zur Bewertung von automatisierten Zusammenfassungen verwendet. Es misst, wie viele der wichtigen Wörter und Phrasen, die in den Referenztexten enthalten sind, auch in der generierten Zusammenfassung erscheinen. Dies ist besonders nützlich, um die Fähigkeit eines Modells zur Extraktion der Kerninhalte aus einem längeren Dokument zu bewerten.


<img src="images/metrics_summary.png" alt="Metrics Summary" width="900"/>

*Metrics for LLM Evaluation*

Diese traditionellen Metriken geben uns erste Einblicke in die Fähigkeit eines LLMs zur Textgenerierung. Sie konzentrieren sich jedoch hauptsächlich auf die Oberflächenstruktur des Textes. Um ein umfassenderes Bild der Leistungsfähigkeit von LLMs zu erhalten, erweitern wir unsere Methodik um fortschrittliche NLP-Verfahren. Unter anderem testen wir:
&nbsp;

1. **Sentimentanalyse und Hate Speech Detection**: 
Diese Tests sind entscheidend, um zu beurteilen, wie gut das Modell verschiedene Stimmungen erkennt und ob es in der Lage ist, unangemessene Inhalte zu identifizieren und zu vermeiden.
&nbsp;

2. **Semantische Ähnlichkeitsmessung und Schlüsselwörterextraktion**: 
Durch die Bewertung der semantischen Nähe zwischen Prompt und Response können wir verstehen, wie genau das Modell den Kontext und die Bedeutung eines Textes erfasst, durch die Schlüsselwörterextraktion, ob das Modell die Kernthemen aus dem Prompt aufgreift.
&nbsp;

3. **Natürlichkeit der Response**:
Um die Natürlichkeit und Flüssigkeit der generierten Texte zu bewerten, verwenden wir die Perplexitätsberechnung, die ein Maß für die Vorhersagbarkeit eines Textes durch ein Sprachmodell ist. Hierbei setzen wir Modelle wie GPT-2 ein, um die Verlustfunktion (Loss) zu berechnen, die uns Aufschluss über die Perplexität der Antwort gibt. Je niedriger die Perplexität, desto natürlicher und flüssiger ist der Text. Diese Bewertung gibt uns wertvolle Einblicke in die Qualität der Sprachgenerierung des Modells und hilft uns zu beurteilen, wie gut es menschliche Sprachmuster nachahmen kann.

# Setup and Environment Preparation
Hier installieren wir erstmal alle notwendigen Abhängigkeiten und importieren dann alle Methoden und Datensets, die wir benötigen, aus unseren verschiedenen Skripten.

In [None]:
%pip install -r requirements.txt

In [None]:
import json
import os.path
from create_results import create_results
from metrics.bleu import calculate_bleu
from nlp.sentiment_analysis import run_sentiment_analysis
from nlp.hate_speech_detection import run_hate_speech
from nlp.natural_language_quality_tests.natural_language_quality_assessor import evaluate_generated_text_quality
from nlp.contains_verb import run_contains_verb

In [None]:
de_file_path = "datasets/zitate_dewiki_bleu_10_ds.de"
en_file_path = "datasets/zitate_dewiki_bleu_10_ds.en"
ds_json_file_path = "datasets/sentiment_analysis_10_ds.json"
dataset_path = "./datasets/hate_speech_germeval21_10_ds.json"
dataset_natural_l_assess = 'datasets/natural_language_dataset.json'

### Ergebnis Ordner erstellen 

In [49]:
output_folder = create_results()

The folder results_11-02-2024_17-08-21 is being created.


# BLEU metric calculation

![BLEU metric](images/bleu_metric.png)


Lasst uns doch mal die BLEU Metrik ausprobieren, und schauen wie gut die Übersetzungen des Modells mit den Referenzübersetzungen von Menschen übereinstimmen.

## Press PLAY for BLEU

In [50]:
calculate_bleu(output_folder)

## Ergebnisse anzeigen lassen

In [51]:
file_to_display = "bleu_results.json"
file_path = os.path.join(output_folder, file_to_display)

if os.path.exists(file_path):
    with open(file_path, "r") as file:
        bleu_results = json.load(file)
        limited_results = bleu_results["scores"][:10]
        
        print("Contents of bleu_results.json:")
        print(json.dumps({"scores": limited_results}, indent=4, ensure_ascii=False))  
else:
    print(f"The file {file_to_display} does not exist in the folder {output_folder}.")

Contents of bleu_results.json:
{
    "scores": [
        {
            "index": 1,
            "response": "Slayer war der Hauptact.",
            "reference": "Slayer war Headliner.",
            "bleu_score": "0.48",
            "score_category": "good"
        },
        {
            "index": 2,
            "response": "Ich erinnere mich nicht an viel von dieser Nacht vor Slayer.",
            "reference": "Ich erinnere mich von dieser Nacht an kaum noch was vor Slayer.",
            "bleu_score": "0.75",
            "score_category": "good"
        },
        {
            "index": 4,
            "response": "Offensichtlich spielte an diesem Abend im Ritz keine andere Band eine Rolle.",
            "reference": "In dieser Nacht im Ritz war eindeutig keine andere Band von Bedeutung.",
            "bleu_score": "0.42",
            "score_category": "good"
        },
        {
            "index": 6,
            "response": "Es gibt sehr wenige Dinge, über die man lachen kann, weil d

# Sentiment Analysis

![Sentiment Analysis](images/sentiment_analysis.jpg)

Wir schauen wie gut das Modell verschiedene Wörter aus unserem Datenset kategorisieren kann. Hier ein Ausschnitt aus dem Datenset.

## Datenset anzeigen

In [52]:
with open(ds_json_file_path, 'r', encoding='utf-8') as f:
    dataset = json.load(f)

for entry in dataset['Wörter'][:10]:
    print(entry)

{'Wort': 'Göhre', 'Sentiment': 'negative'}
{'Wort': 'Mädchen', 'Sentiment': 'neutral'}
{'Wort': 'Penner', 'Sentiment': 'very negative'}
{'Wort': 'Streber', 'Sentiment': 'negative'}
{'Wort': 'Opfer', 'Sentiment': 'negative'}
{'Wort': 'Schlampe', 'Sentiment': 'very negative'}
{'Wort': 'Behinderter', 'Sentiment': 'negative'}
{'Wort': 'Flittchen', 'Sentiment': 'very negative'}
{'Wort': 'Schwuchtel', 'Sentiment': 'very negative'}
{'Wort': 'Gutmensch', 'Sentiment': 'negative'}


## Sentiment Analysis ausprobieren (press PLAY)

In [53]:
run_sentiment_analysis(output_folder)

## Ergebnisse 

In [54]:
file_to_display = "sentiment_analysis_results.json"
file_path = os.path.join(output_folder, file_to_display)

if os.path.exists(file_path):
    with open(file_path, "r") as file:
        results = json.load(file)
        limited_results = results[:10]
        
        print("Contents of sentiment_analysis_results.json (first 10 results):")
        print(json.dumps(limited_results, indent=4, ensure_ascii=False))  
else:
    print(f"The file {file_to_display} does not exist in the folder {output_folder}.")


Contents of sentiment_analysis_results.json (first 10 results):
[
    {
        "word": "Göhre",
        "prompt": "Categorize which sentiment the example word contains:  'Göhre', 'very positive', 'positive', 'neutral', 'negative' or 'very negative'.Respond in all lower caps and in a single word.",
        "response": "neutral",
        "reference_sentiment": "negative",
        "exact_match": false,
        "category_match": false
    },
    {
        "word": "Mädchen",
        "prompt": "Categorize which sentiment the example word contains:  'Mädchen', 'very positive', 'positive', 'neutral', 'negative' or 'very negative'.Respond in all lower caps and in a single word.",
        "response": "neutral",
        "reference_sentiment": "neutral",
        "exact_match": true,
        "category_match": true
    },
    {
        "word": "Penner",
        "prompt": "Categorize which sentiment the example word contains:  'Penner', 'very positive', 'positive', 'neutral', 'negative' or 'very neg

# Hate Speech Detection

![Hate Speech Detection](images/hate_speech.jpg)

Hier können wir den Code laufen lassen, wir iterieren durch ein Datenset von Kommentaren, schicken jeden Kommentar an das zu testende Modell, und weisen im Prompt das Modell an zu bewerten, ob die Kommentare toxische Sprache beinhalten.

## Hate Speech Detection ausprobieren

In [55]:
run_hate_speech(output_folder)

## Ergebnisse anzeigen lassen

In [62]:
file_to_display = "hate_speech_results.json"
file_path = os.path.join(output_folder, file_to_display)

if os.path.exists(file_path):
    with open(file_path, "r") as file:
        results = json.load(file)
        limited_results = results["hate_speech_results"]["content"][:10]
        
        print("Contents of hate_speech_results.json (first 10 results):")
        print(json.dumps(limited_results, indent=4, ensure_ascii=False))  
else:
    print(f"The file {file_to_display} does not exist in the folder {output_folder}.")

Contents of hate_speech_results.json (first 10 results):
[
    {
        "comment_id": 3245,
        "hate_speech": "@USER Sie würden wahrscheinlich auch einen Kriegstreiber/in wählen, wenn es gegen Trump ginge, warten sie es ab , vielleicht geht ihr Wunsch ja in Erfüllung...",
        "correct_answer": "1",
        "answer_from_ai": "1"
    },
    {
        "comment_id": 3246,
        "hate_speech": "@USER , ich glaube,Sie verkennen gründlich die Situation. Deutschland mischt sich nicht ein, weil die letzte Einmischung in der Ukraine noch nicht bereinigt ist. Es geht nicht ums Militär",
        "correct_answer": "0",
        "answer_from_ai": "0"
    },
    {
        "comment_id": 3247,
        "hate_speech": "@USER: Man kann natürlich immerzu dieselbe Sau durchs Dorf treiben. Was die diversen Skandale der Parteien angeht, da kann man gerne auch woanders suchen und finden. Die Ära Kohl lässt grüßen oder auch die Amigo Affäre. Das Hunderte Millionen verschoben wurden, stimmt so nicht u

# Natural Language Quality Assessor 

![Natural Language Quality](images/nl_quality.png)


Dieses Skript ist darauf ausgelegt, die Qualität von Textantworten, die durch ein LLM generiert wurden, zu bewerten und dabei mehrere Aspekte, wie die Natürlichkeit und Flüssigkeit eines Textes, semantische Ähnlichkeit und Schlüsselwortübereinstimmung zu betrachten.

## Testen und Ergebnis anzeigen lassen

In [57]:
evaluate_generated_text_quality(output_folder)

Natural language quality is being assessed.


([{'Prompt': 'Diskutiere die ethischen Implikationen der künstlichen Intelligenz.',
   'Response': 'Die künstliche Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht und wird in immer mehr Bereichen des täglichen Lebens eingesetzt. Doch mit der zunehmenden Verbreitung von KI-Systemen ergeben sich auch ethische Fragen und Herausforderungen. Im Folgenden werden einige der wichtigsten ethischen Implikationen der künstlichen Intelligenz diskutiert:\n\n1. Datenschutz und Privatsphäre: KI-Systeme sammeln und verarbeiten große Mengen an Daten, um Entscheidungen zu treffen. Dies kann zu schwerwiegenden Verletzungen des Datenschutzes und der Privatsphäre führen. Es ist wichtig, dass angemessene Schutzmaßnahmen ergriffen werden, um sicherzustellen, dass die Daten von KI-Systemen sicher sind und nicht missbraucht werden.\n\n2. Diskrim',
   'Naturalness score': 37.66,
   'Semantic Similarity Score': 0.86,
   'Keywords in Response Score': 0.8},
  {'Prompt': 'Erkläre die Funktion

# Contains Verb Check

<img src="images/contains_verb.png" alt="Metrics Summary" width="1200"/>

Dieser Test nimmt die Ergebnisse von BLEU und überprüft, ob die übersetzten Texte Verben enthalten.

In [58]:
run_contains_verb(output_folder)

In [60]:
file_to_display = "contains_verb_results.json"
file_path = os.path.join(output_folder, file_to_display)

if os.path.exists(file_path):
    with open(file_path, "r") as file:
        contains_v_results = json.load(file)
        limited_results = contains_v_results["contains_verb_results"][:10]
        
        print("Contents of contains_verb_results.json (first 10 results):")
        print(json.dumps(limited_results, indent=4, ensure_ascii=False))  
else:
    print(f"The file {file_to_display} does not exist in the folder {output_folder}.")

Contents of contains_verb_results.json (first 10 results):
[
    {
        "index": 0,
        "response_text_bleu": "Slayer war der Hauptact.",
        "percentage_of_sentences_containing_at_least_one_verb": 100.0,
        "containing_verbs": [
            "war"
        ]
    },
    {
        "index": 1,
        "response_text_bleu": "Ich erinnere mich nicht an viel von dieser Nacht vor Slayer.",
        "percentage_of_sentences_containing_at_least_one_verb": 100.0,
        "containing_verbs": [
            "erinnere"
        ]
    },
    {
        "index": 2,
        "response_text_bleu": "Offensichtlich spielte an diesem Abend im Ritz keine andere Band eine Rolle.",
        "percentage_of_sentences_containing_at_least_one_verb": 100.0,
        "containing_verbs": [
            "spielte"
        ]
    },
    {
        "index": 3,
        "response_text_bleu": "Es gibt sehr wenige Dinge, über die man lachen kann, weil das, was sie getan haben, so monströs war.",
        "percentage_of

# Average results Datei mal genauer anschauen

In [61]:
file_to_display = "avg_results.json"
file_path = os.path.join(output_folder, file_to_display)

if os.path.exists(file_path):
    with open(file_path, "r") as file:
        avg_results = json.load(file)
        limited_results = avg_results["Results"][:10]
        
        print("Contents of avg_results.json:")
        print(json.dumps(limited_results, indent=4, ensure_ascii=False))  
else:
    print(f"The file {file_to_display} does not exist in the folder {output_folder}.")

Contents of avg_results.json:
[
    {
        "BlEU": {
            "count": 96,
            "average_bleu_score": "0.51",
            "score_category": "good"
        }
    },
    {
        "Sentiment analysis": {
            "percentage_exact_sentiment_recognized": 63.39,
            "result_category_exact_recognition": "average",
            "percentage_sentiment_category_recognized": 87.5,
            "result_category_sentiment_category_recognition": "good"
        }
    },
    {
        "Hate Speech detection": {
            "valid_comment_count": 296,
            "correct_answer_from_openai_count": 218,
            "hate_speech_score": 73.65,
            "rating": "average"
        }
    },
    {
        "Natural language quality assessor": {
            "average_naturalness_score": 40.75,
            "average_naturalness_rating": "good",
            "average_semantic_similarity": 0.87,
            "average_similarity_rating": "good",
            "average_keywords_in_response_sco