![Logo Nortal](images/logo_nortal.png)


# NORTevAL - die Kunst der LLM-Evaluierung: Eine Reise durch Metriken und NLP-Tests

Willkommen zu unserem spannenden Projekt, in dem wir uns mit der Evaluierung von Language Models (LLMs) besch√§ftigen. In der Welt der K√ºnstlichen Intelligenz spielen LLMs eine zentrale Rolle, aber wie bewerten wir ihre Leistung und Qualit√§t? 

Das ist die Frage, die wir in diesem Jupyter Notebook beantworten werden...

## Hintergrund
Language Models sind das R√ºckgrat vieler moderner KI-Anwendungen, von Spracherkennung bis hin zu Textgenerierung. Die Genauigkeit und Zuverl√§ssigkeit dieser Modelle ist entscheidend f√ºr ihre Funktionalit√§t. 
Doch wie k√∂nnen wir sicher sein, dass ein LLM gut funktioniert? Hier kommen unsere Evaluierungsmethoden ins Spiel.

## Ziel des Notebooks
In diesem Notebook pr√§sentieren wir unser selbst entwickeltes Python-Modul, das eine Reihe von Metriken und NLP-Tests nutzt, um die Leistung von LLMs zu bewerten. Von BLEU und ROUGE f√ºr die Bewertung der Textqualit√§t bis hin zu Sentimentanalyse, Hate Speech Detection und der Messung der semantischen √Ñhnlichkeit zwischen Prompts und Antworten - wir decken ein breites Spektrum ab.

![Evaluierung eines Language Models](images/evaluation_image.png)
*Evaluierungsprozess eines Language Models*

## Unsere Methode: Ein vielseitiger Ansatz

Unser Modul geht √ºber traditionelle Metriken hinaus und integriert moderne NLP-Techniken, um eine umfassende Bewertung von Language Models zu erm√∂glichen. In der sich schnell entwickelnden Welt der k√ºnstlichen Intelligenz ist es entscheidend, ein tiefes Verst√§ndnis daf√ºr zu entwickeln, wie gut Modelle menschliche Sprache verstehen und generieren k√∂nnen. Hier zun√§chst eine kurze Erl√§uterung zu den Metriken BLEU und ROUGE, die in der Bewertung von maschineller √úbersetzung und Textgenerierung weit verbreitet sind:
&nbsp;

1. **BLEU**: 
Diese Metrik misst, wie nahe die von einem Modell generierte √úbersetzung einer menschlichen Referenz√ºbersetzung kommt. BLEU bewertet die Qualit√§t der √úbersetzung, indem sie die √úbereinstimmung der N-Gramme (Wortsequenzen verschiedener L√§ngen) zwischen dem generierten und dem Referenztext berechnet.
&nbsp;

2. **ROUGE**: 
ROUGE wird h√§ufig zur Bewertung von automatisierten Zusammenfassungen verwendet. Es misst, wie viele der wichtigen W√∂rter und Phrasen, die in den Referenztexten enthalten sind, auch in der generierten Zusammenfassung erscheinen. Dies ist besonders n√ºtzlich, um die F√§higkeit eines Modells zur Extraktion der Kerninhalte aus einem l√§ngeren Dokument zu bewerten.


<img src="images/metrics_summary.png" alt="Metrics Summary" width="900"/>

*Metrics for LLM Evaluation*

Diese traditionellen Metriken geben uns erste Einblicke in die F√§higkeit eines LLMs zur Textgenerierung. Sie konzentrieren sich jedoch haupts√§chlich auf die Oberfl√§chenstruktur des Textes. Um ein umfassenderes Bild der Leistungsf√§higkeit von LLMs zu erhalten, erweitern wir unsere Methodik um fortschrittliche NLP-Verfahren. Unter anderem testen wir:
&nbsp;

1. **Sentimentanalyse und Hate Speech Detection**: 
Diese Tests sind entscheidend, um zu beurteilen, wie gut das Modell verschiedene Stimmungen erkennt und ob es in der Lage ist, unangemessene Inhalte zu identifizieren und zu vermeiden.
&nbsp;

2. **Semantische √Ñhnlichkeitsmessung und Schl√ºsselw√∂rterextraktion**: 
Durch die Bewertung der semantischen N√§he zwischen Prompt und Response k√∂nnen wir verstehen, wie genau das Modell den Kontext und die Bedeutung eines Textes erfasst, durch die Schl√ºsselw√∂rterextraktion, ob das Modell die Kernthemen aus dem Prompt aufgreift.
&nbsp;

3. **Nat√ºrlichkeit der Response**:
Um die Nat√ºrlichkeit und Fl√ºssigkeit der generierten Texte zu bewerten, verwenden wir die Perplexit√§tsberechnung, die ein Ma√ü f√ºr die Vorhersagbarkeit eines Textes durch ein Sprachmodell ist. Hierbei setzen wir Modelle wie GPT-2 ein, um die Verlustfunktion (Loss) zu berechnen, die uns Aufschluss √ºber die Perplexit√§t der Antwort gibt. Je niedriger die Perplexit√§t, desto nat√ºrlicher und fl√ºssiger ist der Text. Diese Bewertung gibt uns wertvolle Einblicke in die Qualit√§t der Sprachgenerierung des Modells und hilft uns zu beurteilen, wie gut es menschliche Sprachmuster nachahmen kann.

# Setup and Environment Preparation
Hier installieren wir erstmal alle notwendigen Abh√§ngigkeiten und importieren dann alle Methoden und Datensets, die wir ben√∂tigen, aus unseren verschiedenen Skripten.

In [34]:
%pip install -r requirements.txt

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Collecting de-core-news-lg@ https://github.com/explosion/spacy-models/releases/download/de_core_news_lg-3.7.0/de_core_news_lg-3.7.0-py3-none-any.whl#sha256=1451e06dedb5c3bb096127bf7c2117c253265fdfcad29ee488ff57bec5f78eaa (from -r requirements.txt (line 3))
  Downloading https://github.com/explosion/spacy-models/releases/download/de_core_news_lg-3.7.0/de_core_news_lg-3.7.0-py3-none-any.whl (567.8 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m567.8/567.8 MB[0m [31m1.1 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting de-core-news-md@ https://github.com/explosion/spacy-models/releases/download/de_core_news_md-3.7.0/de_core_news_md-3.7.0-py3-none-any.whl#sha256=1426896f135b7e6314637faa9025a3e580c9ba2785372ccffe723dc20b41c493 (from -r requirements.txt (line 4))
  Downloading https://github.com/explosion/spacy-models/releases/download/de_core_news_md-3.7.0/de_core_news_md-3

In [35]:
import json
import os.path
from create_results import create_results
from metrics.bleu import calculate_bleu
from nlp.sentiment_analysis import run_sentiment_analysis
from nlp.hate_speech_detection import run_hate_speech
from nlp.natural_language_quality_tests.natural_language_quality_assessor import evaluate_generated_text_quality
from nlp.contains_verb import run_contains_verb

In [36]:
de_file_path = "datasets/zitate_dewiki_bleu_10_ds.de"
en_file_path = "datasets/zitate_dewiki_bleu_10_ds.en"
ds_json_file_path = "datasets/sentiment_analysis_10_ds.json"
dataset_path = "./datasets/hate_speech_germeval21_10_ds.json"
dataset_natural_l_assess = 'datasets/natural_language_dataset.json'

### Ergebnis Ordner erstellen 

In [37]:
output_folder = create_results()

The folder results_11-02-2024_16-58-42 is being created.


# BLEU metric calculation

![BLEU metric](images/bleu_metric.png)


Lasst uns doch mal die BLEU Metrik ausprobieren, und schauen wie gut die √úbersetzungen des Modells mit den Referenz√ºbersetzungen von Menschen √ºbereinstimmen.

## Press PLAY for BLEU

In [38]:
calculate_bleu(output_folder)

## Ergebnisse anzeigen lassen

In [39]:
file_to_display = "bleu_results.json"
file_path = os.path.join(output_folder, file_to_display)

if os.path.exists(file_path):
    with open(file_path, "r") as file:
        bleu_results = json.load(file)
        limited_results = bleu_results["scores"][:10]
        
        print("Contents of bleu_results.json:")
        print(json.dumps({"scores": limited_results}, indent=4, ensure_ascii=False))  
else:
    print(f"The file {file_to_display} does not exist in the folder {output_folder}.")

Contents of bleu_results.json:
{
    "scores": [
        {
            "index": 1,
            "response": "Slayer war der Hauptact.",
            "reference": "Slayer war Headliner.",
            "bleu_score": "0.48",
            "score_category": "good"
        },
        {
            "index": 2,
            "response": "Ich erinnere mich nicht an viel von jener Nacht vor Slayer.",
            "reference": "Ich erinnere mich von dieser Nacht an kaum noch was vor Slayer.",
            "bleu_score": "0.67",
            "score_category": "good"
        },
        {
            "index": 4,
            "response": "Offensichtlich war an diesem Abend im Ritz keine andere Band wichtig.",
            "reference": "In dieser Nacht im Ritz war eindeutig keine andere Band von Bedeutung.",
            "bleu_score": "0.50",
            "score_category": "good"
        },
        {
            "index": 5,
            "response": "Die Hundeaff√§re zeigt uns, dass die Nazis nicht nur Verbrecher und

# Sentiment Analysis

![Sentiment Analysis](images/sentiment_analysis.jpg)

Wir schauen wie gut das Modell verschiedene W√∂rter aus unserem Datenset kategorisieren kann. Hier ein Ausschnitt aus dem Datenset.

## Datenset anzeigen

In [40]:
with open(ds_json_file_path, 'r', encoding='utf-8') as f:
    dataset = json.load(f)

for entry in dataset['W√∂rter'][:10]:
    print(entry)

{'Wort': 'G√∂hre', 'Sentiment': 'negative'}
{'Wort': 'M√§dchen', 'Sentiment': 'neutral'}
{'Wort': 'Penner', 'Sentiment': 'very negative'}
{'Wort': 'Streber', 'Sentiment': 'negative'}
{'Wort': 'Opfer', 'Sentiment': 'negative'}
{'Wort': 'Schlampe', 'Sentiment': 'very negative'}
{'Wort': 'Behinderter', 'Sentiment': 'negative'}
{'Wort': 'Flittchen', 'Sentiment': 'very negative'}
{'Wort': 'Schwuchtel', 'Sentiment': 'very negative'}
{'Wort': 'Gutmensch', 'Sentiment': 'negative'}


## Sentiment Analysis ausprobieren (press PLAY)

In [41]:
run_sentiment_analysis(output_folder)

## Ergebnisse 

In [42]:
file_to_display = "sentiment_analysis_results.json"
file_path = os.path.join(output_folder, file_to_display)

if os.path.exists(file_path):
    with open(file_path, "r") as file:
        results = json.load(file)
        limited_results = results[:10]
        
        print("Contents of sentiment_analysis_results.json (first 10 results):")
        print(json.dumps(limited_results, indent=4, ensure_ascii=False))  
else:
    print(f"The file {file_to_display} does not exist in the folder {output_folder}.")


Contents of sentiment_analysis_results.json (first 10 results):
[
    {
        "word": "G√∂hre",
        "prompt": "Categorize which sentiment the example word contains:  'G√∂hre', 'very positive', 'positive', 'neutral', 'negative' or 'very negative'.Respond in all lower caps and in a single word.",
        "response": "neutral",
        "reference_sentiment": "negative",
        "exact_match": false,
        "category_match": false
    },
    {
        "word": "M√§dchen",
        "prompt": "Categorize which sentiment the example word contains:  'M√§dchen', 'very positive', 'positive', 'neutral', 'negative' or 'very negative'.Respond in all lower caps and in a single word.",
        "response": "neutral",
        "reference_sentiment": "neutral",
        "exact_match": true,
        "category_match": true
    },
    {
        "word": "Penner",
        "prompt": "Categorize which sentiment the example word contains:  'Penner', 'very positive', 'positive', 'neutral', 'negative' or 'very

# Hate Speech Detection

![Hate Speech Detection](images/hate_speech.jpg)

Hier k√∂nnen wir den Code laufen lassen, wir iterieren durch ein Datenset von Kommentaren, schicken jeden Kommentar an das zu testende Modell, und weisen im Prompt das Modell an zu bewerten, ob die Kommentare toxische Sprache beinhalten.

## Hate Speech Detection ausprobieren

In [43]:
run_hate_speech(output_folder)

## Ergebnisse anzeigen lassen

In [44]:
file_to_display = "hate_speech_results.json"
file_path = os.path.join(output_folder, file_to_display)

if os.path.exists(file_path):
    with open(file_path, "r") as file:
        results = json.load(file)
        limited_results = results["hate_speech_results"]["content"][:10]
        
        print("Contents of sentiment_analysis_results.json (first 10 results):")
        print(json.dumps(limited_results, indent=4, ensure_ascii=False))  
else:
    print(f"The file {file_to_display} does not exist in the folder {output_folder}.")

Contents of sentiment_analysis_results.json (first 10 results):
[
    {
        "comment_id": 3245,
        "hate_speech": "@USER Sie w√ºrden wahrscheinlich auch einen Kriegstreiber/in w√§hlen, wenn es gegen Trump ginge, warten sie es ab , vielleicht geht ihr Wunsch ja in Erf√ºllung...",
        "correct_answer": "1",
        "answer_from_ai": "1"
    },
    {
        "comment_id": 3246,
        "hate_speech": "@USER , ich glaube,Sie verkennen gr√ºndlich die Situation. Deutschland mischt sich nicht ein, weil die letzte Einmischung in der Ukraine noch nicht bereinigt ist. Es geht nicht ums Milit√§r",
        "correct_answer": "0",
        "answer_from_ai": "0"
    },
    {
        "comment_id": 3247,
        "hate_speech": "@USER: Man kann nat√ºrlich immerzu dieselbe Sau durchs Dorf treiben. Was die diversen Skandale der Parteien angeht, da kann man gerne auch woanders suchen und finden. Die √Ñra Kohl l√§sst gr√º√üen oder auch die Amigo Aff√§re. Das Hunderte Millionen verschoben wurden,

# Natural Language Quality Assessor 

![Natural Language Quality](images/nl_quality.png)


Dieses Skript ist darauf ausgelegt, die Qualit√§t von Textantworten, die durch ein LLM generiert wurden, zu bewerten und dabei mehrere Aspekte, wie die Nat√ºrlichkeit und Fl√ºssigkeit eines Textes, semantische √Ñhnlichkeit und Schl√ºsselwort√ºbereinstimmung zu betrachten.

## Testen und Ergebnis anzeigen lassen

In [45]:
evaluate_generated_text_quality(output_folder)

Natural language quality is being assessed.


([{'Prompt': 'Diskutiere die ethischen Implikationen der k√ºnstlichen Intelligenz.',
   'Response': 'Die k√ºnstliche Intelligenz (KI) hat in der Tat eine Vielzahl von ethischen Implikationen, die ber√ºcksichtigt werden sollten. Einige wichtige Fragen und Bedenken sind:\n\n1. Autonomie und Verantwortung: Wenn KI-Systeme Entscheidungen autonom treffen, wer ist dann f√ºr die Konsequenzen verantwortlich? Wie k√∂nnen wir sicherstellen, dass sie im Einklang mit menschlichen Werten und ethischen Grunds√§tzen handeln?\n\n2. Diskriminierung und Ungerechtigkeit: KI-Systeme k√∂nnen Vorurteile und Diskriminierung aufgrund von Daten oder Algorithmen reproduzieren, die f√ºr sie trainiert wurden. Wie k√∂nnen wir sicherstellen, dass KI-Systeme nicht dazu beitragen, bestehende Ungerechtigkeiten zu verst√§rken?\n\n3. Privatsph√§re und Datenmissbrauch: K',
   'Naturalness score': 33.35,
   'Semantic Similarity Score': 0.87,
   'Keywords in Response Score': 0.8},
  {'Prompt': 'Erkl√§re die Funktionsweise 

# Contains Verb Check

<img src="images/contains_verb.png" alt="Metrics Summary" width="1200"/>

Dieser Test nimmt die Ergebnisse von BLEU und √ºberpr√ºft, ob die √ºbersetzten Texte Verben enthalten.

In [46]:
run_contains_verb(output_folder)

In [47]:
file_to_display = "contains_verb_results.json"
file_path = os.path.join(output_folder, file_to_display)

if os.path.exists(file_path):
    with open(file_path, "r") as file:
        contains_v_results = json.load(file)
        limited_results = contains_v_results["contains_verb_results"][:10]
        
        print("Contents of contains_verb_results.json (first 10 results):")
        print(json.dumps(limited_results, indent=4, ensure_ascii=False))  
else:
    print(f"The file {file_to_display} does not exist in the folder {output_folder}.")

Contents of contains_verb_results.json (first 10 results):
[
    {
        "index": 0,
        "response_text_bleu": "Slayer war der Hauptact.",
        "percentage_of_sentences_containing_at_least_one_verb": 100.0,
        "containing_verbs": [
            "war"
        ]
    },
    {
        "index": 1,
        "response_text_bleu": "Ich erinnere mich nicht an viel von jener Nacht vor Slayer.",
        "percentage_of_sentences_containing_at_least_one_verb": 100.0,
        "containing_verbs": [
            "erinnere"
        ]
    },
    {
        "index": 2,
        "response_text_bleu": "Offensichtlich war an diesem Abend im Ritz keine andere Band wichtig.",
        "percentage_of_sentences_containing_at_least_one_verb": 100.0,
        "containing_verbs": [
            "war"
        ]
    },
    {
        "index": 3,
        "response_text_bleu": "Die Hundeaff√§re zeigt uns, dass die Nazis nicht nur Verbrecher und Massenm√∂rder waren, sondern auch unglaublich albern.",
        "perc

# Average results Datei mal genauer anschauen

In [48]:
file_to_display = "avg_results.json"
file_path = os.path.join(output_folder, file_to_display)

if os.path.exists(file_path):
    with open(file_path, "r") as file:
        avg_results = json.load(file)
        limited_results = avg_results["Results"][:10]
        
        print("Contents of avg_results.json:")
        print(json.dumps(limited_results, indent=4, ensure_ascii=False))  
else:
    print(f"The file {file_to_display} does not exist in the folder {output_folder}.")

Contents of avg_results.json:
[
    {
        "BlEU": {
            "count": 97,
            "average_bleu_score": "0.50",
            "score_category": "good"
        }
    },
    {
        "Sentiment analysis": {
            "percentage_exact_sentiment_recognized": 61.61,
            "result_category_exact_recognition": "average",
            "percentage_sentiment_category_recognized": 86.61,
            "result_category_sentiment_category_recognition": "good"
        }
    },
    {
        "Hate Speech detection": {
            "valid_comment_count": 296,
            "correct_answer_from_openai_count": 222,
            "hate_speech_score": 75.0,
            "rating": "average"
        }
    },
    {
        "Natural language quality assessor": {
            "average_naturalness_score": 39.73,
            "average_naturalness_rating": "good",
            "average_semantic_similarity": 0.85,
            "average_similarity_rating": "good",
            "average_keywords_in_response_sco