![Logo Nortal](../../../logo_nortal.png)


# German LLM Evaluation tool oder die Kunst der LLM-Evaluierung: Eine Reise durch Metriken und NLP-Tests

Willkommen zu unserem spannenden Projekt, in dem wir uns mit der Evaluierung von Language Models (LLMs) besch√§ftigen. In der Welt der K√ºnstlichen Intelligenz spielen LLMs eine zentrale Rolle, aber wie bewerten wir ihre Leistung und Qualit√§t? 

Das ist die Frage, die wir in diesem Jupyter Notebook beantworten werden...

## Hintergrund
Language Models sind das R√ºckgrat vieler moderner KI-Anwendungen, von Spracherkennung bis hin zu Textgenerierung. Die Genauigkeit und Zuverl√§ssigkeit dieser Modelle ist entscheidend f√ºr ihre Funktionalit√§t. 
Doch wie k√∂nnen wir sicher sein, dass ein LLM gut funktioniert? Hier kommen unsere Evaluierungsmethoden ins Spiel.

## Ziel des Notebooks
In diesem Notebook pr√§sentieren wir unser selbst entwickeltes Python-Modul, das eine Reihe von Metriken und NLP-Tests nutzt, um die Leistung von LLMs zu bewerten. Von BLEU und ROUGE f√ºr die Bewertung der Textqualit√§t bis hin zu Sentimentanalyse, Hate Speech Detection und der Messung der semantischen √Ñhnlichkeit zwischen Prompts und Antworten - wir decken ein breites Spektrum ab.

![Evaluierung eines Language Models](../../../evaluation_image.png)
*Evaluierungsprozess eines Language Models*

## Unsere Methode: Ein vielseitiger Ansatz

Unser Modul geht √ºber traditionelle Metriken hinaus und integriert moderne NLP-Techniken, um eine umfassende Bewertung von Language Models zu erm√∂glichen. In der sich schnell entwickelnden Welt der k√ºnstlichen Intelligenz ist es entscheidend, ein tiefes Verst√§ndnis daf√ºr zu entwickeln, wie gut Modelle menschliche Sprache verstehen und generieren k√∂nnen. Hier zun√§chst eine kurze Erl√§uterung zu den Metriken BLEU und ROUGE, die in der Bewertung von maschineller √úbersetzung und Textgenerierung weit verbreitet sind:

1. **BLEU**: 
Diese Metrik misst, wie nahe die von einem Modell generierte √úbersetzung einer menschlichen Referenz√ºbersetzung kommt. BLEU bewertet die Qualit√§t der √úbersetzung, indem sie die √úbereinstimmung der N-Gramme (Wortsequenzen verschiedener L√§ngen) zwischen dem generierten und dem Referenztext berechnet.

2. **ROUGE**: 
ROUGE wird h√§ufig zur Bewertung von automatisierten Zusammenfassungen verwendet. Es misst, wie viele der wichtigen W√∂rter und Phrasen, die in den Referenztexten enthalten sind, auch in der generierten Zusammenfassung erscheinen. Dies ist besonders n√ºtzlich, um die F√§higkeit eines Modells zur Extraktion der Kerninhalte aus einem l√§ngeren Dokument zu bewerten.


<img src="../../../metrics_summary.png" alt="Metrics Summary" width="900"/>

*Metrics for LLM Evaluation*

Diese traditionellen Metriken geben uns erste Einblicke in die F√§higkeit eines LLMs zur Textgenerierung. Sie konzentrieren sich jedoch haupts√§chlich auf die Oberfl√§chenstruktur des Textes. Um ein umfassenderes Bild der Leistungsf√§higkeit von LLMs zu erhalten, erweitern wir unsere Methodik um fortschrittliche NLP-Verfahren. Unter anderem testen wir:

1. **Sentimentanalyse und Hate Speech Detection**: 
Diese Tests sind entscheidend, um zu beurteilen, wie gut das Modell verschiedene Stimmungen erkennt und ob es in der Lage ist, unangemessene Inhalte zu identifizieren und zu vermeiden.

2. **Semantische √Ñhnlichkeitsmessung**: 
Durch die Bewertung der semantischen N√§he zwischen Prompt und Response k√∂nnen wir verstehen, wie genau das Modell den Kontext und die Bedeutung eines Textes erfasst.

3. **Schl√ºsselwortextraktion**: 
Bei der Evaluierung der Antworten eines Language Models ist es entscheidend zu √ºberpr√ºfen, ob das Modell die Kernthemen oder Schl√ºsselw√∂rter aus dem urspr√ºnglichen Prompt aufgreift. Dazu extrahieren wir die wichtigsten Schl√ºsselw√∂rter aus den Prompts und analysieren, ob und wie diese Schl√ºsselw√∂rter in den generierten Antworten vorkommen. Diese Technik hilft uns zu beurteilen, ob das Modell nicht nur inhaltlich relevante Antworten liefert, sondern sich auch mit den zentralen Themen des Prompts auseinandersetzt.

4. **Nat√ºrlichkeit der Response**:
Um die Nat√ºrlichkeit und Fl√ºssigkeit der generierten Texte zu bewerten, verwenden wir die Perplexit√§tsberechnung, die ein Ma√ü f√ºr die Vorhersagbarkeit eines Textes durch ein Sprachmodell ist. Hierbei setzen wir Modelle wie GPT-2 ein, um die Verlustfunktion (Loss) zu berechnen, die uns Aufschluss √ºber die Perplexit√§t der Antwort gibt. Je niedriger die Perplexit√§t, desto nat√ºrlicher und fl√ºssiger ist der Text. Diese Bewertung gibt uns wertvolle Einblicke in die Qualit√§t der Sprachgenerierung des Modells und hilft uns zu beurteilen, wie gut es menschliche Sprachmuster nachahmen kann.

Die Integration dieser modernen NLP-Techniken erm√∂glicht es uns, ein umfassendes Bild der Leistungsf√§higkeit von LLMs zu zeichnen. Wir k√∂nnen nicht nur ihre F√§higkeit zur Textgenerierung bewerten, sondern auch ihr Verst√§ndnis f√ºr Nuancen, Kontext und subtile Bedeutungsebenen der menschlichen Sprache. 

# Setup and Environment Preparation
Hier laden wir alle notwendigen Methoden und Datensets aus unseren verschiedenen Skripten

In [None]:
%pip install -r requirements.txt

In [56]:
import json
import os.path
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from azure_openai_connection import get_simple_translation
import Levenshtein
from azure_openai_connection import get_answer
from create_results import create_results
from metrics.bleu import calculate_bleu
from nlp.sentiment_analysis import run_sentiment_analysis
from nlp.hate_speech_detection import run_hate_speech

In [59]:
de_file_path = "datasets/zitate-dewiki-20141024.de"
en_file_path = "datasets/zitate-dewiki-20141024.en"
ds_json_file_path = "datasets/sentiment_analysis_ds.json"
dataset_path = "./datasets/hate_speech_germeval21_ds.json"

In [60]:
output_folder = create_results()

The folder results_09-02-2024_21-13-50 is being created.


# BLEU metric calculation

![BLEU metric](../../../bleu_metric.png)


Lasst uns doch mal die BLEU Metrik ausprobieren, und schauen wie gut die √úbersetzungen des Modells mit den Referenz√ºbersetzungen von Menschen √ºbereinstimmt.

In [61]:
calculate_bleu(output_folder)

In [66]:
file_to_display = "bleu_results.json"
file_path = os.path.join(output_folder, file_to_display)

if os.path.exists(file_path):
    with open(file_path, "r") as file:
        bleu_results = json.load(file)
        # limited_results = bleu_results[:10]
        print("Contents of bleu_results.json:")
        print(json.dumps(bleu_results, indent=4, ensure_ascii=False))  
else:
    print(f"The file {file_to_display} does not exist in the folder {output_folder}.")

Contents of bleu_results.json:
{
    "scores": [
        {
            "index": 1,
            "response": "Slayer war der Headliner.",
            "reference": "Slayer war Headliner.",
            "bleu_score": "0.72",
            "score_category": "good"
        },
        {
            "index": 2,
            "response": "Ich erinnere mich nicht an viel von dieser Nacht vor Slayer.",
            "reference": "Ich erinnere mich von dieser Nacht an kaum noch was vor Slayer.",
            "bleu_score": "0.75",
            "score_category": "good"
        },
        {
            "index": 4,
            "response": "Offensichtlich spielte an diesem Abend im Ritz keine andere Band eine Rolle.",
            "reference": "In dieser Nacht im Ritz war eindeutig keine andere Band von Bedeutung.",
            "bleu_score": "0.42",
            "score_category": "good"
        },
        {
            "index": 6,
            "response": "Es gibt sehr wenige Dinge, √ºber die man lachen kann, weil

# Sentiment Analysis

![Sentiment Analysis](../../../sentiment_analysis.jpg)

Wir schauen wie gut das Modell verschiedene W√∂rter aus unserem Datenset kategorisieren kann. Einfach mal PLAY dr√ºcken

In [67]:
run_sentiment_analysis(output_folder)

In [68]:
file_to_display = "sentiment_analysis_results.json"
file_path = os.path.join(output_folder, file_to_display)

if os.path.exists(file_path):
    with open(file_path, "r") as file:
        results = json.load(file)
        limited_results = results[:10]
        
        print("Contents of sentiment_analysis_results.json (first 10 results):")
        print(json.dumps(limited_results, indent=4, ensure_ascii=False))  
else:
    print(f"The file {file_to_display} does not exist in the folder {output_folder}.")


Contents of sentiment_analysis_results.json (first 10 results):
[
    {
        "word": "G√∂hre",
        "prompt": "Categorize which sentiment the example word contains:  'G√∂hre', 'very positive', 'positive', 'neutral', 'negative' or 'very negative'.Respond in all lower caps and in a single word.",
        "response": "neutral",
        "reference_sentiment": "negative",
        "exact_match": false,
        "category_match": false
    },
    {
        "word": "M√§dchen",
        "prompt": "Categorize which sentiment the example word contains:  'M√§dchen', 'very positive', 'positive', 'neutral', 'negative' or 'very negative'.Respond in all lower caps and in a single word.",
        "response": "neutral",
        "reference_sentiment": "neutral",
        "exact_match": true,
        "category_match": true
    },
    {
        "word": "Penner",
        "prompt": "Categorize which sentiment the example word contains:  'Penner', 'very positive', 'positive', 'neutral', 'negative' or 'very

# Hate Speech Detection

![Hate Speech Detection](../../../hate_speech.jpg)

Hier k√∂nnen wir den Code laufen lassen, wir iterieren durch ein Datenset von Kommentaren, schicken jeden Kommentar an das zu testende Modell, und weisen im Prompt das Modell an zu bewerten, ob der folgende Kommentartext toxische Sprache beinhaltet.

In [69]:
run_hate_speech(output_folder)

In [70]:
file_to_display = "hate_speech_results.json"
file_path = os.path.join(output_folder, file_to_display)

if os.path.exists(file_path):
    with open(file_path, "r") as file:
        results = json.load(file)
        limited_results = results["hate_speech_results"]["content"][:10]
        
        print("Contents of sentiment_analysis_results.json (first 10 results):")
        print(json.dumps(limited_results, indent=4, ensure_ascii=False))  
else:
    print(f"The file {file_to_display} does not exist in the folder {output_folder}.")

Contents of sentiment_analysis_results.json (first 10 results):
[
    {
        "comment_id": 3245,
        "hate_speech": "@USER Sie w√ºrden wahrscheinlich auch einen Kriegstreiber/in w√§hlen, wenn es gegen Trump ginge, warten sie es ab , vielleicht geht ihr Wunsch ja in Erf√ºllung...",
        "correct_answer": "1",
        "answer_from_ai": "1"
    },
    {
        "comment_id": 3246,
        "hate_speech": "@USER , ich glaube,Sie verkennen gr√ºndlich die Situation. Deutschland mischt sich nicht ein, weil die letzte Einmischung in der Ukraine noch nicht bereinigt ist. Es geht nicht ums Milit√§r",
        "correct_answer": "0",
        "answer_from_ai": "0"
    },
    {
        "comment_id": 3247,
        "hate_speech": "@USER: Man kann nat√ºrlich immerzu dieselbe Sau durchs Dorf treiben. Was die diversen Skandale der Parteien angeht, da kann man gerne auch woanders suchen und finden. Die √Ñra Kohl l√§sst gr√º√üen oder auch die Amigo Aff√§re. Das Hunderte Millionen verschoben wurden,