In [1]:
# Projektdokumentation: Benchmarking von deutschen Sprachmodellen mit Hugging Face

## Einleitung

Ziel dieses Projekts war es, ein bestehendes Benchmarking-Tool, das ursprünglich zur Evaluierung von **ChatGPT** entwickelt wurde, so anzupassen und zu erweitern, dass es mit **Hugging Face-Modellen** funktioniert. Das Ziel war es, ein System zu schaffen, das deutsche Sprachmodelle von Hugging Face anhand verschiedener Metriken wie **BLEU**, **ROUGE**, **Hate Speech Detection** und **Word Connotation Recognition** bewertet. Diese Metriken bieten Einblick in die Leistung der Modelle in Bezug auf linguistische Qualität sowie der Erkennung von Vorurteilen, was für eine verantwortungsvolle Entwicklung von KI entscheidend ist.

### Projektziel

Das Hauptziel bestand darin, das Tool so umzubauen, dass es sich mit Hugging Face-Modellen verbindet und damit unabhängig von proprietären Modellen wie ChatGPT wird. Das Tool durchsucht automatisch verfügbare Modelle auf Hugging Face, führt vordefinierte Evaluierungen durch und stellt die Ergebnisse strukturiert dar. Folgende Bewertungen sind Teil des Benchmarks:

1. **BLEU-Score**: Bewertet, wie gut das Modell Text generiert, indem es mit von Menschen verfassten Referenztexten verglichen wird.
2. **ROUGE-Score**: Misst die Überlappung zwischen dem vom Modell generierten Text und dem Referenztext auf verschiedenen Ebenen (ROUGE-1, ROUGE-2, ROUGE-L).
3. **Hate Speech Detection**: Testet die Fähigkeit des Modells, Hassrede zu erkennen und zu vermeiden.
4. **Word Connotation Recognition**: Bewertet die Sensibilität des Modells gegenüber der Konnotation von Wörtern, um sicherzustellen, dass es subtile Vorurteile in der Sprache versteht.

### Wichtige Schritte

Das Projekt wurde in mehrere Sprints unterteilt, wobei jeder Sprint einen spezifischen Aspekt der Implementierung abdeckte:

---

## Sprint 1

### Aufgaben

- **Auslesen von Model-Cards via API**: Zuerst wurde die Hugging Face API verwendet, um die Metadaten der auf Hugging Face verfügbaren Modelle abzurufen.

- **Testanbindung eines Hugging Face-Modells via API**: Als Proof of Concept wurde ein erstes Modell angebunden und erfolgreich getestet.

- **Durchiterieren aller Model-Cards**: Alle verfügbaren Modelle wurden durchiteriert, um eine Liste der Model-Namen zu erstellen.

- **Automatisierung des Auslesens aller Model-Cards**: Ein Skript wurde geschrieben, das automatisch die Informationen zu allen Modellen extrahiert.

- **Erstellung von JSONs mit den Infos zu Sprache und Tasks**: Die extrahierten Model-Daten wurden in einer strukturierten JSON-Datei gespeichert (einzelne Model-Card_files), um Informationen über die unterstützten Sprachen und Aufgaben festzuhalten.

---

## Sprint 2

### Aufgaben

- **Popularität des Models einbeziehen**: In diesem Schritt wurde die Popularität der Modelle anhand der Anzahl der Downloads und Likes auf Hugging Face berücksichtigt, um eine fundierte Auswahl treffen zu können. (Ergebnisse werden sortiert.)
  
- **Möglichkeit zur Auswahl der Modelle, welche gescannt werden**: Es wurde eine Benutzereingabe entwickelt, die es ermöglicht, gezielt Modelle aus einer Liste auszuwählen, welche für den Benchmark gescannt und bewertet werden sollen. (Nummer des Modells auswählen)
  
- **Ergebnisse in Ergebnisfile speichern**: Die Benchmark-Ergebnisse eines händisch getesteten Modells wurde strukturiert in einer Datei gespeichert, um eine spätere Analyse und Auswertung zu erleichtern.
  
- **Ausgabe aller gefundenen und relevanten Modelle**: Eine vollständige Liste der gefundenen Modelle, die die gewünschten Sprachaufgaben unterstützen, wurde in der Benutzeroberfläche ausgegeben, damit die Nutzer schnell eine Übersicht erhalten.

---

## Sprint 3

### Aufgaben

- **Ergebnisse pro Test graphisch darstellen mit Streamlit**: Die Ergebnisse der durchgeführten Benchmark-Tests wurden in einem Streamlit-Dashboard grafisch aufbereitet und visualisiert. Dies ermöglichte es, die Leistung der Modelle übersichtlich in Form von Balkendiagrammen zu präsentieren.

- **Möglichkeit schaffen mit dem Benchmark, ein ausgewähltes Modell zu testen, ohne hardgecodetes Modell (Automatisierung)**: Ein flexibles System wurde entwickelt, um beliebige Modelle aus Hugging Face auszuwählen und mit dem Benchmark zu testen. Dies ersetzt das vorherige System, das auf ein fest kodiertes Modell angewiesen war.

### Herausforderungen

Während der Implementierung traten einige unerwartete Hindernisse auf:

- **Änderung der Architektur**: Die Einbindung der Ergebnis-Dateien funktionierte nicht wie geplant. Daher musste die Architektur des Benchmarks angepasst werden. Die Benchmark-Tests wurden so verändert, dass sie nun das Modell und den Tokenizer als Parameter übergeben bekommen. Anstatt Dateien zu erstellen, werden die Ergebnisse (Scores) direkt von den Methoden zurückgegeben.

- **Schließung der Azure-GPT-API**: Während der Entwicklung wurde der Zugang zur Azure-GPT-API von Nortal unerwartet geschlossen. Dadurch war es nicht mehr möglich, dynamische Vergleiche mit ChatGPT-Scores durchzuführen. Stattdessen werden die Vergleiche nun mit den letzten verfügbaren statischen Daten von ChatGPT vorgenommen.

---

## Zusammenfassung

Das Projekt hat erfolgreich ein Benchmarking-Tool für deutsche Sprachmodelle auf Hugging Face entwickelt, das Metriken wie BLEU, ROUGE, Hate Speech Detection und Word Connotation Recognition verwendet. Dieses Tool bietet eine umfassende Bewertung der Sprachmodelle in Bezug auf ihre sprachliche Qualität und ethische Sensibilität.


## Potenzielle Weiterentwicklungen

- **Refaktorierung weiterer Benchmark-Tests**: Eine sinnvolle Erweiterung wäre die Umgestaltung der verbleibenden Benchmark-Tests, sodass auch diese direkte Ergebnisse in Form von Scores zurückliefern und sowohl Modell als auch Tokenizer als Parameter übergeben. Diese Anpassung würde die Konsistenz des Frameworks stärken und die Handhabung der Tests weiter vereinfachen.

- **Erweiterung der Metriken**: Um die Leistungsfähigkeit der Modelle noch präziser zu bewerten, könnte die Integration weiterer Metriken in Betracht gezogen werden. Dies würde ermöglichen, spezifischere Aussagen über die Modelle zu treffen und deren Stärken und Schwächen auf noch differenziertere Weise zu erfassen.

- **Dynamische Vergleiche mit aktuellen Daten**: Sobald der Zugriff auf die GPT-API wiederhergestellt ist, könnte ein dynamischer Vergleich der getesteten Modelle mit aktuellen ChatGPT-Ergebnissen anstelle statischer Vergleichswerte implementiert werden. Dies würde die Relevanz und Aktualität der Benchmarks signifikant erhöhen.

- **Ausweitung auf weitere Sprachen und Anwendungsfälle**: Eine langfristige Weiterentwicklung des Projekts könnte die Unterstützung weiterer Sprachen sowie zusätzlicher Anwendungsfälle umfassen. Dies würde den Anwendungsbereich des Benchmark-Tools deutlich erweitern und dessen Wert für die Bewertung von Sprachmodellen verschiedener Domänen steigern.



The history saving thread hit an unexpected error (OperationalError('attempt to write a readonly database')).History will not be written to the database.

SyntaxError: invalid syntax (1898421936.py, line 5)


