# chrF++
= ist ein Zeichen-n-Gramm-F-Score (harmonisches Mittel aus Präzision und Erinnerung). Ähnlich wie die auf Zeichenfolgen basierenden Metriken misst es die Überlappung zwischen Übersetzung und Referenz, operiert jedoch im Gegensatz zu anderen Metriken mit kurzen Zeichenfolgen (n-Grammen) anstelle von Wörtern.

### Vorteile:
- Sie ist weniger empfindlich gegenüber der Tokenisierung von Sätzen
- Es vergibt eine teilweise Belohnung für falsch geschriebene Wörter

<br/>

![chrF](https://miro.medium.com/v2/resize:fit:828/format:webp/1*Jq6kumiuvvpDyDocIdCYvQ.png)

- Score (Wert): Der chrF-Score selbst ist eine Zahl, die die Qualität der Übersetzung angibt

- char_order (Zeichenreihenfolge): Dieser Wert zeigt an, wie viel Gewicht auf die Reihenfolge der Zeichen gelegt wird. Je höher, desto mehr wert wird darauf gelegt

- word_order (Wortreihenfolge): Dieser Wert gibt an, wie viel Gewicht auf die Reihenfolge der Wörter gelegt wird. Ein Wert von 0 bedeutet, dass die Wortreihenfolge nicht berücksichtigt wird.

- beta: Beta ist ein Parameter, der die Wichtigkeit der Übereinstimmung von n-Grammen reguliert. Ein höherer Beta-Wert bedeutet, dass größere n-Gramme mehr Gewicht erhalten.

### Schlussfolgerung:

Der chrF-Score ist ein Prozentsatzwert, der die Ähnlichkeit zwischen dem erzeugten Text und dem Referenztext angibt. Bei einem Score von 90%, bedeutet dies, dass 90% der Zeichen im erzeugten Text auch im Referenztext vorhanden sind oder umgekehrt.

Quellen:
- https://huggingface.co/spaces/evaluate-metric/chrf
- https://github.com/m-popovic/chrF/blob/master/chrF%2B%2B.py

In [4]:
# Imports
import os
import json
import evaluate

In [5]:
# Pfad der JSONS ermitteln
folder = "../Data/atticus"
list_files = os.listdir(folder)

# Leere Liste für englische und deutsche Texte
list_english_text = []
list_german_text = []

# Laden der Files und Extraktion der englischen Texte (Source Language = en-US)
for path in list_files:
    path_complete = folder + "//" + path
    with open(path_complete,'r', encoding="utf-8-sig") as file:
        obj = json.load(file)

    # Iterieren durch die Texte der JSON und Selection der englischen Texte
    for text in obj:
        # Selection der englischen Sätze
        list_english_text.append(text['Text'])
        # Überprüfen, ob die Sprache "de-DE" ist und Speichern in einer Liste
        for translation in text['Translations']:
            if translation['Language'] == 'de-DE':
                list_german_text.append(translation['Text'])

In [6]:
# Vorbereitung der Daten
vorhersage = list_german_text[20:23]
referenz = [["WAS GIBT ES NEUES & STORYTELLINGAlle bestehenden Franchise werden eingestellt und ein vollständig neues Produktangebot wird eingeführtVerbrauchererkenntnissen basiert und auf Aktivitäten fokussiertFühlt sich besser an als keinen BH zu tragen, vom Entspannen bis zum Erledigen von BesorgungenGebaut für 24 Stunden KomfortNiemand möchte während der Pandemie BHs tragen, sie möchte reinen Komfort und dieses BH-lose GefühlDieses PRIMEGREEN-Produkt wird aus recyceltem Polyester hergestellt, um Umweltauswirkungen zu reduzieren NACHHALTIGKEITRECYCELTE MATERIALIEN PRIME – PRIMEGREEN. SPEZIFIKATIONENVerkaufsstartdatum: 01-01-2022Stoff: 81% REC.PA/19% ELArtikelnummer: HD0267, HD0269, HD0268, HC5584, HD0270TECHNOLOGIEN & EIGENSCHAFTENLEICHTE KOMPRESSION - Bietet leichte UnterstützungAEROREADY - Leitet Schweiß von Ihrer Haut ab und hält Sie trocken und komfortabelHERAUSNEHMBARE POLSTER - Für optionale AbdeckungKÖRPER UND FUTTER VERBUNDEN - Mit atmungsaktivem VerbindungsklebebandVERBUNDENE NÄHTE UND KANTEN - Für einen glättenden Effekt und ein angenehmes GefühlDEZENTE MARKIERUNG - Erhöhtes adidas Badge of Sport Logo mit Glanzfinish an der Seite"],
            ["DOWNLOAD PRODUKTINFORMATIONEN"],
            ["Haben Sie eine Frage oder einen Vorschlag? Fragen Sie unten!"]]

In [8]:
# Laden des Modells
chrf = evaluate.load("chrf")

# Anwenden des Modells auf die Daten
results_chrf = chrf.compute(predictions=vorhersage, references=referenz)

# Ausgabe (Wird in % Ausgegeben)
print(f'chrF++ score -> {results_chrf}')

chrF++ score -> {'score': 39.68738225039941, 'char_order': 6, 'word_order': 0, 'beta': 2}
