# Bilingual Evaluation Understudy (BLEU)
= Anzahl der Wörter, die mit der Referenz übereinstimmen / die Gesamtzahl der Wörter in einem Kandidatensatz



![Bleu](https://miro.medium.com/v2/resize:fit:828/format:webp/1*U8nNdl0WYoXK290ONwfr5g.png)


Um es zu berechnen, nehmen wir die maximale Häufigkeit, mit der ein Wort in einer einzelnen Referenzübersetzung vorkommt. Abzüglich der Gesamtzahl jedes Kandidatenworts durch seine maximale Referenzanzahl, aufaddieren dieser beschnittenen Zahlen und dividiert durch die Gesamtzahl (nicht beschnittener) Kandidatenwörter.

### Beschreibung:
- Messung der Güte maschineller Übersetzung
- Vergleich eines Satzes mit Referenzsätzen und gibt an, wie gut die Übereinstimmung ist
- Ausgangspunkt:
    - Es gibt nur EINE richtige Übersetzung
    - Die als "richtig" vorgegebene Version = Referenztext => Hochwertige menschliche Übersetzung
    - Text liegt in Ausgangs- und Zielsprache vor
- Beurteilung erfolgt lediglich auf Basis des Referenztextes
- Ausgabewert zwischen 0 und 1
    - 1: Je näher an 1, desto mehr stimmt die Maschinenübersetzung mit der menschlichen Übersetzung überein
    - 0: Keine Übereinstimmung

### Nachteile:
- Es wird nur eine Übereinstimmung geprüft, aber nicht was falsch ist
- Fokus mehr auf Wörtern, als auf Grammatik
- Es gibt nur EINE richtige Lösung

<br/>

> Es wird nicht wichtklich die Qualität gemessen, sondern lediglich, wie nahe eine maschinelle Übersetzung an einen vorgegebenen Referenztext herankommt

<br/>

Quellen: 
- https://www.digitalocean.com/community/tutorials/bleu-score-in-python
- https://www.digitalocean.com/community/tutorials/bleu-score-in-python
- https://www.nltk.org/api/nltk.translate.bleu_score.html

In [1]:
# Imports
import os
import json
from nltk.translate.bleu_score import sentence_bleu, corpus_bleu, modified_precision

In [3]:
# Pfad der JSONS ermitteln
folder = "../Data/atticus"
list_files = os.listdir(folder)

# Leere Liste für englische und deutsche Texte
list_english_text = []
list_german_text = []

# Laden der Files und Extraktion der englischen Texte (Source Language = en-US)
for path in list_files:
    path_complete = folder + "//" + path
    with open(path_complete,'r', encoding="utf-8-sig") as file:
        obj = json.load(file)

    # Iterieren durch die Texte der JSON und Selection der englischen Texte
    for text in obj:
        # Selection der englischen Sätze
        list_english_text.append(text['Text'])
        # Überprüfen, ob die Sprache "de-DE" ist und Speichern in einer Liste
        for translation in text['Translations']:
            if translation['Language'] == 'de-DE':
                list_german_text.append(translation['Text'])

In [4]:
# Vorbereitung der Sätze
# Splitten der zu prüfenden Sätze in einzelne Wörter und speichern in einer Liste (hypothesis)
hypothesis = list_german_text[20].split()
list_hypothesis = [satz.split() for satz in list_german_text][20:23]

In [6]:
# Referenzsätze (vom Menschen übersetzt): 
# Die Referenz kann immer mehrere Sätze in unterschidelichen Formulierungen enthalten
reference_bleu = [
    "WAS GIBT ES NEUES & STORYTELLINGAlle bestehenden Franchise werden eingestellt und ein vollständig neues Produktangebot wird eingeführtVerbrauchererkenntnissen basiert und auf Aktivitäten fokussiertFühlt sich besser an als keinen BH zu tragen, vom Entspannen bis zum Erledigen von BesorgungenGebaut für 24 Stunden KomfortNiemand möchte während der Pandemie BHs tragen, sie möchte reinen Komfort und dieses BH-lose GefühlDieses PRIMEGREEN-Produkt wird aus recyceltem Polyester hergestellt, um Umweltauswirkungen zu reduzieren NACHHALTIGKEITRECYCELTE MATERIALIEN PRIME – PRIMEGREEN. SPEZIFIKATIONENVerkaufsstartdatum: 01-01-2022Stoff: 81% REC.PA/19% ELArtikelnummer: HD0267, HD0269, HD0268, HC5584, HD0270TECHNOLOGIEN & EIGENSCHAFTENLEICHTE KOMPRESSION - Bietet leichte UnterstützungAEROREADY - Leitet Schweiß von Ihrer Haut ab und hält Sie trocken und komfortabelHERAUSNEHMBARE POLSTER - Für optionale AbdeckungKÖRPER UND FUTTER VERBUNDEN - Mit atmungsaktivem VerbindungsklebebandVERBUNDENE NÄHTE UND KANTEN - Für einen glättenden Effekt und ein angenehmes GefühlDEZENTE MARKIERUNG - Erhöhtes adidas Badge of Sport Logo mit Glanzfinish an der Seite".split(),
    "Alle bestehenden Franchise werden aufgegeben, um ein vollständig neues Produktangebot einzuführen. Basierend auf Verbrauchererkenntnissen und mit Fokus auf Aktivitäten, bietet es ein angenehmeres Tragegefühl als das Nicht-Tragen eines BHs, egal ob beim Entspannen oder beim Erledigen von Besorgungen. Entwickelt für 24 Stunden Komfort. Während der Pandemie möchte niemand BHs tragen; sie sehnen sich nach reinem Komfort und dem Gefühl, keinen BH zu tragen. Dieses PRIMEGREEN-Produkt wird aus recyceltem Polyester hergestellt, um Umweltauswirkungen zu reduzieren.".split(),
    "Alle bestehenden Franchise werden zurückgezogen und es wird ein komplett neues Produktangebot eingeführt. Basierend auf Verbrauchererkenntnissen und mit Fokus auf Aktivitäten, bietet es ein besseres Tragegefühl als das Nicht-Tragen eines BHs, sei es beim Entspannen oder beim Erledigen von Besorgungen. Entwickelt für 24 Stunden Komfort. Während der Pandemie möchte niemand BHs tragen; sie streben nach purem Komfort und dem Gefühl, keinen BH zu tragen. Dieses PRIMEGREEN-Produkt wird aus recyceltem Polyester hergestellt, um Umweltauswirkungen zu reduzieren.".split()
]

# Liste von Refernezsätzen
list_reference = [[
    "WAS GIBT ES NEUES & STORYTELLINGAlle bestehenden Franchise werden eingestellt und ein vollständig neues Produktangebot wird eingeführtVerbrauchererkenntnissen basiert und auf Aktivitäten fokussiertFühlt sich besser an als keinen BH zu tragen, vom Entspannen bis zum Erledigen von BesorgungenGebaut für 24 Stunden KomfortNiemand möchte während der Pandemie BHs tragen, sie möchte reinen Komfort und dieses BH-lose GefühlDieses PRIMEGREEN-Produkt wird aus recyceltem Polyester hergestellt, um Umweltauswirkungen zu reduzieren NACHHALTIGKEITRECYCELTE MATERIALIEN PRIME – PRIMEGREEN. SPEZIFIKATIONENVerkaufsstartdatum: 01-01-2022Stoff: 81% REC.PA/19% ELArtikelnummer: HD0267, HD0269, HD0268, HC5584, HD0270TECHNOLOGIEN & EIGENSCHAFTENLEICHTE KOMPRESSION - Bietet leichte UnterstützungAEROREADY - Leitet Schweiß von Ihrer Haut ab und hält Sie trocken und komfortabelHERAUSNEHMBARE POLSTER - Für optionale AbdeckungKÖRPER UND FUTTER VERBUNDEN - Mit atmungsaktivem VerbindungsklebebandVERBUNDENE NÄHTE UND KANTEN - Für einen glättenden Effekt und ein angenehmes GefühlDEZENTE MARKIERUNG - Erhöhtes adidas Badge of Sport Logo mit Glanzfinish an der Seite".split(),
    "Alle bestehenden Franchise werden aufgegeben, um ein vollständig neues Produktangebot einzuführen. Basierend auf Verbrauchererkenntnissen und mit Fokus auf Aktivitäten, bietet es ein angenehmeres Tragegefühl als das Nicht-Tragen eines BHs, egal ob beim Entspannen oder beim Erledigen von Besorgungen. Entwickelt für 24 Stunden Komfort. Während der Pandemie möchte niemand BHs tragen; sie sehnen sich nach reinem Komfort und dem Gefühl, keinen BH zu tragen. Dieses PRIMEGREEN-Produkt wird aus recyceltem Polyester hergestellt, um Umweltauswirkungen zu reduzieren.".split(),
    "Alle bestehenden Franchise werden zurückgezogen und es wird ein komplett neues Produktangebot eingeführt. Basierend auf Verbrauchererkenntnissen und mit Fokus auf Aktivitäten, bietet es ein besseres Tragegefühl als das Nicht-Tragen eines BHs, sei es beim Entspannen oder beim Erledigen von Besorgungen. Entwickelt für 24 Stunden Komfort. Während der Pandemie möchte niemand BHs tragen; sie streben nach purem Komfort und dem Gefühl, keinen BH zu tragen. Dieses PRIMEGREEN-Produkt wird aus recyceltem Polyester hergestellt, um Umweltauswirkungen zu reduzieren.".split()
    ],
    ["DOWNLOAD PRODUKTINFORMATIONEN",
     "PRODUKTINFORMATIONEN HERUNTERLADEN"],
    ["Haben Sie eine Frage oder einen Vorschlag? Fragen Sie unten!",
     "Fragen oder Anregungen? Stellen Sie sie unten!",
     "Haben Sie Fragen oder Anregungen? Teilen Sie sie uns mit unten!"]
]

In [None]:
# Bestimmung des BLEU Scores bezogen auf einen Satz
print('BLEU score sentence -> {}'.format(sentence_bleu(reference_bleu, hypothesis)))     # Es könnte noch eine Gewichtung mithilfe der bestimmung der zu
                                                                                         # betrachteten n-gramms herangezogen werden (weights=(1, 0, 0, 0))

# Bestimmung des BLEU Scores bezogen auf einen Korpus
print('BLEU score corpus -> {}'.format(corpus_bleu(list_reference, list_hypothesis)))

BLEU score sentence -> 0.35360981220380344

BLEU score corpus -> 0.20923325841009338