<a href="https://colab.research.google.com/github/dgromann/ProgrammingForTranslators_ITAT/blob/main/tutorial/3_Beispiel_Maschinelle_%C3%9Cbersetzung.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Programmieren für Übersetzer:innen - Beispiel Maschinelle Übersetzung**


Dieses Notebook zeigt wie ein bereits trainiertes Modell von [HuggingFace](https://huggingface.co/) geladen werden kann und eine Anfrage an das Modell gestellt werden kann.

Um externe Softwarebibliotheken zu verwenden, müssen diese installiert werden. Eine Softwarebibliothek oder Programmbibliothek stellt eine Sammlung von Unterprogrammen dar, die Lösungen für Problemstellungen anbietet. Anstatt bei Null zu beginnen, kann ich meinen Code auf dem Code anderer aufbauen, indem ich diese existierenden Lösungen importiere bzw. installiere.

Auf Google Colab werden Softwarebibliotheken mit dem Befehl `!pip install`+ dem Namen der Bibliothek installiert.

# Letkion 1: Maschinelle Übersetzung mit HuggingFace

[HuggingFace](https://huggingface.co/) ist eine Plattform für Deep Learning und Data Science. Dort werden trainierte Modelle für verschiedene Aufgabenstellungen sowie Datensätze und Tutorials zur Verfügung gestellt.  

Für die Verwendung von sogenannten Transformer-Modellen von HuggingFace muss die entsprechende Bibliothek erst installiert werden.

👋 ⚒ **Aufgabe** 👋 ⚒ <br>
Führen Sie den folgenden Code aus.

In [None]:
!pip install transformers # Um die Modelle auf HuggingFace verwenden zu können
!pip install evaluate # Eine Bibliothek für MT-Evaluationsmetriken

Als kleines Beispiel zur Verwendung von HugginFace laden wir das Modell [T5-small](https://huggingface.co/t5-small), ein Modell für maschinelle Übersetzung für English, Französisch, Romänisch, und Deutsch.

In [None]:
from transformers import pipeline

translator = pipeline("translation_en_to_de", model="t5-small")
translator("This is a test")

👋 ⚒ **Aufgabe** 👋 ⚒ <br>
Übersetzen Sie einen anderen Satz Ihrer Wahl.

In [None]:
#Fügen Sie Ihr Beispiel und Ihren Code hier ein

# Letkion 1: Evaluierung

Wir können die Ergebnisse dann auch automatisch evaluieren.

### **Edit Distance**

 Die einfachste Form der Evaluierung ist die sogenannte Edit-Distanz oder Levenshtein-Distanz. Hierbei wird gezählt wieviele Buchstaben hinzugefügt, gelöscht oder ersetzt werden müssen, um einen String in einen anderen umzuwandeln.

In [None]:
import nltk
nltk.download('punkt')

reference = "This is a test"
candidate = "This is not a test"

edit_distance = nltk.edit_distance(reference, candidate, transpositions=False)
print(edit_distance)

👋 ⚒ **Aufgabe** 👋 ⚒ <br>
Ändern Sie die folgende Code-Zelle um die Ausgabe des T5-small Modells mit einer Übersetzung Ihrer Wahl zu vergleichen.

In [None]:
# Fragen Sie eine
source_text = "Your text here"
target_text = "Ihr Text hier"

# Fügen Sie hier die Übersetzung des T5-Modells hinzu
candidate =

edit_distance = nltk.edit_distance(target_text, candidate, transpositions=False)
print(edit_distance)

### **BLEU**

Ein Metrik zur Evaluierung die am weitesten verbreitet ist, ist der sogenannte Bilingual Evaluation Understudy (BLEU [Linktext](https://en.wikipedia.org/wiki/BLEU)-Score. Eine einfach zu verwendenden Implementierung ist die Softwarebibliothek SacreBLEU von HuggingFace.

👋 ⚒ **Aufgabe** 👋 ⚒ <br>
Vergleichen Sie die Ausgabe des T5-small Modells mit Ihrer eigenen Übersetzung mithilfe von SacreBLEU.

In [None]:
from evaluate import load

# SacreBLEU erwartet eine Liste als Input
source_text = ["This is a test", "Do you have a more interesting example?"]
reference = ["Das ist ein Test", "Haben Sie ein interessanteres Beispiel?"]

# Da SacreBLEU eine Liste benötigt, müssen wir jeden Satz einzeln übersetzen und in einer Liste speichern
candidate =


sacrebleu = load("sacrebleu")
results = sacrebleu.compute(predictions=candidate, references=reference)

# Das ist eine Liste von allen Variablen die SacreBLEU bereitstellt
print(list(results.keys()))
print("SacreBLEU Metrik:")
print(round(results["score"], 1))