<a href="https://colab.research.google.com/github/dgromann/ProgrammingForTranslators/blob/master/MT_Evaluationsmetriken.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Evaluationsmetriken für maschinelle Übersetzung

Dieses Google Collaboratory (Colab) Notebook präsentiert eine einfach und rasche Umsetzung von gängigen Evaluationsmetriken. Dazu muss nichts installiert werden und die Berechnung erfolgt direkt im Browser. 

In Google Colab gibt es Textsegmente wie dieses in weiß und graue Code-Segmente. Wenn Sie in ein graues Segment klicken, erscheint links oben ein Schaltfläche, die es erlaubt das jeweilige Segment auszuführen. Die Ausgabe des Segmentes sehen Sie dann darunter.

In [None]:
!pip3 install --upgrade nltk

In [None]:
import nltk
nltk.download('punkt')

In [20]:
!pip install -q datasets # Metriken und Datensätze für Transformers 
!pip install -q sacrebleu # Verbesserte Variante von BLEU; Abhängigkeit von datasets

[?25l[K     |███▋                            | 10 kB 17.9 MB/s eta 0:00:01[K     |███████▏                        | 20 kB 23.4 MB/s eta 0:00:01[K     |██████████▉                     | 30 kB 29.4 MB/s eta 0:00:01[K     |██████████████▍                 | 40 kB 26.8 MB/s eta 0:00:01[K     |██████████████████              | 51 kB 28.0 MB/s eta 0:00:01[K     |█████████████████████▋          | 61 kB 20.9 MB/s eta 0:00:01[K     |█████████████████████████▎      | 71 kB 19.2 MB/s eta 0:00:01[K     |████████████████████████████▉   | 81 kB 20.4 MB/s eta 0:00:01[K     |████████████████████████████████| 90 kB 6.4 MB/s 
[?25h

# Edit distance

In [None]:
import nltk 

reference = "This is a test"
candidate = "This is not a test"

edit_distance = nltk.edit_distance(reference, candidate, transpositions=False)
print(edit_distance)

# Deep Learning Metriken

In [None]:
# Evaluationsmetriken importieren und die Auswahl ausgeben
from datasets import list_metrics

metrics_list = list_metrics()
print((metrics_list))

#SacreBLEU

In [None]:
from datasets import load_metric

# Evaluationsmetrik laden
metric = load_metric('sacrebleu')

# Die nachstehende Zeile (wenn ohne "#" ausgeführt, beschreibt die Software-Bibliothek)
print(metric)

reference_batch = [['The dog bit the man.', 'The dog had bit the man.'], 
                   ['It was not unexpected.', 'No one was surprised.'],
                   ['The man bit him first.', 'The man had bitten the dog.']]
sys_batch = ['The dog bit the man.', "It wasn't surprising.", 'The man had just bitten him.']
metric.add_batch(predictions=sys_batch, references=reference_batch)


score = metric.compute()
print(score)

# METEOR

In [None]:
from datasets import load_metric

# Evaluationsmetrik laden
metric = load_metric('meteor')

# Die nachstehende Zeile (wenn ohne "#" ausgeführt, beschreibt die Software-Bibliothek)
#print(metric)

reference_batch = [['The dog bit the man.', 'The dog had bit the man.'],
                   ['It was not unexpected.', 'No one was surprised.'],
                   ['The man bit him first.', 'The man had bitten the dog.']]
sys_batch = ['The dog bit the man.', "It wasn't surprising.", 'The man had just bitten him.']
metric.add_batch(predictions=sys_batch, references=reference_batch)


score = metric.compute()
print(score)

# TER

In [None]:
from datasets import load_metric

# Evaluationsmetrik laden
metric = load_metric('ter')

# Die nachstehende Zeile (wenn ohne "#" ausgeführt, beschreibt die Software-Bibliothek)
#print(metric)

reference_batch = [['The dog bit the man.', 'The dog had bit the man.'],
                   ['It was not unexpected.', 'No one was surprised.'],
                   ['The man bit him first.', 'The man had bitten the dog.']]
sys_batch = ['The dog bit the man.', "It wasn't surprising.", 'The man had just bitten him.']
metric.add_batch(predictions=sys_batch, references=reference_batch)


score = metric.compute()
print(score)

# Dateien hochladen

Am einfachsten geht das, wenn Sie Colab mit Google Drive verbinden. 

In [66]:
#Verbindung zu Google Drive herstellen 

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [86]:
#In den richtigen Ordner wechseln
%cd /content/drive/MyDrive/

/content/drive/MyDrive


In [None]:
#Sicherstellen, dass Sie im richtigen Ordner sind indem Sie die Ordner und Dateien im Ordner ausgeben lassen 
%ls

In [105]:
#Richtigen Dateinamen hier eintragen statt z. B. "references.txt"
references = open("references.txt").read()
translation = open("translated.txt").read()

print("References: ", references)
print("Translation: ", translation)

References:  The dog bit the man. It was not unexpected. 
The man had bitten the dog. 
Translation:  The dog bit the man. It wasn't surprising.
The man had just bitten him.


# Calculate BLEU like above but on a text file:

In [None]:
from datasets import load_metric
from nltk.tokenize import sent_tokenize

# Evaluationsmetrik laden
metric = load_metric('meteor')

# Die nachstehende Zeile (wenn ohne "#" ausgeführt, beschreibt die Software-Bibliothek)
#print(metric)

#Der Text in der Datei muss noch in einzelne Sätze unterteilt werden: 
translation_tokenized = sent_tokenize(translation)
references_tokenized = [[sent] for sent in sent_tokenize(references)]

print(translation_tokenized)
print(references_tokenized)

metric.add_batch(predictions=translation_tokenized, references=references_tokenized)


score = metric.compute()
print(score)