### 2.3. <u>COMET</u>

Im Gegensatz zu BertScore bezieht COMET auch die Eingabe in der Quellsprache in den Schätzprozess ein. Das Modell ermöglicht eine Vorhersage ohne die Referenzübersetzung für die Modellausgabe (Hypothese). COMET prüft die semantische Ähnlichkeit, indem es vortrainierte Sprachmodelle wie BERT oder RoBERTa verwendet, die kontextuelle Repräsentationen von Wörtern und Sätzen erzeugen. Diese Modelle sind feinabgestimmt auf spezielle Bewertungsdaten, die aus Quelltexten, maschinellen Übersetzungen und Referenzübersetzungen bestehen. Das Modell extrahiert kontextuelle Merkmale aus diesen Texten und berechnet die Ähnlichkeit zwischen den Merkmalen der maschinellen Übersetzungen und den Referenzübersetzungen. Die semantische Ähnlichkeit wird durch Distanzmetriken wie die Kosinusähnlichkeit gemessen, um einen Score zu liefern, der die Übersetzungsqualität widerspiegelt.

<img src="https://miro.medium.com/v2/resize:fit:1100/format:webp/1*omJhB5a4yEZ3IgWNxp31ig.png" alt="Comet" width="300" height="300">

### Vorteile
- Semantische Sensibilität: COMET ist in der Lage, die semantische Bedeutung von Texten genau zu erfassen, was es ihm ermöglicht, subtile Unterschiede und Nuancen in Übersetzungen zu erkennen, die traditionelle Metriken wie BLEU möglicherweise nicht erfassen.

- Sprachübergreifende Fähigkeiten: Dank der Verwendung von mehrsprachigen Sprachmodellen kann COMET effektiv mit verschiedenen Sprachpaaren umgehen und die Qualität von Übersetzungen in vielen verschiedenen Sprachen bewerten.

- Kontextuelle Bewertung: Durch die Berücksichtigung des Kontextes jedes Wortes in einem Satz kann COMET kontextuelle Fehler in Übersetzungen erkennen, die bei wortbasierten Metriken unentdeckt bleiben könnten.

Quellen: 
- https://arxiv.org/pdf/2009.09025
- https://github.com/Unbabel/COMET

In [None]:
# Imports
from comet import download_model, load_from_checkpoint

In [None]:
# Laden des Modells
model_path = download_model("Unbabel/wmt22-comet-da")

# Laden der Modell Checkpoints
model = load_from_checkpoint(model_path)

In [None]:
# Erstellen der Datensätze
# Testdaten
data = [
    {
        "src": "10 到 15 分钟可以送到吗",
        "mt": "Can I receive my food in 10 to 15 minutes?",
        "ref": "Can it be delivered between 10 to 15 minutes?"
    },
    {
        "src": "Pode ser entregue dentro de 10 a 15 minutos?",
        "mt": "Can you send it for 10 to 15 minutes?",
        "ref": "Can it be delivered between 10 to 15 minutes?"
    }
]

# Beispieldaten

In [None]:
# Aufruf des Modells
model_output = model.predict(data, batch_size=8, gpus=1)

In [None]:
# Ausgabe der Ergebnisse
print(model_output)                                           # Prediction
print(f"Sentence-level score: {model_output.scores}")         # Prüfung der Qualität auf Satzebene
print(f"System-level score: {model_output.system_score}")     # Prüfung der Qualität über eine Sammlung von Sätzen