# Übung 21 - Transformer

In [None]:
# Nur einmal ausführen
!pip install transformers

Dieses Mal nutzen wir - wie in der Praxis üblich - ein "fertiges", pretrained Model
--> Sie finden solche Modelle zahlreich auf https://www.huggingface.com

In [25]:
# Hier nutzen wir eine spezielle Library "transformers"
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast

# Sätze in unterschiedlichen Sprachen
article_hi = "संयुक्त राष्ट्र के प्रमुख का कहना है कि सीरिया में कोई सैन्य समाधान नहीं है"
article_ar = "الأمين العام للأمم المتحدة يقول إنه لا يوجد حل عسكري في سوريا."

# In diesem Beispiel nutzen wir ein pretrained Model von Facebook, fine-tuned für Multi-Language Übersetzungen
# https://huggingface.co/facebook/mbart-large-50-many-to-many-mmt
model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")


# Übersetzen von Hindi --> Französisch
tokenizer.src_lang = "hi_IN"

# Da "transformers" auf PyTorch basieren, sollen die Tensoren in PyTorch-Format generiert werden
encoded_hi = tokenizer(article_hi, return_tensors="pt")
generated_tokens = model.generate(
    **encoded_hi,
    forced_bos_token_id=tokenizer.lang_code_to_id["fr_XX"]
)
print(tokenizer.batch_decode(generated_tokens, skip_special_tokens=True))
# => "Le chef de l 'ONU affirme qu 'il n 'y a pas de solution militaire dans la Syrie."

# Übersetzen von Arabisch --> Englisch
tokenizer.src_lang = "ar_AR"
encoded_ar = tokenizer(article_ar, return_tensors="pt")
generated_tokens = model.generate(
    **encoded_ar,
    forced_bos_token_id=tokenizer.lang_code_to_id["en_XX"]
)
print(tokenizer.batch_decode(generated_tokens, skip_special_tokens=True))
# => "The Secretary-General of the United Nations says there is no military solution in Syria."


["Le chef de l 'ONU affirme qu 'il n 'y a pas de solution militaire en Syria."]
['The Secretary-General of the United Nations says there is no military solution in Syria.']
