# Traduction Multilingue avec MarianMT
Dans ce notebook, nous allons explorer comment utiliser MarianMT, un modèle de traduction multilingue basé sur l'architecture Transformer.

### Objectifs :
- Charger et utiliser un modèle MarianMT pour traduire du texte.
- Manipuler les couples de langues pour différentes traductions.
- Répondre à des questions pédagogiques.


In [None]:
!pip install transformers torch -q

In [1]:
from transformers import MarianMTModel, MarianTokenizer

## 1. Charger un modèle MarianMT
Nous allons utiliser le modèle `Helsinki-NLP/opus-mt-en-fr` pour traduire de l'anglais vers le français.

In [2]:
model_name = "Helsinki-NLP/opus-mt-en-fr"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/778k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.34M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.42k [00:00<?, ?B/s]



pytorch_model.bin:   0%|          | 0.00/301M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/301M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

**Question 1 :** Quelle est la différence entre un modèle et un tokenizer ?
Indiquez vos observations dans une cellule Markdown ci-dessous.

## 2. Préparer le texte à traduire
Nous allons écrire une ou plusieurs phrases en anglais que nous voulons traduire en français.

In [3]:
text_to_translate = ["Hello, how are you?", "This is a test sentence."]
encoded_text = tokenizer(text_to_translate, return_tensors="pt", padding=True, truncation=True)

**Question 2 :** Pourquoi devons-nous encoder le texte avant de l'envoyer au modèle ?

## 3. Générer la traduction
Le modèle générera des phrases traduites.

In [4]:
translated = model.generate(**encoded_text)
translated_text = [tokenizer.decode(t, skip_special_tokens=True) for t in translated]

for i, (src, tgt) in enumerate(zip(text_to_translate, translated_text)):
    print(f"Phrase originale : {src}")
    print(f"Traduction : {tgt}\n")

Phrase originale : Hello, how are you?
Traduction : Bonjour, comment allez-vous ?

Phrase originale : This is a test sentence.
Traduction : C'est une phrase d'essai.



**Question 3 :** Dans quelle mesure la traduction générée est-elle correcte ?
Donnez votre avis.

## 4. Traduction vers une autre langue
Nous allons maintenant utiliser un autre modèle pour traduire du français vers l'espagnol.

In [5]:
model_name_fr_es = "Helsinki-NLP/opus-mt-fr-es"
tokenizer_fr_es = MarianTokenizer.from_pretrained(model_name_fr_es)
model_fr_es = MarianMTModel.from_pretrained(model_name_fr_es)

text_to_translate_fr = ["Bonjour, comment ça va ?", "C'est une phrase de test."]
encoded_text_fr = tokenizer_fr_es(text_to_translate_fr, return_tensors="pt", padding=True, truncation=True)
translated_fr_es = model_fr_es.generate(**encoded_text_fr)
translated_text_fr_es = [tokenizer_fr_es.decode(t, skip_special_tokens=True) for t in translated_fr_es]

for i, (src, tgt) in enumerate(zip(text_to_translate_fr, translated_text_fr_es)):
    print(f"Phrase originale : {src}")
    print(f"Traduction : {tgt}\n")

tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/812k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/819k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/2.34M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.38k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/332M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/332M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

Phrase originale : Bonjour, comment ça va ?
Traduction : Hola, ¿cómo estás?

Phrase originale : C'est une phrase de test.
Traduction : Es una frase de prueba.



**Question 4 :** Pourquoi MarianMT nécessite-t-il un modèle différent pour chaque couple de langues ?

## 5. Fonction Générique pour Traduction

In [6]:
def translate_with_marian(model_name, sentences):
    tokenizer = MarianTokenizer.from_pretrained(model_name)
    model = MarianMTModel.from_pretrained(model_name)
    encoded = tokenizer(sentences, return_tensors="pt", padding=True, truncation=True)
    translated = model.generate(**encoded)
    return [tokenizer.decode(t, skip_special_tokens=True) for t in translated]

sentences = ["Good morning!", "How are you today?"]
result = translate_with_marian("Helsinki-NLP/opus-mt-en-fr", sentences)
print("Traduction en français :", result)

Traduction en français : ['Bonjour !', "Comment allez-vous aujourd'hui ?"]


**Question 5 :** Testez cette fonction pour traduire d'autres langues.

## 6. Conclusion
MarianMT est un outil puissant pour la traduction multilingue. Grâce à ce notebook, vous avez appris :
- Comment charger et utiliser un modèle MarianMT.
- Comment préparer et encoder du texte pour la traduction.
- Comment personnaliser et étendre les applications de traduction.