In [1]:
# %pip install transformers torch
# %pip install sentencepiece
# %pip install sacremoses

# Lab : Traduction automatique avec BERT

Dans ce lab, vous allez découvrir comment utiliser un modèle pré-entraîné basé sur BERT pour effectuer une tâche de **traduction automatique**.

Nous allons utiliser le modèle **MarianMT** de Hugging Face, qui est basé sur une architecture dérivée de BERT. Ce modèle est entraîné pour traduire des phrases entre plusieurs langues. Vous apprendrez à :
1. Charger un modèle de traduction pré-entraîné.
2. Traduire des phrases du **français** vers l'**anglais**.
3. Expérimenter avec des phrases personnalisées pour observer les forces et les limites du modèle.

### Objectifs du lab
- Découvrir comment BERT peut être utilisé pour des tâches de traduction.
- Tester des traductions automatiques sur des exemples interactifs.
- Analyser les performances du modèle et identifier ses limites.

### Modèle utilisé
Nous utiliserons le modèle pré-entraîné 


# Étape 1 : Charger le modèle de traduction

Dans cette section, nous allons :
1. Charger le modèle pré-entraîné **Helsinki-NLP/opus-mt-fr-en**.
2. Charger son tokenizer associé.

Ce modèle est conçu pour traduire du français vers l'anglais. Les étudiants pourront tester la traduction sur plusieurs exemples.


In [2]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# Charger le tokenizer et le modèle MarianMT pour la traduction français-anglais
model_name = "Helsinki-NLP/opus-mt-fr-en"  # Modèle de traduction français → anglais
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

print("Modèle chargé avec succès !")


tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.42k [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/778k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.34M [00:00<?, ?B/s]

2024-12-03 16:40:47.223263: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1733240447.243561  200653 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1733240447.249795  200653 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-12-03 16:40:47.270001: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


pytorch_model.bin:   0%|          | 0.00/301M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

Modèle chargé avec succès !


# Étape 2 : Traduire une phrase simple

Le modèle est maintenant prêt ! Dans cette section, vous allez :
1. Tester la traduction automatique sur une phrase simple en français.
2. Observer la sortie produite par le modèle.

### Exemple
La phrase "Bonjour, comment allez-vous aujourd'hui ?" sera traduite en anglais. Essayez de modifier la phrase dans le code pour observer comment le modèle réagit à des phrases différentes.


In [3]:
# Phrase en français
text1 = "Bonjour, comment allez-vous aujourd'hui ?"
text2 = "Je suis en train de suivre une formation pour améliorer mes compétences."
text = text2

# Tokenisation et encodage
inputs = tokenizer(text, return_tensors="pt", truncation=True)

# Générer la traduction
outputs = model.generate(**inputs)

# Décoder la traduction
translation = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"Texte original : {text}")
print(f"Traduction : {translation}")


Texte original : Je suis en train de suivre une formation pour améliorer mes compétences.
Traduction : I'm in the process of training to improve my skills.


# Étape 3 : Tester vos propres phrases

C'est maintenant à vous ! Entrez une phrase en français pour voir comment le modèle la traduit en anglais.

### Exercice
1. Essayez une phrase courte, comme "Le soleil brille aujourd'hui."
2. Essayez une phrase plus complexe ou idiomatique, comme "Il pleut des cordes."

In [4]:
# Tester vos propres phrases
text = input("Entrez une phrase en français pour la traduction : ")
inputs = tokenizer(text, return_tensors="pt", truncation=True)
outputs = model.generate(**inputs)
translation = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"Texte original : {text}")
print(f"Traduction : {translation}")


Texte original : J'adore suivre les formations en IA proposées par AKABI
Traduction : I love taking the AI courses offered by AKABI
