# Modélisation d'une architecture Transformers pour une tâche de génération de texte en anglais/français. 

## Modèle T5 de Google

In [20]:
#!pip install transformers torch sentencepiece transformers[sentencepiece]

In [32]:
from transformers import T5Tokenizer, T5ForConditionalGeneration

# Chargement du modèle et du tokenizer
checkpoint = "t5-base"
tokenizer = T5Tokenizer.from_pretrained(checkpoint)
model = T5ForConditionalGeneration.from_pretrained(checkpoint)

## Preprocessing

In [48]:
# Exemple de prompt
prompt_en = "translate English to French: The weather was nicer yesterday."
prompt_fr = "translate French to English: Le temps est agréable aujourd'hui."

# Tokenisation
input_ids_en = tokenizer.encode(prompt_en, return_tensors="pt")
input_ids_fr = tokenizer.encode(prompt_fr, return_tensors="pt")


In [50]:
# Génération de texte en anglais vers français
output_en = model.generate(input_ids_en)
generated_text_en = tokenizer.decode(output_en[0], skip_special_tokens=True)

# Génération de texte en français vers anglais
output_fr = model.generate(input_ids_fr)
generated_text_fr = tokenizer.decode(output_fr[0], skip_special_tokens=True)

print("Generated Text (EN to FR):", generated_text_en)
print("Generated Text (FR to EN):", generated_text_fr)


Generated Text (EN to FR): Le temps a été plus agréable hier.
Generated Text (FR to EN): Bonjour tout le monde.


##  Évaluation des Résultats

In [67]:
from nltk.translate.bleu_score import sentence_bleu

# Exemple de phrase attendue
reference_fr = "Le temps a été plus qu'agréable hier."
reference_en = "The weather is nice today."

# Calculer le score BLEU
bleu_score_fr = sentence_bleu([reference_fr.split()], generated_text_en.split())
bleu_score_en = sentence_bleu([reference_en.split()], generated_text_fr.split())

print("BLEU Score (EN to FR):", bleu_score_fr)
print("BLEU Score (FR to EN):", bleu_score_en)


BLEU Score (EN to FR): 0.6434588841607617
BLEU Score (FR to EN): 0


BLEU (Bilingual Evaluation Understudy) : C'est une métrique utilisée pour évaluer la qualité des traductions automatiques. Elle compare la sortie d'un modèle avec une ou plusieurs traductions de référence.
1 signifie que notre modèle atraduit bien de l'anglais vers le français mais l'inverse est totalement erroné.

## Model Helsinki du réseau Marian

In [69]:
from transformers import MarianMTModel, MarianTokenizer

# Charger le modèle et le tokenizer pour la traduction FR vers EN
checkpoint = "Helsinki-NLP/opus-mt-fr-en"
tokenizer = MarianTokenizer.from_pretrained(checkpoint)
model = MarianMTModel.from_pretrained(checkpoint)


generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

In [71]:
# Exemple de phrase en français
sentence_fr = "Le temps est agréable aujourd'hui."

# Tokenisation
input_ids = tokenizer.encode(sentence_fr, return_tensors="pt")


In [59]:
# Génération de texte
output = model.generate(input_ids, max_length=40, num_beams=4, early_stopping=True)

# Décodage de la sortie
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print("Translated Text (FR to EN):", generated_text)


Translated Text (FR to EN): The weather is nice today.


In [61]:
from nltk.translate.bleu_score import sentence_bleu

# Exemple de phrase attendue en anglais
reference_en = "The weather is nice today."

# Calculer le score BLEU
bleu_score = sentence_bleu([reference_en.split()], generated_text.split())

print("BLEU Score (FR to EN):", bleu_score)


BLEU Score (FR to EN): 1.0
