### Translation Task:

La traduction est une tâche de type séquence-à-séquence, similaire au résumé de texte. Elle peut également être adaptée à d'autres problèmes de ce genre, comme le transfert de style (par exemple, traduire un texte formel en un texte plus décontracté) ou la génération de réponses à des questions en fonction d'un contexte.

Si vous disposez d'un grand corpus de textes dans deux langues ou plus, vous pouvez entraîner un nouveau modèle de traduction à partir de zéro. Toutefois, il est souvent plus rapide de faire un fine-tuning d’un modèle de traduction existant, comme un modèle multilingue tel que mT5 ou mBART, ou un modèle spécialisé pour la traduction d’une langue à une autre.

Dans cette section, un modèle Marian pré-entraîné pour la traduction de l’anglais vers le français sera ajusté (fine-tuned) en utilisant le jeu de données KDE4. Ce modèle a été initialement entraîné sur un large corpus de textes en anglais et en français, et nous allons améliorer ses performances après l’étape de fine-tuning.

Une fois l’entraînement terminé, le modèle pourra faire des prédictions de traduction.

#### 1- Preparing the data


In [35]:
# Import librairies
import transformers
from datasets import load_dataset
from transformers import pipeline
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM

In [2]:
# Lire our dataset
dataset = load_dataset("kde4", lang1 = "en", lang2 = "fr")
dataset

You can avoid this message in future by passing the argument `trust_remote_code=True`.
Passing `trust_remote_code=True` will be mandatory to load this dataset from the next major release of `datasets`.


DatasetDict({
    train: Dataset({
        features: ['id', 'translation'],
        num_rows: 210173
    })
})

Nous avons 210 173 paires de phrases, mais elles sont regroupées en un seul ensemble, ce qui signifie que nous devons créer notre propre ensemble de validation. Un objet Dataset possède une méthode train_test_split() qui peut nous aider. Nous allons fournir une graine (seed) pour garantir la reproductibilité.

In [3]:
# Splitter our data in train and test
split_datasets = dataset["train"].train_test_split(train_size=0.9, seed=20)

#Rename our test to "validation"
split_datasets["validation"] = split_datasets.pop('test')

split_datasets

DatasetDict({
    train: Dataset({
        features: ['id', 'translation'],
        num_rows: 189155
    })
    validation: Dataset({
        features: ['id', 'translation'],
        num_rows: 21018
    })
})

In [4]:
split_datasets["train"][10]["translation"]

{'en': 'Text Cursor Movement', 'fr': 'Mouvements du curseur de texte'}

Nous obtenons un dictionnaire contenant deux phrases dans les langues demandées. Une particularité de ce jeu de données, qui contient beaucoup de termes techniques en informatique, est que tous ces termes sont entièrement traduits en français. Cependant, les ingénieurs français laissent souvent les mots spécifiques à l'informatique en anglais lorsqu'ils parlent. Par exemple, le mot « threads » pourrait apparaître tel quel dans une phrase française, surtout dans une conversation technique, mais dans ce jeu de données, il est traduit par l'expression plus correcte « fils de discussion ». Le modèle pré-entraîné que nous utilisons, qui a été formé sur un corpus plus large de phrases en français et en anglais, choisit souvent l'option plus simple en laissant le mot tel quel.

In [6]:
model_checkpoint = "Helsinki-NLP/opus-mt-en-fr"
translator = pipeline("translation", model=model_checkpoint)




source.spm:   0%|          | 0.00/778k [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


target.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.34M [00:00<?, ?B/s]



In [12]:
translator("Default to expanded threads")

[{'translation_text': 'Par défaut pour les threads élargis'}]

Un autre exemple de ce comportement est le mot « plugin », qui n'est pas officiellement un mot français mais que la plupart des francophones comprennent sans le traduire. Dans le jeu de données KDE4, ce mot a été traduit en français par l'expression plus officielle « module d'extension »

In [15]:
split_datasets["train"][172]["translation"]

{'en': 'Unable to import %1 using the OFX importer plugin. This file is not the correct format.',
 'fr': "Impossible d'importer %1 en utilisant le module d'extension d'importation OFX. Ce fichier n'a pas un format correct."}

In [16]:
translator(split_datasets["train"][172]["translation"]["en"])

[{'translation_text': "Impossible d'importer %1 en utilisant le plugin d'importateur OFX. Ce fichier n'est pas le bon format."}]

#### 2 - Processing the data

les textes doivent être convertis en ensembles d'ID de tokens pour que le modèle puisse les comprendre. Pour cette tâche, nous devons tokeniser à la fois les entrées et les cibles. Notre première étape est de créer l'objet tokenizer.

Comme mentionné précédemment, nous utiliserons un modèle Marian pré-entraîné pour la traduction de l'anglais vers le français. Si vous utilisez ce code avec une autre paire de langues, veillez à adapter le point de contrôle du modèle. L'organisation Helsinki-NLP propose plus d'un millier de modèles dans plusieurs langues.

In [19]:
checkpoint = "Helsinki-NLP/opus-mt-en-fr"

tokenizer = AutoTokenizer.from_pretrained(checkpoint, return_tensors = "pt")



La préparation de nos données est assez simple. Il y a juste une chose à retenir : il faut s'assurer que le tokenizer traite les cibles dans la langue de sortie (ici, le français). Vous pouvez le faire en passant les cibles à l'argument __text_targets__ de la méthode __call__ du tokenizer.

In [29]:
en_sentence = split_datasets["train"][120]["translation"]["en"]
fr_sentence = split_datasets["train"][120]["translation"]["fr"]

inputs = tokenizer(en_sentence, text_target = fr_sentence)
print(inputs)

{'input_ids': [12406, 4, 9432, 26, 29464, 746, 24, 1637, 212, 28, 479, 3, 443, 10042, 24, 63, 2959, 517, 28, 32, 15108, 2, 4, 9432, 32, 801, 26, 1265, 9929, 246, 3, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': [40276, 34, 3404, 5, 2099, 27, 19, 14776, 24, 3432, 92, 167, 23, 15, 102, 350, 14, 6, 9313, 153, 402, 29033, 15080, 402, 29033, 416, 43, 806, 17598, 2, 19, 3404, 5, 2099, 81, 6, 82, 5644, 29, 27, 16, 1871, 20, 6, 28349, 3, 0]}


Comme nous pouvons le constater, la sortie contient les IDs d'entrée associés à la phrase en anglais, tandis que les IDs associés à la phrase en français sont stockés dans le champ des labels. Si vous oubliez de préciser que vous êtes en train de tokeniser des labels, ils seront traités par le tokenizer des entrées, ce qui, dans le cas d'un modèle Marian, ne fonctionnera pas du tout correctement.

In [30]:
wrong_targets = tokenizer(fr_sentence)
print(tokenizer.convert_ids_to_tokens(wrong_targets["input_ids"]))
print(tokenizer.convert_ids_to_tokens(inputs["labels"]))

['▁Sai', 's', 'isse', 'z', '▁un', '▁mo', 't', '▁de', '▁pass', 'e', '▁pour', '▁le', '▁dé', 'mar', 'rage', '▁(', 'si', '▁il', '▁y', '▁en', '▁a', ').', '▁Si', '▁l', "'", 'option', '▁«', '▁&', '▁#1', '60', ';', '▁rest', 're', 'int', '▁&', '▁#1', '60', ';', '▁»', '▁est', '▁co', 'ché', 'e', ',', '▁le', '▁mo', 't', '▁de', '▁pass', 'e', '▁n', "'", 'est', '▁re', 'qui', 's', '▁que', '▁pour', '▁les', '▁change', 'ments', '▁d', "'", 'option', 's', '.', '</s>']
['▁Saisissez', '▁un', '▁mot', '▁de', '▁passe', '▁pour', '▁le', '▁démarrage', '▁(', 'si', '▁il', '▁y', '▁en', '▁a', ').', '▁Si', '▁l', "'", 'option', '▁«', '▁&', '▁#160;', '▁restreint', '▁&', '▁#160;', '▁»', '▁est', '▁co', 'chée', ',', '▁le', '▁mot', '▁de', '▁passe', '▁n', "'", 'est', '▁requis', '▁que', '▁pour', '▁les', '▁changements', '▁d', "'", 'options', '.', '</s>']


Comme nous pouvons le voir, utiliser le tokenizer anglais pour prétraiter une phrase en français entraîne un nombre beaucoup plus élevé de tokens, car le tokenizer ne connaît pas les mots français (sauf ceux qui apparaissent également en anglais, comme « discussion »).

Puisque les entrées sont un dictionnaire contenant nos clés habituelles (IDs d'entrée, masque d'attention, etc.), la dernière étape consiste à définir la fonction de prétraitement que nous appliquerons aux jeux de données.

In [32]:
max_length = 128

def preprocess_function(exemple: str):
    """une fct pour tokenize nos textes d'entrée et de sortie

    Args:
        exemple (str): _description_

    Returns:
        _type_: _description_
    """    
    inputs = [ex["en"] for ex in exemple["translation"]]
    targets = [ex["fr"] for ex in exemple["translation"]]

    model_inputs = tokenizer(targets, text_target=targets, max_length=max_length, truncation=True)
    return model_inputs

In [33]:
tokenized_datasets = split_datasets.map(preprocess_function, batched=True, 
                                        remove_columns=split_datasets["train"].column_names,)

Map:   0%|          | 0/189155 [00:00<?, ? examples/s]

Map:   0%|          | 0/21018 [00:00<?, ? examples/s]

In [34]:
tokenized_datasets

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 189155
    })
    validation: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 21018
    })
})

#### 3 - Fine-tuning the model with the Trainer API

Le code réel utilisant le Trainer sera le même que précédemment, avec une petite différence : nous utilisons ici un $Seq2SeqTrainer$, qui est une sous-classe de Trainer permettant de gérer correctement l'évaluation, en utilisant la méthode __generate()__ pour prédire les sorties à partir des entrées. Nous examinerons cela plus en détail lorsque nous aborderons le calcul des métriques.

Tout d'abord, nous avons besoin d'un modèle réel à affiner. Nous utiliserons l'API AutoModel habituelle.