### Translation Task:

La traduction est une t√¢che de type s√©quence-√†-s√©quence, similaire au r√©sum√© de texte. Elle peut √©galement √™tre adapt√©e √† d'autres probl√®mes de ce genre, comme le transfert de style (par exemple, traduire un texte formel en un texte plus d√©contract√©) ou la g√©n√©ration de r√©ponses √† des questions en fonction d'un contexte.

Si vous disposez d'un grand corpus de textes dans deux langues ou plus, vous pouvez entra√Æner un nouveau mod√®le de traduction √† partir de z√©ro. Toutefois, il est souvent plus rapide de faire un fine-tuning d‚Äôun mod√®le de traduction existant, comme un mod√®le multilingue tel que mT5 ou mBART, ou un mod√®le sp√©cialis√© pour la traduction d‚Äôune langue √† une autre.

Dans cette section, un mod√®le Marian pr√©-entra√Æn√© pour la traduction de l‚Äôanglais vers le fran√ßais sera ajust√© (fine-tuned) en utilisant le jeu de donn√©es KDE4. Ce mod√®le a √©t√© initialement entra√Æn√© sur un large corpus de textes en anglais et en fran√ßais, et nous allons am√©liorer ses performances apr√®s l‚Äô√©tape de fine-tuning.

Une fois l‚Äôentra√Ænement termin√©, le mod√®le pourra faire des pr√©dictions de traduction.

#### 1- Preparing the data


In [1]:
# Import librairies
import transformers
from datasets import load_dataset
from transformers import pipeline
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM

In [2]:
# Lire our dataset
dataset = load_dataset("kde4", lang1 = "en", lang2 = "fr")
dataset

You can avoid this message in future by passing the argument `trust_remote_code=True`.
Passing `trust_remote_code=True` will be mandatory to load this dataset from the next major release of `datasets`.


DatasetDict({
    train: Dataset({
        features: ['id', 'translation'],
        num_rows: 210173
    })
})

Nous avons 210 173 paires de phrases, mais elles sont regroup√©es en un seul ensemble, ce qui signifie que nous devons cr√©er notre propre ensemble de validation. Un objet Dataset poss√®de une m√©thode train_test_split() qui peut nous aider. Nous allons fournir une graine (seed) pour garantir la reproductibilit√©.

In [3]:
# Splitter our data in train and test
split_datasets = dataset["train"].train_test_split(train_size=0.9, seed=20)

#Rename our test to "validation"
split_datasets["validation"] = split_datasets.pop('test')

split_datasets

DatasetDict({
    train: Dataset({
        features: ['id', 'translation'],
        num_rows: 189155
    })
    validation: Dataset({
        features: ['id', 'translation'],
        num_rows: 21018
    })
})

In [4]:
split_datasets["train"][10]["translation"]

{'en': 'Text Cursor Movement', 'fr': 'Mouvements du curseur de texte'}

Nous obtenons un dictionnaire contenant deux phrases dans les langues demand√©es. Une particularit√© de ce jeu de donn√©es, qui contient beaucoup de termes techniques en informatique, est que tous ces termes sont enti√®rement traduits en fran√ßais. Cependant, les ing√©nieurs fran√ßais laissent souvent les mots sp√©cifiques √† l'informatique en anglais lorsqu'ils parlent. Par exemple, le mot ¬´ threads ¬ª pourrait appara√Ætre tel quel dans une phrase fran√ßaise, surtout dans une conversation technique, mais dans ce jeu de donn√©es, il est traduit par l'expression plus correcte ¬´ fils de discussion ¬ª. Le mod√®le pr√©-entra√Æn√© que nous utilisons, qui a √©t√© form√© sur un corpus plus large de phrases en fran√ßais et en anglais, choisit souvent l'option plus simple en laissant le mot tel quel.

In [5]:
model_checkpoint = "Helsinki-NLP/opus-mt-en-fr"
translator = pipeline("translation", model=model_checkpoint)






In [6]:
translator("Default to expanded threads")

[{'translation_text': 'Par d√©faut pour les threads √©largis'}]

Un autre exemple de ce comportement est le mot ¬´ plugin ¬ª, qui n'est pas officiellement un mot fran√ßais mais que la plupart des francophones comprennent sans le traduire. Dans le jeu de donn√©es KDE4, ce mot a √©t√© traduit en fran√ßais par l'expression plus officielle ¬´ module d'extension ¬ª

In [7]:
split_datasets["train"][172]["translation"]

{'en': 'Unable to import %1 using the OFX importer plugin. This file is not the correct format.',
 'fr': "Impossible d'importer %1 en utilisant le module d'extension d'importation OFX. Ce fichier n'a pas un format correct."}

In [8]:
translator(split_datasets["train"][172]["translation"]["en"])

[{'translation_text': "Impossible d'importer %1 en utilisant le plugin d'importateur OFX. Ce fichier n'est pas le bon format."}]

#### 2 - Processing the data

les textes doivent √™tre convertis en ensembles d'ID de tokens pour que le mod√®le puisse les comprendre. Pour cette t√¢che, nous devons tokeniser √† la fois les entr√©es et les cibles. Notre premi√®re √©tape est de cr√©er l'objet tokenizer.

Comme mentionn√© pr√©c√©demment, nous utiliserons un mod√®le Marian pr√©-entra√Æn√© pour la traduction de l'anglais vers le fran√ßais. Si vous utilisez ce code avec une autre paire de langues, veillez √† adapter le point de contr√¥le du mod√®le. L'organisation Helsinki-NLP propose plus d'un millier de mod√®les dans plusieurs langues.

In [9]:
checkpoint = "Helsinki-NLP/opus-mt-en-fr"

tokenizer = AutoTokenizer.from_pretrained(checkpoint, return_tensors = "pt")

La pr√©paration de nos donn√©es est assez simple. Il y a juste une chose √† retenir : il faut s'assurer que le tokenizer traite les cibles dans la langue de sortie (ici, le fran√ßais). Vous pouvez le faire en passant les cibles √† l'argument __text_targets__ de la m√©thode __call__ du tokenizer.

In [10]:
en_sentence = split_datasets["train"][120]["translation"]["en"]
fr_sentence = split_datasets["train"][120]["translation"]["fr"]

inputs = tokenizer(en_sentence, text_target = fr_sentence)
print(inputs)

{'input_ids': [12406, 4, 9432, 26, 29464, 746, 24, 1637, 212, 28, 479, 3, 443, 10042, 24, 63, 2959, 517, 28, 32, 15108, 2, 4, 9432, 32, 801, 26, 1265, 9929, 246, 3, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': [40276, 34, 3404, 5, 2099, 27, 19, 14776, 24, 3432, 92, 167, 23, 15, 102, 350, 14, 6, 9313, 153, 402, 29033, 15080, 402, 29033, 416, 43, 806, 17598, 2, 19, 3404, 5, 2099, 81, 6, 82, 5644, 29, 27, 16, 1871, 20, 6, 28349, 3, 0]}


Comme nous pouvons le constater, la sortie contient les IDs d'entr√©e associ√©s √† la phrase en anglais, tandis que les IDs associ√©s √† la phrase en fran√ßais sont stock√©s dans le champ des labels. Si vous oubliez de pr√©ciser que vous √™tes en train de tokeniser des labels, ils seront trait√©s par le tokenizer des entr√©es, ce qui, dans le cas d'un mod√®le Marian, ne fonctionnera pas du tout correctement.

In [11]:
wrong_targets = tokenizer(fr_sentence)
print(tokenizer.convert_ids_to_tokens(wrong_targets["input_ids"]))
print(tokenizer.convert_ids_to_tokens(inputs["labels"]))

['‚ñÅSai', 's', 'isse', 'z', '‚ñÅun', '‚ñÅmo', 't', '‚ñÅde', '‚ñÅpass', 'e', '‚ñÅpour', '‚ñÅle', '‚ñÅd√©', 'mar', 'rage', '‚ñÅ(', 'si', '‚ñÅil', '‚ñÅy', '‚ñÅen', '‚ñÅa', ').', '‚ñÅSi', '‚ñÅl', "'", 'option', '‚ñÅ¬´', '‚ñÅ&', '‚ñÅ#1', '60', ';', '‚ñÅrest', 're', 'int', '‚ñÅ&', '‚ñÅ#1', '60', ';', '‚ñÅ¬ª', '‚ñÅest', '‚ñÅco', 'ch√©', 'e', ',', '‚ñÅle', '‚ñÅmo', 't', '‚ñÅde', '‚ñÅpass', 'e', '‚ñÅn', "'", 'est', '‚ñÅre', 'qui', 's', '‚ñÅque', '‚ñÅpour', '‚ñÅles', '‚ñÅchange', 'ments', '‚ñÅd', "'", 'option', 's', '.', '</s>']
['‚ñÅSaisissez', '‚ñÅun', '‚ñÅmot', '‚ñÅde', '‚ñÅpasse', '‚ñÅpour', '‚ñÅle', '‚ñÅd√©marrage', '‚ñÅ(', 'si', '‚ñÅil', '‚ñÅy', '‚ñÅen', '‚ñÅa', ').', '‚ñÅSi', '‚ñÅl', "'", 'option', '‚ñÅ¬´', '‚ñÅ&', '‚ñÅ#160;', '‚ñÅrestreint', '‚ñÅ&', '‚ñÅ#160;', '‚ñÅ¬ª', '‚ñÅest', '‚ñÅco', 'ch√©e', ',', '‚ñÅle', '‚ñÅmot', '‚ñÅde', '‚ñÅpasse', '‚ñÅn', "'", 'est', '‚ñÅrequis', '‚ñÅque', '‚ñÅpour', '‚ñÅles', '‚ñÅchangements', '‚ñÅd', "'", 'options', '.', '</s>']


Comme nous pouvons le voir, utiliser le tokenizer anglais pour pr√©traiter une phrase en fran√ßais entra√Æne un nombre beaucoup plus √©lev√© de tokens, car le tokenizer ne conna√Æt pas les mots fran√ßais (sauf ceux qui apparaissent √©galement en anglais, comme ¬´ discussion ¬ª).

Puisque les entr√©es sont un dictionnaire contenant nos cl√©s habituelles (IDs d'entr√©e, masque d'attention, etc.), la derni√®re √©tape consiste √† d√©finir la fonction de pr√©traitement que nous appliquerons aux jeux de donn√©es.

In [12]:
max_length = 128

def preprocess_function(exemple: str):
    """une fct pour tokenize nos textes d'entr√©e et de sortie

    Args:
        exemple (str): _description_

    Returns:
        _type_: _description_
    """    
    inputs = [ex["en"] for ex in exemple["translation"]]
    targets = [ex["fr"] for ex in exemple["translation"]]

    model_inputs = tokenizer(targets, text_target=targets, max_length=max_length, truncation=True)
    return model_inputs

In [13]:
tokenized_datasets = split_datasets.map(preprocess_function, batched=True, 
                                        remove_columns=split_datasets["train"].column_names,)

In [14]:
tokenized_datasets

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 189155
    })
    validation: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 21018
    })
})

#### 3 - Fine-tuning the model with the Trainer API

Le code r√©el utilisant le Trainer sera le m√™me que pr√©c√©demment, avec une petite diff√©rence : nous utilisons ici un $Seq2SeqTrainer$, qui est une sous-classe de Trainer permettant de g√©rer correctement l'√©valuation, en utilisant la m√©thode __generate()__ pour pr√©dire les sorties √† partir des entr√©es. Nous examinerons cela plus en d√©tail lorsque nous aborderons le calcul des m√©triques.

Tout d'abord, nous avons besoin d'un mod√®le r√©el √† affiner. Nous utiliserons l'API AutoModel habituelle.

In [15]:
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)

##### Data Collation

Nous aurons besoin d'un data collator pour g√©rer le padding lors du dynamic batching. Nous ne pouvons pas simplement utiliser un __DataCollatorWithPadding__, car celui-ci ne fait le padding que pour les entr√©es (IDs d'entr√©e, masque d'attention, et types de tokens). Nos labels doivent √©galement √™tre compl√©t√©s jusqu'√† la longueur maximale rencontr√©e. Comme mentionn√© pr√©c√©demment, la valeur de padding utilis√©e pour les labels doit √™tre -100 et non le token de padding du tokenizer, afin que ces valeurs soient ignor√©es lors du calcul de la perte.

Tout cela est g√©r√© par un __DataCollatorForSeq2Seq__. Comme le __DataCollatorWithPadding__, il utilise le tokenizer pour pr√©traiter les entr√©es, mais il prend √©galement le mod√®le. En effet, ce collator est responsable de pr√©parer les IDs d'entr√©e du d√©codeur, qui sont des versions d√©cal√©es des labels avec un token sp√©cial au d√©but. √âtant donn√© que ce d√©calage varie selon les architectures, le __DataCollatorForSeq2Seq__ doit conna√Ætre l'objet mod√®le.

$ Explication$

__1. DataCollatorWithPadding :__

Usage principal : G√©n√©ralement utilis√© pour les t√¢ches de classification, d'extraction d'information ou tout autre type de t√¢che o√π il est n√©cessaire de padder (remplir) les s√©quences pour qu'elles aient toutes la m√™me longueur dans un batch.

Fonctionnement : Il ajuste la longueur des s√©quences de mani√®re dynamique au sein d'un batch, en ajoutant des tokens de padding ([PAD]) pour rendre chaque s√©quence de la m√™me longueur, sans toucher aux labels. Cela est particuli√®rement utile pour les mod√®les de type BERT, RoBERTa, etc., o√π les s√©quences d'entr√©e peuvent avoir des longueurs variables.

Exemple :

S√©quences originales : [[1, 2, 3], [1, 2], [1]]
Apr√®s padding : [[1, 2, 3], [1, 2, 0], [1, 0, 0]]

__2. DataCollatorForSeq2Seq :__

Usage principal : Sp√©cifiquement con√ßu pour les t√¢ches de g√©n√©ration de s√©quences comme la traduction ou le r√©sum√© de texte, o√π l'on traite des mod√®les Seq2Seq tels que T5, BART, etc.

Fonctionnement : En plus de g√©rer le padding comme DataCollatorWithPadding, il g√®re √©galement les labels (les s√©quences cibles). Les labels doivent aussi √™tre padd√©s dans les t√¢ches Seq2Seq pour que toutes les s√©quences cibles aient la m√™me longueur dans un batch. De plus, il g√®re des aspects sp√©cifiques comme l'ignoration des tokens de padding dans les labels pour ne pas p√©naliser le mod√®le lorsqu'il pr√©dit ces tokens lors de l'entra√Ænement.

Exemple :

S√©quences d'entr√©e : [[1, 2, 3], [1, 2]]
Labels (s√©quences cibles) : [[4, 5, 6], [4, 5]]
Apr√®s padding (entr√©e et labels) :
S√©quences d'entr√©e : [[1, 2, 3], [1, 2, 0]]
Labels : [[4, 5, 6], [4, 5, -100]] (o√π -100 indique que le padding ne sera pas pris en compte dans la perte)

In [17]:
from transformers import DataCollatorForSeq2Seq

data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model)

In [20]:
batch = data_collator([tokenized_datasets["train"][i] for i in range(1, 3)])
batch.keys

<bound method BatchEncoding.keys of {'input_ids': tensor([[  577,  1205,   483, 13077,     2,  1205,   517, 13926,  1588,    16,
          3842,     9,     5,  1710,     0, 59513, 59513],
        [ 1211,     3,    49,  9409,  1211,     3, 29140,   817,  3124,   817,
          4274,  3534,   794,  7907, 24842,  3386,     0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]), 'labels': tensor([[  577,  5891,     2,  3184,    16,  2542,     5,  1710,     0,  -100,
          -100,  -100,  -100,  -100,  -100,  -100],
        [ 1211,     3,    49,  9409,  1211,     3, 29140,   817,  3124,   817,
           550,  7032,  5821,  7907, 12649,     0]]), 'decoder_input_ids': tensor([[59513,   577,  5891,     2,  3184,    16,  2542,     5,  1710,     0,
         59513, 59513, 59513, 59513, 59513, 59513],
        [59513,  1211,     3,    49,  9409,  1211,     3, 29140,   817,  3124,
           817,   550,  7

In [25]:
batch["labels"]

tensor([[  577,  5891,     2,  3184,    16,  2542,     5,  1710,     0,  -100,
          -100,  -100,  -100,  -100,  -100,  -100],
        [ 1211,     3,    49,  9409,  1211,     3, 29140,   817,  3124,   817,
           550,  7032,  5821,  7907, 12649,     0]])

Nous pouvons √©galement examiner les IDs d'entr√©e du d√©codeur pour v√©rifier qu'ils sont des versions d√©cal√©es des labels.

In [32]:
batch["decoder_input_ids"]

tensor([[59513,   577,  5891,     2,  3184,    16,  2542,     5,  1710,     0,
         59513, 59513, 59513, 59513, 59513, 59513],
        [59513,  1211,     3,    49,  9409,  1211,     3, 29140,   817,  3124,
           817,   550,  7032,  5821,  7907, 12649]])

Nous allons passer ce __data_collator__ au __Seq2SeqTrainer__. Ensuite, examinons la m√©trique.

Voici la traduction et le r√©sum√© :

La m√©trique traditionnelle utilis√©e pour la traduction est le score BLEU, introduit dans un article de 2002 par Kishore Papineni et al. Le score BLEU √©value √† quel point les traductions sont proches de leurs labels. Il ne mesure pas l'intelligibilit√© ou la correction grammaticale des sorties g√©n√©r√©es par le mod√®le, mais applique des r√®gles statistiques pour v√©rifier que tous les mots des sorties g√©n√©r√©es apparaissent √©galement dans les cibles. De plus, des r√®gles p√©nalisent les r√©p√©titions de mots si elles ne sont pas pr√©sentes dans les cibles (afin d'√©viter que le mod√®le g√©n√®re des phrases comme ¬´ the the the ¬ª) et les phrases trop courtes (comme ¬´ the ¬ª).

Une faiblesse du score BLEU est qu'il n√©cessite que le texte soit d√©j√† tokenis√©, ce qui complique la comparaison entre des mod√®les utilisant diff√©rents tokenizers. C'est pourquoi la m√©trique la plus couramment utilis√©e aujourd'hui pour √©valuer les mod√®les de traduction est SacreBLEU, qui corrige ce d√©faut (et d'autres) en standardisant l'√©tape de tokenisation. Pour utiliser cette m√©trique, nous devons d'abord installer la biblioth√®que SacreBLEU.

In [33]:
!pip install sacrebleu

Collecting sacrebleu
  Downloading sacrebleu-2.4.3-py3-none-any.whl.metadata (51 kB)
Collecting portalocker (from sacrebleu)
  Downloading portalocker-2.10.1-py3-none-any.whl.metadata (8.5 kB)
Collecting tabulate>=0.8.9 (from sacrebleu)
  Downloading tabulate-0.9.0-py3-none-any.whl.metadata (34 kB)
Collecting lxml (from sacrebleu)
  Downloading lxml-5.3.0-cp312-cp312-win_amd64.whl.metadata (3.9 kB)
Downloading sacrebleu-2.4.3-py3-none-any.whl (103 kB)
Using cached tabulate-0.9.0-py3-none-any.whl (35 kB)
Downloading lxml-5.3.0-cp312-cp312-win_amd64.whl (3.8 MB)
   ---------------------------------------- 0.0/3.8 MB ? eta -:--:--
   ----- ---------------------------------- 0.5/3.8 MB 3.4 MB/s eta 0:00:01
   ------------- -------------------------- 1.3/3.8 MB 3.4 MB/s eta 0:00:01
   ------------- -------------------------- 1.3/3.8 MB 3.4 MB/s eta 0:00:01
   ------------- -------------------------- 1.3/3.8 MB 3.4 MB/s eta 0:00:01
   ------------- -------------------------- 1.3/3.8 MB 3.4 M

In [37]:
import evaluate

metric = evaluate.load("sacrebleu")

Downloading builder script:   0%|          | 0.00/8.15k [00:00<?, ?B/s]

Cette m√©trique prend des textes en tant qu'entr√©es et cibles. Elle est con√ßue pour accepter plusieurs cibles possibles, car il existe souvent plusieurs traductions acceptables d'une m√™me phrase. Le jeu de donn√©es que nous utilisons n'en fournit qu'une, mais dans le domaine du traitement du langage naturel (NLP), il n'est pas rare de trouver des jeux de donn√©es avec plusieurs phrases en tant que labels. Ainsi, les pr√©dictions doivent √™tre une liste de phrases, tandis que les r√©f√©rences doivent √™tre une liste de listes de phrases.

Essayons un exemple.

In [38]:
predictions = [
    "This plugin lets you translate web pages between several languages automatically."
]
references = [
    [
        "This plugin allows you to automatically translate web pages between several languages."
    ]
]
metric.compute(predictions=predictions, references=references)

{'score': 46.750469682990186,
 'counts': [11, 6, 4, 3],
 'totals': [12, 11, 10, 9],
 'precisions': [91.66666666666667,
  54.54545454545455,
  40.0,
  33.333333333333336],
 'bp': 0.9200444146293233,
 'sys_len': 12,
 'ref_len': 13}

In [39]:
predictions = ["This This This This"]
references = [
    [
        "This plugin allows you to automatically translate web pages between several languages."
    ]
]
metric.compute(predictions=predictions, references=references)

{'score': 1.683602693167689,
 'counts': [1, 0, 0, 0],
 'totals': [4, 3, 2, 1],
 'precisions': [25.0, 16.666666666666668, 12.5, 12.5],
 'bp': 0.10539922456186433,
 'sys_len': 4,
 'ref_len': 13}

In [40]:
predictions = ["This plugin"]
references = [
    [
        "This plugin allows you to automatically translate web pages between several languages."
    ]
]
metric.compute(predictions=predictions, references=references)

{'score': 0.0,
 'counts': [2, 1, 0, 0],
 'totals': [2, 1, 0, 0],
 'precisions': [100.0, 100.0, 0.0, 0.0],
 'bp': 0.004086771438464067,
 'sys_len': 2,
 'ref_len': 13}

Pour passer des sorties du mod√®le aux textes utilisables par la m√©trique, nous allons utiliser la m√©thode __tokenizer.batch_decode()__. Il nous suffit de supprimer tous les -100 dans les labels (le tokenizer s'occupera automatiquement de faire de m√™me pour le token de padding).

In [42]:
import numpy as np

def compute_metrics(eval_preds):

    preds, labels = eval_preds
    # In case the model returns more than the prediction logits
    if isinstance(preds, tuple):
        preds = preds[0]

    decoded_preds = tokenizer.batch_decode(preds, skip_special_tokens=True)

    # Replace -100 in the labels as we can't decode them
    labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)

    # Some simple post-processing
    decoded_preds = [pred.strip() for pred in decoded_preds]
    decoded_labels = [[label.strip()] for label in decoded_labels]

    result = metric.compute(decoded_preds, decoded_labels)
    return {"bleu": result["score"]}

Now that this is done, we are ready to fine-tune our model!

#### Fine-tuning the model

In [48]:
from huggingface_hub import notebook_login

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv‚Ä¶

In [49]:
from transformers import Seq2SeqTrainingArguments

args = Seq2SeqTrainingArguments(
    "Helsinki-NLP/opus-mt-en-fr",  # Nom du mod√®le pr√©-entra√Æn√© pour la traduction (anglais vers fran√ßais)
    evaluation_strategy="no",  # Pas d'√©valuation pendant l'entra√Ænement
    save_strategy="epoch",  # Sauvegarde le mod√®le √† la fin de chaque √©poque
    learning_rate=2e-5,  # Taux d'apprentissage pour l'optimiseur
    per_device_train_batch_size=32,  # Taille du lot pour l'entra√Ænement sur chaque appareil
    per_device_eval_batch_size=64,  # Taille du lot pour l'√©valuation
    weight_decay=0.01,  # Taux de d√©croissance du poids pour r√©gulariser le mod√®le
    save_total_limit=3,  # Limite √† 3 le nombre total de mod√®les sauvegard√©s
    num_train_epochs=3,  # Nombre total d'√©poques pour l'entra√Ænement
    predict_with_generate=True,  # Utilise la m√©thode de g√©n√©ration pour les pr√©dictions
    fp16=True,  # Active l'utilisation de la pr√©cision flottante 16 bits pour acc√©l√©rer l'entra√Ænement
    push_to_hub=True,  # Pousse le mod√®le final vers Hugging Face Hub
)




Finally, we just pass everything to the __Seq2SeqTrainer__:

In [52]:
from transformers import Seq2SeqTrainer

trainer = Seq2SeqTrainer(
    model= model,
    args=args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=metric,
)

Avant de commencer l'entra√Ænement, nous allons d'abord v√©rifier le score obtenu par notre mod√®le pour nous assurer que le fine-tuning n'aggrave pas les choses. Cette commande prendra un certain temps, alors vous pouvez en profiter pour prendre un caf√© pendant son ex√©cution.

In [None]:
trainer.train()

In [None]:
trainer.evaluate(max_length=max_length)

Finally, we use the __push_to_hub()__ method to make sure we upload the latest version of the model. The Trainer also drafts a model card with all the evaluation results and uploads it. This model card contains metadata that helps the Model Hub pick the widget for the inference demo. Usually, there is no need to say anything as it can infer the right widget from the model class, but in this case, the same model class can be used for all kinds of sequence-to-sequence problems, so we specify it‚Äôs a translation model:

In [None]:
trainer.push_to_hub(tags="translation", commit_message="Training complete")