# Chapitre 4   


Dans ce TP, nous allons effectuer le finetuning d'un mod√®le transformer pr√©-entra√Æn√© (BERT) sur une des t√¢ches du benchmark GLUE.  

Le benchmark [GLUE](https://gluebenchmark.com/) (General Language Understanding Evaluation) est un ensemble de dataset pour l'apprentissage et l'√©valuation des mod√®les NLP. Il contient plusieurs "t√¢ches" avec un dataset train sur lequel on peut entra√Æner le mod√®le et un dataset test pour l'√©valuer. Cette diversit√© de t√¢ches permet d'appr√©cier la capacit√© de compr√©hension du langage du mod√®le.  

Nous utiliserons la library datasets de huggingface qui contient les datasets pour chacune des t√¢ches du benchmark : [glue](https://huggingface.co/datasets/glue). La description des t√¢ches est sp√©cifi√©e dans la page du dataset.

Vous √™tes libre de choisir la t√¢che sur laquelle vous souhaitez travailler. Par d√©faut, ce notebook suppose que la t√¢che choisie est la t√¢che MRPC (Microsoft Research Paraphrase Corpus) qui consiste √† pr√©dire si des paires de phrases sont s√©mantiquement √©quivalentes.  

Pour ce TP, nous utiliserons la library transformers et torch pour effectuer l'entra√Ænement du mod√®le.  

Chargez le dataset Glue pour la t√¢che MRPC

In [326]:
!pip install transformers datasets torch
from datasets import load_dataset

# Charger le dataset MRPC
dataset = load_dataset("glue", "mrpc")
print(dataset)

  pid, fd = os.forkpty()
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1725
    })
})


Chargez le mod√®le pr√©-entra√Æn√© BERT (bert-base-uncased) ainsi que son tokenizer.

Utilisez la classe AutoModelForSequenceClassification ou BertModelForSequenceClassification.

In [327]:
from transformers import AutoTokenizer
from transformers import AutoModelForSequenceClassification

# Charger le tokenizer pour le mod√®le bert-base-uncased
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
# Charger le mod√®le BERT pr√©-entra√Æn√© pour une t√¢che de classification
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)
# Texte exemple
sentence1 = "The cat sat on the mat."
sentence2 = "The feline was resting on the rug."

# Tokenisation
inputs = tokenizer(sentence1, sentence2, return_tensors="pt", padding=True, truncation=True)

# Passage dans le mod√®le
outputs = model(**inputs)

# R√©sultat des logits
print(outputs.logits)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


tensor([[0.0564, 0.4043]], grad_fn=<AddmmBackward0>)


Affichez quelques informations de base sur le mod√®le et son tokenizer pour. Exemples:  
- Nombre de param√®tres  
- Architecture du mod√®le  
- Taille du vocabulaire  
- ...

Affichez quelques exemples du dataset

In [328]:
print("Nombre de param√®tres :", model.num_parameters())
print("Architecture du mod√®le :", model.config.architectures)
print("Nombre de couches :", model.config.num_hidden_layers)
print("Taille des embeddings :", model.config.hidden_size)
print("Taille du vocabulaire :", tokenizer.vocab_size)
print("Token sp√©cial [CLS] :", tokenizer.cls_token)
print("Token sp√©cial [SEP] :", tokenizer.sep_token)
print("Token sp√©cial [PAD] :", tokenizer.pad_token)

for i in range(3):
    print(f"Exemple {i + 1}:")
    print("Phrase 1 :", dataset['train'][i]['sentence1'])
    print("Phrase 2 :", dataset['train'][i]['sentence2'])
    print("Label :", dataset['train'][i]['label'])

Nombre de param√®tres : 109483778
Architecture du mod√®le : ['BertForMaskedLM']
Nombre de couches : 12
Taille des embeddings : 768
Taille du vocabulaire : 30522
Token sp√©cial [CLS] : [CLS]
Token sp√©cial [SEP] : [SEP]
Token sp√©cial [PAD] : [PAD]
Exemple 1:
Phrase 1 : Amrozi accused his brother , whom he called " the witness " , of deliberately distorting his evidence .
Phrase 2 : Referring to him as only " the witness " , Amrozi accused his brother of deliberately distorting his evidence .
Label : 1
Exemple 2:
Phrase 1 : Yucaipa owned Dominick 's before selling the chain to Safeway in 1998 for $ 2.5 billion .
Phrase 2 : Yucaipa bought Dominick 's in 1995 for $ 693 million and sold it to Safeway for $ 1.8 billion in 1998 .
Label : 0
Exemple 3:
Phrase 1 : They had published an advertisement on the Internet on June 10 , offering the cargo for sale , he added .
Phrase 2 : On June 10 , the ship 's owners had published an advertisement on the Internet , offering the explosives for sale .
L

Tokenisez quelques exemples du dataset et interpretez l'output de la fonction de tokenisation

In [329]:
from transformers import AutoTokenizer
from datasets import load_dataset

# Tokeniser quelques exemples
for i in range(3):
    example = dataset['train'][i]
    tokens = tokenizer(example['sentence1'], example['sentence2'], truncation=True, padding=True, return_tensors="pt",max_length=65)
    
    # Affichage des informations
    print(f"Exemple {i + 1}:")
    print("Phrase 1 :", example['sentence1'])
    print("Phrase 2 :", example['sentence2'])
    print("Tokens :", tokens['input_ids'])
    print("Attention Mask :", tokens['attention_mask'])
    print("Token Type IDs :", tokens['token_type_ids'])
    print("-" * 50)


Exemple 1:
Phrase 1 : Amrozi accused his brother , whom he called " the witness " , of deliberately distorting his evidence .
Phrase 2 : Referring to him as only " the witness " , Amrozi accused his brother of deliberately distorting his evidence .
Tokens : tensor([[  101,  2572,  3217,  5831,  5496,  2010,  2567,  1010,  3183,  2002,
          2170,  1000,  1996,  7409,  1000,  1010,  1997,  9969,  4487, 23809,
          3436,  2010,  3350,  1012,   102,  7727,  2000,  2032,  2004,  2069,
          1000,  1996,  7409,  1000,  1010,  2572,  3217,  5831,  5496,  2010,
          2567,  1997,  9969,  4487, 23809,  3436,  2010,  3350,  1012,   102]])
Attention Mask : tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1]])
Token Type IDs : tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
         0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 

Utilisez la fonction decode du tokenizer afin d'avoir une repr√©sentation plus lisible du r√©sultat de tokenisation. Vous remarquerez l'ajout des tokens [CLS], [SEP] notamment.

In [330]:
# Tokeniser quelques exemples du dataset
tokenized_example_1 = tokenizer(
    "Amrozi accused his brother, whom he called 'the witness', of deliberately distorting his evidence.",
    padding='max_length', truncation=True, return_tensors='pt'
)
tokenized_example_2 = tokenizer(
    "Referring to him as only 'the witness', Amrozi accused his brother of deliberately distorting his evidence.",
    padding='max_length', truncation=True, return_tensors='pt'
)

# Utilisation de la fonction decode pour afficher une repr√©sentation lisible
decoded_example_1 = tokenizer.decode(
    tokenized_example_1["input_ids"][0], skip_special_tokens=False
)
decoded_example_2 = tokenizer.decode(
    tokenized_example_2["input_ids"][0], skip_special_tokens=False
)

print("Phrase tokenis√©e et d√©cod√©e - Exemple 1 :")
print(decoded_example_1)
print("\nPhrase tokenis√©e et d√©cod√©e - Exemple 2 :")
print(decoded_example_2)


Phrase tokenis√©e et d√©cod√©e - Exemple 1 :
[CLS] amrozi accused his brother, whom he called ' the witness ', of deliberately distorting his evidence. [SEP] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [P

Tokenisez tout le dataset.

Conseil : Utilisez la fonction map de la library datasets.

In [331]:
# Tokenisation de tout le dataset avec la fonction map
def tokenize_function(examples):
    return tokenizer(examples['sentence1'], examples['sentence2'], truncation=True, padding=True, return_tensors="pt",max_length=65)

# Application de la fonction de tokenisation
tokenized_dataset = dataset.map(tokenize_function, batched=True)

# Affichage des cl√©s du dataset tokenis√© pour confirmation
print(tokenized_dataset)


DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 1725
    })
})


Une fois le dataset tokenis√©, il faut cr√©er un DataLoader qui va donner les exemples au mod√®le durant l'entra√Ænement.   
D√©finissez un train_dataloader et un eval_dataloader.  

Pour le train_dataloader, sp√©cifiez `shuffle=True` afin que les exemples soient donn√©s dans un ordre al√©atoire au mod√®le.

Il est √† noter que le mod√®le s'attend √† prendre en entr√©e des exemples sous forme de **dictionnaires** de **tenseurs torch** et ayant les cl√©s suivantes uniquement:  
- attention_mask  
- input_ids  
- labels  
- token_type_ids  

Vous aurez probablement √† d√©finir une fonction de collate √† donner en param√®tre √† vos dataloaders dans le param√®tre `collate_fn`.  Cette fonction est appel√©e par le dataloader juste avant de donner l'exemple au mod√®le afin de lui donner le bon format (mettre uniquement les cl√©s attendues par le mod√®le, padder les exemples √† une longueur fixe, ...).  

- [How to use collate_fn](https://discuss.pytorch.org/t/how-to-use-collate-fn/27181)  
- [How to use 'collate_fn' with dataloaders?](https://stackoverflow.com/questions/65279115/how-to-use-collate-fn-with-dataloaders)  

In [332]:
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence
import torch

# 1. Dataset personnalis√©
class CustomDataset(Dataset):
    def __init__(self, tokenized_data):
        self.tokenized_data = tokenized_data  # Votre dataset tokenis√©

    def __len__(self):
        return len(self.tokenized_data)

    def __getitem__(self, idx):
        return self.tokenized_data[idx]
        
# S√©parer le dataset en train et √©valuation
train_dataset = tokenized_dataset['train']  # Donn√©es d'entra√Ænement
eval_dataset = tokenized_dataset['validation']  # Donn√©es de validation

# 2. Fonction collate_fn

import torch
from torch.nn.utils.rnn import pad_sequence

def collate_fn(batch):
    # D√©finir la longueur maximale pour le padding
    max_len = 65  # La longueur maximale que vous souhaitez pour les s√©quences
    
    input_ids = [torch.tensor(item['input_ids'][:max_len]) for item in batch]
    attention_masks = [torch.tensor(item['attention_mask'][:max_len]) for item in batch]
    token_type_ids = [torch.tensor(item['token_type_ids'][:max_len]) for item in batch]
    
    labels = [torch.tensor(item['label']) for item in batch]

    # Padding √† la longueur maximale
    input_ids = pad_sequence(input_ids, batch_first=True, padding_value=0)
    attention_masks = pad_sequence(attention_masks, batch_first=True, padding_value=0)
    token_type_ids = pad_sequence(token_type_ids, batch_first=True, padding_value=0)
    
    batch_dict = {
        'input_ids': input_ids,
        'attention_mask': attention_masks,
        'labels': labels,
        'token_type_ids': token_type_ids

    }
    
    if labels is not None:
        batch_dict['labels'] = torch.stack(labels)

    return batch_dict




# 3. Charger votre dataset tokenis√© (supposons que vous avez `train_dataset` et `eval_dataset` d√©j√† d√©finis)
train_dataset = CustomDataset(train_dataset)  # Votre dataset tokenis√© pour l'entra√Ænement
eval_dataset = CustomDataset(eval_dataset)    # Votre dataset tokenis√© pour l'√©valuation

# 4. Cr√©er les DataLoader
train_dataloader = DataLoader(
    train_dataset,
    batch_size=8,
    shuffle=True,
    collate_fn=collate_fn
)

eval_dataloader = DataLoader(
    eval_dataset,
    batch_size=8,
    shuffle=False,
    collate_fn=collate_fn
)


Afin de v√©rifier que votre Dataloader fonctionne bien, vous pouvez it√©rer dessus comme ci-dessous :

In [333]:
for batch in train_dataloader:
    break
{k: v.shape for k, v in batch.items()}

{'input_ids': torch.Size([8, 65]),
 'attention_mask': torch.Size([8, 65]),
 'labels': torch.Size([8]),
 'token_type_ids': torch.Size([8, 65])}

Le code ne devrait pas crasher et vous devriez avoir une output similaire √†:  
```
{
  'attention_mask': torch.Size([8, 65]),
  'input_ids': torch.Size([8, 65]),
  'labels': torch.Size([8]),
  'token_type_ids': torch.Size([8, 65])
}
```

Vous pouvez vous assurer que le mod√®le prend en entr√©e les donn√©es du dataloader en lui donnant en entr√©e le batch pr√©c√©dent. Voici un exemple de code:  

In [334]:
outputs = model(**batch)
print(outputs.loss, outputs.logits.shape)

tensor(0.4949, grad_fn=<NllLossBackward0>) torch.Size([8, 2])


Maintenant que tout est en place, nous allons lancer l'entra√Ænement.  
D√©finissez l'optimizer √† utiliser durant l'apprentissage. Par exemple AdamW.  
D√©finissez aussi les param√®tres d'apprentissage, par exemple:  
- Nombre d'epochs  
- Nombre de training steps  
- Un schedule pour le learning rate ou un learning rate fixe  

In [335]:
from torch.optim import AdamW
from transformers import get_linear_schedule_with_warmup

# D√©finir l'optimiseur
optimizer = AdamW(model.parameters(), lr=2e-5)
# Nombre d'√©poques et de training steps
num_epochs = 3
num_training_steps = len(train_dataloader) * num_epochs


# D√©finir un scheduler de learning rate avec warm-up
lr_scheduler = get_linear_schedule_with_warmup(
    optimizer,
    num_warmup_steps=0,  # Nombre d'√©tapes pour le warm-up (souvent entre 0 et 10% des √©tapes totales)
    num_training_steps=num_training_steps
)



Vous pouvez aussi utiliser le Trainer de la library transformers.  

In [336]:
from transformers import Trainer, TrainingArguments
from sklearn.metrics import accuracy_score

# D√©finir la fonction de calcul des m√©triques
def compute_metrics(p):
    preds = p.predictions.argmax(axis=1)  # Pr√©dictions en prenant l'index avec la probabilit√© la plus √©lev√©e
    labels = p.label_ids
    return {"eval_accuracy": accuracy_score(labels, preds)}  # Renvoie eval_accuracy comme cl√©

# D√©finir les arguments d'entra√Ænement
training_args = TrainingArguments(
    output_dir='./results',             # R√©pertoire pour sauvegarder les r√©sultats
    num_train_epochs=3,                 # Nombre d'√©poques
    per_device_train_batch_size=8,      # Taille du batch pour l'entra√Ænement
    per_device_eval_batch_size=8,       # Taille du batch pour l'√©valuation
    warmup_steps=0,                     # Nombre de warm-up steps
    weight_decay=0.01,                  # Poids pour la r√©gularisation L2
    logging_dir='./logs',               # R√©pertoire des logs
    logging_steps=10,                   # Fr√©quence de logging
    evaluation_strategy="epoch",        # √âvaluation apr√®s chaque √©poque
    save_strategy="epoch",              # Sauvegarde apr√®s chaque √©poque
    load_best_model_at_end=True,        # Charger le meilleur mod√®le √† la fin
    metric_for_best_model="eval_accuracy",  # Crit√®re pour s√©lectionner le meilleur mod√®le
    report_to="none"                   # Pas de rapport vers W&B
)

# Cr√©er un objet Trainer
trainer = Trainer(
    model=model,                        # Mod√®le √† entra√Æner
    args=training_args,                 # Les arguments d'entra√Ænement
    train_dataset=train_dataset,         # Dataset d'entra√Ænement
    eval_dataset=eval_dataset,           # Dataset d'√©valuation
    tokenizer=tokenizer,                 # Tokenizer
    compute_metrics=compute_metrics,     # Fonction pour calculer les m√©triques
    optimizers=(optimizer, lr_scheduler) # Optimiseur et scheduler
)

# Lancer l'entra√Ænement
trainer.train()





Epoch,Training Loss,Validation Loss,Accuracy
1,0.5615,0.368206,0.843137
2,0.2381,0.400536,0.860294
3,0.0264,0.518481,0.867647


TrainOutput(global_step=1377, training_loss=0.32814860387218975, metrics={'train_runtime': 128.8769, 'train_samples_per_second': 85.384, 'train_steps_per_second': 10.685, 'total_flos': 367564088782800.0, 'train_loss': 0.32814860387218975, 'epoch': 3.0})

Ecrivez la boucle d'√©valuation de votre mod√®le. Pour cela, vous pouvez utiliser la library evaluate de huggingface qui facilite le calcul des m√©triques. Elle contient la m√©trique sp√©cifique √† la t√¢che qui nous int√©resse. Voici un exemple de comment la charger :  

Voici la page associ√©e pour avoir de la doc sur les m√©triques GLUE : [Metric: glue](https://huggingface.co/spaces/evaluate-metric/glue)

In [341]:
import torch
import evaluate
from tqdm import tqdm

# Charger la m√©trique (par exemple, accuracy)
accuracy_metric = evaluate.load("accuracy")

# D√©finir le p√©riph√©rique (GPU ou CPU)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Fonction d'√©valuation
def evaluate_model(model, dataloader, device):
    model.eval()  # Mettre le mod√®le en mode √©valuation
    all_preds = []
    all_labels = []
    
    # D√©placer le mod√®le vers le bon p√©riph√©rique
    model.to(device)
    
    # D√©sactivation de la mise √† jour des gradients
    with torch.no_grad():
        for batch in tqdm(dataloader, desc="Evaluating"):
            # D√©placer les donn√©es vers le bon p√©riph√©rique (GPU ou CPU)
            batch = {k: v.to(device) for k, v in batch.items()}
            
            # Effectuer une passe avant (forward pass)
            outputs = model(**batch)
            logits = outputs.logits
            
            # Convertir les logits en pr√©dictions de classes
            preds = torch.argmax(logits, dim=-1)
            
            # Ajouter les pr√©dictions et labels √† leurs listes respectives
            all_preds.extend(preds.cpu().numpy())
            all_labels.extend(batch['labels'].cpu().numpy())
    
    # Calcul de la m√©trique (ex. : accuracy)
    results = accuracy_metric.compute(predictions=all_preds, references=all_labels)
    
    return results

# Appel de la fonction d'√©valuation sur votre mod√®le
results = evaluate_model(model, eval_dataloader, device)
print("Evaluation Results:", results)


Evaluating: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 51/51 [00:01<00:00, 45.31it/s]

Evaluation Results: {'accuracy': 0.8676470588235294}





# [Optionnel] G√©n√©ration de texte avec GPT2

Si vous souhaitez exp√©rimenter avec un language model est faire de la g√©n√©ration de texte. Vous pouvez utiliser le mod√®le GPT 2 qui est un language model causal. Il permet donc d'effectuer de la g√©n√©ration de texte contrairement √† BERT qui est un mod√®le bidirectionnel et qui n'est pas fait pour cela.  

Vous pouvez essayer diff√©rents param√®tres de g√©n√©ration et algorithme de d√©codage en vous basant sur le tutoriel/guide suivant : [How to generate text: using different decoding methods for language generation with Transformers](https://huggingface.co/blog/how-to-generate).