# T√¢che #1 : Classification d'incidents avec des mod√®les *Transformers*

On reprend, comme au premier travail, le th√®me de la classification de descriptions d‚Äôincidents. Cependant, la d√©finition des classes est diff√©rente pour ce travail et de nouveaux jeux de donn√©es ont √©t√© produits. Le corpus de textes contient 3 partitions : 
-	Un fichier d‚Äôentra√Ænement -  *data/incidents_train.json*
-	Un fichier de validation -  *data/incidents_dev.json*
-	Un fichier de test - *data/incidents_test.json*
 
Utilisez la librairie *HuggingFace* pour accomplir cette t√¢che. On vous demande plus sp√©cifiquement d‚Äôutiliser 2 mod√®les: le mod√®le *bert-base-uncased* et un autre mod√®le de votre choix. 

Les consignes pour cette t√¢che sont: 
- Nom du notebook : *t1_classification.ipynb* (ce notebook)
- Tokenisation : Celle fournie par les tokeniseurs accompagnant les mod√®les transformers. 
- Plongements de mots : Ceux du mod√®le transformer. 
- Normalisation : Lettre en minuscule pour Bert (rien √† faire, le tokenizer s‚Äôen occupe). Aucune contrainte pour le 2e mod√®le mais il est pr√©f√©rable de ne pas alt√©rer le texte (sauf minuscule). 
- Choix du 2e transformer: Un mod√®le encodeur pr√©entra√Æn√© pour l‚Äôanglais ou multilingue. Le mod√®le ne doit pas √™tre une variante de Bert (p. ex. DistilBert). Me consulter en cas de doute.
- Entra√Ænement : Un affinage (*fine-tuning*) du mod√®le, pas de pr√©entra√Ænement demand√© (*no further pretraining*). 
- Analyse : Pr√©sentez clairement vos r√©sultats et faites-en l‚Äôanalyse. Comparez les r√©sultats obtenus avec les 2 mod√®les.    

Vous pouvez ajouter au *notebook* toutes les cellules dont vous avez besoin pour votre code, vos explications ou la pr√©sentation de vos r√©sultats. Vous pouvez √©galement ajouter des sous-sections (par ex. des sous-sections 1.1, 1.2 etc.) si cela am√©liore la lisibilit√©.

Notes :
- √âvitez les bouts de code trop longs ou trop complexes. Par exemple, il est difficile de comprendre 4-5 boucles ou conditions imbriqu√©es. Si c'est le cas, d√©finissez des sous-fonctions pour refactoriser et simplifier votre code. 
- Expliquez sommairement votre d√©marche.
- Expliquez les choix que vous faites au niveau de la programmation et des mod√®les (si non trivial).
- Analyser vos r√©sultats. Indiquez ce que vous observez, si c'est bon ou non, si c'est surprenant, etc. 
- Une analyse quantitative et qualitative d'erreurs est int√©ressante et permet de mieux comprendre le comportement d'un mod√®le.

## 1. Cr√©ation du jeu de donn√©es (*les 3 partitions du dataset*)

In [1]:
import json

def load_json_data(filename):
    with open(filename, 'r') as fp:
        data = json.load(fp)
    return data

 Notre collaboration avec Google Colab a √©t√© motiv√©e par le co√ªt √©lev√© de l'entra√Ænement des mod√®les transformers et la n√©cessit√© d'un GPU performant.

In [2]:
# from google.colab import drive
# drive.mount('/content')

In [3]:
# !pip install --upgrade torch transformers


In [4]:
import torch
from torch import nn
from torch.utils.data import DataLoader, Dataset
from transformers import BertTokenizer, BertModel, AdamW, get_linear_schedule_with_warmup
import numpy as np

  from .autonotebook import tqdm as notebook_tqdm


In [5]:
from datasets import load_dataset

data= {"train": "incidents_train.json", "dev": "incidents_dev.json","test": "incidents_test.json"}
data = load_dataset("json", data_files=data, data_dir=r"data")

Le tokenizer et les embeddings de bert-base-uncased sont utilis√©s ici .

In [6]:
from transformers import AutoTokenizer

bert_tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

def bert_preprocess_function(examples):
    return bert_tokenizer(examples["text"], truncation=True)

tokenized_dataset = data.map(bert_preprocess_function, batched=True)
print(tokenized_dataset["train"][0])

Map: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 531/531 [00:00<00:00, 9010.19 examples/s]

{'text': ' At approximately 8:50 a.m. on October 29  1997  Employee #1 was painting a  single story house at 2657 7th Ave  Sacramento  CA. He was caulking around the  peak of the roof line on the west side of the house  20 ft above the ground.  He was working off of a 24 ft aluminum extension ladder so that his feet were  approximately 12 to 13 feet above the ground. Employee #1 fell and suffered a  concussion and two dislocated discs in his lower back and was hospitalized.  The ladder was not secured to prevent movement.                                 ', 'label': '5', 'input_ids': [101, 2012, 3155, 1022, 1024, 2753, 1037, 1012, 1049, 1012, 2006, 2255, 2756, 2722, 7904, 1001, 1015, 2001, 4169, 1037, 2309, 2466, 2160, 2012, 20549, 2581, 5504, 13642, 11932, 6187, 1012, 2002, 2001, 6187, 5313, 6834, 2105, 1996, 4672, 1997, 1996, 4412, 2240, 2006, 1996, 2225, 2217, 1997, 1996, 2160, 2322, 3027, 2682, 1996, 2598, 1012, 2002, 2001, 2551, 2125, 1997, 1037, 2484, 3027, 13061, 5331, 10535, 206




Les labels doivent √™tre convertis en entiers pour l'entra√Ænement, sinon le format str pose un probl√®me.

In [7]:
for partition in tokenized_dataset.keys():
    if 'label' in tokenized_dataset[partition].column_names:
        labels = tokenized_dataset[partition]['label']
        tokenized_dataset[partition] = tokenized_dataset[partition].remove_columns("label")
        tokenized_dataset[partition] = tokenized_dataset[partition].add_column("label", [int(value) for value in labels])


Comme pour les r√©seaux r√©currents, il est n√©cessaire de faire un padding des s√©quences pour garantir une taille de tenseur √©quivalente pour chaque entr√©e.

In [8]:
from transformers import DataCollatorWithPadding

dataset_collator = DataCollatorWithPadding(tokenizer=bert_tokenizer)

## 2. Cr√©ation des 2 mod√®les

### 2.1 Mod√®le BERT


Les diff√©rentes fonctions qui seront utilis√©es pour √©valuer notre mod√®le sont implant√©es :

In [9]:
import evaluate
accuracy_metric = evaluate.load("accuracy", force_download=True)


In [10]:
def compute_metrics(eval_predictions):
    preds, true_labels = eval_predictions
    predicted_label = np.argmax(preds, axis=1)
    return accuracy_metric.compute(predictions=predicted_label, references=true_labels)

Ici les classes sont converties en identifiants :

In [11]:
# Initialisation des dictionnaires de correspondance label <-> id
nb_classes = len(np.unique(data['train']['label']))
id2label = {i: str(i) for i in range(nb_classes)}
label2id = {str(i): i for i in range(nb_classes)}


Utilisons le GPU  pour entra√Æner le mod√®le.

In [12]:
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f"Device selected: {device}")



Device selected: cuda


In [13]:
from transformers import AutoModelForSequenceClassification,TrainingArguments, Trainer

bert_uncased_model = AutoModelForSequenceClassification.from_pretrained(
    "bert-base-uncased",
    num_labels=nb_classes,
    id2label=id2label,
    label2id=label2id
    )

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


### 2.2 Deuxi√®me mod√®le


Un autre mod√®le pr√©-entra√Æn√© est utilis√© pour l'anglais : Electra.
Le pr√©-entra√Ænement d'Electra diff√®re de celui de Bert. Effectivement, l'entra√Ænement pr√©liminaire de ce mod√®le repose sur une approche adversariale, ce qui permet de d√©terminer si des mots de la phrase sont des mots r√©els ou s'ils ont √©t√© g√©n√©r√©s par un mod√®le g√©n√©ratif. Il y a √©galement une diff√©rence entre Electra et Bert car le mod√®le ne fait pas de NSP pour son pr√©-entra√Ænement.

Les m√™mes fonctions et donn√©es sont conserv√©es, le tokenizer et le mod√®le sont simplement remplac√©s par Electra :

In [14]:
electra_tokenizer = AutoTokenizer.from_pretrained("google/electra-base-discriminator")

def electra_preprocess_function(examples):
    return electra_tokenizer(examples["text"], truncation=True)

In [15]:
electra_tokenized_data = data.map(electra_preprocess_function, batched=True)
for partition in electra_tokenized_data.keys():
    labels = electra_tokenized_data[partition]['label']
    electra_tokenized_data[partition] = electra_tokenized_data[partition].remove_columns("label")
    electra_tokenized_data[partition] = electra_tokenized_data[partition].add_column("label", [int(label) for label in labels])
data_collator = DataCollatorWithPadding(tokenizer=electra_tokenizer)


Map: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 531/531 [00:00<00:00, 10832.25 examples/s]


In [16]:
electra_model = AutoModelForSequenceClassification.from_pretrained(
    "google/electra-base-discriminator", 
    num_labels=nb_classes, 
    id2label=id2label, 
    label2id=label2id
).to(device)


Some weights of ElectraForSequenceClassification were not initialized from the model checkpoint at google/electra-base-discriminator and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


## 3. Entra√Ænement des 2 mod√®les

### 3.1 Mod√®le BERT


Pour l'entra√Ænement, nous avons choisi d'utiliser 3 √©poques afin d'obtenir de meilleures performances, bien que cela augmente le temps d'entra√Ænement en raison de la complexit√© du calcul d'attention. Les autres hyperparam√®tres restent ceux par d√©faut.

In [None]:
training_params = TrainingArguments(
    output_dir="bert_model",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=3,
    weight_decay=0.01,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    push_to_hub=False
    )

trainer_instance = Trainer(
    model=bert_uncased_model,
    args=training_params,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["dev"],
    tokenizer=bert_tokenizer,
    data_collator=dataset_collator,
    compute_metrics=compute_metrics

)

trainer_instance.train()

  trainer_instance = Trainer(
  return F.linear(input, self.weight, self.bias)


Epoch,Training Loss,Validation Loss,Accuracy
1,1.0794,1.020924,0.79661
2,0.8139,0.933403,0.822976
3,0.5733,1.043175,0.832392


TrainOutput(global_step=7425, training_loss=0.8723962279040404, metrics={'train_runtime': 556.8123, 'train_samples_per_second': 13.335, 'train_steps_per_second': 13.335, 'total_flos': 555967530996570.0, 'train_loss': 0.8723962279040404, 'epoch': 3.0})

### 3.2 Deuxi√®me mod√®le _ Electra


Entrainement du model Electra

In [18]:
training_params2= TrainingArguments(
    output_dir="model",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=5,
    weight_decay=0.01,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    push_to_hub=False
    )

trainer_instance2 = Trainer(
    model=electra_model,
    args=training_params2,
    train_dataset=electra_tokenized_data["train"],
    eval_dataset=electra_tokenized_data["dev"],
    tokenizer=electra_tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics

)

trainer_instance2.train()

  trainer_instance2 = Trainer(


Epoch,Training Loss,Validation Loss,Accuracy
1,1.2734,1.064022,0.696798
2,0.9861,0.986575,0.772128
3,0.8029,1.093056,0.79096


TrainOutput(global_step=7425, training_loss=1.069408538510101, metrics={'train_runtime': 561.0239, 'train_samples_per_second': 13.235, 'train_steps_per_second': 13.235, 'total_flos': 555967530996570.0, 'train_loss': 1.069408538510101, 'epoch': 3.0})

## 4. √âvaluation, analyse de r√©sultats et comparaison des 2 mod√®les

### Evaluation  du model BERT




In [19]:
predictions = trainer_instance.predict(tokenized_dataset["test"])
print(predictions[2])

{'test_loss': 1.1154084205627441, 'test_accuracy': 0.775894538606403, 'test_runtime': 6.6417, 'test_samples_per_second': 79.949, 'test_steps_per_second': 79.949}


### Evaluation du model Electra

In [20]:
predictions = trainer_instance2.predict(electra_tokenized_data["test"])
print(predictions[2])

{'test_loss': 1.1527515649795532, 'test_accuracy': 0.743879472693032, 'test_runtime': 4.6396, 'test_samples_per_second': 114.45, 'test_steps_per_second': 114.45}


## analyse de r√©sultats et comparaison des 2 mod√®les

1. Precision (Precision)
    BERT : Gr√¢ce √† une pr√©cision de 77,59% sur le jeu de test apr√®s trois √©poques, BERT met en √©vidence sa capacit√© √† identifier des relations complexes entre les mots dans le domaine textuel. Les r√©sultats de cette performance  montre que les t√™tes self-attention permettent vraiment au mod√®le de comprendre  les contructions et les liens entre les mots, ce qui renforce la capacit√© du mod√®le √† pr√©dire les classes et a saisir les d√©pendances √† long terme dans les descriptions des incidents. Cette pr√©cision est nettement sup√©rieure √† celle obtenue avec ELECTRA .

    La pr√©cision du mod√®le ELECTRA est de 74,39%, ce qui, m√™me si elle est l√©g√®rement inf√©rieure √† celle de BERT, demeure comp√©titive. ELECTRA peut se concentrer plus rapidement sur les relations pertinentes dans les donn√©es gr√¢ce √† une strat√©gie de pr√©-entra√Ænement bas√©e sur la discrimination (au lieu du masquage comme pour BERT), ce qui peut am√©liorer son efficacit√© .

    Conclusion sur la pr√©cision : Bien que BERT surpasse ELECTRA en termes de pr√©cision, ELECTRA reste performant et pourrait √™tre pr√©f√©r√© dans des cas o√π la vitesse et l'efficacit√© computationnelle sont des priorit√©s.

2. Perte (Test Loss)
    En ce qui concerne BERT, la perte de test de 1,115 est un indicateur stable de convergence, ce qui indique que le mod√®le s'est correctement adapt√© aux donn√©es lors de l'entra√Ænement. Cela laisse entendre que BERT peut g√©rer les cas complexes et r√©duire les erreurs de mani√®re plus efficace, m√™me si le nombre d'√©poques est relativement limit√©.


    Conclusion sur la perte : BERT semble mieux g√©rer les relations complexes et converge plus efficacement dans ce cas sp√©cifique, tandis qu'ELECTRA, bien qu'efficace, n√©cessite peut-√™tre plus d'ajustements dans le fine-tuning.

3. Vitesse d'Apprentissage et d'Inf√©rence
    Vitesse d'apprentissage : Bien que ELECTRA soit r√©put√© pour son efficacit√© en fine-tuning gr√¢ce √† son approche de pr√©-entra√Ænement bas√©e sur la discrimination, dans ce cas, les r√©sultats ne montrent pas de diff√©rence notable en termes de vitesse d'apprentissage par rapport √† BERT. Cette √©galit√© sugg√®re que les deux mod√®les ont des performances d'entra√Ænement similaires avec les param√®tres choisis.

    Vitesse d'inf√©rence : En revanche,  ELECTRA se d√©marque gr√¢ce √† sa rapidit√© d'inf√©rence. Son taux de traitement est de 114,45 √©chantillons par seconde, ce qui est pratiquement √† la fois plus rapide que BERT (qui traite 79,95 √©chantillons par seconde). 