# T√¢che #3 : Classification d'incidents avec des mod√®les *Transformers*

Toujours avec la m√™me t√¢che et les m√™mes fichiers de textes, utiliser la librairie HuggingFace pour accomplir cette t√¢che. On demande plus sp√©cifiquement d‚Äôutiliser le mod√®le bert-base-uncased et un autre mod√®le de votre choix.
Les consignes associ√©es √† cette t√¢che sont:
-	Nom du notebook : transformer.ipynb
-	Tokenisation : Celle fournie par les tokeniseurs accompagnant les mod√®les transformers.
-	Plongements de mots : Ceux du mod√®le transformer.
-	Normalisation : Lettre en minuscule pour Bert. Aucune contrainte pour le 2e mod√®le.
-	Choix du 2e transformer: Un mod√®le encodeur pr√©entra√Æn√© pour l‚Äôanglais. Le mod√®le ne doit pas √™tre une autre version de Bert et doit √™tre significativement diff√©rent. Utilisez un 2 fichier pour ce mod√®le si n√©cessaire (une copie de celui-ci).
-	Analyse : Comparer les r√©sultats obtenus avec les 2 mod√®les transformers. Pr√©sentez √©galement une comparaison globale des r√©sultats obtenus avec tous les mod√®les utilis√©s dans ce travail et ceux du travail pr√©c√©dent (TP #1).


Vous pouvez ajouter au *notebook* toutes les cellules dont vous avez besoin pour votre code, vos explications ou la pr√©sentation de vos r√©sultats. Vous pouvez √©galement ajouter des sous-sections (par ex. des sous-sections 1.1, 1.2 etc.) si cela am√©liore la lisibilit√©.

Notes :
- √âvitez les bouts de code trop longs ou trop complexe. Par exemple, il est difficile de comprendre 4-5 boucles ou conditions imbriqu√©es. Si c'est le cas, d√©finissez des sous-fonctions pour refactoriser et simplifier votre code.
- Expliquez sommairement votre d√©marche.
- Expliquez les choix que vous faites au niveau de la programmation et des mod√®les (si non trivial).
- Analyser vos r√©sultats. Indiquez ce que vous observez, si c'est bon ou non, si c'est surprenant, etc.
- Une analyse quantitative et qualitative d'erreurs est int√©ressante et permet de mieux comprendre le comportement d'un mod√®le.

## 1. Cr√©ation du jeu de donn√©es (*dataset*)

In [None]:
#Connexion au drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
pip install datasets



In [None]:
import spacy
import json
import datasets

spacy_model = spacy.load("en_core_web_sm")
embedding_size = spacy_model.meta['vectors']['width']

# D√©finition des chemins vers les fichiers de donn√©es dans la m√©moire locale

# train_data_path = './data/incidents_train.json'
# dev_data_path = './data/incidents_dev.json'
# test_data_path = './data/incidents_test.json'

# D√©finition des chemins vers les fichiers de donn√©es sur Google Colab

train_data_path = '/content/drive/MyDrive/TP2_NLP/incidents_dev.json'
dev_data_path = '/content/drive/MyDrive/TP2_NLP/incidents_test.json'
test_data_path = '/content/drive/MyDrive/TP2_NLP/incidents_train.json'

def load_incident_dataset(filename):
    with open(filename, 'r') as fp:
        incident_list = json.load(fp)

    return incident_list


# Cr√©er les DataFrames pour chaque partition de donn√©es
train_list  = load_incident_dataset(train_data_path)
dev_list  = load_incident_dataset(dev_data_path)
test_list = load_incident_dataset(test_data_path)

# Affichage de l'information de base sur les DataFrames
display(f"Train data: text_size {len(train_list)}")
display(f"Dev data: text_size {len(dev_list)}")
display(f"Test data: text_size {len(test_list)}")



# V√©rification des premiers enregistrements dans l'ensemble d'entra√Ænement
train_list[0]


'Train data: text_size 531'

'Dev data: text_size 531'

'Test data: text_size 2475'

{'text': ' At approximately 11:30 a.m. on December 8  2004  Employee #1  a laborer  who  had only been working for a construction company for one month  was laying out  sheets of plywood sheathing on the 2 by 6 feet nominal roof joists of a flat  roof. The employer specializes in nonresidential wood frame construction. In  order to complete the work quickly Employee #1 and a coworker  under the  direction of a supervisor  began installing only whole pieces of plywood  measuring approximately 4 by 8 feet. Because the plywood did not fit the roof  area precisely  holes and gaps were left in various areas. In one particular  spot a gap  measuring approximately two inches  was left at the end of one of  the pieces of plywood which was tacked down with a few nails. As Employee #1  and the coworker were beginning to install smaller pieces of plywood to fill  the gaps  Employee #1 stepped on the portion of the plywood with the two-inch  gap. The gap came loose from its securing nails  causing

## 2. Cr√©ation de mod√®le(s)

Comme 2e mod√®le, nous avons choisi le mod√®le electra parce qu'il donne d'assez bon r√©sultat tout en √©tant l√©ger et assez diff√©rent de Bert.

In [None]:
from transformers import TrainingArguments, Trainer, BertTokenizer, AutoTokenizer, DataCollatorWithPadding, BertForSequenceClassification

bert_tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
electra_tokenizer = AutoTokenizer.from_pretrained("google/electra-small-discriminator")


Ce bloc de code effectue des op√©rations de pr√©traitement et de pr√©paration de donn√©es pour le mod√®le 

In [None]:
from datasets import Dataset


def preprocess_function(data, tokenizer):
    tokenized = tokenizer(data["text"], padding=True, truncation=True)
    tokenized["labels"] = int(data["label"])
    return tokenized

def prepare_dataset(tokenizer):

    tokenized_train_list = [preprocess_function(item, tokenizer) for item in train_list]
    tokenized_validate_list = [preprocess_function(item, tokenizer) for item in dev_list]
    tokenized_test_list = [preprocess_function(item, tokenizer) for item in test_list]

    print(tokenized_train_list[0])


    # Assuming tokenized_train_dataset is a list of dictionaries
    train_dataset = Dataset.from_dict({"input_ids": [item["input_ids"] for item in tokenized_train_list],
                                    "attention_mask": [item["attention_mask"] for item in tokenized_train_list],
                                    "labels": [item["labels"] for item in tokenized_train_list]})

    dev_dataset = Dataset.from_dict({"input_ids": [item["input_ids"] for item in tokenized_validate_list],
                                  "attention_mask": [item["attention_mask"] for item in tokenized_validate_list],
                                  "labels": [item["labels"] for item in tokenized_validate_list]})

    test_dataset = Dataset.from_dict({"input_ids": [item["input_ids"] for item in tokenized_test_list],
                                  "attention_mask": [item["attention_mask"] for item in tokenized_test_list],
                                  "labels": [item["labels"] for item in tokenized_test_list]})

    data_collator = DataCollatorWithPadding(tokenizer=tokenizer, padding=True,  max_length="max_length")

    return train_dataset, dev_dataset, test_dataset, data_collator




## 3. Entra√Ænement de mod√®le(s)

Choix de la m√©trique de pr√©cision

In [None]:
import numpy as np
from datasets import load_metric



metric = load_metric("accuracy")

def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    return metric.compute(predictions=predictions, references=labels)


  metric = load_metric("accuracy")


### Cr√©ation et entrainement de Bert

In [None]:
bert_model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=9)

bert_train_dataset, bert_dev_dataset, bert_test_dataset, bert_datacollator = prepare_dataset(bert_tokenizer)


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


{'input_ids': [101, 2012, 3155, 2340, 1024, 2382, 1037, 1012, 1049, 1012, 2006, 2285, 1022, 2432, 7904, 1001, 1015, 1037, 4450, 2121, 2040, 2018, 2069, 2042, 2551, 2005, 1037, 2810, 2194, 2005, 2028, 3204, 2001, 10201, 2041, 8697, 1997, 20228, 26985, 21867, 2075, 2006, 1996, 1016, 2011, 1020, 2519, 15087, 4412, 8183, 5130, 1997, 1037, 4257, 4412, 1012, 1996, 11194, 16997, 1999, 2512, 6072, 5178, 19909, 3536, 4853, 2810, 1012, 1999, 2344, 2000, 3143, 1996, 2147, 2855, 7904, 1001, 1015, 1998, 1037, 11190, 2953, 5484, 2104, 1996, 3257, 1997, 1037, 12366, 2211, 23658, 2069, 2878, 4109, 1997, 20228, 26985, 9854, 3155, 1018, 2011, 1022, 2519, 1012, 2138, 1996, 20228, 26985, 2106, 2025, 4906, 1996, 4412, 2181, 10785, 8198, 1998, 16680, 2020, 2187, 1999, 2536, 2752, 1012, 1999, 2028, 3327, 3962, 1037, 6578, 9854, 3155, 2048, 5282, 2001, 2187, 2012, 1996, 2203, 1997, 2028, 1997, 1996, 4109, 1997, 20228, 26985, 2029, 2001, 26997, 2098, 2091, 2007, 1037, 2261, 10063, 1012, 2004, 7904, 1001, 1015,

In [None]:
#!pip install transformers[torch]



Hyperparam√®tres pour l'entrainement du modele BERT

In [None]:
training_args = TrainingArguments(
    output_dir="model_task3/bert",
    learning_rate=1e-4,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=10,
    weight_decay=0.01,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    push_to_hub=False
)

bert_trainer = Trainer(
    model=bert_model,
    args=training_args,
    train_dataset=bert_train_dataset,
    eval_dataset=bert_dev_dataset,
    tokenizer=bert_tokenizer,
    data_collator=bert_datacollator,
    compute_metrics=compute_metrics,
)

bert_trainer.train()

bert_trainer.save_model()



Epoch,Training Loss,Validation Loss,Accuracy
1,No log,1.124051,0.696798
2,No log,1.079923,0.706215
3,No log,1.340983,0.700565
4,No log,1.65314,0.711864
5,No log,1.621023,0.72693
6,No log,1.640677,0.711864
7,No log,1.65233,0.715631
8,No log,1.701371,0.713748
9,No log,1.722928,0.713748
10,No log,1.725571,0.713748




In [None]:
bert_trainer.evaluate()



{'eval_loss': 1.0799232721328735,
 'eval_accuracy': 0.7062146892655368,
 'eval_runtime': 3.9463,
 'eval_samples_per_second': 134.558,
 'eval_steps_per_second': 8.616,
 'epoch': 10.0}

### Cr√©ation et entrainement de Electra

In [None]:
from transformers import AutoModelForSequenceClassification
from transformers import Trainer, TrainingArguments


# Define your model for sequence classification
model = AutoModelForSequenceClassification.from_pretrained("google/electra-small-discriminator", num_labels=9)

electra_train_dataset, electra_dev_dataset, electra_test_dataset, electra_datacollator = prepare_dataset(electra_tokenizer)

pytorch_model.bin:   0%|          | 0.00/54.2M [00:00<?, ?B/s]

Some weights of ElectraForSequenceClassification were not initialized from the model checkpoint at google/electra-small-discriminator and are newly initialized: ['classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.dense.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


{'input_ids': [101, 2012, 3155, 2340, 1024, 2382, 1037, 1012, 1049, 1012, 2006, 2285, 1022, 2432, 7904, 1001, 1015, 1037, 4450, 2121, 2040, 2018, 2069, 2042, 2551, 2005, 1037, 2810, 2194, 2005, 2028, 3204, 2001, 10201, 2041, 8697, 1997, 20228, 26985, 21867, 2075, 2006, 1996, 1016, 2011, 1020, 2519, 15087, 4412, 8183, 5130, 1997, 1037, 4257, 4412, 1012, 1996, 11194, 16997, 1999, 2512, 6072, 5178, 19909, 3536, 4853, 2810, 1012, 1999, 2344, 2000, 3143, 1996, 2147, 2855, 7904, 1001, 1015, 1998, 1037, 11190, 2953, 5484, 2104, 1996, 3257, 1997, 1037, 12366, 2211, 23658, 2069, 2878, 4109, 1997, 20228, 26985, 9854, 3155, 1018, 2011, 1022, 2519, 1012, 2138, 1996, 20228, 26985, 2106, 2025, 4906, 1996, 4412, 2181, 10785, 8198, 1998, 16680, 2020, 2187, 1999, 2536, 2752, 1012, 1999, 2028, 3327, 3962, 1037, 6578, 9854, 3155, 2048, 5282, 2001, 2187, 2012, 1996, 2203, 1997, 2028, 1997, 1996, 4109, 1997, 20228, 26985, 2029, 2001, 26997, 2098, 2091, 2007, 1037, 2261, 10063, 1012, 2004, 7904, 1001, 1015,

Hyperparam√®tres pour l'entrainement du modele Electra

In [None]:
# Define training arguments
training_args = TrainingArguments(
    output_dir="model_task3/electra",
    learning_rate=1e-5,
    per_device_train_batch_size=32,
    per_device_eval_batch_size=64,
    num_train_epochs=15,
    weight_decay=0.01,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    push_to_hub=False,
)

# Initialize the Trainer
electra_trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=electra_train_dataset,
    eval_dataset=electra_dev_dataset,
    tokenizer=electra_tokenizer,
    data_collator=electra_datacollator,
    compute_metrics=compute_metrics,
)

# Start training (assuming you have train_dataset and dev_dataset defined)
electra_trainer.train()

electra_trainer.save_model()



Epoch,Training Loss,Validation Loss,Accuracy
1,No log,1.170361,0.653484
2,No log,1.159823,0.661017
3,No log,1.171645,0.653484
4,No log,1.145393,0.661017
5,No log,1.133275,0.6742
6,No log,1.146896,0.661017
7,No log,1.117871,0.689266
8,No log,1.137907,0.664783
9,No log,1.121474,0.679849
10,No log,1.112218,0.685499




## 4. √âvaluation et analyse de r√©sultats

### Evaluation Bert

In [None]:
#wandb.init(project='evaluation-bert')

eval_metrics = bert_trainer.evaluate()

train_metrics = bert_trainer.evaluate(bert_train_dataset)

print(eval_metrics)

#print(train_metrics)

#wandb.log({"train_loss": train_metrics["loss"], "eval_loss": eval_metrics["loss"]})

#wandb.finish()





{'eval_loss': 1.0799232721328735, 'eval_accuracy': 0.7062146892655368, 'eval_runtime': 3.9356, 'eval_samples_per_second': 134.921, 'eval_steps_per_second': 8.639, 'epoch': 10.0}


### Evaluation Electra

In [None]:


eval_metrics = electra_trainer.evaluate()

train_metrics = electra_trainer.evaluate(electra_train_dataset)

print(eval_metrics)

#print(train_metrics)






{'eval_loss': 1.1122177839279175, 'eval_accuracy': 0.6854990583804144, 'eval_runtime': 1.2671, 'eval_samples_per_second': 419.056, 'eval_steps_per_second': 7.103, 'epoch': 15.0}


### Comparaison avec les r√©sultats du TP1:

Pour analyser les r√©sultats obtenus avec les deux mod√®les Transformers (BERT et ELECTRA) par rapport √† l'ensemble des mod√®les utilis√©s dans ce travail ainsi qu'aux r√©sultats du travail pr√©c√©dent (TP #1), voici une comparaison globale :

R√©sultats de BERT :
- Pr√©cision sur l'ensemble de test (Accuracy) : 70.62%

R√©sultats d'ELECTRA :
- Pr√©cision sur l'ensemble de test (Accuracy) : 68.55%

Comparaison globale avec les mod√®les pr√©c√©dents (TP #1) :
- Naive Bayes (avec Lemmatisation) : Pr√©cision sur l'ensemble de test : 69.30%
- Naive Bayes (sans Lemmatisation) : Pr√©cision sur l'ensemble de test : 70.90%
- R√©gression Logistique (avec Lemmatisation) : Pr√©cision sur l'ensemble de test : 60.17%
- R√©gression Logistique (sans Lemmatisation) : Pr√©cision sur l'ensemble de test : 71.75%

Analyse :

1. **BERT vs. ELECTRA** :
   - BERT a obtenu une pr√©cision de 70.62% sur l'ensemble de test, tandis qu'ELECTRA a obtenu une pr√©cision l√©g√®rement inf√©rieure de 68.55%. BERT semble donc surpasser ELECTRA en termes de pr√©cision.

2. **Mod√®les Transformers vs. Mod√®les Classiques (TP #1)** :
   - Les mod√®les Transformers (BERT et ELECTRA) surpassent clairement les mod√®les classiques (Naive Bayes et R√©gression Logistique) en termes de pr√©cision. Les mod√®les Transformers atteignent des pr√©cisions sup√©rieures √† 68%, tandis que les mod√®les classiques atteignent au mieux une pr√©cision de 71.75% (R√©gression Logistique sans lemmatisation).
   
3. **Impact de la Lemmatisation** :
   - Les mod√®les classiques (Naive Bayes et R√©gression Logistique) semblent √™tre plus sensibles √† la lemmatisation. Dans le TP #1, la R√©gression Logistique avec lemmatisation a montr√© une pr√©cision de seulement 60.17%, tandis que sans lemmatisation, elle a atteint 71.75%. Pour Naive Bayes, l'effet de la lemmatisation √©tait moins prononc√©, avec une l√©g√®re am√©lioration de la pr√©cision lorsqu'elle √©tait omise.

4. **Temps d'ex√©cution** :
   - Il est important de noter que les mod√®les Transformers sont g√©n√©ralement plus lents √† s'entra√Æner et √† pr√©dire que les mod√®les classiques. Les mod√®les classiques √©taient significativement plus rapides, avec des temps d'ex√©cution beaucoup plus courts.

En conclusion, les mod√®les Transformers, en particulier BERT, surpassent legerement les mod√®les classiques en termes de pr√©cision pour cette t√¢che de classification de texte. La raison ne vient pas du manque de puissance des transformers mais surtout de la quantit√© limit√©e de donn√©es disponible pour l'entrainement. Avec un plus gros jeu de donn√©, les r√©sultats seraient clairement meilleurs pour les transformers.Il faut tenir compte du temps d'ex√©cution plus long associ√© aux mod√®les Transformers.