# 1 : Le jeu de données

## 1.1 Télécharger le jeu de données

Le jeu de données est sous la forme d'un fichier CSV.

**Exécutez la cellule ci-dessous pour télécharger le fichier et l'ajouter à votre répertoire actif _Google Colab_.**

In [1]:
import urllib.request

url = 'https://drive.google.com/uc?export=download&id=13ZfF8DjSvqPJkrY93GJTK2l14IwLVLZ0'
urllib.request.urlretrieve(url, 'IT_Support_Tickets_FR_200.csv')

print('Téléchargement terminé !')

Téléchargement terminé !


## 1.2 Créer un _DataFrame_ pour inspecter le jeu de données

Un _DataFrame_ est un objet pour représenter un jeu de données venant du module _pandas_. Ce module _Python_ est populaire en IA.

Un _DataFrame_ est une interface conviviale pour traiter un jeu de donnée.

**Suivez les consignes ci-dessous**
1. importez le module `pandas` et donné lui l'alias `pd`
2. créez le _DataFrame_
  * créez une nouvelle variable nommée `df`
  * utilisez la fonction suivante `pd.read_csv("IT_Support_Tickets_FR_200.csv")` pour créer le _DataFrame_ en lisant le jeu de données téléchargé. Affectez la valeur retournée à la variable `df`.
3. finalement, ajoutez une dernière ligne qui n'est que le suivant : `df`. Lorsqu'une cellule termine qu'avec le nom d'une variable _DataFrame_, _Colab_ va afficher la _DataFrame_.

In [2]:
# Importer les données dans un DataFrame pandas #
import pandas as pd
df = pd.read_csv("IT_Support_Tickets_FR_200.csv")
df








Unnamed: 0,ID Ticket,Date,Client,Description,Type de problème,Priorité
0,1,2023-10-01,Service Finances,L'ordinateur ne s'allume pas après une mise à ...,Matériel,Élevée
1,2,2023-10-01,Marketing,"Impossible d'accéder à Outlook - erreur ""Compt...",Compte/Mot de passe,Moyenne
2,3,2023-10-02,RH,Le logiciel SAP plante fréquemment lors de la ...,Logiciel,Élevée
3,4,2023-10-02,IT Support,Connexion Wi-Fi lente dans le bâtiment B,Réseau,Moyenne
4,5,2023-10-03,Direction,Impossible d'imprimer depuis le nouveau copieur,Matériel,Élevée
...,...,...,...,...,...,...
195,196,2024-01-06,Comptabilité,Problème de calcul des amortissements,Logiciel,Élevée
196,197,2024-01-07,Ventes,Problème de tactile sur l'écran interactif,Matériel,Moyenne
197,198,2024-01-07,Service Client,Demande de configuration des signatures groupées,Compte/Mot de passe,Basse
198,199,2024-01-08,Logistique,Problème de synchronisation des inventaires,Logiciel,Moyenne


## 1.3 Les types de problèmes
Pour commencer, nous allons nous concentrer sur la **classification par type de problème**.

**Exécutez la celulle ci-dessous pour créer un nouveau _DataFrame_ contenant que le type de problème pour chaque exemple du jeu de donnée**.

In [3]:
colonne_type_problème = df['Type de problème']

colonne_type_problème

0                 Matériel
1      Compte/Mot de passe
2                 Logiciel
3                   Réseau
4                 Matériel
              ...         
195               Logiciel
196               Matériel
197    Compte/Mot de passe
198               Logiciel
199               Logiciel
Name: Type de problème, Length: 200, dtype: object

Analysons rapidement le jeu de donnée ; apprendre à le connaître peut nous aider à interpréter des résultats avenirs.

Nous voulons connaître le nombre d'exemple par classe, par exemple.

**Exécutez la cellule ci-dessous pour créer et afficher un nouveau _DataFrame_ avec le compte de chaque type de problème.**

Notez qu'il y a un _déséquilibre des classes_ (ex: il y a beaucoup plus de problèmes 'logiciel' que les autres). Ceci n'est pas idéal, mais nous allons continuer tout de même.

In [4]:
compte_problème = colonne_type_problème.value_counts()

compte_problème

Type de problème
Logiciel               99
Matériel               50
Réseau                 24
Compte/Mot de passe    22
Autre                   5
Name: count, dtype: int64

# 2 : Prétraitement du jeu de données

## 2.1 Extraire les exemples et colonnes pertinents

Souvent, nous n'avons pas besoin de toute l'information d'un jeu. Pour notre problème, nous n'avons pas besoin des colonnes «ID Ticket», «Date», «Client», et «Priorité».

En ce qui concerne les exemples, _tous les exemples_ nous intéressent.

**Complétez la cellule ci-dessous en créant la liste `colonne_à_retirer`. La liste doit contenir le nom des colonnes à retirer.**

La fonction `.drop(.)` qui s'applique sur notre _DataFrame `df` va retourner un nouveau _DataFrame_ sans les colonnes fournies.

In [5]:
colonne_à_retirer = ['ID Ticket', 'Date', 'Client', 'Priorité']
df_classification = df.drop(columns=colonne_à_retirer)

df_classification

Unnamed: 0,Description,Type de problème
0,L'ordinateur ne s'allume pas après une mise à ...,Matériel
1,"Impossible d'accéder à Outlook - erreur ""Compt...",Compte/Mot de passe
2,Le logiciel SAP plante fréquemment lors de la ...,Logiciel
3,Connexion Wi-Fi lente dans le bâtiment B,Réseau
4,Impossible d'imprimer depuis le nouveau copieur,Matériel
...,...,...
195,Problème de calcul des amortissements,Logiciel
196,Problème de tactile sur l'écran interactif,Matériel
197,Demande de configuration des signatures groupées,Compte/Mot de passe
198,Problème de synchronisation des inventaires,Logiciel


## 2.2 Encodage des classes
Allons fournir une séquence à notre modèle et recevoir une classification comme réponse.

Nous avions vu comment la séquence de texte se fera transformer en une sequence vecteur de nombre pour le modèle (tokenizer et embedding).

Il faut aussi que la classe soit un nombre. Présentement, nos classes sont du texte.

Nous allons **encoder** chaque classe en entier.

Le module `sklearn.preprocessing` contient un sous-module `LabelEncoder` qui peut facilement faire cette tâche.

**Exécutez la cellule ci-dessous**. Un objet `encodeur` est créé et utilisé pour créer un nouveau _DataFrame_ `nouvelle_colonne` contenant les encodages. Cette nouvelle colonne est ajouté à notre `df_classification` avec le nom `Classe`. Il est simple d'ajouter une colonne à un _DateFrame_ !

In [6]:
from sklearn.preprocessing import LabelEncoder

encodeur = LabelEncoder()

nouvelle_colonne = encodeur.fit_transform(df_classification['Type de problème'])
df_classification['Classe'] = nouvelle_colonne

df_classification

Unnamed: 0,Description,Type de problème,Classe
0,L'ordinateur ne s'allume pas après une mise à ...,Matériel,3
1,"Impossible d'accéder à Outlook - erreur ""Compt...",Compte/Mot de passe,1
2,Le logiciel SAP plante fréquemment lors de la ...,Logiciel,2
3,Connexion Wi-Fi lente dans le bâtiment B,Réseau,4
4,Impossible d'imprimer depuis le nouveau copieur,Matériel,3
...,...,...,...
195,Problème de calcul des amortissements,Logiciel,2
196,Problème de tactile sur l'écran interactif,Matériel,3
197,Demande de configuration des signatures groupées,Compte/Mot de passe,1
198,Problème de synchronisation des inventaires,Logiciel,2


## 2.3 Splits _train_, _validation_, _test_
Dans le cadre de l'entraînement d'un modèle de classification, il est essentiel de diviser les données en trois ensembles distincts : train, validation et test.

Le jeu d'entraînement (train) permet au modèle d'apprendre les relations entre les données d'entrée et les étiquettes.

Le jeu de validation est utilisé pour ajuster les hyperparamètres et évaluer les performances du modèle pendant l'entraînement, afin d'éviter le surapprentissage (overfitting).

Enfin, le jeu de test permet de mesurer objectivement la performance finale du modèle sur des données totalement inédites. Cette séparation garantit une évaluation fiable et réaliste de la capacité du modèle à généraliser à de nouveaux cas, ce qui est fondamental pour toute application en production.

Nous allons faire des splits 60/20/20 : 60% du jeu de données sera consacré au jeu d'entraînement, 20% au jeu de validation, et le dernier 20% au jeu de tests.

**Exécuter la cellule ci-dessous** pour créer les splits à l'aide de la fonction `train_test_split` du module `sklearn.model_selection`.

Vous obtiendrez 6 nouveau _DataFrame_ :

*   120 descriptions pour l'entraînement, 40 descriptions pour la validation, et 40 descriptions pour le test
*   120 classes pour l'entraînement, 40 classes pour la validation, et 40 classes pour le test

Ils se nomment `X_train`, `X_val`, `X_test` et `y_train`, `y_val`, `y_test`.

In [7]:
from sklearn.model_selection import train_test_split

# caractéristiques et étiquettes
X = df_classification['Description'] # nouveau DataFrame avec les descriptions
y = df_classification['Classe'] # nouveau DataFrame avec les classes

# premier split : 20% test, 80% temporaire
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# deuxième split: train + validation (à partir de temporaire)
X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.25, random_state=42, stratify=y_temp
)

print(len(X_train), len(X_val), len(X_test))
print(len(y_train), len(y_val), len(y_test))

120 40 40
120 40 40


# 3 : _Tokenize_ les descriptions des 3 splits

## 3.1 De _DataFrame_ à listes _Python_
Nous allons bientôt utiliser un _tokenizer_ pour transformer les descriptions en séquence de _token_. Le _tokenizer_ fonctionnera sur une liste de texte, et non sur un _DataFrame_.

**Complétez la cellule ci-dessous pour créer trois listes (entraînement, validation et test). Notez comment la première est réalisée pour vous.**

In [8]:
# 3.1 De DataFrame à listes Python
X_train_list = X_train.to_list()
X_val_list = X_val.to_list()
X_test_list = X_test.to_list()

## 3.2 Créer le _tokenizer_ pour _BARThez_

**Dans la cellule ci-dessous, importez le module nécessaire et créer le _tokenizer_.**

Ce même objet pourra créer les _tokens_ pour les 3 splits.

In [9]:
# 3.2 Créer le tokenizer pour BARThez

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("moussaKam/barthez")

  from .autonotebook import tqdm as notebook_tqdm


## 3.3 _Tokenize_ les listes

**Utilisez `tokenizer(.)` pour créer les _tokens_ d'entraînement, de validation, et de test.**

Donnez premièrement en paramètre la liste à _tokenize_, ensuite donnez les paramètres suivants : `padding=True, truncation=True, return_tensors="pt"`.

Exemple : `tokenizer(ma_liste, padding=True, truncation=True, return_tensors="pt")`

_L'importance de `padding` et `truncation` ne seront pas expliqué pour le moment._

In [10]:
# 3.3 Tokenize les listes
train_tokens = tokenizer(X_train_list, padding=True, truncation=True, return_tensors="pt")
val_tokens = tokenizer(X_val_list, padding=True, truncation=True, return_tensors="pt")
test_tokens = tokenizer(X_test_list, padding=True, truncation=True, return_tensors="pt")

**Dans la cellule ci-dessous, `print(.)` la séquence de tokens d'entraînement pour valider que le _tokenizer_ a bien fonctionné.**

Vous devriez voir un _dictionnaire_ contenant un _tensor_ `input_ids` et un autre _tensor_ `attention_mask`.

Un dictionnaire est un type natif à _Python_ qui permet d'associer des valeurs à des mots clef. C'est une structure de données qui permet une organisation simple de plusieurs valeurs.

In [11]:
# Afficher les tokens d'entraînement
print(train_tokens)

{'input_ids': tensor([[    0,   834, 37030,  ...,     1,     1,     1],
        [    0, 40253,    10,  ...,     1,     1,     1],
        [    0, 31553,     4,  ...,     1,     1,     1],
        ...,
        [    0, 31553,     4,  ...,     1,     1,     1],
        [    0, 31553,    10,  ...,     1,     1,     1],
        [    0, 31611,    49,  ...,     1,     1,     1]]), 'attention_mask': tensor([[1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        ...,
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0]])}


# 4 : Créer le modèle de classification

## 4.1 Importer le module

**Importez le sous-module `AutoModelForSequenceClassification` du module `transformers`**.

Ce module nous permettra d'instancier un modèle de classification à partir de séquence de texte. Le modèle _BARThez_ est un modèle séquence à séquence, mais l'`AutoModelForSequenceClassification` permettra de créer un modèle de classification en utilisant l'encodeur préentraîné de _BARThez_.



In [12]:
# 4.1 Importer le module
from transformers import AutoModelForSequenceClassification

## 4.2 Instanciation du modèle

Instanciez le modèle à l'aide de la fonction `AutoModelForSequenceClassification.from_pretrained(.)`.

En plus de donner le nom du modèle préentraîné à charger, il faut indiquer le nombre de classes possibles via le paramètre `num_labels = n_classes`.

**Obtenez premièrement le nombre de classes et ensuite instanciez le modèle.
Ne _hardcode_ pas le nombre de classes (5). Utilisez `len(.)` pour obtenir le nombre de classe de façon dynamique.**

In [13]:
# 4.2 Instanciation du modèle
n_classes = len(df_classification['Classe'].unique())
model = AutoModelForSequenceClassification.from_pretrained("moussaKam/barthez", num_labels=n_classes)

Some weights of MBartForSequenceClassification were not initialized from the model checkpoint at moussaKam/barthez and are newly initialized: ['classification_head.dense.bias', 'classification_head.dense.weight', 'classification_head.out_proj.bias', 'classification_head.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


# 5 : Création de _DataSet HuggingFace_

## 5.1 Classe personnalisée pour nos données
Nous utilisons l'API d'_HuggingFace_ pour la creation du modèle de classification. Nous allons aussi l'utiliser pour l'entraînement du classifieur.

l'API s'attend que nos données soient représentées dans des objets _PyTorch DataSet_.

Il faut donc prendre nos dictionnaires `train_tokens`, `val_tokens` et `test_tokens` et nos _DataFrame_ `y_train`, `y_val` et `y_test` pour former 3 _DataSet_.

**Exécutez la cellule ci-dessous pour déclarer une _classe Python_ qui représentera un _PyTorch DataSet_ de tickets de TI.**

In [14]:
from torch.utils.data import Dataset
import torch

class TicketDataset(Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels  # This should be a flat list of ints

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        item = {key: val[idx] for key, val in self.encodings.items()}
        item["labels"] = torch.tensor(self.labels[idx], dtype=torch.long)  # Force scalar tensor
        return item

## 5.2 Créer les _DataSet_
**Complétez la cellule ci-dessous afin d'instancier les trois _DataSet_.**

In [15]:
# 5.2 Créer les DataSet
train_dataset = TicketDataset(train_tokens, y_train.tolist())
val_dataset = TicketDataset(val_tokens, y_val.tolist())
test_dataset = TicketDataset(test_tokens, y_test.tolist())

# 6 : Entraînement du classifieur

## 6.1 Configurer l'entraînement
**Exécutez la cellule suivante**. Celle-ci créer un objet de configuration `training_args` qui contient des hyperparamètres pour l'entraînement (ex: _learning_rate_, _weight_decay_, etc.) et des informations pour le _logging_ avec _Weights & Biases_.

Cette configuration sauvegarde les paramètres optimisés du modèle après chaque itération/époque.

Dans ce cas, une itération contient 15 mises-à-jour/_steps_.

Nous optimiserons le modèle pour 5 itérations, soit un total de 75 _steps_.

Vous obtiendrez un répertoire contenant chaque sauvegarde. Une sauvegarde se nomme un _checkpoint_, en IA.

<img src="https://i.ibb.co/4gNnBHb6/checkpoints.png" width="20%">

In [16]:
from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="./results",
    eval_strategy="epoch",
    save_strategy="epoch",
    logging_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=5,
    weight_decay=0.01,
    report_to="wandb",
    metric_for_best_model="f1",
    logging_dir="./logs",
)

model.config.early_stopping = None
model.config.num_beams = None
model.config.no_repeat_ngram_size = None

## 6.2 Fonction pour évaluer la précision et score F1
**Exécuter la cellule ci-dessous pour déclarer la fonction qui sera utilisée par l'entraîneur afin d'évaluer la précision et le score-F1 du modèle.**

In [17]:
import numpy as np
from sklearn.metrics import accuracy_score, f1_score

def compute_metrics(eval_pred):
    predictions, labels = eval_pred

    if isinstance(predictions, tuple):
        predictions = predictions[0]

    preds = np.argmax(predictions, axis=1)

    return {
        "accuracy": accuracy_score(labels, preds),
        "f1": f1_score(labels, preds, average="weighted")
    }

## 6.3 Créer l'entraîneur avec l'API `Trainer` d'_HuggingFace_

**Exécutez la cellule ci-dessous pour créer un objet `trainer`**. Celui-ci indique quel modèle entraîné la configuration ci-dessus et les jeux `train_dataset` et `val_dataset`.

In [18]:
from transformers import Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    compute_metrics=compute_metrics
)

## 6.4 Entraîner le modèle !
**Exécutez la cellule ci-dessous pour démarrer l'entraînement.**

Le paramètre `resume_from_checkpoint=False` est pour indiquer à l'entraîneur «recommencer de 0» l'entraînement, au lieu de continuer l'entraînement à partir du dernier _checkpoint_.

**Après l'entraînement**, allez sur le projet «INF717-TP1» dans votre compte _Weights and Biases_ et observez les résultats. Les graphiques les plus importants pour nous sont :

*   eval/loss
*   train/loss
*   eval/f1
*   eval/accuracy

In [19]:
import wandb
wandb.init(project="INF717-TP1")
trainer.train(resume_from_checkpoint=False)

[34m[1mwandb[0m: Currently logged in as: [33mdembaseck1010[0m ([33mdembaseck1010-universite-de-sherbrooke[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin




Epoch,Training Loss,Validation Loss,Accuracy,F1
1,1.4656,1.27452,0.5,0.333333
2,1.2182,1.205225,0.5,0.333333
3,1.1193,1.130304,0.5,0.333333
4,1.1163,1.086601,0.5,0.333333
5,1.0364,1.064135,0.5,0.333333


TrainOutput(global_step=75, training_loss=1.191159413655599, metrics={'train_runtime': 264.1982, 'train_samples_per_second': 2.271, 'train_steps_per_second': 0.284, 'total_flos': 5391277326000.0, 'train_loss': 1.191159413655599, 'epoch': 5.0})

# 7 : Test du modèle

**Exécutez les cellules suivantes pour évaluer le modèle sur le jeu de test.**

In [20]:
test_metrics = trainer.evaluate(test_dataset)
print(test_metrics)

{'eval_loss': 1.0063021183013916, 'eval_accuracy': 0.55, 'eval_f1': 0.42816091954022995, 'eval_runtime': 1.7556, 'eval_samples_per_second': 22.784, 'eval_steps_per_second': 2.848, 'epoch': 5.0}


In [24]:
predictions = trainer.predict(test_dataset)

logits = predictions.predictions
if isinstance(logits, tuple):
    logits = logits[0]

pred_labels = np.argmax(logits, axis=1)
true_labels = predictions.label_ids

for i in range(len(test_dataset)):
    print("Description:", X_test.iloc[i])
    print("True label:", encodeur.inverse_transform([true_labels[i]])[0])
    print("Predicted:", encodeur.inverse_transform([pred_labels[i]])[0])
    print("-" * 50)

Description: Demande de création d'alias email
True label: Compte/Mot de passe
Predicted: Logiciel
--------------------------------------------------
Description: Problème de compilation des kernels CUDA
True label: Logiciel
Predicted: Logiciel
--------------------------------------------------
Description: L'ordinateur ne s'allume pas après une mise à jour Windows
True label: Matériel
Predicted: Logiciel
--------------------------------------------------
Description: Ventilateur du serveur bruyant
True label: Matériel
Predicted: Logiciel
--------------------------------------------------
Description: Problème de conversion devise dans SAP
True label: Logiciel
Predicted: Logiciel
--------------------------------------------------
Description: Problème d'export des leads depuis Hubspot
True label: Logiciel
Predicted: Logiciel
--------------------------------------------------
Description: Problème d'affichage des bannières publicitaires
True label: Logiciel
Predicted: Logiciel
---------