# Utilisation de transformers pour la classification de textes

 > ‚ÑπÔ∏è Inspir√© de :
 > - https://github.com/nlp-with-transformers/notebooks/blob/main/02_classification.ipynb
 > - https://huggingface.co/docs/transformers/tasks/sequence_classification

ü•Ö **Objectifs**

- Savoir utiliser l'√©cosyst√®me HuggingFace pour r√©utiliser des mod√®les pr√©-entra√Æn√©s et les affiner sur de nouvelles donn√©es

## 1. Installation des librairies n√©cessaires

In [None]:
! pip install transformers[torch]

In [None]:
! pip install datasets

In [None]:
! pip install evaluate

In [None]:
from transformers import AutoTokenizer, DataCollatorWithPadding, AutoModelForSequenceClassification, TrainingArguments, Trainer
from datasets import Features, Value, ClassLabel, Dataset, DatasetDict
import evaluate
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score, f1_score
import torch

## 2. R√©cup√©ration et pr√©paration des donn√©es

In [None]:
!mkdir data
!wget -P data https://git.unistra.fr/dbernhard/ftaa_data/-/raw/main/winemag-fr_train.csv

In [None]:
wine_df = pd.read_csv("data/winemag-fr_train.csv", sep=",", dtype={'description': 'object',
                                           'price': 'float64',
                                           'province': 'category',
                                           'variety': 'object'})

In [None]:
# Liste de classes et ajout d'un identifiant num√©rique pour chaque classe
class_names = sorted(wine_df.province.unique().categories.to_list())
label2id = {class_names[i]:i for i in range(len(class_names))}
id2label = {i:class_names[i] for i in range(len(class_names))}

In [None]:
data_df = pd.DataFrame()
# Le texte d√©crivant chaque vin est compos√© des colonnes variety et description
split_variety = wine_df.variety.str.split('_')
data_df['text'] = split_variety.str.join(' ') + ' ' + wine_df.description
# La classe cible est la r√©gion (province) sous forme d'identifiant num√©rique
data_df['label'] = wine_df.province.map(label2id)

# Transformation du DataFrame en objet de type Dataset utilis√© par HuggingFace
province_features = Features({'text': Value('string'),
                              'label': ClassLabel(names=class_names)})
data = Dataset.from_pandas(data_df, features=province_features)
# D√©coupage en train et test
data = data.train_test_split(test_size=0.2, shuffle=True, seed=12)

In [None]:
data['train'].features

In [None]:
data['train'][0]

## 3. Tok√©nisation des donn√©es

Nous allons utiliser une variante de BERT (pour l'anglais) appel√©e DistilBERT. Ce mod√®le obtient des performances comparables √† BERT, mais est de plus petite taille et plus rapide.

üö® **DistilBERT est un mod√®le pour l'anglais et ne doit donc pas √™tre utilis√© pour des textes dans une autre langue. Pour rechercher des mod√®les adapt√©s √† une autre langue, utiliser le filtre "Languages" sur https://huggingface.co/models** üö®

In [None]:
model_ckpt = "distilbert-base-uncased"
# Chargement du tok√©niseur pr√©-entra√Æn√© correspondant au mod√®le utilis√©
tokenizer = AutoTokenizer.from_pretrained(model_ckpt)

In [None]:
def preprocess_function(examples):
    return tokenizer(examples["text"], padding=True, truncation=True)

In [None]:
# Tok√©nisation des 2 premi√®res instances
preprocess_function(data['train'][:2])

- Les 0 √† la fin sont le r√©sultat du padding (toutes les s√©quences du lot ont la m√™me longueur)
- Les 0 dans le masque d'attention indiquent les tokens √† ignorer dans le m√©canisme d'attention (tokens ajout√©s par le padding)

In [None]:
# Tokenisation de la totalit√© des donn√©es : chaque unit√© est remplac√©e par un identifiant num√©rique
tokenized_data = data.map(preprocess_function, batched=True, batch_size=None)

In [None]:
tokenized_data['train'][0]

In [None]:
# Affichage des tokens. DistilBERT utilise l'algorithme WordPiece
tokens = tokenizer.convert_ids_to_tokens(tokenized_data['train'][0]['input_ids'])
print(tokenized_data['train'][0]['text'])
print(tokens)

- [CLS] et [SEP] indiquent le d√©but et la fin de la s√©quence.
- Les tokens sont en minuscules.
- Le pr√©fixe ## indique que le sous-mot n'est pas pr√©c√©d√© par une espace

In [None]:
# Taille du vocabulaire
tokenizer.vocab_size

In [None]:
# Taille de contexte maximum
tokenizer.model_max_length

## 4. Pr√©paration de l'√©valuation

In [None]:
accuracy = evaluate.load("accuracy")

In [None]:
f1_metric = evaluate.load("f1")

In [None]:
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    acc = accuracy.compute(predictions=predictions, references=labels)
    f1 = f1_metric.compute(predictions=predictions, references=labels, average="macro")
    return {"accuracy": acc['accuracy'], "f1-macro": f1["f1"]}

## 5. Entra√Ænement par affinage

On commence par charger le mod√®le pr√©-entra√Æn√©

In [None]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [None]:
batch_size = 64
training_args = TrainingArguments(
    output_dir=f"{model_ckpt}-finetuned-wine",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=5,
    weight_decay=0.01,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
)

In [None]:
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

def init_trainer():
  model = AutoModelForSequenceClassification.from_pretrained(
    model_ckpt, num_labels=len(class_names), id2label=id2label, label2id=label2id
    ).to(device)
  return Trainer(
      model=model,
      args=training_args,
      train_dataset=tokenized_data["train"],
      eval_dataset=tokenized_data["test"],
      tokenizer=tokenizer,
      data_collator=data_collator,
      compute_metrics=compute_metrics,
  ), model

In [None]:
trainer, model = init_trainer()
trainer.train()

‚ùì [1] Que constatez-vous par rapport aux r√©sultats obtenus pr√©c√©demment pour ce jeu de donn√©es ? Attention, ici nous ne faisons pas de validation crois√©e √† 5 plis, les r√©sultats sont √©valu√©s uniquement sur 20% des donn√©es (un seul pli).

In [None]:
trainer2, model2 = init_trainer()
trainer2.train()

‚ùì [2] Que constatez-vous par rapport aux r√©sultats d'entra√Ænement obtenus pour la cellule pr√©c√©dente ? Est-ce que les r√©sultats sont les m√™mes ?

## 6. Analyse des r√©sultats

In [None]:
# Pr√©dictions pour les donn√©es de test
preds_output = trainer.predict(tokenized_data['test'])

In [None]:
preds_output

In [None]:
preds_output.metrics

---
Nous allons √©galement afficher la matrice de confusion.





In [None]:
y_preds = np.argmax(preds_output.predictions, axis=1)

In [None]:
y_valid = tokenized_data['test']['label']

In [None]:
labels = tokenized_data['test'].features['label'].names

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay, confusion_matrix
import matplotlib.pyplot as plt

def plot_confusion_matrix(y_preds, y_true, labels):
    cm = confusion_matrix(y_true, y_preds, normalize="true")
    fig, ax = plt.subplots(figsize=(6, 6))
    labels_for_fig = [l[0:4]+'.' for l in labels]
    disp = ConfusionMatrixDisplay(confusion_matrix=cm,
                                  display_labels=labels_for_fig)
    disp.plot(cmap="Blues", values_format=".2f", ax=ax, colorbar=False)
    plt.title("Normalized confusion matrix")
    plt.show()

plot_confusion_matrix(y_preds, y_valid, labels)

‚ùì [3] Que constatez-vous ? Quelle est la classe pour laquelle les r√©sultats sont les moins bons ? Pourquoi ?

Enfin, nous allons analyser les erreurs de classification. Pour cela, nous allons trier les instances par perte d√©croissante.

In [None]:
from torch.nn.functional import cross_entropy

def forward_pass_with_label(batch):
    # Fonction qui retourne la perte (entropie crois√©e) et la classe pr√©dite
    inputs = {k:v.to(device) for k,v in batch.items()
              if k in tokenizer.model_input_names}

    with torch.no_grad():
        output = model(**inputs)
        pred_label = torch.argmax(output.logits, axis=-1)
        loss = cross_entropy(output.logits, batch["label"].to(device),
                             reduction="none")
    return {"loss": loss.cpu().numpy(),
            "predicted_label": pred_label.cpu().numpy()}

In [None]:
# Conversion des donn√©es au bon format
tokenized_data.set_format("torch",
                            columns=["input_ids", "attention_mask", "label"])

In [None]:
# Calcul des valeurs de perte
tokenized_data["test"] = tokenized_data["test"].map(
    forward_pass_with_label, batched=True, batch_size=64)

In [None]:
# Cr√©ation d'un DataFrame avec les textes, les pertes les classe (pr√©dites et attendues)

def label_int2str(row):
    return tokenized_data["train"].features["label"].int2str(row)

tokenized_data.set_format("pandas")
cols = ["text", "label", "predicted_label", "loss"]
df_test = tokenized_data["test"][:][cols]
df_test["label"] = df_test["label"].apply(label_int2str)
df_test["predicted_label"] = (df_test["predicted_label"]
                              .apply(label_int2str))

In [None]:
# Pour √©viter l'affichage tronqu√© des descriptions
pd.set_option('display.max_colwidth', -1)
# Affichage des 10 premi√®res instances tri√©es par perte d√©croissante
df_test.sort_values("loss", ascending=False).head(10)

In [None]:
# Affichage des 10 premi√®res instances tri√©es par perte croissante
# Cela permet de voir les instances pour lesquelles les pr√©dictions sont les plus certaines
df_test.sort_values("loss", ascending=True).head(10)