# *Fine-tuning* de *Large Language Models* (LLMs)

<p align="center">
  <a href="https://colab.research.google.com/github/auduvignac/llm-finetuning/blob/main/notebooks/project/finetuning-projet.ipynb" target="_blank">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Ouvrir dans Google Colab"/>
  </a>
</p>

Le but de ce projet est de r√©aliser le *fine-tuning* d'un LLM.


## Installation des biblioth√®ques/libraires requises

In [1]:
!wget -q https://raw.githubusercontent.com/auduvignac/llm-finetuning/refs/heads/main/setup_env.py -O setup_env.py
%run setup_env.py

‚ö° Ex√©cution sur Colab : v√©rification stricte des d√©pendances‚Ä¶
üîÅ accelerate 1.10.0 ne satisfait pas '==1.8.1' ‚Üí r√©installation : accelerate==1.8.1
‚¨áÔ∏è Manquant : bitsandbytes==0.46.0
‚úÖ datasets 4.0.0 ‚Äî OK
‚úÖ matplotlib 3.10.0 ‚Äî OK
‚úÖ numpy 2.0.2 ‚Äî OK
üîÅ peft 0.17.0 ne satisfait pas '==0.15.0' ‚Üí r√©installation : peft==0.15.0
‚úÖ tabulate 0.9.0 ‚Äî OK
‚úÖ torch 2.8.0+cu126 ‚Äî OK
‚úÖ tqdm 4.67.1 ‚Äî OK
‚úÖ transformers 4.55.2 ‚Äî OK
‚¨áÔ∏è Installation/r√©ininstallation des paquets n√©cessaires‚Ä¶
 $ /usr/bin/python3 -m pip install accelerate==1.8.1
 $ /usr/bin/python3 -m pip install bitsandbytes==0.46.0
 $ /usr/bin/python3 -m pip install peft==0.15.0


In [3]:
%matplotlib inline
%config InlineBackend.figure_formats = ['svg']

import math

import matplotlib.pyplot as plt
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
import transformers
from datasets import (
    load_dataset,
)
from peft import (
    LoraConfig,
    get_peft_model,
    prepare_model_for_kbit_training,
)
from tabulate import (
    tabulate,
)
from torch.utils.data import (
    DataLoader,
)
from tqdm import (
    tqdm,
)

# Si le notebook est ex√©cut√© dans un environnement jupyter, la librairie
# ci-dessus peut √™tre utilis√©e
from tqdm.notebook import (
    tqdm,
)
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    DistilBertConfig,
    DistilBertModel,
    DistilBertTokenizer,
)

# Utilisation d‚Äôun GPU avec CUDA lorsque disponible sur la machine d‚Äôex√©cution.
# L‚Äôutilisation d‚Äôun GPU pour l‚Äôapprentissage entra√Æne souvent d‚Äô√©normes
# acc√©l√©rations lors de l‚Äôentra√Ænement.
# Voir https://developer.nvidia.com/cuda-downloads pour installer CUDA
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
DEVICE

device(type='cpu')

In [None]:
class LlamaFineTuner:
  def __init__(self, model_id = "TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T"):
    self.model_id = model_id
    self.bnb_config = BitsAndBytesConfig(
      load_in_4bit=True,
      bnb_4bit_quant_type="nf4",
      bnb_4bit_compute_dtype="float16",
      bnb_4bit_use_double_quant=False,
    )
    self.tokenizer = AutoTokenizer.from_pretrained(self.model_id)
    self.model = AutoModelForCausalLM.from_pretrained(
        self.model_id,
        quantization_config=self.bnb_config,
        device_map="auto"
    )

## Classification de textes avec les Transformers

Ce projet porte sur une t√¢che de **classification de textes** appliqu√©e au **jeu de donn√©es IMDB** (analyse de sentiments ou *sentimental analysis*).  
Ce travail s'appuiera sur les **architectures de type encodeur**, en particulier l‚Äôun des mod√®les les plus connus : **BERT** (et sa variante l√©g√®re **DistilBERT**).

## Pr√©sentation

Le projet consiste √† utiliser la librairie `datasets` pour le chargement des donn√©es et les `tokenizers` pour le pr√©traitement des textes.

La librairie **Transformers** propose une API simple pour utiliser des mod√®les pr√©-entra√Æn√©s tels que **BERT** ou **GPT**. Elle facilite leur t√©l√©chargement, leur r√©-entra√Ænement et leur int√©gration, tout en r√©duisant les co√ªts de calcul et en restant compatible avec **PyTorch, TensorFlow et JAX**.

## Objectif du projet

Dans le cadre de ce projet, l‚Äôexp√©rimentation portera sur la librairie **Hugging Face** afin de :
- Charger et adapter un mod√®le de type **BERT** √† une t√¢che de classification de textes ;
- √âvaluer ses performances sur le dataset **IMDB** ;
- Analyser les r√©sultats et discuter des choix r√©alis√©s (mod√®le, preprocessing, param√®tres, etc.).

Le travail sera guid√© par les interrogations suivantes :

- Bien que tous ces mod√®les reposent sur l'architecture **Transformer**, quelles en sont les sp√©cificit√©s ?
- Quel format d'entr√©e est attendu par le mod√®le ?
- Quels types de sorties g√©n√®re-t-il ?
- Le mod√®le peut-il √™tre utilis√© tel quel ou doit-il √™tre adapt√© √† la t√¢che consid√©r√©e ?

Ces questions constituent une part essentielle du travail quotidien d‚Äôun chercheur en NLP et seront examin√©es dans le cadre de ce projet de *fine-tuning*.

## Chargement du jeu d'entra√Ænement

La phase initiale consiste √† proc√©der au chargement du jeu d'entra√Ænement au moyen de l'instruction suivante :
```python
dataset = load_dataset("scikit-learn/imdb", split="train")
```

In [None]:
dataset = load_dataset("scikit-learn/imdb", split="train")

Apr√®s le chargement, il convient de proc√©der √† l'affichage du jeu de donn√©es afin d'en examiner la structure.

In [None]:
print(dataset)

L'ex√©cution de la commande `print(dataset)` renvoie la description suivante du jeu de donn√©es :

```
Dataset({
    features: ['review', 'sentiment'],
    num_rows: 50000
})
```

Le corpus est constitu√© de 50 000 instances, chacune d√©crite par deux attributs : le texte de la critique (*review*) et son √©tiquette de polarit√© (*sentiment*).


## Pr√©paration des entr√©es du mod√®le

Le format d'entr√©e attendu par **BERT** peut √™tre consid√©r√© comme ¬´ sur-sp√©cifi√© ¬ª, notamment lorsqu'il s'agit de t√¢ches cibl√©es telles que la *sequence classification*, le *word tagging* ou la *paraphrase detection*. Ce format repose sur plusieurs contraintes :

* l'ajout de *special tokens* au d√©but et √† la fin de chaque phrase ;
* l'application d'un *padding* et d'une troncature afin de ramener toutes les phrases √† une longueur constante ;
* la distinction explicite entre *real tokens* et *padding tokens* au moyen de l'*attention mask*.


<p align="center">
<img src="https://raw.githubusercontent.com/auduvignac/llm-finetuning/97e2b676168167ed5ff624f1ad98589c63919d5d/figures/bert_encoding_process.png" width="600">
</p>

La figure ci-dessus illustre le processus de pr√©paration et de traitement des s√©quences textuelles dans le mod√®le **BERT**.

1. **Tokenisation et ajout de tokens sp√©ciaux**
   La s√©quence textuelle est d'abord segment√©e en *tokens*. Deux *special tokens* sont ajout√©s : `[CLS]`, plac√© en d√©but de s√©quence et utilis√© comme repr√©sentation globale, ainsi que `[SEP]`, plac√© en fin de s√©quence et jouant un r√¥le de s√©parateur.

2. **Normalisation de la longueur des s√©quences**
   Afin d'assurer une longueur uniforme entre les exemples, les s√©quences sont compl√©t√©es par des *\[PAD] tokens* ou, le cas √©ch√©ant, tronqu√©es √† une taille maximale pr√©d√©finie (*MAX\_LEN*).

3. **Attention mask**
   Un vecteur binaire, appel√© *attention mask*, est associ√© √† chaque s√©quence. La valeur `1` indique un *real token* tandis que la valeur `0` correspond √† un *padding token*. Ce m√©canisme permet au mod√®le d'ignorer les positions de remplissage au cours de l'entra√Ænement et de l'inf√©rence.

4. **Propagation √† travers les couches du Transformer**
   Les repr√©sentations vectorielles des tokens traversent successivement les diff√©rentes couches de l'encodeur Transformer (ici, 12 couches). Chaque couche applique un m√©canisme d'auto-*attention*, permettant de capturer les d√©pendances contextuelles entre tokens.

5. **Production de la pr√©diction**
   √Ä l'issue de la derni√®re couche, seule la repr√©sentation associ√©e au token `[CLS]` est retenue. Celle-ci est transmise au classificateur, qui produit la pr√©diction finale (par exemple, la polarit√© d'une critique dans une t√¢che de *sentiment analysis*).

**Remarque :** Pour des raisons li√©es aux co√ªts de calcul, le mod√®le [DistilBERT](https://huggingface.co/docs/transformers/model_doc/distilbert) sera utilis√©. Ce dernier constitue une version r√©duite d'environ 40 % par rapport √† BERT, tout en conservant pr√®s de 95 % des performances du mod√®le original.

Afin de pr√©parer les donn√©es textuelles pour le mod√®le, il est n√©cessaire d'instancier un *tokenizer*. Celui-ci a pour r√¥le de segmenter les phrases en unit√©s √©l√©mentaires (*tokens*) et de les convertir en identifiants num√©riques exploitables par le mod√®le. Dans le cadre de ce projet, il sera fait usage du `DistilBertTokenizer` pr√©-entra√Æn√©, correspondant au mod√®le *distilbert-base-uncased*.

```python
tokenizer = DistilBertTokenizer.from_pretrained(
    "distilbert-base-uncased", do_lower_case=True
)
```


In [None]:
tokenizer = DistilBertTokenizer.from_pretrained(
    "distilbert-base-uncased", do_lower_case=True
)

L'√©tape suivante consiste √† examiner la mani√®re dont le *tokenizer* traite la s√©quence.

1. D√©finition d'un message exemple

In [None]:
message = "hello my name is kevin"

2. *Tokenization* de la s√©quence

In [None]:
tok = tokenizer.tokenize(message)
print("Tokens dans la s√©quence:", tok)

3. Encodage en identifiants num√©riques

In [None]:
enc = tokenizer.encode(tok)

4. Mise en correspondance entre token IDs et tokens

In [None]:
table = np.array(
    [
        enc,
        [tokenizer.ids_to_tokens[w] for w in enc],
    ]
).T

5. Affichage des r√©sultats encod√©s

In [None]:
print("Donn√©es d'entr√©e encod√©es:")
print(tabulate(table, headers=["Token IDs", "Tokens"], tablefmt="fancy_grid"))

Le tableau obtenu met en √©vidence la correspondance entre les *tokens* et leurs identifiants num√©riques.
Les *tokens* sp√©ciaux `[CLS]` et `[SEP]` encadrent la s√©quence, tandis que chaque mot du texte est associ√© √† un identifiant unique destin√© au traitement par le mod√®le.

Les special tokens `[CLS]` et `[SEP]` sont ajout√©s automatiquement par HuggingFace afin de structurer la s√©quence d'entr√©e pour le mod√®le BERT et ses variantes.

Le token `[CLS]`, ins√©r√© en d√©but de s√©quence, constitue une repr√©sentation globale de la phrase. Sa sortie est utilis√©e par la couche de classification pour produire la pr√©diction finale (par exemple en *sentiment analysis*).

Le token `[SEP]`, plac√© en fin de s√©quence (ou comme s√©parateur entre deux phrases), sert √† marquer les fronti√®res de segments textuels. Il est essentiel dans les t√¢ches n√©cessitant plusieurs entr√©es, comme la comparaison de paires de phrases (*natural language inference*, *paraphrase detection*).

Ainsi, ces *tokens* sp√©ciaux garantissent une structuration normalis√©e des entr√©es, indispensable au fonctionnement du mod√®le.

## Pr√©traitement des donn√©es

Les op√©rations de pr√©traitement appliqu√©es aux donn√©es suivent la m√©thodologie usuelle adopt√©e pour PyTorch et sont analogues √† celles mises en ≈ìuvre pr√©c√©demment.

La fonction `preprocessing_fn` d√©finit les op√©rations de pr√©paration appliqu√©es √† chaque exemple du corpus.
Le champ `review` est converti en une s√©quence d'identifiants num√©riques au moyen du *tokenizer*. L'encodage est effectu√© sans ajout de *special tokens*, avec troncature √† une longueur maximale de 256 et sans application de *padding* ni g√©n√©ration de *attention mask*.
Par ailleurs, l'√©tiquette `sentiment` est transform√©e en valeur binaire : `0` pour les exemples n√©gatifs et `1` pour les exemples positifs.

In [None]:
def preprocessing_fn(x, tokenizer):
    """
    Pr√©traite un exemple du corpus en encodant le texte et en transformant
    l'√©tiquette.

    Param√®tres
    ----------
    x : dict
        Exemple du corpus contenant au moins deux cl√©s :
        - "review" (str) : le texte √† encoder,
        - "sentiment" (str) : √©tiquette textuelle ("negative" ou "positive").
    tokenizer : transformers.PreTrainedTokenizer
        Tokenizer Hugging Face utilis√© pour convertir le texte en identifiants num√©riques.

    Retour
    ------
    dict
        Dictionnaire enrichi contenant :
        - "input_ids" (List[int]) : s√©quence encod√©e de tokens num√©riques,
        - "labels" (int) : √©tiquette binaire (0 = n√©gatif, 1 = positif).
    """
    x["input_ids"] = tokenizer.encode(
        x["review"],
        add_special_tokens=False,
        truncation=True,
        max_length=256,
        padding=False,
        return_attention_mask=False,
    )
    x["labels"] = 0 if x["sentiment"] == "negative" else 1
    return x

In [None]:
n_samples = 2000  # nombre d'exemples d'entra√Ænement

# op√©ration de shuffle sur les donn√©es
dataset = dataset.shuffle()

# Selection de 2000 √©chantillons
splitted_dataset = dataset.select(range(n_samples))

# Tokenization du dataset
splitted_dataset = splitted_dataset.map(
    preprocessing_fn, fn_kwargs={"tokenizer": tokenizer}
)


# Suppression des colonnes inutiles
splitted_dataset = splitted_dataset.select_columns(["input_ids", "labels"])

# S√©paration en donn√©es d'entra√Ænement et de validation
splitted_dataset = splitted_dataset.train_test_split(test_size=0.2)

train_set = splitted_dataset["train"]
valid_set = splitted_dataset["test"]

In [None]:
class DataCollator:
    """
    A data collator that pads input batches to a maximum length of 256 tokens.

    Args:
        tokenizer: The tokenizer to use for padding the input batch.

    Returns:
        Padded batch with tokenized inputs.
    """

    def __init__(self, tokenizer):
        """
        Initializes the DataCollator with the given tokenizer.

        Args:
            tokenizer: The tokenizer to use for padding the input batch.
        """
        self.tokenizer = tokenizer

    def __call__(self, batch):
        """
        Pads the input batch to a maximum length of 256 tokens using the
        provided tokenizer.

        Args:
            batch: The input batch to be padded.

        Returns:
            Padded batch with tokenized inputs.
        """
        return self.tokenizer.pad(
            batch, padding="longest", max_length=256, return_tensors="pt"
        )
        return features

In [None]:
data_collator = DataCollator(tokenizer)

In [None]:
batch_size = 4

train_dataloader = DataLoader(
    train_set, batch_size=batch_size, collate_fn=data_collator
)
valid_dataloader = DataLoader(
    valid_set, batch_size=batch_size, collate_fn=data_collator
)
n_valid = len(valid_set)
n_train = len(train_set)

Pour cette t√¢che, l'entra√Ænement sera effectu√© √† partir d'un mod√®le initialis√© al√©atoirement.

R√©cup√©ration de la configuration de l'architecture

Dans la biblioth√®que Hugging Face, les param√®tres du mod√®le sont sp√©cifi√©s par l'interm√©diaire d'un fichier de configuration.

La configuration du mod√®le peut √™tre r√©cup√©r√©e gr√¢ce au code suivant :

In [None]:
from transformers import DistilBertConfig

model_config = DistilBertConfig.from_pretrained("distilbert-base-uncased")
print(model_config)