# Comment finetuner des LLMs avec des adaptateurs LoRA en utilisant Hugging Face TRL

Ce *notebook* montre comment finetuner efficacement de grands mod√®les de langage en utilisant des adaptateurs LoRA (*Low-Rank Adaptation*). LoRA est une technique de finetuning efficace en termes de param√®tres qui :
- g√®le les poids du mod√®le pr√©-entra√Æn√©
- ajoute aux couches d'attention de petites matrices de d√©composition de rangs entra√Ænables
- R√©duit g√©n√©ralement les param√®tres entra√Ænables d'environ 90%
- Maintient les performances du mod√®le tout en √©tant √©conome en m√©moire

Nous aborderons les points suivants
1. Mise en place de l'environnement de d√©veloppement et configuration de LoRA
2. Cr√©er et pr√©parer le jeu de donn√©es pour l'entra√Ænement de l'adaptateur
3. Finetuner en utilisant `trl` et `SFTTrainer` avec les adaptateurs LoRA
4. Tester le mod√®le et fusionner les adaptateurs (optionnel)

## 1. Configurer l'environnement de d√©veloppement

Notre premi√®re √©tape consiste √† installer les bibliothques d'Hugging Face et Pytorch, y compris trl, les transformers et les datasets. Si vous n'avez pas encore entendu parler de trl, ne vous inqui√©tez pas. Il s'agit d'une nouvelle biblioth√®que au-dessus des transformers et des datasets permetant de finetuner, rlhf, aligner les LLMs ouverts plus facilement.

In [None]:
# Installer les pr√©requis dans Google Colab
# !pip install transformers datasets trl huggingface_hub

# S'authentifier sur Hugging Face
from huggingface_hub import login

login()

# Pour plus de facilit√©, vous pouvez cr√©er une variable d'environnement contenant votre jeton de hub sous la forme HF_TOKEN

## 2. Charger le jeu de donn√©es

In [13]:
# Charger un √©chantillon de jeu de donn√©es
from datasets import load_dataset

# TODO : d√©finir votre jeu de donn√©es et votre configuration en utilisant les param√®tres path et name
dataset = load_dataset(path="HuggingFaceTB/smoltalk", name="everyday-conversations")
dataset

DatasetDict({
    train: Dataset({
        features: ['full_topic', 'messages'],
        num_rows: 2260
    })
    test: Dataset({
        features: ['full_topic', 'messages'],
        num_rows: 119
    })
})

## 3. Fine-tune LLM using `trl` and the `SFTTrainer` with LoRA

The [SFTTrainer](https://huggingface.co/docs/trl/sft_trainer) from `trl` provides integration with LoRA adapters through the [PEFT](https://huggingface.co/docs/peft/en/index) library. Key advantages of this setup include:

1. **Memory Efficiency**: 
   - Only adapter parameters are stored in GPU memory
   - Base model weights remain frozen and can be loaded in lower precision
   - Enables fine-tuning of large models on consumer GPUs

2. **Training Features**:
   - Native PEFT/LoRA integration with minimal setup
   - Support for QLoRA (Quantized LoRA) for even better memory efficiency

3. **Adapter Management**:
   - Adapter weight saving during checkpoints
   - Features to merge adapters back into base model

We'll use LoRA in our example, which combines LoRA with 4-bit quantization to further reduce memory usage without sacrificing performance. The setup requires just a few configuration steps:
1. Define the LoRA configuration (rank, alpha, dropout)
2. Create the SFTTrainer with PEFT config
3. Train and save the adapter weights


In [None]:
# Importer les biblioth√®ques n√©cessaires
from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
from trl import SFTConfig, SFTTrainer, setup_chat_format
import torch

device = (
    "cuda"
    if torch.cuda.is_available()
    else "mps" if torch.backends.mps.is_available() else "cpu"
)

# Charger le mod√®le et le tokenizer
model_name = "HuggingFaceTB/SmolLM2-135M"

model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=model_name
).to(device)
tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path=model_name)

# D√©finir le format de chat
model, tokenizer = setup_chat_format(model=model, tokenizer=tokenizer)

# D√©finir le nom du finetuning √† sauvegarder et/ou √† t√©l√©charger
finetune_name = "SmolLM2-FT-MyDataset"
finetune_tags = ["smol-course", "module_1"]

`SFTTrainer` supporte une int√©gration native avec `peft`, ce qui rend super facile le finetuning des LLMs en utilisant, par exemple, LoRA. Nous avons seulement besoin de cr√©er notre `LoraConfig` et de le fournir au Trainer.

<div style='background-color: lightblue; padding: 10px; border-radius: 5px; margin-bottom: 20px; color:black'>
    <h2 style='margin: 0;color:blue'>Exercice : D√©finir les param√®tres de LoRA pour le finetuning</h2>
    <p>Prenez un jeu de donn√©es provenant du Hub d'Hugging Face et finetun√© un mod√®le sur dessus. </p> 
    <p><b>Niveaux de difficult√©</b></p>
    <p>üê¢ Utiliser les param√®tres g√©n√©raux pour un finetuning arbitraire</p>
    <p>üêï Ajuster les param√®tres et v√©rifier les poids et les biais</p>
    <p>ü¶Å Ajuster les param√®tres et montrer les changements dans les r√©sultats de l'inf√©rence</p>
</div>

In [None]:
from peft import LoraConfig

# TODO : Configurer les param√®tres de LoRA
# r : dimension du rang des matrices LoRA (plus petite = plus de compression)
rank_dimension = 6
# lora_alpha : facteur d'√©chelle pour les couches LoRA (plus √©lev√© = adaptation plus forte)
lora_alpha = 8
# lora_dropout : probabilit√© de dropout pour les couches LoRA (aide √† pr√©venir le surentra√Ænement)
lora_dropout = 0.05

peft_config = LoraConfig(
    r=rank_dimension,  # Dimension du rang, g√©n√©ralement entre 4 et 32
    lora_alpha=lora_alpha,  # Facteur d'√©chelle LoRA, g√©n√©ralement 2x le rang
    lora_dropout=lora_dropout,  # Probabilit√© de dropout probability pour les couches de LoRA
    bias="none",  # Type de biais pour le LoRA. Les biais correspondants seront mis √† jour pendant l'entra√Ænement
    target_modules="all-linear",  # Modules auxquels appliquer le LoRA
    task_type="CAUSAL_LM",  # Type de t√¢che pour l'architecture du mod√®le
)

Avant de commencer notre entra√Ænement, nous devons d√©finir les hyperparam√®tres (`TrainingArguments`) que nous voulons utiliser.

In [None]:
# Configuration de l'entra√Ænement
# Hyperparam√®tres bas√©s sur les recommandations du papier du QLoRA
args = SFTConfig(
    # Param√®tres de sortie
    output_dir=finetune_name,  # R√©pertoire pour enregistrer les checkpoints du mod√®le
    # Dur√©e de l'entra√Ænement
    num_train_epochs=1,  # Nombre d'√©poques d'entra√Ænement
    # Param√®tres de la taille des batchs
    per_device_train_batch_size=2,  # Taille des batchs par GPU
    gradient_accumulation_steps=2,  # Accumuler les gradients pour obtenir un plus grand batch efficace
    # Optimisation de la m√©moire
    gradient_checkpointing=True,  # √âchanger le calcul contre des √©conomies de m√©moire
    # Param√®tres de l'optimiseur
    optim="adamw_torch_fused",  # Utiliser AdamW fusionn√© pour plus d'efficacit√©
    learning_rate=2e-4,  # Taux d'apprentissage (papier du QLoRA)
    max_grad_norm=0.3,  # Seuil d'√©cr√™tage du gradient
    # Taux d'apprentissage
    warmup_ratio=0.03,  # Portion de pas pour l'√©chauffement
    lr_scheduler_type="constant",  # Maintenir un rythme d'apprentissage constant apr√®s l'√©chauffement
    # Enregistrement et sauvegarde
    logging_steps=10,  # Enregistrement des m√©triques tous les N pas
    save_strategy="epoch",  # Sauvegarde du checkpoint √† chaque √©poque
    # Param√®tres de pr√©cision
    bf16=True,  # Utiliser la pr√©cision bfloat16
    # Param√®tres d'int√©gration
    push_to_hub=False,  # Ne pas pousser vers le Hub
    report_to="none",  # D√©sactiver l'enregistrement externe
)

Nous avons maintenant tous les √©l√©ments n√©cessaires pour cr√©er notre `SFTTrainer` et commencer √† entra√Æner notre mod√®le.

In [None]:
max_seq_length = 1512  # longueur maximale des s√©quences pour le mod√®le et le paquetage du jeu de donn√©es

# Cr√©er SFTTrainer avec la configuration LoRA
trainer = SFTTrainer(
    model=model,
    args=args,
    train_dataset=dataset["train"],
    peft_config=peft_config,  # Configuration LoRA
    max_seq_length=max_seq_length,  # Longueur maximale de la s√©quence
    tokenizer=tokenizer,
    packing=True,  # Activer l'emballage d'entr√©e pour plus d'efficacit√©
    dataset_kwargs={
        "add_special_tokens": False,  # Tokens sp√©ciaux g√©r√©s par le gabarit
        "append_concat_token": False,  # Aucun s√©parateur suppl√©mentaire n'est n√©cessaire
    },
)

Commencez √† entra√Æner notre mod√®le en appelant la m√©thode `train()` sur notre instance `Trainer`. Cela va d√©marrer la boucle d'entra√Ænement et entra√Æner notre mod√®le pendant 3 √©poques. Puisque nous utilisons une m√©thode PEFT, nous ne sauvegarderons que les poids du mod√®le adapt√© et non le mod√®le complet.

In [None]:
# commencer l'entra√Ænement, le mod√®le sera automatiquement sauvegard√© sur le Hub et dans le r√©pertoire de sortie.
trainer.train()

# Sauvegarder le mod√®le
trainer.save_model()

  0%|          | 0/72 [00:00<?, ?it/s]

TrainOutput(global_step=72, training_loss=1.6402628521124523, metrics={'train_runtime': 195.2398, 'train_samples_per_second': 1.485, 'train_steps_per_second': 0.369, 'total_flos': 282267289092096.0, 'train_loss': 1.6402628521124523, 'epoch': 0.993103448275862})

L'entra√Ænement avec Flash Attention pour 3 √©poques avec un jeu de donn√©es de 15k √©chantillons a pris 4:14:36 sur un `g5.2xlarge`. L'instance co√ªte `1.21$/h` ce qui nous am√®ne √† un co√ªt total de seulement ~`5.3$`.



### Fusionner l'adaptateur LoRA dans le mod√®le original

Lors de l'utilisation de LoRA, nous n'entra√Ænons que les poids de l'adaptateur tout en gardant le mod√®le de base gel√©. Pendant l'entra√Ænement, nous sauvegardons uniquement ces poids d'adaptateur l√©gers (~2-10MB) plut√¥t qu'une copie compl√®te du mod√®le. Cependant, pour le d√©ploiement, vous pouvez vouloir fusionner les adaptateurs dans le mod√®le de base pour :

1. **D√©ploiement simplifi√©** : Fichier de mod√®le unique au lieu du mod√®le de base + adaptateurs
2. **Vitesse d'inf√©rence** : Pas de surcharge de calcul des adaptateurs
3. **Compatibilit√© avec les frameworks** : Meilleure compatibilit√© avec les frameworks

In [None]:
from peft import AutoPeftModelForCausalLM


# Chargement du mod√®le PEFT sur le CPU
model = AutoPeftModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=args.output_dir,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True,
)

# Fusionner le mod√®le LoRA et le mod√®le de base et sauvegarder
merged_model = model.merge_and_unload()
merged_model.save_pretrained(
    args.output_dir, safe_serialization=True, max_shard_size="2GB"
)

## 3. Tester le mod√®le et ex√©cuter l'inf√©rence

Une fois l'entra√Ænement termin√©, nous voulons tester notre mod√®le. Nous allons charger diff√©rents √©chantillons du jeu de donn√©es original et √©valuer le mod√®le sur ces √©chantillons, en utilisant une boucle simple et l'*accuracy* comme m√©trique.


<div style='background-color: lightblue; padding: 10px; border-radius: 5px; margin-bottom: 20px; color:black'>
    <h2 style='margin: 0;color:blue'>Exercice bonus : Chargement de l'adaptateur LoRA</h2>
    <p>Utilisez ce que vous avez appris dans le notebook pour charger votre adaptateur LoRA entra√Æn√© pour l'inf√©rence</p> 
</div>

In [30]:
# lib√©rer la m√©moire
del model
del trainer
torch.cuda.empty_cache()

In [None]:
import torch
from peft import AutoPeftModelForCausalLM
from transformers import AutoTokenizer, pipeline

# Chargement du mod√®le avec l'adaptateur PEFT
tokenizer = AutoTokenizer.from_pretrained(finetune_name)
model = AutoPeftModelForCausalLM.from_pretrained(
    finetune_name, device_map="auto", torch_dtype=torch.float16
)
pipe = pipeline(
    "text-generation", model=merged_model, tokenizer=tokenizer, device=device
)

Testons quelques √©chantillons d'instructions et voyons comment le mod√®le se comporte.

In [34]:
prompts = [
    "What is the capital of Germany? Explain why thats the case and if it was different in the past?",
    "Write a Python function to calculate the factorial of a number.",
    "A rectangular garden has a length of 25 feet and a width of 15 feet. If you want to build a fence around the entire garden, how many feet of fencing will you need?",
    "What is the difference between a fruit and a vegetable? Give examples of each.",
]


def test_inference(prompt):
    prompt = pipe.tokenizer.apply_chat_template(
        [{"role": "user", "content": prompt}],
        tokenize=False,
        add_generation_prompt=True,
    )
    outputs = pipe(
        prompt,
    )
    return outputs[0]["generated_text"][len(prompt) :].strip()


for prompt in prompts:
    print(f"    prompt:\n{prompt}")
    print(f"    response:\n{test_inference(prompt)}")
    print("-" * 50)