<a href="https://colab.research.google.com/github/vincentmartin/tp-fine-tuning-student-version/blob/main/tp-fine-tuning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TP fine-tuning de LLM

Dans ce notebook vous allez fine tuner un LLM de base, Flan T5, avec la technique PEFT et LoRA.

### Instruction √† suivre pour ex√©cution sur Google Colab

Aller dans `Execution -> Modifier le type d'ex√©cution` puis s√©lectionner `T4-GPU` pour exploiter les fonctionnalit√©s GPU.

![Colab GPU](resources/colab_gpu.png "T4-GPU")

Installationd des d√©pendances

In [None]:
%pip install -U datasets

%pip install --upgrade pip
%pip install --disable-pip-version-check \
    torch \
    torchdata --quiet

%pip install \
    transformers \
    evaluate \
    rouge_score \
    loralib \
    peft \
    bitsandbytes



Import des d√©pendances

In [None]:
from datasets import load_dataset
from transformers import AutoModel, AutoModelForCausalLM, AutoModelForSeq2SeqLM, AutoTokenizer, GenerationConfig, TrainingArguments, Trainer, BitsAndBytesConfig
import torch
import time
import evaluate
import pandas as pd
import numpy as np
import os
import bitsandbytes
os.environ["WANDB_DISABLED"] = "true"

Chargement du LLM de base.

In [None]:
model_name='google/flan-t5-base'

original_model = AutoModelForSeq2SeqLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained(model_name)

Cr√©ation d'une fonction pour afficher le nombre de param√®tres entra√Ænables.

In [None]:
def print_number_of_trainable_model_parameters(model):
    trainable_model_params = 0
    all_model_params = 0
    for _, param in model.named_parameters():
        all_model_params += param.numel()
        if param.requires_grad:
            trainable_model_params += param.numel()
    return f"trainable model parameters: {trainable_model_params}\nall model parameters: {all_model_params}\npercentage of trainable model parameters: {100 * trainable_model_params / all_model_params:.2f}%"

print(print_number_of_trainable_model_parameters(original_model))

trainable model parameters: 247577856
all model parameters: 247577856
percentage of trainable model parameters: 100.00%


## Fine tuning avec PEFT et LoRA

Le fine tuning complet d'un mod√®le n'est pas un choix judicieux pour un particulier ou une entreprise qui n'a pas une √©norme puissance de calcul. La m√©thode la plus appropri√©e est d'utiliser PEFT (_Parameter Efficient Fine-Tuning_).

PEFT est un ensemble de technique qui incluant LORA (_Low Rank Adaptation_) et le _prompt tuning_ (**diff√©rent du prompt engineering**). LORA permet de fine tuner un mod√®le avec peu de ressources mat√©rielles (un ou deux GPU). LORA permet de cr√©er des adapteurs compos√©s de 1-10% des param√®tres du LLM original. De plus, le LLM original n'est pas modifi√©, ce qui permet de rapidement changer d'adapteurs en fonction du cas d'usage.

### Configuration de PEFT / LoRA

Premi√®rement, configurons PEFT/LoRA pour fine tuner notre mod√®le de base avec ce que l'on appelle _adapteur_.

PEFT/LoRA g√™le les couches du LLM original pour n'entra√Æner que l'adapteur.

In [None]:
from peft import LoraConfig, get_peft_model, TaskType

lora_config = LoraConfig(
    r=32, # Rank : plus il est grand, plus il y a de param√®tres. Id√©al : 16-32
    lora_alpha=32,
    target_modules=["q", "v"],
    lora_dropout=0.05,
    bias="none",
    task_type=TaskType.SEQ_2_SEQ_LM # Pour FLANT5, laisser ce type
)

Ajouter l'adapteur au LLM original.

In [None]:
peft_model = get_peft_model(original_model,
                            lora_config)
print(print_number_of_trainable_model_parameters(peft_model))

trainable model parameters: 3538944
all model parameters: 251116800
percentage of trainable model parameters: 1.41%


## Lancement de l'entra√Ænement

Chargeons le jeu de donn√©es pour l'entra√Ænement.

In [None]:
huggingface_dataset_name = "knkarthick/dialogsum"
dataset = load_dataset(huggingface_dataset_name)

def tokenize_function(example):
    start_prompt = 'Summarize the following conversation.\n\n'
    end_prompt = '\n\nSummary: '
    prompt = [start_prompt + dialogue + end_prompt for dialogue in example["dialogue"]]
    example['input_ids'] = tokenizer(prompt, padding="max_length", truncation=True, return_tensors="pt").input_ids
    example['labels'] = tokenizer(example["summary"], padding="max_length", truncation=True, return_tensors="pt").input_ids

    return example

# The dataset actually contains 3 diff splits: train, validation, test.
# The tokenize_function code is handling all data across all splits in batches.
tokenized_datasets = dataset.map(tokenize_function, batched=True)
tokenized_datasets = tokenized_datasets.remove_columns(['id', 'topic', 'dialogue', 'summary',])

Map:   0%|          | 0/12460 [00:00<?, ? examples/s]

Pour que l'entra√Ænement prenne un temps acceptable dans ce notebook, nous diminuons la taille du jeu de donn√©es.

In [None]:
tokenized_datasets = tokenized_datasets.filter(lambda example, index: index % 100 == 0, with_indices=True)

Filter:   0%|          | 0/12460 [00:00<?, ? examples/s]

Filter:   0%|          | 0/500 [00:00<?, ? examples/s]

Filter:   0%|          | 0/1500 [00:00<?, ? examples/s]

**Exercice**  : en vous aidant de la documentation https://huggingface.co/docs/transformers/v4.15.0/en/main_classes/trainer#transformers.TrainingArguments, cr√©er une instance de **Trainer** pour entra√Æner le LLM. Vous utiliserez les param√®tres suivants :
- auto_find_batch_size=True,
- learning_rate=1e-3,
- num_train_epochs=5,
- logging_steps=1,
- max_steps=1   

Le jeu de donn√©es √† utiliser pour l'entra√Ænement est `tokenized_datasets["train"]`.

**Dans Google Colab, utiliser `report_to=None` sinon il vous sera demand√© une clef Wanadb.**

In [None]:
output_dir = './training-output'



peft_training_args = TrainingArguments(
    output_dir=output_dir,
    auto_find_batch_size=True,
    learning_rate=1e-3,
    num_train_epochs=5,
    logging_steps=1,
    max_steps=1,
    report_to=None
)

peft_trainer = Trainer(
    model=peft_model,
    args=peft_training_args,
    train_dataset=tokenized_datasets["train"]
)

#peft_trainer.train()

Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).


**Exercice** : Lancer l'entra√Ænement et sauvegarder le mod√®le (adapteur)  et le tokenizer dans le dossier `training-output-checkpoint`.

In [None]:
checkpoint_dir = './training-output-checkpoint'
peft_trainer.train()

# Sauvegarder le mod√®le et le tokenizer
peft_model.save_pretrained(checkpoint_dir)       # Sauvegarder
tokenizer.save_pretrained(checkpoint_dir)

#loaded_model = AutoModel.from_pretrained(checkpoint_dir)
#loaded_tokenizer = AutoTokenizer.from_pretrained(checkpoint_dir)

Passing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.48.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.


Step,Training Loss
1,49.25


('./training-output-checkpoint/tokenizer_config.json',
 './training-output-checkpoint/special_tokens_map.json',
 './training-output-checkpoint/spiece.model',
 './training-output-checkpoint/added_tokens.json',
 './training-output-checkpoint/tokenizer.json')

### Evaluation du mod√®le fine tun√©

Une erreur classique lorsque l'on d√©but est d'√©valuer les performances en 'regardant' quelques g√©n√©rations manuellement. C'est une mauvaise id√©e car (1) ce n'est pas quantifi√© et (2) ce qui fonctionne sur quelques exemples ne fonctionne peut √™tre pas sur des milliers d'exemples (principe de g√©n√©ralisation).

Lorsque l'on fine tune un mod√®le, il est donc capital de mesurer les performances pour savoir si **globalement** les r√©sultats sont meilleurs.

In [None]:
from peft import PeftModel, PeftConfig

peft_model_base = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-base", torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-base")

peft_model = PeftModel.from_pretrained(peft_model_base,
                                       'training-output-checkpoint',
                                       torch_dtype=torch.bfloat16,
                                       is_trainable=False)


In [None]:
index = 200
dialogue = dataset['test'][index]['dialogue']
human_baseline_summary = dataset['test'][index]['summary']

device = "cuda" if torch.cuda.is_available() else "cpu"


prompt = f"""
Summarize the following conversation.

{dialogue}

Summary: """

input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

original_model_outputs = original_model.to(device).generate(input_ids=input_ids, generation_config=GenerationConfig(max_new_tokens=200, num_beams=1))
original_model_text_output = tokenizer.decode(original_model_outputs[0], skip_special_tokens=True)


peft_model_outputs = peft_model.to(device).generate(input_ids=input_ids, generation_config=GenerationConfig(max_new_tokens=200, num_beams=1))
peft_model_text_output = tokenizer.decode(peft_model_outputs[0], skip_special_tokens=True)

dash_line = '-'.join('' for x in range(100))
print(dash_line)
print(f'RESUME HUMAIN:\n{human_baseline_summary}')
print(dash_line)
print(f'RESUME AVEC MODELE ORIGINAL:\n{original_model_text_output}')
print(dash_line)
print(dash_line)
print(f'RESUME AVEC MODELE PEFT: {peft_model_text_output}')

---------------------------------------------------------------------------------------------------
RESUME HUMAIN:
#Person1# teaches #Person2# how to upgrade software and hardware in #Person2#'s system.
---------------------------------------------------------------------------------------------------
RESUME AVEC MODELE ORIGINAL:
Is there anything you need?
---------------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------------
RESUME AVEC MODELE PEFT: #Person1#: I'm thinking of upgrading my computer.


Inf√©rence sur 10 exemples du jeu de test.

In [None]:
dialogues = dataset['test'][0:10]['dialogue']
human_baseline_summaries = dataset['test'][0:10]['summary']

original_model_summaries = []
instruct_model_summaries = []
peft_model_summaries = []

for idx, dialogue in enumerate(dialogues):
    prompt = f"""
Summarize the following conversation.

{dialogue}

Summary: """
    input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

    human_baseline_text_output = human_baseline_summaries[idx]

    original_model_outputs = original_model.to(device).generate(input_ids=input_ids, generation_config=GenerationConfig(max_new_tokens=200))
    original_model_text_output = tokenizer.decode(original_model_outputs[0], skip_special_tokens=True)

    peft_model_outputs = peft_model.to(device).generate(input_ids=input_ids, generation_config=GenerationConfig(max_new_tokens=200))
    peft_model_text_output = tokenizer.decode(peft_model_outputs[0], skip_special_tokens=True)
    original_model_summaries.append(original_model_text_output)
    peft_model_summaries.append(peft_model_text_output)

zipped_summaries = list(zip(human_baseline_summaries, original_model_summaries, peft_model_summaries))

df = pd.DataFrame(zipped_summaries, columns = ['human_baseline_summaries', 'original_model_summaries', 'peft_model_summaries'])

**Exercice** : en utilisant la documentation https://huggingface.co/docs/evaluate/main/en/choosing_a_metric, calculer le score ROUGE entre :
- Les r√©sum√©s du mod√®le original  (`original_model_summaries`)  vs. r√©sum√©s humain (`human_baseline_summaries`).
- Les r√©sum√©s du mod√®le peft  (`peft_model_summaries`) vs. r√©sum√© humain (`human_baseline_summaries`).

Afficher les scores et commentez les.

In [None]:
rouge_metric = evaluate.load("rouge")

# Calculer ROUGE entre original_model_summaries et human_baseline_summaries
original_vs_human = rouge_metric.compute(
    predictions=original_model_summaries,
    references=human_baseline_summaries
)

# Calculer ROUGE entre peft_model_summaries et human_baseline_summaries
peft_vs_human = rouge_metric.compute(
    predictions=peft_model_summaries,
    references=human_baseline_summaries
)

# Afficher les scores
print("Scores ROUGE entre le mod√®le original et les r√©sum√©s humains:")
print(original_vs_human)

print("\nScores ROUGE entre le mod√®le PEFT et les r√©sum√©s humains:")
print(peft_vs_human)

Scores ROUGE entre le mod√®le original et les r√©sum√©s humains:
{'rouge1': 0.24138795803928403, 'rouge2': 0.06766815310293572, 'rougeL': 0.19967870226360313, 'rougeLsum': 0.2012315304848285}

Scores ROUGE entre le mod√®le PEFT et les r√©sum√©s humains:
{'rouge1': 0.23308938746438745, 'rouge2': 0.10011594202898552, 'rougeL': 0.21507407407407406, 'rougeLsum': 0.21857621082621081}


**On peut conclure que le mod√®le a appris, parce que sous PEFT mod√®le le score ROUGE est un peu plus el√©v√©**

**Exercice** : calculer le gain de performance en pourcentage du mod√®le PEFT sur le mod√®le original

In [None]:
gain_rouge1 = ((peft_vs_human['rouge1'] - original_vs_human['rouge1']) / original_vs_human['rouge1']) * 100
gain_rouge2 = ((peft_vs_human['rouge2'] - original_vs_human['rouge2']) / original_vs_human['rouge2']) * 100
gain_rougeL = ((peft_vs_human['rougeL'] - original_vs_human['rougeL']) / original_vs_human['rougeL']) * 100

# Affichage
print("Gain de performance du mod√®le PEFT sur le mod√®le original (en %):")
print(f"ROUGE-1 : {gain_rouge1:.2f}%")
print(f"ROUGE-2 : {gain_rouge2:.2f}%")
print(f"ROUGE-L : {gain_rougeL:.2f}%")

Gain de performance du mod√®le PEFT sur le mod√®le original (en %):
ROUGE-1 : -3.44%
ROUGE-2 : 47.95%
ROUGE-L : 7.71%


## Exercice : Fine tuning de Llama 3

Le mod√®le `flan-t5-base`que nous avons utilis√© jusqu'√† maintenant est bien pour comprendre les principes mais c'est un mod√®le ancien aux performances d√©pass√©es par rapport aux mod√®les r√©cents tels que Llama 3.

Dans cet exercice, vous allez charger puis fine tuner un LLM bien plus performant tout en conservant une taille acceptable de 3B de param√®tres : Llama 3.2 - 3B.

Afin que le mod√®le puisse √™tre charg√© en VRAM, nous utiliserons une version quantis√©e en 4bits : https://huggingface.co/unsloth/Llama-3.2-3B-Instruct-bnb-4bit.

**Red√©marrer la session √† ce stade pour r√©initialiser la RAM et la VRAM**

### Conseils pour r√©aliser l'exercice :

- Le mod√®le n'est plus de type _Encoder Decoder_ (Seq2Seq) mais _Decoder only_ (CausalLM). Effectuer les modiciation en cons√©quence
- R√©duire la taille du jeu de donn√©e d'entra√Ænement pour restant dans des temps acceptables (100 exemples)
- Modifier les arguments d'entra√Ænement (`TrainingArguments`) pour prendre acc√©l√©rer le traitement : consid√©rer les param√®tres `per_device_train_batch_size`, `gradient_accumulation_steps`, `gradient_chekpointing`.

L'exercice peut prendre un certain temps, faites votre maximum et avancer pas √† pas.

In [None]:
import os
os.environ["WANDB_DISABLED"] = "true"
!pip install bitsandbytes --upgrade
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
from datasets import load_dataset
from peft import LoraConfig, get_peft_model
import torch
import bitsandbytes as bnb

huggingface_dataset_name = "knkarthick/dialogsum"
dataset = load_dataset(huggingface_dataset_name)


model_name = "unsloth/Llama-3.2-3B-Instruct-bnb-4bit"
output_dir = "./llama-3b-finetuned"
# Charger le mod√®le quantis√©
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",  # Automatique pour g√©rer le GPU
    load_in_4bit=True,  # Charger en 4 bits
    torch_dtype=torch.float16
)
lora_config = LoraConfig(
    r=8,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],  # Modules to apply LoRA
    lora_dropout=0.1,
    bias="none",
    task_type="CAUSAL_LM",  # Since we're using a causal language model
)
model = get_peft_model(model, lora_config)
# Charger le tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)
#dataset = load_dataset("path_to_your_dataset")  # Remplacez par votre dataset
train_dataset = dataset["train"].select(range(100))
eval_dataset = dataset["validation"].select(range(100))



training_args = TrainingArguments(
    output_dir=output_dir,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=8,
    num_train_epochs=3,
    logging_steps=10,
    save_strategy="epoch",
    evaluation_strategy="epoch",
    learning_rate=1e-4,
    fp16=True,
    gradient_checkpointing=True,
    report_to=None
)

def preprocess_function(examples):
    inputs = [f"Instruction: {text}" for text in examples["dialogue"]]
    targets = examples["summary"]
    model_inputs = tokenizer(inputs, max_length=512, truncation=True)
    labels = tokenizer(targets, max_length=512, truncation=True).input_ids
    model_inputs["labels"] = labels
    return model_inputs

tokenized_train_dataset = train_dataset.map(preprocess_function, batched=True)
tokenized_eval_dataset = eval_dataset.map(preprocess_function, batched=True)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_train_dataset,
    eval_dataset=tokenized_eval_dataset,
    tokenizer=tokenizer
)

trainer.train()




The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.
Unused kwargs: ['_load_in_4bit', '_load_in_8bit', 'quant_method']. These kwargs are not used in <class 'transformers.utils.quantization_config.BitsAndBytesConfig'>.
Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).
  trainer = Trainer(
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.


ValueError: Expected input batch_size (144) to match target batch_size (21).