# Mistral-7b : Un guide pour le Fine-Tuning des LLMs
Avec seulement 7 milliards de param√®tres, ces mod√®les sont un choix parfait pour les personnes souhaitant effectuer un fine-tuning des LLMs avec des exigences mat√©rielles limit√©es.


## Parameter Efficient Fine Tuning : LoRA et Quantification
Les mod√®les comme Mistral ont rendu possible le fine-tuning gratuitement. Malgr√© sa petite taille, il n√©cessite tout de m√™me jusqu'√† 30 Go de m√©moire GPU. Afin de r√©duire les exigences en mati√®re de m√©moire et les co√ªts, des techniques comme LoRA et la quantification sont utilis√©es.

### LoRA
LoRA est une technique d'adaptation de rang faible qui r√©duit le nombre de param√®tres pendant le fine-tuning. LoRA transforme la matrice de param√®tres en deux matrices de rang inf√©rieur, dont le produit scalaire approxime la matrice d'origine. Le rang "r" est ajustable, permettant de trouver un √©quilibre entre la vitesse et la qualit√© ‚Äî des rangs inf√©rieurs permettent un entra√Ænement plus rapide, mais au d√©triment de la qualit√©.

### Quantification (QLoRA)
Les LLMs utilisent g√©n√©ralement une pr√©cision sur 16 bits, ce qui prend beaucoup de m√©moire pour stocker des poids de haute pr√©cision. La quantification r√©duit la pr√©cision des poids √† 4 ou 8 bits, r√©duisant ainsi consid√©rablement la taille du mod√®le, au prix d'une l√©g√®re baisse de qualit√©. La quantification NF4 convertit les poids √† une pr√©cision de 4 bits. Ainsi, chaque poids peut prendre jusqu'√† 16 valeurs diff√©rentes, les normalisant √† une distribution centr√©e sur z√©ro, ce qui rend les mod√®les plus efficaces en termes de m√©moire tout en ayant un l√©ger impact sur la qualit√©.


In [1]:
# %pip install -q -U bitsandbytes
# %pip install -q -U git+https://github.com/huggingface/transformers.git
# %pip install -q -U git+https://github.com/huggingface/peft.git
# %pip install -q -U git+https://github.com/huggingface/accelerate.git

In [2]:
# %pip install bitsandbytes
# %pip install transformers
# %pip install peft.git
# %pip install accelerate

In [3]:
import os

In [4]:
import torch
from dotenv import load_dotenv
from huggingface_hub import login

In [5]:
# D√©finir l'appareil √† utiliser (GPU si disponible, sinon CPU)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [6]:
load_dotenv()
HUGGING_FACE_KEY =  os.environ.get("HuggingFace_API_KEY")
login(token=HUGGING_FACE_KEY)

In [7]:
from datasets import load_dataset

dataset = load_dataset("jpacifico/finetome_french_cook_definitions_v2")

In [8]:
dataset

DatasetDict({
    train: Dataset({
        features: ['system', 'question', 'answer'],
        num_rows: 5000
    })
})

In [9]:
# D√©finir une fonction pour transformer chaque exemple
def create_input_output(example):
    example['input'] = f"### Instruction: {example['system']} \n ### Question: {example['question']}"
    example['output'] = example['answer']
    return example

In [10]:
# Appliquer la transformation sur chaque exemple du dataset
new_dataset = dataset.map(create_input_output)

# Supprimer les colonnes inutiles ('system', 'question', 'answers')
new_dataset = new_dataset.remove_columns(['system', 'question', 'answer'])

# Pour voir un exemple de ce nouveau dataset avec la colonne 'input'
print(new_dataset['train'][0])  # Afficher le premier exemple

{'input': "### Instruction: Tu es un assistant IA sp√©cialis√© dans le langage culinaire fran√ßais. Une question te sera pos√©e. Tu dois g√©n√©rer une r√©ponse pr√©cise et concise. \n ### Question: Quelle est la d√©finition du mot 'Cr√©mer' en cuisine fran√ßaise ?", 'output': "En cuisine fran√ßaise, 'Cr√©mer' signifie ajouter de la cr√®me dans une pr√©paration ou m√©langer vigoureusement du sucre et du beurre pommade."}


In [11]:
from transformers import AutoTokenizer

organization = "mistralai/"
model_name = "Mistral-7B-v0.1"
base_model_id = organization + model_name

tokenizer = AutoTokenizer.from_pretrained(
    base_model_id,
    padding_side="left",
    add_eos_token=True,
    add_bos_token=True,
)
tokenizer.pad_token = tokenizer.eos_token

max_length = 500 # Set an appropriate length for the dataset, default 500


In [12]:
# Fonction de formatage pour le prompt
def format_func(input_text, output_text):
    text = f"### Instruction: {input_text}\n ### Question: {output_text}"
    return text


# Fonction de tokenisation adapt√©e pour les batchs
def tokenize_prompt_max_length(examples):
    # Formatage du texte pour chaque exemple du batch
    formatted_texts = [format_func(input_text, output_text) for input_text, output_text in zip(examples['input'], examples['output'])]
    
    # Tokenisation des textes format√©s en batch
    result = tokenizer(
        formatted_texts,
        truncation=True,
        max_length=max_length,
        padding="max_length",
    )
    
    # Cr√©er des labels bas√©s sur les input_ids pour chaque exemple
    result["labels"] = result["input_ids"]
    
    return result


In [13]:
# Appliquer la fonction de tokenisation sur chaque split du dataset
tokenized_dataset = new_dataset.map(tokenize_prompt_max_length, batched=True)


In [14]:
# Pour voir un exemple du dataset tokenis√©
print(tokenized_dataset['train'][0])

{'input': "### Instruction: Tu es un assistant IA sp√©cialis√© dans le langage culinaire fran√ßais. Une question te sera pos√©e. Tu dois g√©n√©rer une r√©ponse pr√©cise et concise. \n ### Question: Quelle est la d√©finition du mot 'Cr√©mer' en cuisine fran√ßaise ?", 'output': "En cuisine fran√ßaise, 'Cr√©mer' signifie ajouter de la cr√®me dans une pr√©paration ou m√©langer vigoureusement du sucre et du beurre pommade.", 'input_ids': [2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2

In [15]:
# Diviser le dataset tokenis√© en splits train et √©valuation
split_ratio = 0.1  # On prend 10% des donn√©es pour l'√©valuation
train_test_split = tokenized_dataset['train'].train_test_split(test_size=split_ratio, seed=42)

train_dataset = train_test_split['train']
eval_dataset = train_test_split['test']

In [16]:
print(f"Train dataset size: {len(train_dataset)}")
print(f"Eval dataset size: {len(eval_dataset)}")

Train dataset size: 4500
Eval dataset size: 500


In [17]:
# V√©rifier la structure d'un exemple
print(train_dataset[0])

{'input': "### Instruction: Tu es un assistant IA sp√©cialis√© dans le langage culinaire fran√ßais. Une question te sera pos√©e. Tu dois g√©n√©rer une r√©ponse pr√©cise et concise. \n ### Question: Que signifie le terme 'Ch√¢trer' dans le contexte du langage culinaire fran√ßais ?", 'output': 'Ch√¢trer signifie √©liminer le boyau central des √©crevisses avant leur cuisson.', 'input_ids': [2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 

Maintenant, nous chargeons le mod√®le pr√©-entra√Æn√© en utilisant la biblioth√®que Transformers. Pour cela, nous initialisons le mod√®le avec une configuration de quantification sur 4 bits via `BitsAndBytesConfig`, ce qui r√©duit significativement l'utilisation de la m√©moire afin de s'assurer que le mod√®le puisse tenir dans notre session Google Colab.

In [18]:
from transformers import AutoModelForCausalLM, BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)


In [19]:
model = AutoModelForCausalLM.from_pretrained(base_model_id, quantization_config=bnb_config)

2024-12-03 14:59:24.537757: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1733234364.558209  146750 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1733234364.564440  146750 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-12-03 14:59:24.585229: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
`low_cpu_mem_usage` was None, now default to True since model is quantized.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [20]:
def generate_response(prompt, max_length=200):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_length=max_length,
            num_beams=5,
            no_repeat_ngram_size=2,
            early_stopping=True
        )
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return response


R√©ponse avec le mod√®le non fine tun√©

In [21]:
prompt = "Que veut dire exactement 'Exprimer' dans le domaine culinaire ?"
# prompt = "### Instruction: Tu es un assistant IA sp√©cialis√© dans la cuisine fran√ßaise. \n ### Question: Quelle est la d√©finition du terme 'Exprimer' en cuisine fran√ßaise ?"

response = generate_response(prompt)
print("R√©ponse:", response)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


R√©ponse: Que veut dire exactement 'Exprimer' dans le domaine culinaire ?–∂–µ –∫–∞–∫ –∏ –≤ –¥—Ä—É–≥–∏—Ö —Å—Ñ–µ—Ä–∞—Ö –∂–∏–∑–Ω–∏, –≤ –∫—É–ª–∏–Ω–∞—Ä–∏–∏ —Å—É—â–µ—Å—Ç–≤—É–µ—Ç –º–Ω–æ–∂–µ—Å—Ç–≤–æ —Ç–µ—Ä–º–∏–Ω–æ–≤, –∫–æ—Ç–æ—Ä—ã–µ –º–æ–≥—É—Ç –±—ã—Ç—å —Å–ª–æ–∂–Ω—ã–º–∏ –¥–ª—è –ø–æ–Ω–∏–º–∞–Ω–∏—è, –æ—Å–æ–±–µ–Ω–Ω–æ –¥–ª—è —Ç–µ—Ö, –∫—Ç–æ —Ç–æ–ª—å–∫–æ –Ω–∞—á–∏–Ω–∞–µ—Ç –æ—Å–≤–∞–∏–≤–∞—Ç—å —ç—Ç–æ—Ç –∏–Ω—Ç–µ—Ä–µ—Å–Ω—ã–π –º–∏—Ä. –í —ç—Ç–æ–π —Å—Ç–∞—Ç—å–µ –º—ã –ø–æ–ø—ã—Ç–∞–µ–º—Å—è —Ä–∞–∑–æ–±—Ä–∞—Ç—å—Å—è –≤ —Ç–æ–º, —á—Ç–æ –æ–∑–Ω–∞—á–∞–µ—Ç –≤—ã—Ä–∞–∂–µ–Ω–∏–µ "exprimer" –≤ –∫–æ–Ω—Ç–µ–∫—Å—Ç–µ –ø—Ä–∏–≥–æ—Ç–æ–≤–ª–µ–Ω–∏—è –ø–∏—â–∏, —Ä–∞—Å—Å–º–æ—Ç—Ä–µ–≤ –µ–≥–æ –≤ —Ä–∞–∑–ª–∏—á–Ω—ã—Ö –∞—Å–ø–µ–∫—Ç–∞—Ö, —Ç–∞–∫–∏—Ö –∫–∞–∫ –∏—Å—Ç–æ—Ä–∏—è, –æ–ø—Ä–µ–¥–µ–ª–µ–Ω–∏–µ, –ø—Ä–∏–º–µ—Ä—ã –∏—Å–ø–æ–ª—å–∑–æ–≤–∞–Ω–∏—è –∏ –ø—Ä–∏–º–µ–Ω–µ–Ω–∏–µ –≤ —Ä–µ—Ü–µ–ø—Ç–∞—Ö. –î–∞–≤–∞–π—Ç–µ –≤–º–µ—Å—Ç–µ –∏–∑—É—á–∏–º —ç—Ç–æ —Å–ª–æ–≤–æ, —á—Ç–æ–±—ã –ª—É—á—à–µ –ø–æ–Ω—è—Ç—å, –∫–∞–∫ –æ–Ω–æ –≤–ª–∏—è–µ—Ç


In [22]:
from accelerate import FullyShardedDataParallelPlugin, Accelerator
from torch.distributed.fsdp.fully_sharded_data_parallel import FullOptimStateDictConfig, FullStateDictConfig
from peft import prepare_model_for_kbit_training

fsdp_plugin = FullyShardedDataParallelPlugin(
    state_dict_config=FullStateDictConfig(offload_to_cpu=True, rank0_only=False),
    optim_state_dict_config=FullOptimStateDictConfig(offload_to_cpu=True, rank0_only=False),
)

In [23]:
accelerator = Accelerator(fsdp_plugin=fsdp_plugin)

model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)

√Ä ce stade, nous configurons LoRA avec "r=16" et "alpha=64" afin de trouver un √©quilibre entre efficacit√© et pr√©cision lors du fine-tuning. Le param√®tre "r" ajuste le rang de la matrice de faible rang : des valeurs plus √©lev√©es offrent de meilleures performances, mais au prix d'un fine-tuning plus lent. Le param√®tre "alpha" permet de moduler les poids, des valeurs plus √©lev√©es donnant davantage d'importance aux activations de LoRA. Ce morceau de code affiche le pourcentage de param√®tres entra√Ænables pendant le fine-tuning.


In [24]:
from peft import LoraConfig, get_peft_model

config = LoraConfig(
    r=16,
    lora_alpha=64,
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
        "lm_head",
    ],
    bias="none",
    lora_dropout=0.05,
    task_type="CAUSAL_LM",
)


In [25]:
model = get_peft_model(model, config)

In [26]:
def print_train_params(model):
    trainable_params = 0
    all_param = 0
    for _, param in model.named_parameters():
        all_param += param.numel()
        if param.requires_grad:
            trainable_params += param.numel()
    print(
        f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 * trainable_params / all_param}"
    )


In [27]:
print_train_params(model)

trainable params: 42520576 || all params: 3794591744 || trainable%: 1.1205573318192514


In [28]:
if torch.cuda.device_count() > 1: # If more than 1 GPU
    model.is_parallelizable = True
    model.model_parallel = True

model = accelerator.prepare_model(model)

Enfin, nous proc√©dons au fine-tuning du mod√®le, en d√©finissant `max_steps` √† 500 par exemple et un `learning_rate` de 1e-4. 

Nous configurons le `Trainer` pour √©valuer le mod√®le tous les 25 pas, ce qui nous permet de suivre la progression de l'apprentissage. 

En utilisant le param√®tre `save_strategy`, nous sauvegardons les poids du mod√®le √† chaque point d'√©valuation, c'est-√†-dire tous les 25 pas. 

Cette strat√©gie nous permettra plus tard de s√©lectionner les poids en fonction des performances d'√©valuation. De cette mani√®re, nous pourrons potentiellement faire face au surapprentissage (overfitting) en choisissant des poids obtenus lors d'une phase ant√©rieure de l'entra√Ænement.


In [29]:
import transformers
from datetime import datetime

project = "journal-finetune"
base_model_name = "mistral"
run_name = base_model_name + "-" + project
output_dir = "/mnt/Models/Mistral7B_finetuned_" + run_name

In [30]:
trainer = transformers.Trainer(
    model=model,
    train_dataset = train_dataset,
    eval_dataset  = eval_dataset,
    args=transformers.TrainingArguments(
        output_dir=output_dir,
        warmup_steps=1,
        per_device_train_batch_size=2,
        gradient_accumulation_steps=1,
        gradient_checkpointing=True,
        max_steps=500, # default 500
        learning_rate=1e-4,
        fp16=True,
        fp16_full_eval=True,
        optim="paged_adamw_8bit",
        logging_steps=20,
        logging_dir="./logs",
        save_strategy="steps",
        save_steps=50, #125 default
        evaluation_strategy="steps",
        eval_steps=50, #125 default
        do_eval=True,
    ),
    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),
)




In [31]:
model.config.use_cache = False
trainer.train()

[34m[1mwandb[0m: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
[34m[1mwandb[0m: Currently logged in as: [33mmedhi-famibelle[0m ([33mmedhi-famibelle-akabi[0m). Use [1m`wandb login --relogin`[0m to force relogin


Step,Training Loss,Validation Loss
50,0.5567,0.552925
100,0.4627,0.517624
150,0.4596,0.467096
200,0.415,0.4295
250,0.4435,0.394231
300,0.3431,0.373917
350,0.3784,0.34162
400,0.327,0.317975
450,0.3081,0.299921
500,0.2891,0.290728




TrainOutput(global_step=500, training_loss=0.4199739284515381, metrics={'train_runtime': 4621.0347, 'train_samples_per_second': 0.216, 'train_steps_per_second': 0.108, 'total_flos': 2.1459542016e+16, 'train_loss': 0.4199739284515381, 'epoch': 0.2222222222222222})

Maintenant que nous allons recharger le mod√®le dans la session, il n'y aura pas assez de m√©moire GPU pour h√©berger le mod√®le de base ainsi que le mod√®le fine-tun√©. Par cons√©quent, nous recommandons de sauvegarder les poids sur votre ordinateur. Les poids peuvent √™tre trouv√©s √† l'adresse : `content/mistral-journal-finetune/checkpoint-xxx/`. Ensuite, red√©marrez le kernel et chargez √† nouveau les poids.


In [32]:
import torch 
from peft import PeftModel
from transformers import AutoModelForCausalLM, BitsAndBytesConfig, AutoTokenizer

organization = "mistralai/"
model_name = "Mistral-7B-v0.1"
base_model_id = organization + model_name

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)
base_model = AutoModelForCausalLM.from_pretrained(
    base_model_id,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True,
)


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [33]:
# ft_model = PeftModel.from_pretrained(base_model, "/content/mistral-journal-finetune/checkpoint-750")
ft_model = PeftModel.from_pretrained(base_model, "/mnt/Models/Mistral7B_finetuned_mistral-journal-finetune/checkpoint-450/")

eval_tokenizer = AutoTokenizer.from_pretrained(base_model_id, add_bos_token=True, trust_remote_code=True)

Enfin, nous pouvons ex√©cuter des inf√©rences sur notre mod√®le fine-tun√©.


In [None]:
exemple1 = "Quelle est la d√©finition du mot 'Cr√©mer' en cuisine fran√ßaise ?"
exemple2 = "Que veut dire exactement 'Exprimer' dans le domaine culinaire ?"

In [40]:
model_input = eval_tokenizer(exemple1, return_tensors="pt").to("cuda")

ft_model.eval()
with torch.no_grad():
    print(eval_tokenizer.decode(ft_model.generate(**model_input, max_new_tokens=64, repetition_penalty=1.15)[0], skip_special_tokens=True))

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


Quelle est la d√©finition du mot 'Cr√©mer' en cuisine fran√ßaise ?
 ### Cr√©mer : Ajouter de la cr√®me dans une pr√©paration.

Quelle est la d√©finition du mot 'Dess√©cher' en cuisine fran√ßaise ?
 ### Dess√©cher : Rendre un aliment moins sec en le plongeant dans un liqu


In [41]:
model_input = eval_tokenizer(exemple2, return_tensors="pt").to("cuda")

ft_model.eval()
with torch.no_grad():
    print(eval_tokenizer.decode(ft_model.generate(**model_input, max_new_tokens=64, repetition_penalty=1.15)[0], skip_special_tokens=True))

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


Que veut dire exactement 'Exprimer' dans le domaine culinaire ?
 ### Exprimer signifie faire sortir du jus des fruits ou des l√©gumes en les pressant. Cela peut √©galement d√©signer l'action de d√©crire une recette √† haute voix, comme un chef d'un restaurant. En cuisine, exprimer est syn
