<a href="https://colab.research.google.com/github/amoukrim/AI/blob/main/Week7/DailyChallenge/dailyChallengew_7_d2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#@Author: Adil MOUKRIM
#How to Finetune LLMs with LoRA
Last Updated: March 18th, 2025

Daily Challenge : How to Finetune LLMs with LoRA


Parameter-Efficient Fine-Tuning (PEFT) methods, like LoRA, address the challenges of fine-tuning large language models (LLMs) by only updating a small subset of the model’s parameters. This approach significantly reduces computational and storage costs, making LLM fine-tuning more accessible. PEFT techniques allow developers to adapt pre-trained models to specific tasks without retraining the entire model, leading to faster development cycles and reduced resource consumption.
You will implement it for this challenge.



👩‍🏫 👩🏿‍🏫 What You’ll learn
How to apply Low-Rank Adaptation (LoRA) to a pre-trained language model.
How to fine-tune a LoRA-adapted model using the Hugging Face PEFT library.
How to save and load a fine-tuned LoRA model.
How to perform inference using a fine-tuned LoRA model.


🛠️ What you will create
A fine-tuned language model that generates text based on a specific dataset of quotes, using LoRA.


Dataset
The “Abirate/english_quotes” dataset, specifically a 10% sample of the training split.


Task
Install necessary libraries (PEFT, datasets).
Load a pre-trained language model (bigscience/bloomz-560m) and its tokenizer.
Load the dataset and preprocess it for the model.
Configure LoRA using LoraConfig.
Apply LoRA to the pre-trained model using get_peft_model.
Set up training arguments using TrainingArguments.
Initialize and train the model using Trainer.
Save the fine-tuned LoRA model.
Load the saved LoRA model for inference using PeftModel.from_pretrained.
Generate text using the fine-tuned model and the tokenizer.


Hint :

%pip install peft==0.4.0

mkdir cache

!pip install datasets

from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name =
tokenizer =
foundation_model =

data =  # Sample 10%
data = data.map(lambda samples: tokenizer(samples["quote"]), batched=True)
train_sample = data.select(range(5))
display(train_sample)

import peft
from peft import LoraConfig, get_peft_model

#Fill in `r=1` and `target_modules`.
lora_config = LoraConfig(
    r=,
    lora_alpha=, # a scaling factor that adjusts the magnitude of the weight matrix. Usually set to 1
    target_modules=,
    lora_dropout=,
    bias="none", # this specifies if the bias parameter should be trained.
    task_type="CAUSAL_LM"
)

#Add the adapter layers to the foundation model to be trained
peft_model = get_peft_model(foundation_model, lora_config)
print(peft_model.print_trainable_parameters())


# Fill out the `Trainer` class.

import transformers
from transformers import TrainingArguments, Trainer
import os

output_directory = os.path.join("../cache/working", "peft_lab_outputs")
training_args = TrainingArguments(
    report_to="none",
    output_dir=output_directory,
    auto_find_batch_size=,
    learning_rate= 3e-2, # Higher learning rate than full fine-tuning.
    num_train_epochs=,
    use_cpu=True
)

trainer = Trainer(
    model=,
    args=,
    train_dataset=e,
    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False)
)
trainer.train()

# Load the PEFT model using pre-defined LoRA configs and foundation model. We set `is_trainable=False` to avoid further training.

import time

time_now =
peft_model_path = os.path.join(output_directory, f"peft_model_{time_now}")
trainer.model.save_pretrained(peft_model_path)

# Generate output tokens

inputs = tokenizer("Two things are infinite: ", return_tensors="pt")
outputs = peft_model.generate(
    ...
    )

print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

#Étape 1 : Installation des bibliothèques nécessaires :

peft==0.4.0 : pour appliquer LoRA à notre modèle pré-entraîné.

datasets : pour charger le jeu de données Hugging Face.

In [1]:
# Étape 1 : Installer les bibliothèques nécessaires
# PEFT permet d'appliquer LoRA, datasets pour charger les données, transformers pour le modèle
%pip install peft==0.4.0  # Version spécifique pour éviter les conflits
%pip install datasets     # Pour charger le dataset Abirate/english_quotes
%pip install transformers # Pour charger le modèle BLOOMZ et le tokenizer


Collecting peft==0.4.0
  Downloading peft-0.4.0-py3-none-any.whl.metadata (21 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.13.0->peft==0.4.0)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=1.13.0->peft==0.4.0)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=1.13.0->peft==0.4.0)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=1.13.0->peft==0.4.0)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch>=1.13.0->peft==0.4.0)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch>=

peft (Parameter Efficient Fine-Tuning) permet d’ajouter des couches LoRA à un modèle existant sans changer tous les poids du modèle.

La version 0.4.0 est stable et compatible avec les versions récentes de transformers.

datasets permet de charger facilement notre dataset Abirate/english_quotes.

#Étape 2 : Chargement du modèle et du dataset
L'Objectif :
Charger le modèle pré-entraîné bigscience/bloomz-560m.

1. Charger le tokenizer correspondant.

2. Élément de liste
Télécharger et préparer un échantillon de 10% du dataset "Abirate/english_quotes".

3. Tokenizer les citations.



from datasets import load_dataset

# Charger la version transformée en Parquet prête à l’emploi
full_data = load_dataset("Sukanth07/abirate-english-quotes-transformed", split="train")

# Vérifier la taille initiale
print(f"Taille initiale : {len(full_data)} exemples")


#  Étape 2 : Chargement du modèle et du tokenizer

In [2]:
# Étape 2 : Charger le modèle pré-entraîné et le tokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer

# Nom du modèle pré-entraîné (BLOOMZ 560M est léger et bien adapté au fine-tuning)
model_name = "bigscience/bloomz-560m"

# Charger le tokenizer (convertit le texte en tokens compréhensibles par le modèle)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Charger le modèle de base (attention : utiliser CPU pour éviter des problèmes de GPU)
foundation_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    trust_remote_code=True,  # Autoriser le code custom du modèle
    device_map="cpu"         # Forcer l'utilisation du CPU (évite les erreurs CUDA)
)

# Afficher le nombre total de paramètres du modèle
print(f"Total parameters in {model_name}: {foundation_model.num_parameters():,}")

tokenizer_config.json:   0%|          | 0.00/222 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/14.5M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/85.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/715 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.12G [00:00<?, ?B/s]

Total parameters in bigscience/bloomz-560m: 559,214,592


Pourquoi ce modèle ?
bloomz-560m est léger (~500M de paramètres), donc adapté à un fine-tuning rapide avec peu de ressources.

Le tokenizer doit absolument venir du même modèle sinon les tokens ne correspondront pas à ce que le modèle attend.

#Étape 3 : Chargement et pré-traitement du dataset

L'objectif est :
- Charger le dataset Abirate/english_quotes.
- Prendre un échantillon de 10 % de la partie train.
- Tokeniser les citations (quote) avec le tokenizer chargé précédemment.
- Garder seulement 5 exemples pour un entraînement rapide (test).

In [3]:
# Étape 3-bis : Réinstaller les bibliothèques en versions stables
%pip install --upgrade --force-reinstall datasets fsspec huggingface-hub

# ⚠️ Après exécution, redémarrez le runtime :
# - Colab : Menu "Runtime" → "Restart runtime"
# - Jupyter : Kernel → Restart

Collecting datasets
  Downloading datasets-4.0.0-py3-none-any.whl.metadata (19 kB)
Collecting fsspec
  Downloading fsspec-2025.7.0-py3-none-any.whl.metadata (12 kB)
Collecting huggingface-hub
  Downloading huggingface_hub-0.33.4-py3-none-any.whl.metadata (14 kB)
Collecting filelock (from datasets)
  Downloading filelock-3.18.0-py3-none-any.whl.metadata (2.9 kB)
Collecting numpy>=1.17 (from datasets)
  Downloading numpy-2.3.1-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (62 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.1/62.1 kB[0m [31m5.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pyarrow>=15.0.0 (from datasets)
  Downloading pyarrow-21.0.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (3.3 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting pandas (from datasets)
  Downloading pandas-2.3.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (91 kB)
[2K     [90m━━━━━━

In [1]:
# Étape 3-complète : Rechargement du tokenizer, modèle et dataset

# 1. Recharger le tokenizer
from transformers import AutoTokenizer
model_name = "bigscience/bloomz-560m"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 2. Charger le dataset
from datasets import load_dataset
full_data = load_dataset("Abirate/english_quotes", split="train")
print(f"Dataset original : {len(full_data)} exemples")
print(full_data) # pour vérifier la structure (colonnes, types).

# 3. Prendre 10 % aléatoire
sample_size = max(1, int(0.1 * len(full_data)))
data = full_data.shuffle(seed=42).select(range(sample_size))

# 4. Tokeniser les citations
def tokenize_function(examples):
    return tokenizer(examples["quote"], truncation=True, max_length=128)

data = data.map(tokenize_function, batched=True)

# 5. Garder 5 exemples pour l'entraînement rapide
train_sample = data.select(range(min(5, len(data))))
print("Exemples tokenisés :")
print(train_sample)

README.md: 0.00B [00:00, ?B/s]

quotes.jsonl:   0%|          | 0.00/647k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/2508 [00:00<?, ? examples/s]

Dataset original : 2508 exemples


Map:   0%|          | 0/250 [00:00<?, ? examples/s]

Exemples tokenisés :
Dataset({
    features: ['quote', 'author', 'tags', 'input_ids', 'attention_mask'],
    num_rows: 5
})


# Étape 4 : Configuration de LoRA (Low-Rank Adaptation) :

Maintenant que le dataset est prêt, je vais définir la configuration LoRA(LoraConfig) :
r : rang de décomposition (low-rank) → on commence avec r=8.
lora_alpha : facteur d’échelle → 1 par défaut.
target_modules : les modules à adapter → ici ["query_key_value"] (attention QKV dans BLOOMZ).
lora_dropout : taux de dropout → 0.1 (évite l’overfitting).
bias : on ne touche pas les biais ("none").
task_type : CAUSAL_LM (génération de texte).

In [3]:
# Étape 4-complète : Recharger le modèle, configurer LoRA

# 1. Recharger le modèle pré-entraîné
from transformers import AutoModelForCausalLM
model_name = "bigscience/bloomz-560m"
foundation_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    trust_remote_code=True,
    device_map="cpu"  # Forcer l’utilisation du CPU
)

# 2. Configurer LoRA
from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=8,
    lora_alpha=1,
    target_modules=["query_key_value"],
    lora_dropout=0.1,
    bias="none",
    task_type="CAUSAL_LM"
)

# 3. Appliquer LoRA au modèle
peft_model = get_peft_model(foundation_model, lora_config)

# 4. Afficher les paramètres entraînables
print("Paramètres entraînables après LoRA :")
peft_model.print_trainable_parameters()

Paramètres entraînables après LoRA :
trainable params: 786,432 || all params: 560,001,024 || trainable%: 0.14043402892063284


#✅ Étape 5 : Configuration des arguments d’entraînement (TrainingArguments)

Maintenant que LoRA est appliqué (seulement 0.14 % des paramètres sont entraînables), nous allons configurer l’entraînement avec TrainingArguments :
📌 Paramètres clés :
output_dir : dossier où sauvegarder le modèle.
auto_find_batch_size=True : évite les OOM en ajustant automatiquement la taille du batch.
learning_rate=3e-2 : plus élevé que le fine-tuning classique (car LoRA a peu de paramètres).
num_train_epochs=1 : un seul passage suffit pour un petit dataset.
use_cpu=True : forcer l’utilisation du CPU.

In [4]:
# Étape 5 : Configurer les arguments d'entraînement
from transformers import TrainingArguments
import os

# Créer le dossier de sortie
output_directory = os.path.join("cache", "peft_lab_outputs")
os.makedirs(output_directory, exist_ok=True)

training_args = TrainingArguments(
    report_to="none",  # Désactive les logs externes (WandB, etc.)
    output_dir=output_directory,
    auto_find_batch_size=True,  # Ajuste automatiquement la taille du batch
    learning_rate=3e-2,  # Learning rate élevé pour LoRA
    num_train_epochs=1,  # Un seul epoch suffit ici
    use_cpu=True,  # Utiliser le CPU (pas de GPU nécessaire)
    logging_steps=1,  # Afficher les logs à chaque étape
    save_steps=10,  # Sauvegarder toutes les 10 étapes
    save_total_limit=1  # Garder seulement le dernier checkpoint
)

print("✅ TrainingArguments configurés avec succès.")
print(f"📁 Dossier de sortie : {output_directory}")

✅ TrainingArguments configurés avec succès.
📁 Dossier de sortie : cache/peft_lab_outputs


#  Étape 6 : Initialisation et lancement de l’entraînement avec Trainer

L'objectif est de :
Initialiser le Trainer avec :
Le modèle LoRA (peft_model).
Les arguments d’entraînement (training_args).
Le dataset d’entraînement (train_sample).

In [5]:
# Étape 6 : Initialiser le Trainer et lancer l'entraînement
from transformers import Trainer, DataCollatorForLanguageModeling

# DataCollator pour regrouper les séquences (pas de masking MLM car c'est un modèle causal)
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False  # Pas de masked language modeling (BLOOM est un modèle causal)
)

# Initialiser le Trainer
trainer = Trainer(
    model=peft_model,  # Modèle avec LoRA
    args=training_args,  # Arguments d'entraînement
    train_dataset=train_sample,  # Dataset réduit à 5 exemples pour le test
    data_collator=data_collator  # Regroupement des séquences
)

# Lancer l'entraînement
print("🚀 Lancement de l'entraînement...")
trainer.train()

# Afficher un résumé
print("✅ Entraînement terminé !")

No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.


🚀 Lancement de l'entraînement...


Step,Training Loss
1,3.8279


✅ Entraînement terminé !


# Étape 7 : Sauvegarde du modèle LoRA fine-tuné

Maintenant que l’entraînement est terminé, l'objectif est de :
Créer un nom de dossier unique avec la date/heure actuelle.
Sauvegarder le modèle fine-tuné dans ce dossier.

In [6]:
# Étape 7 : Sauvegarder le modèle LoRA fine-tuné
import time
import os

# 1. Créer un nom de dossier unique avec l'horodatage
time_now = time.strftime("%Y%m%d_%H%M%S")
peft_model_path = os.path.join(output_directory, f"peft_model_{time_now}")

# 2. Sauvegarder le modèle
trainer.model.save_pretrained(peft_model_path)

print(f"✅ Modèle LoRA sauvegardé dans : {peft_model_path}")

✅ Modèle LoRA sauvegardé dans : cache/peft_lab_outputs/peft_model_20250722_134025


# Étape 8 : Chargement du modèle fine-tuné pour l’inférence:
L'ojectif est de :
* Recharger le modèle LoRA sauvegardé.

* Utiliser le même modèle de base (bloomz-560m).
* Tester l’inférence avec une phrase de prompt.

In [7]:
# Étape 8 : Recharger le modèle LoRA fine-tuné et faire une inférence
from peft import PeftModel

# 1. Recharger le modèle de base
foundation_model_for_inference = AutoModelForCausalLM.from_pretrained(
    "bigscience/bloomz-560m",
    trust_remote_code=True,
    device_map="cpu"
)

# 2. Charger les poids LoRA fine-tunés
peft_model_loaded = PeftModel.from_pretrained(
    foundation_model_for_inference,
    peft_model_path,
    is_trainable=False  # On ne veut pas entraîner, juste faire de l’inférence
)

# 3. Préparer le prompt
prompt = "Two things are infinite: "
inputs = tokenizer(prompt, return_tensors="pt")

# 4. Générer du texte
print("🔄 Génération en cours...")
outputs = peft_model_loaded.generate(
    **inputs,
    max_new_tokens=20,    # Générer 20 nouveaux tokens
    do_sample=True,       # Activer l’échantillonnage pour plus de variété
    temperature=0.7,      # Contrôler la créativité
    pad_token_id=tokenizer.eos_token_id  # Éviter les avertissements
)

# 5. Afficher le résultat
generated_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]
print("✅ Texte généré :")
print(generated_text)

🔄 Génération en cours...
✅ Texte généré :
Two things are infinite:  time and space. But time is a very important subject.


# Résumé final :

| Étape | Statut | Détails                                                                    |
| ----- | ------ | -------------------------------------------------------------------------- |
| **1** | ✅      | Installation des bibliothèques (`peft`, `datasets`, `transformers`)        |
| **2** | ✅      | Chargement du modèle `bloomz-560m` + tokenizer                             |
| **3** | ✅      | Dataset `english_quotes` chargé, 10 % échantillonné, 5 exemples tokenisés  |
| **4** | ✅      | Configuration LoRA appliquée (0.14 % des paramètres entraînables)          |
| **5** | ✅      | `TrainingArguments` configurés (CPU, epoch=1, lr=3e-2)                     |
| **6** | ✅      | Entraînement réussi (loss ≈ 3.83 sur 5 exemples)                           |
| **7** | ✅      | Modèle sauvegardé dans `cache/peft_lab_outputs/peft_model_20250722_134025` |
| **8** | ✅      | Inférence réussie → `"Two things are infinite: time and space..."`         |




| Étape                        | Statut | Détails + **Points explorés**                                                                                                                                                                                                                                                                                                                              |
| ---------------------------- | ------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| **1 – Importations**         | ✅      | **Bibliothèques essentielles** : `transformers`, `datasets`, `peft`, `torch`.<br>**À explorer** : `pip list` pour vérifier les versions, `import inspect` pour voir les signatures de fonctions.                                                                                                                                                             |
| **2 – Chargement du modèle** | ✅      | **Modèle causal** : `AutoModelForCausalLM` prédit le prochain token dans une séquence (génération de texte).<br>**Tokenizer** : convertit texte → tokens (IDs) compris par le modèle. Inversement, tokens → texte lisible.<br>**À explorer** : `print(tokenizer)` pour voir le vocabulaire, `tokenizer.decode([...])` pour comprendre la rétro-traduction.   |
| **3 – Données**              | ✅      | **load\_dataset** : télécharge depuis Hugging Face Hub ou charge un fichier local.<br>**`split="train[:10%]"`** : sélectionne les 10 % premiers éléments du split d’entraînement (équivalent à `.select(range(int(0.1*len(dataset))))`).<br>**À explorer** : `print(dataset)` ou `dataset.info` pour voir les colonnes et types.                             |
| **4 – Prétraitement**        | ✅      | **map()** : applique une transformation à chaque exemple (tokenisation ici).<br>**lambda** : fonction anonyme courte, ici `lambda x: tokenizer(x["quote"])`.<br>**À explorer** : `print(dataset[0])` avant et après `map()` pour voir l’ajout des `input_ids`.                                                                                               |
| **5 – Échantillonnage**      | ✅      | **select(range(n))** : prend exactement `n` exemples (ici 5) en respectant l’ordre.<br>**Autres méthodes** : `.shuffle(seed=42)` pour mélanger, `.filter()` pour des critères complexes.<br>**À explorer** : comparez `dataset.select([0, 2, 4])` vs `dataset.shuffle(seed=123).select(range(3))`.                                                           |
| **6 – LoRA & Entraînement**  | ✅      | Seulement 0.14 % des paramètres modifiés (786 k vs 560 M).<br>**Conseils de débogage** :<br>- `print(data)` pour vérifier la structure (colonnes, types).<br>- `dir(data)` pour lister toutes les méthodes disponibles (`select`, `filter`, `train_test_split`, etc.).<br>- `print(trainer.state.log_history)` après `trainer.train()` pour voir les pertes. |
