# Fine-Tuning du Mod√®le LLAMA 3

Ce notebook a pour objectif d'effectuer un fine-tuning du mod√®le **LLAMA 3** en utilisant un dataset personnalis√©.  
Nous allons suivre les √©tapes suivantes :

1. **Installation des D√©pendances** : Installation des biblioth√®ques n√©cessaires, notamment `transformers`, `bitsandbytes`, `datasets` et `peft`.  
2. **Connexion √† Hugging Face et T√©l√©chargement du Mod√®le** : Authentification √† Hugging Face et chargement du mod√®le [`Llama-3.2-1B-Instruct`](https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct).  
3. **Traitement du Jeu de Donn√©es** : Pr√©traitement des donn√©es, tokenization et mise en forme pour le fine-tuning.  
4. **Entra√Ænement du Mod√®le** : Fine-tuning en utilisant **LoRA** et **QLoRA** pour optimiser la consommation m√©moire.  
5. **Sauvegarde du Mod√®le et Conversion vers Ollama** : Exportation du mod√®le entra√Æn√© au format compatible **Ollama** pour une utilisation simplifi√©e en local.  

Nous utiliserons **`transformers`** de Hugging Face pour le mod√®le, **`datasets`** pour la gestion des donn√©es, et **`peft`** pour des optimisations d'entra√Ænement sur GPU.

üí° **Objectif** : Adapter LLAMA 3 √† une t√¢che sp√©cifique tout en optimisant les performances et la consommation m√©moire.

üöÄ **Commen√ßons !**

# 1. Installation des D√©pendances

Avant de commencer le fine-tuning de LLAMA 3, assurez-vous d‚Äôinstaller les logiciels recommand√©s :

‚úÖ **Git Bash** ‚Üí [T√©l√©charger ici](https://git-scm.com/downloads)  
‚úÖ **Python 3.12** ‚Üí [T√©l√©charger ici](https://www.python.org/downloads/release/python-3128/)  
üìå *Pensez √† cocher l‚Äôoption "Ajouter Python aux variables d‚Äôenvironnement" lors de l‚Äôinstallation*  
‚úÖ **VS Code** ‚Üí [T√©l√©charger ici](https://code.visualstudio.com/Download)  
‚úÖ **Ollama** ‚Üí [T√©l√©charger ici](https://ollama.com/download)  

---

### üìå Ex√©cution du script d‚Äôinstallation

Une fois les logiciels install√©s, ouvrez un terminal **Git Bash** et ex√©cutez la commande suivante pour lancer l‚Äôinstallation des d√©pendances et du projet :

   ```bash
   bash installation.sh





# 2. Connexion √† Hugging Face

Pour t√©l√©charger et utiliser le mod√®le **Llama-3.2-1B-Instruct**, vous devez d‚Äôabord configurer votre acc√®s √† Hugging Face.

### üîπ √âtape 1 : Cr√©er un compte Hugging Face
Si vous n‚Äôavez pas encore de compte, cr√©ez-en un ici :  
üëâ [Cr√©er un compte Hugging Face](https://huggingface.co/join)

---

### üîπ √âtape 2 : G√©n√©rer un Token d‚Äôauthentification
1. Rendez-vous dans les param√®tres des tokens :  
   üëâ [Cr√©er un token ici](https://huggingface.co/settings/tokens)
2. Cliquez sur **New token**.
3. Donnez-lui un nom (ex. : `llama3-token`) et attribuez-lui les droits **read**.
4. Copiez le token g√©n√©r√©.

---

### üîπ √âtape 3 : Demander l'acc√®s au mod√®le LLAMA 3  
Le mod√®le **Llama-3.2-1B-Instruct** n√©cessite une demande d'acc√®s.  
Rendez-vous sur cette page et cliquez sur **Request access** :  
üëâ [Demander l‚Äôacc√®s au mod√®le](https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct)  

---

### üîπ √âtape 4 : Connexion √† Hugging Face dans le Notebook  

Ex√©cutez le code suivant pour vous connecter √† Hugging Face avec votre token dans le terminal :
   ```
   huggingface-cli login
   ```
---

### üîπ √âtape 5 : T√©l√©chargement et Chargement du Mod√®le LLAMA 3  

Une fois connect√©, on peut t√©l√©charger et charger le mod√®le :
      ```

      from transformers import AutoModelForCausalLM, AutoTokenizer

      MODEL_NAME = "meta-llama/Llama-3.2-1B-Instruct"


      ### Chargement du tokenizer et du mod√®le
      tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
      model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, device_map="auto")

      print("‚úÖ Mod√®le LLAMA 3 charg√© avec succ√®s !")

      ```
üöÄ **Votre mod√®le LLAMA 3 est maintenant pr√™t √† √™tre utilis√© !**



In [1]:
# Use a pipeline as a high-level helper
# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3.2-1B-Instruct")
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.2-1B-Instruct")

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
prompt = "Qui-es-tu ?"

# Tokeniser l'entr√©e
inputs = tokenizer(prompt, return_tensors="pt")

In [3]:
# Visualisation des tokens d'entr√©e
outputs =model.generate(**inputs, max_length=40)

outputs

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


In [4]:
# Visualisation des tokens de sorties
outputs =model.generate(**inputs, max_length=40)

outputs

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


In [5]:
# D√©codage des tokens de sortie
tokenizer.decode(outputs[0], skip_special_tokens=True)



'Qui-es-tu? (I am you)\nI am you\nI am you\n\nUn peu de philosophie\n\nUn √™tre humain est une forme de vie complexe, avec des bes'

In [6]:
# Sauvegarde du mod√®le 
model.save_pretrained("llama3-1B")
tokenizer.save_pretrained("llama3-1B")

('llama3-1B\\tokenizer_config.json',
 'llama3-1B\\special_tokens_map.json',
 'llama3-1B\\tokenizer.json')

In [8]:
# Conversion en gguf pour utilisation dans Ollama

!python ./llama.cpp/convert_hf_to_gguf.py ./llama3-1B

INFO:hf-to-gguf:Loading model: llama3-1B
INFO:gguf.gguf_writer:gguf: This GGUF file is for Little Endian only
INFO:hf-to-gguf:Exporting model...
INFO:hf-to-gguf:rope_freqs.weight,           torch.float32 --> F32, shape = {32}
INFO:hf-to-gguf:gguf: loading model part 'model.safetensors'
INFO:hf-to-gguf:token_embd.weight,           torch.float32 --> F16, shape = {2048, 128256}
INFO:hf-to-gguf:blk.0.attn_norm.weight,      torch.float32 --> F32, shape = {2048}
INFO:hf-to-gguf:blk.0.ffn_down.weight,       torch.float32 --> F16, shape = {8192, 2048}
INFO:hf-to-gguf:blk.0.ffn_gate.weight,       torch.float32 --> F16, shape = {2048, 8192}
INFO:hf-to-gguf:blk.0.ffn_up.weight,         torch.float32 --> F16, shape = {2048, 8192}
INFO:hf-to-gguf:blk.0.ffn_norm.weight,       torch.float32 --> F32, shape = {2048}
INFO:hf-to-gguf:blk.0.attn_k.weight,         torch.float32 --> F16, shape = {2048, 512}
INFO:hf-to-gguf:blk.0.attn_output.weight,    torch.float32 --> F16, shape = {2048, 2048}
INFO:hf-to-g

# 3. Traitement du Jeu de Donn√©es

## üìå Format des donn√©es  

Le mod√®le **LLAMA 3** attend des donn√©es sous un format sp√©cifique.  
Nous devons structurer les conversations en **JSON Lines** (`.jsonl`), o√π chaque ligne repr√©sente un √©change entre l‚Äôutilisateur et l‚Äôassistant.

Exemple de fichier `data.jsonl` :

```json
{"messages": [{"role": "user", "content": "Qui es-tu ?"}, {"role": "assistant", "content": "Je suis l'assistant de l'INRAE<|endoftext|>"}]}
```

### üîπ Explication :  
- **`role: user`** ‚Üí Contenu du message de l‚Äôutilisateur  
- **`role: assistant`** ‚Üí R√©ponse g√©n√©r√©e par le mod√®le  
- **`<|endoftext|>`** ‚Üí **Token de fin de texte** qui marque la fin d‚Äôune conversation  

Ce format est essentiel pour que le mod√®le apprenne √† r√©pondre correctement en conservant le contexte.

---

## üîÑ Transformations appliqu√©es  

Le mod√®le **LLAMA 3** ne peut pas directement utiliser du texte brut. Nous devons **convertir** les messages en une forme que le mod√®le peut traiter :  
- **`input_ids`** : Repr√©sentation des tokens du texte  
- **`attention_mask`** : Masque indiquant quelles parties du texte doivent √™tre prises en compte  
- **`labels`** : Donn√©es de sortie attendues pour l‚Äôapprentissage  

### üìç **Avant transformation :**  
Format brut des donn√©es :

```python
{
    "messages": [
        {"role": "user", "content": "Qui es-tu ?"},
        {"role": "assistant", "content": "Je suis l'assistant de l'INRAE<|endoftext|>"}
    ]
}
```

---

### üìç **Apr√®s transformation :**  
Format pr√™t pour le fine-tuning du mod√®le :

```python
{
    "messages": [
        {"role": "user", "content": "Qui es-tu ?"},
        {"role": "assistant", "content": "Je suis l'assistant de l'INRAE<|endoftext|>"}
    ],
    "input_ids": [128000, 62545, 1560, 2442, 84, 949, 30854, 36731, 326, 6, 78191, 409, 326, 6, 691, 5726, 36, 27, 91, 8862, 728, 428, 91, 29, 128009],
    "attention_mask": [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0],
    "labels": [128000, 62545, 1560, 2442, 84, 949, 30854, 36731, 326, 6, 78191, 409, 326, 6, 691, 5726, 36, 27, 91, 8862, 728, 428, 91, 29, -100]
}
```

### üîπ **Explication des transformations :**  
1. **Tokenization** :  
   - Le texte est converti en **`input_ids`**, une s√©quence de nombres repr√©sentant chaque mot ou caract√®re.  
   - Exemple : `"Qui es-tu ?"` ‚Üí `[128000, 62545, 1560, 2442, 84]`  

2. **Masking** (**`attention_mask`**) :  
   - Indique quelles parties du texte doivent √™tre prises en compte.  
   - `1` = Token important, `0` = Token ignor√© (padding).  

3. **Labels pour l‚Äôentra√Ænement** (**`labels`**) :  
   - M√™me s√©quence que **`input_ids`**, sauf que les tokens d‚Äôentr√©e utilisateur sont remplac√©s par `-100` (pour ignorer leur contribution √† la pr√©diction).  
   - Cela permet au mod√®le de **pr√©dire uniquement la r√©ponse** et d‚Äôignorer l‚Äôentr√©e utilisateur.  

---

In [7]:
from datasets import load_dataset

# ‚úÖ Charger le dataset JSONL
dataset = load_dataset('json', data_files='./data.jsonl')

dataset

Generating train split: 4 examples [00:00, 137.62 examples/s]


DatasetDict({
    train: Dataset({
        features: ['messages'],
        num_rows: 4
    })
})

In [None]:
# ‚úÖ V√©rifier les cl√©s du dataset
print("Exemple de donn√©es :", dataset['train'][0])  # Affiche un exemple pour v√©rifier sa structure


Exemple de donn√©es : {'messages': [{'role': 'user', 'content': 'Qui es-tu ?'}, {'role': 'assistant', 'content': "Je suis l'assistant de l'INRAE<|endoftext|>"}]}


In [None]:
# Cr√©ation du token de padding pour Lama3
tokenizer.pad_token = tokenizer.eos_token  

In [None]:
# Pr√©traitement des donn√©es d'entrainement
def preprocess_function(examples):
    # üîπ Construire le texte d'entr√©e √† partir des messages
    text_inputs = []
    for message_set in examples["messages"]:
        text = ""
        for message in message_set:
            text += f"{message['content']}"
        text_inputs.append(text.strip())

    # üîπ Tokenisation
    inputs = tokenizer(text_inputs, truncation=True, padding="max_length", max_length=25)

    # üîπ Copier input_ids pour labels
    inputs["labels"] = inputs["input_ids"].copy()

    # üîπ Remplacer les tokens de padding par -100 pour ignorer la perte
    padding_token_id = tokenizer.pad_token_id
    inputs["labels"] = [
        [(label if label != padding_token_id else -100) for label in labels] for labels in inputs["labels"]
    ]

    return inputs

# ‚úÖ Appliquer la transformation
dataset = dataset.map(preprocess_function, batched=True)
print("Exemple de donn√©es :", dataset['train'][0])  # Affiche un exemple pour v√©rifier sa structure


Map: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 4/4 [00:00<00:00, 172.96 examples/s]

Exemple de donn√©es : {'messages': [{'role': 'user', 'content': 'Qui es-tu ?'}, {'role': 'assistant', 'content': "Je suis l'assistant de l'INRAE<|endoftext|>"}], 'input_ids': [128000, 62545, 1560, 2442, 84, 949, 30854, 36731, 326, 6, 78191, 409, 326, 6, 691, 5726, 36, 27, 91, 8862, 728, 428, 91, 29, 128009], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0], 'labels': [128000, 62545, 1560, 2442, 84, 949, 30854, 36731, 326, 6, 78191, 409, 326, 6, 691, 5726, 36, 27, 91, 8862, 728, 428, 91, 29, -100]}





# 4. Entra√Ænement du Mod√®le

Apr√®s avoir pr√©par√© nos donn√©es, nous pouvons maintenant entra√Æner **LLAMA 3**.  
Nous utiliserons **LoRA (Low-Rank Adaptation)** pour optimiser l'entra√Ænement tout en **r√©duisant la charge m√©moire**.

---

### üìå 4.1 Configuration du Fine-Tuning avec LoRA

### ‚úÖ **Pourquoi LoRA ?**
Le fine-tuning complet d'un mod√®le **LLAMA 3** peut √™tre tr√®s gourmand en ressources GPU.  
LoRA permet de **r√©duire la quantit√© de poids entra√Ænables** en n'entra√Ænant que certaines couches du mod√®le.

Nous d√©finissons les param√®tres de LoRA avec :

```python
from peft import LoraConfig, get_peft_model

# ‚úÖ Config LoRA
lora_config = LoraConfig(
    r=32, lora_alpha=32,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_dropout=0.05, bias="none", task_type="CAUSAL_LM"
)
```

### üìç **Explication des param√®tres :**
- **`r=32`** ‚Üí Taille du rang pour la factorisation des matrices. Plus il est √©lev√©, plus l'entra√Ænement est pr√©cis, mais co√ªteux.  
- **`lora_alpha=32`** ‚Üí Facteur de mise √† l'√©chelle des poids LoRA.  
- **`target_modules=["q_proj", "k_proj", "v_proj", "o_proj"]`** ‚Üí On applique LoRA uniquement sur certaines couches du mod√®le.  
- **`lora_dropout=0.05`** ‚Üí Ajout d'un **dropout** pour √©viter l'overfitting.  
- **`task_type="CAUSAL_LM"`** ‚Üí On entra√Æne un mod√®le **causal** (g√©n√©ration de texte).  

Nous appliquons ensuite cette configuration au mod√®le :

```python
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
```

---

### üìå 4.2 D√©finition des Param√®tres d'Entra√Ænement

Nous utilisons **`TrainingArguments`** pour d√©finir les options d'entra√Ænement :

```python
from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="./llama3-finetuned",
    per_device_train_batch_size=5,  # ‚ö†Ô∏è R√©duction de la batch size car CPU limit√©
    num_train_epochs=10,  # üîπ 10 √©poques pour un bon fine-tuning
    save_strategy="epoch",
    evaluation_strategy="epoch",
    logging_dir='./logs',
    learning_rate=2e-3,
    gradient_accumulation_steps=90,  # üîπ Augmenter pour r√©duire la charge m√©moire
    fp16=False,  # üö´ D√©sactiv√© car inutile sur CPU
    bf16=False,
    gradient_checkpointing=False,
    lr_scheduler_type="cosine",
    warmup_steps=100,
    save_total_limit=2,  # üîπ Garde seulement les 2 derniers checkpoints
    weight_decay=0.01,
    report_to="tensorboard",  # üîπ Enregistre les logs pour TensorBoard
    torch_compile=False,  # ‚úÖ Optimisation CPU
    no_cuda=True  # üö´ D√©sactive l'utilisation du GPU
)
```

### üìç **Explication des param√®tres :**
- **`output_dir="./llama3-finetuned"`** ‚Üí Sauvegarde du mod√®le entra√Æn√© ici.  
- **`per_device_train_batch_size=5`** ‚Üí On utilise une petite batch size pour √©viter d‚Äô√©puiser la RAM.  
- **`num_train_epochs=10`** ‚Üí Nombre total de passes sur les donn√©es.  
- **`gradient_accumulation_steps=90`** ‚Üí Permet d‚Äôaccumuler les gradients sur plusieurs batchs avant de mettre √† jour les poids (r√©duit la charge m√©moire).  
- **`learning_rate=2e-3`** ‚Üí Taux d‚Äôapprentissage initial.  
- **`lr_scheduler_type="cosine"`** ‚Üí Programmation du taux d‚Äôapprentissage en fonction d‚Äôune courbe **cosinus**.  
- **`save_total_limit=2`** ‚Üí √âvite d'enregistrer trop de checkpoints pour √©conomiser de l'espace disque.  
- **`torch_compile=False`** ‚Üí Optimisation de l‚Äôentra√Ænement pour CPU uniquement.  
- **`no_cuda=True`** ‚Üí **For√ßage du CPU** (utile si aucun GPU disponible).  

---

### üìå 4.3 Pr√©paration des Donn√©es pour l'Entra√Ænement

Nous utilisons **`DataCollatorForSeq2Seq`** pour normaliser les donn√©es avant l'entra√Ænement.

```python
from transformers import DataCollatorForSeq2Seq

# ‚úÖ Data collator
data_collator = DataCollatorForSeq2Seq(tokenizer, pad_to_multiple_of=8, return_tensors="pt")
```

üìç **Pourquoi ?**  
- Permet d'ajouter du **padding** pour que toutes les s√©quences aient la m√™me longueur.  
- Convertit les donn√©es en **tensors PyTorch** (`return_tensors="pt"`).  

---

### üìå 4.4 Lancement de l‚ÄôEntra√Ænement  

Enfin, nous utilisons **`Trainer`** pour entra√Æner le mod√®le avec nos donn√©es :

```python
from transformers import Trainer

# ‚úÖ Entra√Ænement
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset['train'],
    eval_dataset=dataset['train'],  # üîπ On utilise le m√™me dataset pour l‚Äô√©valuation (peut √™tre remplac√©)
    data_collator=data_collator
)

trainer.train()
```

### üìç **Explication :**
- **`model=model`** ‚Üí Mod√®le LoRA pr√™t √† √™tre entra√Æn√©.  
- **`args=training_args`** ‚Üí Param√®tres d'entra√Ænement d√©finis plus t√¥t.  
- **`train_dataset=dataset['train']`** ‚Üí Donn√©es utilis√©es pour l'entra√Ænement.  
- **`eval_dataset=dataset['train']`** ‚Üí Ici, on utilise le m√™me dataset pour l‚Äô√©valuation, mais id√©alement il faut un dataset s√©par√©.  
- **`data_collator=data_collator`** ‚Üí Regroupe les donn√©es de mani√®re efficace.  

---

In [None]:
from peft import LoraConfig, get_peft_model
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForSeq2Seq


# ‚úÖ Config LoRA
lora_config = LoraConfig(
    r=32, lora_alpha=32,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_dropout=0.05, bias="none", task_type="CAUSAL_LM"
)


print("---------------------------------------------------------------")
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
print("---------------------------------------------------------------")

training_args = TrainingArguments(
    output_dir="./llama3-finetuned",
    per_device_train_batch_size=5,  # ‚ö†Ô∏è R√©duire la batch size car CPU est limit√©
    num_train_epochs=10,
    save_strategy="epoch",
    evaluation_strategy="epoch",
    logging_dir='./logs',
    learning_rate=2e-3,
    gradient_accumulation_steps=90,  # üîπ Augmenter pour r√©duire la charge m√©moire
    fp16=False,  # üö´ D√©sactiver fp16 (inutile sur CPU)
    bf16=False,
    gradient_checkpointing=False,
    lr_scheduler_type="cosine",
    warmup_steps=100,
    save_total_limit=2,
    weight_decay=0.01,
    report_to="tensorboard",
    torch_compile=False,  # ‚úÖ Optimisation CPU
    no_cuda=True
)


# ‚úÖ Data collator
data_collator = DataCollatorForSeq2Seq(tokenizer, pad_to_multiple_of=8, return_tensors="pt")


# ‚úÖ Entra√Ænement
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset['train'],
    eval_dataset=dataset['train'],
    data_collator=data_collator
)

trainer.train()

---------------------------------------------------------------
trainable params: 6,815,744 || all params: 1,242,630,144 || trainable%: 0.5485
---------------------------------------------------------------


No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.


Epoch,Training Loss,Validation Loss
1,No log,3.148244
2,No log,3.027769
3,No log,2.843416
4,No log,2.643522
5,No log,2.435893
6,No log,2.198648
7,No log,1.951529
8,No log,1.705722
9,No log,1.452125
10,No log,1.106727


TrainOutput(global_step=10, training_loss=2.3531587600708006, metrics={'train_runtime': 60.1425, 'train_samples_per_second': 0.665, 'train_steps_per_second': 0.166, 'total_flos': 7526107054080.0, 'train_loss': 2.3531587600708006, 'epoch': 10.0})

In [None]:
# Deuxi√®me s√©rie d'entrainement
trainer.train()

Epoch,Training Loss,Validation Loss
1,No log,1.106727
2,No log,1.055463
3,No log,0.946546
4,No log,0.868594
5,No log,0.78475
6,No log,0.658026
7,No log,0.600254
8,No log,0.588399
9,No log,0.586216
10,No log,0.585886


TrainOutput(global_step=10, training_loss=0.7959489822387695, metrics={'train_runtime': 51.1493, 'train_samples_per_second': 0.782, 'train_steps_per_second': 0.196, 'total_flos': 7526107054080.0, 'train_loss': 0.7959489822387695, 'epoch': 10.0})

In [None]:
# Transformation des tokens d'entr√©
prompt ="Qui es-tu ?"
input_exemple = tokenizer(prompt, return_tensors="pt")
input_exemple

{'input_ids': tensor([[128000,  62545,   1560,   2442,     84,    949]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1]])}

In [None]:
# Pr√©diction du mod√®le apr√®s entrainement
output = model.generate(**input_exemple, max_length=25)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


In [None]:
# Transformation des tokens de sortie
tokenizer.decode(output[0], skip_special_tokens=True)

"Qui es-tu?Je suis l'assistant de l'INRAE<|endoftext|>Je"

# 5. Sauvegarde du Mod√®le et Conversion vers Ollama

Une fois l‚Äôentra√Ænement termin√©, nous devons **enregistrer** notre mod√®le pour pouvoir l‚Äôutiliser ult√©rieurement.  

Deux √©tapes sont n√©cessaires :
1. **Sauvegarde du mod√®le entra√Æn√© avec LoRA**
2. **Fusion des poids LoRA avec le mod√®le de base** pour obtenir un mod√®le autonome.

---

### üìå 5.1 Sauvegarde du Mod√®le LoRA

Le mod√®le fine-tun√© avec **LoRA** contient des poids adaptatifs s√©par√©s.  
Nous devons sauvegarder :
- **Le mod√®le LoRA**
- **Le tokenizer** (indispensable pour la g√©n√©ration de texte)

```python
# Sauvegarde du mod√®le LoRA et du tokenizer
model.save_pretrained("llama3-finetuned")
tokenizer.save_pretrained("llama3-finetuned")
```

üìç **Explication :**  
- `model.save_pretrained("llama3-finetuned")` ‚Üí Sauvegarde le mod√®le entra√Æn√© avec les poids LoRA.  
- `tokenizer.save_pretrained("llama3-finetuned")` ‚Üí Sauvegarde le **tokenizer**, essentiel pour la conversion texte ‚Üí tokens.  

> üìù **√Ä noter** : √Ä ce stade, le mod√®le d√©pend encore des poids **LoRA**.  
> Il faut maintenant **fusionner ces poids** avec le mod√®le de base.

---

### üìå 5.2 Fusion des Poids LoRA avec le Mod√®le de Base

LoRA ajoute uniquement des **ajustements** aux poids du mod√®le de base.  
Si on veut un **mod√®le autonome**, il faut fusionner ces ajustements avec le mod√®le d‚Äôorigine.

```python
from transformers import AutoModelForCausalLM
from peft import PeftModel

# Chargement du mod√®le de base
base_model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.2-1B-Instruct", device_map="cpu")

# Chargement du mod√®le LoRA et fusion avec le mod√®le de base
peft_model = PeftModel.from_pretrained(base_model, "llama3-finetuned")
peft_model = peft_model.merge_and_unload()
```

üìç **Explication :**  
1. **On recharge le mod√®le de base** `meta-llama/Llama-3.2-1B-Instruct`  
2. **On applique les poids LoRA** avec `PeftModel.from_pretrained(base_model, "llama3-finetuned")`  
3. **On fusionne les poids** en appelant `merge_and_unload()`, ce qui int√®gre d√©finitivement les ajustements LoRA dans le mod√®le principal.  

Apr√®s cette fusion, le mod√®le devient totalement **ind√©pendant de LoRA** et peut √™tre utilis√© comme un mod√®le standard.

---

## üìå 3. Sauvegarde du Mod√®le Fusionn√©

Une fois la fusion termin√©e, nous enregistrons **le mod√®le final** :

```python
# Sauvegarde du mod√®le fusionn√© (sans LoRA)
peft_model.save_pretrained("llama3-finetuned-merged")
tokenizer.save_pretrained("llama3-finetuned-merged")

print("‚úÖ Fusion et sauvegarde du mod√®le termin√© !")
```

üìç **Explication :**  
- **`peft_model.save_pretrained("llama3-finetuned-merged")`** ‚Üí Sauvegarde le mod√®le final, pr√™t √† √™tre utilis√© **sans d√©pendance LoRA**.  
- **`tokenizer.save_pretrained("llama3-finetuned-merged")`** ‚Üí Sauvegarde le **tokenizer** avec le mod√®le fusionn√©.  

---

In [None]:
# Sauvegarde du mod√®le LoRA et fusion des poids du mod√®le de base
from transformers import AutoModelForCausalLM
from peft import PeftModel

model.save_pretrained("llama3-finetuned")
tokenizer.save_pretrained("llama3-finetuned")

base_model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.2-1B-Instruct", device_map="cpu")
peft_model = PeftModel.from_pretrained(base_model, "llama3-finetuned")


# Fusionner les poids LoRA avec le mod√®le principal
peft_model = peft_model.merge_and_unload()

# Sauvegarde du mod√®le fusionn√© (sans LoRA)
peft_model.save_pretrained("llama3-finetuned-merged")
tokenizer.save_pretrained("llama3-finetuned-merged")

print("‚úÖ Fusion et sauvegarde du mod√®le termin√© !")

‚úÖ Fusion et sauvegarde du mod√®le termin√© !


In [None]:
# Conversion en gguf
!python ./llama.cpp/convert_hf_to_gguf.py ./llama3-finetuned-merged

INFO:hf-to-gguf:Loading model: llama3-finetuned-merged
INFO:gguf.gguf_writer:gguf: This GGUF file is for Little Endian only
INFO:hf-to-gguf:Exporting model...
INFO:hf-to-gguf:rope_freqs.weight,           torch.float32 --> F32, shape = {32}
INFO:hf-to-gguf:gguf: loading model part 'model.safetensors'
INFO:hf-to-gguf:token_embd.weight,           torch.float32 --> F16, shape = {2048, 128256}
INFO:hf-to-gguf:blk.0.attn_norm.weight,      torch.float32 --> F32, shape = {2048}
INFO:hf-to-gguf:blk.0.ffn_down.weight,       torch.float32 --> F16, shape = {8192, 2048}
INFO:hf-to-gguf:blk.0.ffn_gate.weight,       torch.float32 --> F16, shape = {2048, 8192}
INFO:hf-to-gguf:blk.0.ffn_up.weight,         torch.float32 --> F16, shape = {2048, 8192}
INFO:hf-to-gguf:blk.0.ffn_norm.weight,       torch.float32 --> F32, shape = {2048}
INFO:hf-to-gguf:blk.0.attn_k.weight,         torch.float32 --> F16, shape = {2048, 512}
INFO:hf-to-gguf:blk.0.attn_output.weight,    torch.float32 --> F16, shape = {2048, 2048

## **6. Conversion du Mod√®le vers Ollama**

Apr√®s avoir fine-tun√© et fusionn√© notre mod√®le **LLAMA 3**, nous pouvons maintenant le convertir au format **Ollama** pour une ex√©cution optimis√©e sur **CPU** et **GPU**.

---

### üìå **Pourquoi utiliser Ollama ?**
**Ollama** est une plateforme permettant d‚Äôex√©cuter des mod√®les **LLM optimis√©s** sur des **machines locales**, avec une gestion efficace de la m√©moire et du temps d‚Äôinf√©rence.

Avantages :
- Ex√©cution **rapide et optimis√©e** sur CPU/GPU  
- Compatible avec les fichiers **GGUF** (format performant pour LLMs)  
- Facilit√© d'utilisation avec des **commandes simples**  

---

## **1. Cr√©ation du Mod√®le avec Ollama**
Une fois que notre mod√®le fusionn√© (`llama3-finetuned-merged`) est pr√™t, nous devons **cr√©er un mod√®le Ollama** en utilisant un fichier **Modelfile**.

### üîπ **Commande pour cr√©er le mod√®le :**
```bash
ollama create llama-test -f Modelfile
```

üìç **Explication :**
- `ollama create` ‚Üí Commande pour cr√©er un mod√®le Ollama  
- `llama-test` ‚Üí Nom du mod√®le personnalis√©  
- `-f Modelfile` ‚Üí Sp√©cifie le fichier `Modelfile` qui contient la configuration du mod√®le  

---

## **2. Structure du Fichier `Modelfile`**
Le fichier `Modelfile` contient les **instructions** n√©cessaires pour charger et configurer le mod√®le dans **Ollama**.

```bash
FROM ./llama3-finetuned-merged/Llama-3.2-1B-Instruct-F16.gguf

PARAMETER stop "<|endoftext|>"
```

üìç **Explication des lignes :**
- **`FROM ./llama3-finetuned-merged/Llama-3.2-1B-Instruct-F16.gguf`**  
  - Indique que nous utilisons le mod√®le fine-tun√©, converti au format **GGUF**  
  - Le format **GGUF** est optimis√© pour l'ex√©cution rapide sur CPU/GPU  
- **`PARAMETER stop "<|endoftext|>"`**  
  - D√©finit le **token de fin de texte** `<|endoftext|>`  
  - Permet d'arr√™ter la g√©n√©ration lorsqu'on atteint ce token  

üìå **Pourquoi GGUF ?**  
Le format **GGUF** (GPT-Generated Unified Format) est une version optimis√©e des mod√®les **GGML**, offrant :
- **Meilleure gestion m√©moire**
- **Performances accrues sur CPU/GPU**
- **Compatibilit√© avec Ollama et llama.cpp**

---

## **3. Documentation de `Modelfile`**
Pour plus de d√©tails sur la configuration de `Modelfile`, consultez la documentation officielle d‚ÄôOllama :  
üîó **[Ollama Modelfile Docs](https://github.com/ollama/ollama/blob/main/docs/modelfile.md)**  

In [None]:
# Cr√©ation du mod√®le Ollama
!ollama create llama-test -f Modelfile

[?25lgathering model components ‚†ã [?25h[?25l[2K[1Ggathering model components ‚†ô [?25h[?25l[2K[1Ggathering model components ‚†π [?25h[?25l[2K[1Ggathering model components ‚†∏ [?25h[?25l[2K[1Ggathering model components ‚†º [?25h[?25l[2K[1Ggathering model components ‚†¥ [?25h[?25l[2K[1Ggathering model components ‚†¶ [?25h[?25l[2K[1Ggathering model components ‚†ß [?25h[?25l[2K[1Ggathering model components ‚†á [?25h[?25l[2K[1Ggathering model components ‚†è [?25h[?25l[2K[1Ggathering model components ‚†ã [?25h[?25l[2K[1Ggathering model components ‚†ô [?25h[?25l[2K[1Ggathering model components ‚†π [?25h[?25l[2K[1Ggathering model components ‚†∏ [?25h[?25l[2K[1Ggathering model components ‚†º [?25h[?25l[2K[1Ggathering model components ‚†¥ [?25h[?25l[2K[1Ggathering model components ‚†¶ [?25h[?25l[2K[1Ggathering model components ‚†ß [?25h[?25l[2K[1Ggathering model components ‚†á [?25h[?25l[2K[1Ggathering model component