# TP Partie 2 : Fine-tuning de LLM avec LoRA

## üìö Contexte

Dans ce notebook, nous allons explorer le fine-tuning de mod√®les de langage avec la technique LoRA (Low-Rank Adaptation). Cette approche permet d'adapter des LLMs pour des t√¢ches sp√©cifiques.

## üéØ Objectifs

1. **Comprendre** le fonctionnement de LoRA et ses avantages
2. **Pr√©parer** le dataset synth√©tique g√©n√©r√© pr√©c√©demment
3. **Configurer** un entra√Ænement LoRA avec Unsloth
4. **Entra√Æner** un mod√®le Qwen3-4B sp√©cialis√© en fran√ßais
5. **√âvaluer** les performances du mod√®le fine-tun√©
6. **Publier** le mod√®le sur Hugging Face Hub

## üîß Etapes

Notre approche utilise :

1. **Unsloth** : Biblioth√®que optimis√©e pour le fine-tuning LoRA
2. **Qwen3-4B** : Mod√®le de base pr√©-entra√Æn√©
3. **QLoRA** : Quantization + LoRA pour r√©duire la m√©moire GPU
4. **Hugging Face Hub** : Publication et partage du mod√®le

Resources √† garder sous la main durant le TP:

- [LoRA Hyperparameters Guide](https://docs.unsloth.ai/get-started/fine-tuning-llms-guide/lora-hyperparameters-guide)
- [What Model Should I Use?](https://docs.unsloth.ai/get-started/fine-tuning-llms-guide/what-model-should-i-use)
- [Qwen3 instruct fine tune guide](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_(4B)-Instruct.ipynb)

In [1]:
# Import des biblioth√®ques
import json
import time
import os
from pathlib import Path
from typing import List, Dict, Optional
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import torch
import matplotlib.pyplot as plt
import seaborn as sns
from datasets import Dataset, DatasetDict
from transformers import TrainingArguments, Trainer
from tqdm.auto import tqdm

# Imports Unsloth
try:
    from unsloth import FastLanguageModel
    from trl import SFTTrainer
    import trackio
    
    print("‚úÖ Toutes les biblioth√®ques ont √©t√© import√©es avec succ√®s!")
except ImportError as e:
    print(f"‚ùå Erreur d'import: {e}")
    print("Veuillez ex√©cuter 'uv sync' pour installer les d√©pendances.")
    raise

# V√©rification GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Device utilis√©: {device}")
if torch.cuda.is_available():
    print(f"GPU: {torch.cuda.get_device_name()}")
    print(f"M√©moire GPU: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
    
# Configuration visuelle
sns.set_theme()
plt.rcParams['figure.figsize'] = (10, 6)

ü¶• Unsloth: Will patch your computer to enable 2x faster free finetuning.
ü¶• Unsloth Zoo will now patch everything to make training faster!
‚úÖ Toutes les biblioth√®ques ont √©t√© import√©es avec succ√®s!
Device utilis√©: cuda
GPU: NVIDIA L4
M√©moire GPU: 23.7 GB


## 3. Chargement et pr√©paration du dataset

Nous chargeons le dataset synth√©tique g√©n√©r√© dans la partie pr√©c√©dente.

In [2]:
# Configuration des chemins
data_dir = Path("../data/synthetic")

# Chargement du dataset
print("Chargement du dataset synth√©tique...")
if (data_dir / "synthetic_dataset_alpaca.json").exists():
    with open(data_dir / "synthetic_dataset_alpaca.json", 'r', encoding='utf-8') as f:
        alpaca_data = json.load(f)
    print(f"‚úÖ Dataset charg√©: {len(alpaca_data)} paires instruction-r√©ponse")
else:
    print("‚ùå Dataset non trouv√©. Veuillez ex√©cuter le notebook 01 d'abord.")
    # Cr√©ation d'un dataset d'exemple
    alpaca_data = [
        {
            "instruction": "Qu'est-ce que l'apprentissage automatique?",
            "input": "",
            "output": "L'apprentissage automatique est un sous-domaine de l'intelligence artificielle qui permet aux syst√®mes d'apprendre √† partir de donn√©es sans √™tre explicitement programm√©s."
        }
    ]

# Conversion en DataFrame pour analyse
df = pd.DataFrame(alpaca_data)
print(f"\nüìä Statistiques du dataset:")
print(f"   - Nombre total de paires: {len(df)}")
print(f"   - Longueur moyenne des instructions: {df['instruction'].str.len().mean():.0f} caract√®res")
print(f"   - Longueur moyenne des r√©ponses: {df['output'].str.len().mean():.0f} caract√®res")

# Affichage des premi√®res lignes
print("\nüìù Exemples de donn√©es:")
for i in range(min(3, len(alpaca_data))):
    print(f"\n--- Exemple {i+1} ---")
    print(f"Instruction: {alpaca_data[i]['instruction']}")
    print(f"R√©ponse: {alpaca_data[i]['output'][:100]}...")

Chargement du dataset synth√©tique...
‚úÖ Dataset charg√©: 36 paires instruction-r√©ponse

üìä Statistiques du dataset:
   - Nombre total de paires: 36
   - Longueur moyenne des instructions: 102 caract√®res
   - Longueur moyenne des r√©ponses: 919 caract√®res

üìù Exemples de donn√©es:

--- Exemple 1 ---
Instruction: En quelle ann√©e a eu lieu la consultation de l'√©lection √©tatique de Katanning ?
R√©ponse: La consultation de l'√©lection √©tatique de Katanning a eu lieu en **1935**....

--- Exemple 2 ---
Instruction: Quel est le nom du cat√©gory de Wikimedia qui regroupe les icefalls de la r√©gion de Ross Dependency ?
R√©ponse: Le nom du cat√©gory de Wikimedia qui regroupe les icefalls de la r√©gion de Ross Dependency est **Cate...

--- Exemple 3 ---
Instruction: Dans quel film Bourvil joue-t-il son dernier r√¥le, selon Jean Pierre Melville, et en quelle ann√©e a-t-il √©t√© tourn√© ?
R√©ponse: Selon Jean Pierre Melville, Bourvil joue son dernier r√¥le dans le film **"Le cercle roug

## 4. Pr√©paration des donn√©es pour l'entra√Ænement

Nous formatons les donn√©es selon le format attendu par Unsloth pour le fine-tuning instructionnel.

In [3]:
# Template de formatage pour le mod√®le - align√© avec le format Unsloth/Qwen3
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

# Le EOS_TOKEN sera d√©fini apr√®s le chargement du tokenizer
EOS_TOKEN = "<|im_end|>"  # Token de fin pour Qwen3

def format_prompts(examples):
    """
    Formate les exemples selon le template Alpaca pour le fine-tuning.
    """
    instructions = examples["instruction"]
    inputs = examples["input"]
    outputs = examples["output"]
    
    texts = []
    for instruction, input_text, output in zip(instructions, inputs, outputs):
        # Formatage du prompt
        text = alpaca_prompt.format(instruction, input_text, output) + EOS_TOKEN
        texts.append(text)
    
    return {"text": texts}

# Conversion en Dataset Hugging Face
dataset = Dataset.from_pandas(df)

# Application du formatage
print("Formatage des donn√©es pour l'entra√Ænement...")
dataset = dataset.map(format_prompts, batched=True)

# Split train/validation
train_test_split = dataset.train_test_split(test_size=0.1, seed=42)
dataset_dict = DatasetDict({
    'train': train_test_split['train'],
    'validation': train_test_split['test']
})

print(f"\n‚úÖ Dataset pr√©par√©:")
print(f"   - Training set: {len(dataset_dict['train'])} exemples")
print(f"   - Validation set: {len(dataset_dict['validation'])} exemples")

# Affichage d'un exemple format√©
print("\nüìù Exemple format√©:")
print(dataset_dict['train'][0]['text'][:500] + "...")

Formatage des donn√©es pour l'entra√Ænement...


Map:   0%|          | 0/36 [00:00<?, ? examples/s]


‚úÖ Dataset pr√©par√©:
   - Training set: 32 exemples
   - Validation set: 4 exemples

üìù Exemple format√©:
Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
O√π se trouve le Barnes Ridge et dans quel √©tat est-il situ√© ?

### Input:


### Response:
Le Barnes Ridge se trouve dans le **state de Montana**, aux √âtats-Unis. Il est situ√© dans le **comt√© de Fergus County**, dans la partie centrale du pays, √† environ 300 km au sud-ouest de Washington, D.C.<|im_end|>...


## 5. Configuration du mod√®le et de LoRA avec TrackIO

Nous configurons le mod√®le Qwen3-4B avec les param√®tres LoRA optimis√©s selon les meilleures pratiques Unsloth, et initialisons TrackIO pour le suivi des exp√©riences.

In [4]:
# Initialisation de TrackIO pour le suivi des exp√©riences
experiment_name = f"qwen3-4b-lora-french-{int(time.time())}"
trackio.init(
    project="llm-finetuning-tp",
    name=experiment_name,
    config={
        "model": "Qwen/Qwen3-4B-Instruct-2507",
        "dataset": "synthetic_french",
        "framework": "unsloth",
        "optimization": "qlora"
    }
)

print(f"üìä TrackIO initialis√© - Exp√©rience: {experiment_name}")

# Configuration du mod√®le avec param√®tres optimis√©s Unsloth
model_name = "Qwen/Qwen3-4B-Instruct-2507"
max_seq_length = 2048  # Longueur maximale de s√©quence
dtype = None  # D√©tection automatique du type
load_in_4bit = True  # Utilisation de la quantification 4-bit

print(f"Chargement du mod√®le {model_name}...")

# Chargement du mod√®le avec Unsloth
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=model_name,
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit,
    token=None,  # Pas besoin de token pour les mod√®les publics
)

print("‚úÖ Mod√®le charg√© avec succ√®s!")
print(f"   - M√©moire utilis√©e: {torch.cuda.memory_allocated() / 1e9:.1f} GB")
print(f"   - M√©moire r√©serv√©e: {torch.cuda.memory_reserved() / 1e9:.1f} GB")

# Mettre √† jour le EOS_TOKEN avec le tokenizer r√©el
global EOS_TOKEN
EOS_TOKEN = tokenizer.eos_token

# Log des informations syst√®me
trackio.log({
    "gpu_memory_allocated_gb": torch.cuda.memory_allocated() / 1e9,
    "gpu_memory_reserved_gb": torch.cuda.memory_reserved() / 1e9,
    "model_parameters_total": sum(p.numel() for p in model.parameters()),
    "model_size_gb": sum(p.numel() * p.element_size() for p in model.parameters()) / 1e9
})

* Trackio project initialized: llm-finetuning-tp
* Trackio metrics logged to: /root/.cache/huggingface/trackio
* View dashboard by running in your terminal:
[1m[93mtrackio show --project "llm-finetuning-tp"[0m
* or by running in Python: trackio.show(project="llm-finetuning-tp")
üìä TrackIO initialis√© - Exp√©rience: qwen3-4b-lora-french-1756829650
Chargement du mod√®le Qwen/Qwen3-4B-Instruct-2507...
==((====))==  Unsloth 2025.8.10: Fast Qwen3 patching. Transformers: 4.56.0.
   \\   /|    NVIDIA L4. Num GPUs = 1. Max memory: 22.045 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.8.0+cu128. CUDA: 8.9. CUDA Toolkit: 12.8. Triton: 3.4.0
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.32.post2. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!
‚úÖ Mod√®le charg√© avec succ√®s!
   - M√©moire utilis√©e: 3.6 GB
   - M√©moire r√©serv√©e: 4.1 GB


In [5]:
# Configuration des param√®tres LoRA optimis√©s selon les best practuces Unsloth
# Bas√© sur: https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_(4B)-Instruct.ipynb
lora_config = {
    "r": 16,  # Rank des matrices de mise √† jour
    "target_modules": [
        "q_proj", "k_proj", "v_proj", "o_proj",
        "gate_proj", "up_proj", "down_proj",
    ],  # Modules √† adapter - optimis√© pour Qwen3
    "lora_alpha": 16,  # Facteur d'√©chelle (align√© avec le rank)
    "lora_dropout": 0,  # Pas de dropout pour une meilleure stabilit√©
    "bias": "none",  # Pas d'adaptation des biais
    "use_gradient_checkpointing": "unsloth",  # Optimis√© Unsloth
    "random_state": 3407,
    "use_rslora": False,  # Ne pas utiliser scaled LoRA
    "loftq_config": None,  # Configuration LoftQ (pour quantification avanc√©e)
}

print("Configuration LoRA:")
for key, value in lora_config.items():
    print(f"   - {key}: {value}")

# Application de la configuration LoRA
model = FastLanguageModel.get_peft_model(
    model,
    **lora_config
)

print("\n‚úÖ Configuration LoRA appliqu√©e!")

# Log des param√®tres LoRA
trackio.log({
    "lora_rank": lora_config["r"],
    "lora_alpha": lora_config["lora_alpha"],
    "lora_dropout": lora_config["lora_dropout"],
    "target_modules": lora_config["target_modules"],
    "gradient_checkpointing": lora_config["use_gradient_checkpointing"]
})

# Affichage des param√®tres entra√Ænables
trainable_stats = model.print_trainable_parameters()
print(f"   - Param√®tres entra√Ænables: {trainable_stats}")

Configuration LoRA:
   - r: 16
   - target_modules: ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'gate_proj', 'up_proj', 'down_proj']
   - lora_alpha: 16
   - lora_dropout: 0
   - bias: none
   - use_gradient_checkpointing: unsloth
   - random_state: 3407
   - use_rslora: False
   - loftq_config: None


Unsloth 2025.8.10 patched 36 layers with 36 QKV layers, 36 O layers and 36 MLP layers.



‚úÖ Configuration LoRA appliqu√©e!
trainable params: 33,030,144 || all params: 4,055,498,240 || trainable%: 0.8145
   - Param√®tres entra√Ænables: None


## 6. Configuration de l'entra√Ænement

Nous configurons les hyperparam√®tres d'entra√Ænement et le trainer.

In [6]:
# Configuration des arguments d'entra√Ænement optimis√©s avec TrackIO
training_args = TrainingArguments(
    output_dir="./lora_finetuned_model",
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    gradient_accumulation_steps=4,
    warmup_steps=5,
    num_train_epochs=3,  # Nombre d'√©poques
    learning_rate=2e-4,  # Taux d'apprentissage optimal pour LoRA
    fp16=not torch.cuda.is_bf16_supported(),
    bf16=torch.cuda.is_bf16_supported(),
    logging_steps=1,
    optim="adamw_8bit",
    weight_decay=0.01,
    lr_scheduler_type="linear",
    seed=3407,
    report_to="trackio",  # Utilisation de TrackIO pour le tracking
    # Param√®tres suppl√©mentaires pour le monitoring
    logging_first_step=True,
    logging_dir="./logs",
    ddp_find_unused_parameters=False,
)

print("Arguments d'entra√Ænement:")
print(f"   - Batch size: {training_args.per_device_train_batch_size}")
print(f"   - Gradient accumulation: {training_args.gradient_accumulation_steps}")
print(f"   - Learning rate: {training_args.learning_rate}")
print(f"   - Epochs: {training_args.num_train_epochs}")
print(f"   - Warmup steps: {training_args.warmup_steps}")
print(f"   - Report to: {training_args.report_to}")

# Log des hyperparam√®tres
trackio.log({
    "per_device_train_batch_size": training_args.per_device_train_batch_size,
    "gradient_accumulation_steps": training_args.gradient_accumulation_steps,
    "learning_rate": training_args.learning_rate,
    "num_train_epochs": training_args.num_train_epochs,
    "warmup_steps": training_args.warmup_steps,
    "weight_decay": training_args.weight_decay,
    "optimizer": training_args.optim,
    "lr_scheduler_type": training_args.lr_scheduler_type,
    "effective_batch_size": training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps
})

Arguments d'entra√Ænement:
   - Batch size: 2
   - Gradient accumulation: 4
   - Learning rate: 0.0002
   - Epochs: 3
   - Warmup steps: 5
   - Report to: ['trackio']


In [7]:
# Configuration du trainer SFT de TRL
trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset_dict["train"],
    eval_dataset=dataset_dict["validation"],
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    dataset_num_proc=2,
    packing=False,  # Ne pas packer les s√©quences pour Qwen3
    args=training_args,
)

print("‚úÖ SFTTrainer configur√©!")
print(f"   - √âchantillons d'entra√Ænement: {len(trainer.train_dataset)}")
print(f"   - √âchantillons de validation: {len(trainer.eval_dataset)}")
print(f"   - Sequence length: {max_seq_length}")
print(f"   - Packing: {False}")

Unsloth: Tokenizing ["text"] (num_proc=12):   0%|          | 0/32 [00:00<?, ? examples/s]

num_proc must be <= 4. Reducing num_proc to 4 for dataset of size 4.


Unsloth: Tokenizing ["text"] (num_proc=4):   0%|          | 0/4 [00:00<?, ? examples/s]

‚úÖ SFTTrainer configur√©!
   - √âchantillons d'entra√Ænement: 32
   - √âchantillons de validation: 4
   - Sequence length: 2048
   - Packing: False


## 7. Entra√Ænement du mod√®le

**‚ö†Ô∏è Important** : Cette √©tape peut prendre du temps (15-30 minutes) selon votre GPU et la taille du dataset.

In [8]:
# D√©marrage de l'entra√Ænement avec monitoring TrackIO
print("üöÄ D√©marrage de l'entra√Ænement LoRA...")
print(f"   - Dataset: {len(dataset_dict['train'])} exemples")
print(f"   - Param√®tres LoRA: rank={lora_config['r']}, alpha={lora_config['lora_alpha']}")
print(f"   - Learning rate: {training_args.learning_rate}")
print(f"   - Epochs: {training_args.num_train_epochs}")
print(f"   - TrackIO: Activ√©\\n")

# Suivi de la m√©moire avant entra√Ænement
if torch.cuda.is_available():
    print(f"M√©moire GPU avant entra√Ænement: {torch.cuda.memory_allocated() / 1e9:.1f} GB")

# Fonction de monitoring GPU pour TrackIO
def log_gpu_stats():
    if torch.cuda.is_available():
        gpu_stats = {
            "gpu_memory_allocated_gb": torch.cuda.memory_allocated() / 1e9,
            "gpu_memory_reserved_gb": torch.cuda.memory_reserved() / 1e9,
            "gpu_utilization_percent": torch.cuda.utilization(),
        }
        try:
            # Tentative de lecture de la temp√©rature et de la puissance
            gpu_stats.update({
                "gpu_temperature_c": torch.cuda.temperature(),
                "gpu_power_watts": torch.cuda.power_draw(),
            })
        except:
            pass
        trackio.log(gpu_stats)

# Log initial
log_gpu_stats()
trackio.log({
    "training_start_time": time.time(),
    "dataset_size": len(dataset_dict['train']),
    "validation_size": len(dataset_dict['validation'])
})

# Lancement de l'entra√Ænement
trainer_stats = trainer.train()

print("\\n‚úÖ Entra√Ænement termin√©!")
print(f"   - Perte finale: {trainer_stats.training_loss:.4f}")
print(f"   - Temps d'entra√Ænement: {trainer_stats.metrics.get('train_runtime', 0):.1f} secondes")

# Suivi de la m√©moire apr√®s entra√Ænement
if torch.cuda.is_available():
    print(f"M√©moire GPU apr√®s entra√Ænement: {torch.cuda.memory_allocated() / 1e9:.1f} GB")

# Log des r√©sultats finaux
log_gpu_stats()
trackio.log({
    "training_end_time": time.time(),
    "final_training_loss": trainer_stats.training_loss,
    "training_runtime_seconds": trainer_stats.metrics.get('train_runtime', 0),
    "training_samples_per_second": trainer_stats.metrics.get('train_samples_per_second', 0),
    "total_steps": trainer.state.global_step
})

The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'bos_token_id': None}.


üöÄ D√©marrage de l'entra√Ænement LoRA...
   - Dataset: 32 exemples
   - Param√®tres LoRA: rank=16, alpha=16
   - Learning rate: 0.0002
   - Epochs: 3
   - TrackIO: Activ√©\n
M√©moire GPU avant entra√Ænement: 3.7 GB


==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 32 | Num Epochs = 3 | Total steps = 12
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 33,030,144 of 4,055,498,240 (0.81% trained)


* Trackio project initialized: huggingface
* Trackio metrics logged to: /root/.cache/huggingface/trackio
* View dashboard by running in your terminal:
[1m[93mtrackio show --project "huggingface"[0m
* or by running in Python: trackio.show(project="huggingface")
Unsloth: Will smartly offload gradients to save VRAM!


Step,Training Loss,entropy
1,1.275,0
2,1.5106,No Log
3,1.2924,No Log
4,1.3501,No Log
5,1.3523,No Log
6,1.0311,No Log
7,1.0014,No Log
8,0.9564,No Log
9,1.0629,No Log
10,0.8849,No Log


* Run finished. Uploading logs to Trackio Space: http://127.0.0.1:7860/ (please wait...)
\n‚úÖ Entra√Ænement termin√©!
   - Perte finale: 1.1228
   - Temps d'entra√Ænement: 38.5 secondes
M√©moire GPU apr√®s entra√Ænement: 3.8 GB


## 8. √âvaluation du mod√®le

Nous √©valuons les performances du mod√®le fine-tun√© sur le jeu de validation.

In [10]:
# √âvaluation sur le jeu de validation avec TrackIO
print("üìä √âvaluation du mod√®le sur le jeu de validation...")
eval_results = trainer.evaluate()

print("\\nR√©sultats de l'√©valuation:")
for key, value in eval_results.items():
    if isinstance(value, (int, float)):
        print(f"   - {key}: {value:.4f}")

# Log des r√©sultats d'√©valuation
trackio.log({
    "eval_loss": eval_results.get("eval_loss", 0),
    "eval_runtime": eval_results.get("eval_runtime", 0),
    "eval_samples_per_second": eval_results.get("eval_samples_per_second", 0),
    "eval_steps_per_second": eval_results.get("eval_steps_per_second", 0)
})

# Visualisation de la courbe d'apprentissage
if hasattr(trainer, "state") and trainer.state.log_history:
    log_history = trainer.state.log_history
    losses = [log.get('loss', 0) for log in log_history if 'loss' in log]
    steps = [log.get('step', 0) for log in log_history if 'loss' in log]
    
    plt.figure(figsize=(10, 6))
    plt.plot(steps, losses, 'b-', label='Training Loss')
    plt.xlabel('Steps')
    plt.ylabel('Loss')
    plt.title('Courbe d\\apprentissage')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.show()
    
    # Log des m√©triques de la courbe d'apprentissage
    if losses:
        trackio.log({
            "training_loss_min": min(losses),
            "training_loss_final": losses[-1],
            "training_loss_improvement": losses[0] - losses[-1] if len(losses) > 1 else 0
        })

Unsloth: Not an error, but Qwen3ForCausalLM does not accept `num_items_in_batch`.
Using gradient accumulation will be very slightly less accurate.
Read more on gradient accumulation issues here: https://unsloth.ai/blog/gradient


üìä √âvaluation du mod√®le sur le jeu de validation...


\nR√©sultats de l'√©valuation:
   - eval_loss: 1.1588
   - eval_runtime: 0.4112
   - eval_samples_per_second: 9.7280
   - eval_steps_per_second: 4.8640
   - epoch: 3.0000


<Figure size 1000x600 with 1 Axes>

## 9. Test d'inf√©rence

Nous testons le mod√®le fine-tun√© sur quelques exemples pour √©valuer sa capacit√© √† g√©n√©rer des r√©ponses en fran√ßais.

In [11]:
# Configuration du mod√®le pour l'inf√©rence optimis√©e avec Unsloth
FastLanguageModel.for_inference(model)

# Fonction de g√©n√©ration optimis√©e avec Unsloth
def generate_response(instruction: str, max_new_tokens: int = 512) -> str:
    """
    G√©n√®re une r√©ponse √† partir d'une instruction avec param√®tres optimis√©s Unsloth.
    """
    # Formatage du prompt selon le template utilis√© pendant l'entra√Ænement
    prompt = alpaca_prompt.format(
        instruction,
        "",  # Input vide
        ""  # Laisser vide pour la g√©n√©ration
    )
    
    inputs = tokenizer([prompt], return_tensors="pt").to("cuda")
    
    # G√©n√©ration avec param√®tres optimis√©s pour le fran√ßais
    # Utilisation des optimisations Unsloth
    outputs = model.generate(
        **inputs,
        max_new_tokens=max_new_tokens,
        use_cache=True,  # Activ√© par d√©faut avec Unsloth
        temperature=0.7,
        top_p=0.9,
        top_k=50,
        repetition_penalty=1.1,
        do_sample=True,
        pad_token_id=tokenizer.eos_token_id,
        eos_token_id=tokenizer.eos_token_id,
    )
    
    response = tokenizer.batch_decode(outputs)[0]
    # Extraire seulement la r√©ponse g√©n√©r√©e
    response = response.split("### Response:")[1].strip()
    return response

# Test avec exemples vari√©s en fran√ßais
test_instructions = [
    "Qu'est-ce que l'intelligence artificielle?",
    "Explique le principe du fine-tuning avec LoRA.",
    "Quels sont les avantages de QLoRA par rapport au fine-tuning classique?",
    "Comment fonctionne l'apprentissage par renforcement?",
    "Qu'est-ce que la quantification 4-bit dans les LLMs?"
]

print("üß™ Tests d'inf√©rence:\n")

# Log des tests d'inf√©rence
inference_results = []

for i, instruction in enumerate(test_instructions):
    print(f"--- Test {i+1} ---")
    print(f"Instruction: {instruction}")
    
    start_time = time.time()
    response = generate_response(instruction)
    inference_time = time.time() - start_time
    
    print(f"R√©ponse: {response[:300]}...")
    print(f"Temps de g√©n√©ration: {inference_time:.2f} secondes\n")
    
    # Stocker les r√©sultats pour le logging
    inference_results.append({
        "test_id": i + 1,
        "instruction": instruction,
        "response_length": len(response),
        "inference_time": inference_time,
        "tokens_per_second": len(response.split()) / inference_time if inference_time > 0 else 0
    })

# Log des r√©sultats d'inf√©rence
trackio.log({
    "inference_tests": inference_results,
    "avg_inference_time": sum(r["inference_time"] for r in inference_results) / len(inference_results),
    "avg_tokens_per_second": sum(r["tokens_per_second"] for r in inference_results) / len(inference_results)
})

# Afficher les statistiques d'inf√©rence
print("\nüìä Statistiques d'inf√©rence:")
print(f"   - Temps moyen: {sum(r['inference_time'] for r in inference_results) / len(inference_results):.2f}s")
print(f"   - Tokens/sec moyen: {sum(r['tokens_per_second'] for r in inference_results) / len(inference_results):.1f}")

üß™ Tests d'inf√©rence:

--- Test 1 ---
Instruction: Qu'est-ce que l'intelligence artificielle?


AttributeError: 'NoneType' object has no attribute 'shape'

## 10. Analyse des compromis LoRA

Nous analysons les avantages et inconv√©nients de l'approche LoRA.

In [12]:
# Analyse des param√®tres entra√Ænables
total_params = sum(p.numel() for p in model.parameters())
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
percentage = (trainable_params / total_params) * 100

print("üìä Analyse des param√®tres:")
print(f"   - Param√®tres totaux: {total_params:,}")
print(f"   - Param√®tres entra√Ænables: {trainable_params:,}")
print(f"   - Pourcentage entra√Ænable: {percentage:.2f}%")

# Comparaison des approches
comparison_data = {
    "Approche": ["Full Fine-tuning", "LoRA (r=16)", "LoRA (r=8)", "LoRA (r=32)"],
    "Param√®tres entra√Ænables": [
        f"{total_params:,}",
        f"{trainable_params:,}",
        f"{trainable_params//2:,}",
        f"{trainable_params*2:,}"
    ],
    "M√©moire GPU estim√©e": ["~24GB", "~8GB", "~6GB", "~10GB"],
    "Temps d'entra√Ænement": ["100%", "~30%", "~20%", "~40%"],
    "Performance relative": ["100%", "~95%", "~85%", "~98%"]
}

comparison_df = pd.DataFrame(comparison_data)
print("\nüîÑ Comparaison des approches:")
print(comparison_df.to_string(index=False))

# Visualisation
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Distribution des types de param√®tres
param_types = ['Entra√Ænables', 'Gel√©s']
param_counts = [trainable_params, total_params - trainable_params]

axes[0].pie(param_counts, labels=param_types, autopct='%1.1f%%', startangle=90)
axes[0].set_title('Distribution des param√®tres')

# Efficacit√© m√©moire
approaches = ['Full FT', 'LoRA r=16', 'LoRA r=8', 'LoRA r=32']
memory_usage = [100, 33, 25, 42]  # Pourcentage du full fine-tuning

axes[1].bar(approaches, memory_usage, color=['red', 'green', 'blue', 'orange'])
axes[1].set_ylabel('M√©moire GPU relative (%)')
axes[1].set_title('Efficacit√© m√©moire')
axes[1].set_ylim(0, 120)

# Ajout des valeurs sur les barres
for i, v in enumerate(memory_usage):
    axes[1].text(i, v + 2, f'{v}%', ha='center', va='bottom')

plt.tight_layout()
plt.show()

üìä Analyse des param√®tres:
   - Param√®tres totaux: 2,539,650,560
   - Param√®tres entra√Ænables: 33,030,144
   - Pourcentage entra√Ænable: 1.30%

üîÑ Comparaison des approches:
        Approche Param√®tres entra√Ænables M√©moire GPU estim√©e Temps d'entra√Ænement Performance relative
Full Fine-tuning           2,539,650,560               ~24GB                 100%                 100%
     LoRA (r=16)              33,030,144                ~8GB                 ~30%                 ~95%
      LoRA (r=8)              16,515,072                ~6GB                 ~20%                 ~85%
     LoRA (r=32)              66,060,288               ~10GB                 ~40%                 ~98%


<Figure size 1400x500 with 2 Axes>

## 11. Sauvegarde du mod√®le

Nous sauvegardons le mod√®le fine-tun√© pour une utilisation future.

In [13]:
# Cr√©ation du dossier de sauvegarde
model_save_path = Path("../models/lora_qwen3_french")
model_save_path.mkdir(parents=True, exist_ok=True)

print(f"üíæ Sauvegarde du mod√®le dans {model_save_path}...")

# Sauvegarde du mod√®le LoRA avec Unsloth
model.save_pretrained(model_save_path)
tokenizer.save_pretrained(model_save_path)

print("‚úÖ Adaptateurs LoRA sauvegard√©s avec succ√®s!")

# Sauvegarde de la configuration
config = {
    "base_model": model_name,
    "lora_config": lora_config,
    "training_args": {
        "num_train_epochs": training_args.num_train_epochs,
        "learning_rate": training_args.learning_rate,
        "per_device_train_batch_size": training_args.per_device_train_batch_size,
    },
    "dataset_info": {
        "train_size": len(dataset_dict['train']),
        "val_size": len(dataset_dict['validation']),
        "source": "synthetic_dataset"
    },
    "results": {
        "final_loss": trainer_stats.training_loss,
        "eval_results": eval_results
    }
}

with open(model_save_path / "config.json", 'w', encoding='utf-8') as f:
    json.dump(config, f, ensure_ascii=False, indent=2)

# Sauvegarde en 16-bit pour l'inf√©rence plus rapide
print("\nüíæ Sauvegarde en 16-bit pour l'inf√©rence...")
model.save_pretrained_merged(
    model_save_path / "merged_16bit",
    tokenizer,
    save_method="merged_16bit"
)
print("‚úÖ Sauvegarde 16-bit termin√©e!")

# Sauvegarde en 4-bit pour la taille minimale
print("\nüíæ Sauvegarde en 4-bit pour la taille minimale...")
model.save_pretrained_merged(
    model_save_path / "merged_4bit",
    tokenizer,
    save_method="merged_4bit_forced"
)
print("‚úÖ Sauvegarde 4-bit termin√©e!")

# Affichage des tailles des mod√®les
print("\nüìä Tailles des mod√®les sauvegard√©s:")
for folder in ["", "merged_16bit", "merged_4bit"]:
    folder_path = model_save_path / folder if folder else model_save_path
    if folder_path.exists():
        size = sum(os.path.getsize(folder_path / f) for f in os.listdir(folder_path) 
                  if os.path.isfile(folder_path / f)) / 1e6
        print(f"   - {folder if folder else 'LoRA adapters'}: {size:.1f} MB")

# Log des informations de sauvegarde
trackio.log({
    "model_saved": True,
    "save_path": str(model_save_path),
    "saved_formats": ["lora_adapters", "merged_16bit", "merged_4bit"],
    "final_training_loss": trainer_stats.training_loss
})

üíæ Sauvegarde du mod√®le dans ../models/lora_qwen3_french...
‚úÖ Adaptateurs LoRA sauvegard√©s avec succ√®s!

üíæ Sauvegarde en 16-bit pour l'inf√©rence...


config.json: 0.00B [00:00, ?B/s]

Found HuggingFace hub cache directory: /root/.cache/huggingface/hub


Fetching 1 files:   0%|          | 0/1 [00:00<?, ?it/s]

model.safetensors.index.json: 0.00B [00:00, ?B/s]

Checking cache directory for required files...
Cache check failed: model-00001-of-00002.safetensors not found in local cache.
Not all required files found in cache. Will proceed with downloading.


Unsloth: Merging weights into 16bit:   0%|                                                                                                                                  | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                                                             | 1/2 [00:30<00:30, 30.27s/it]

model-00002-of-00002.safetensors:   0%|          | 0.00/3.08G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [00:45<00:00, 22.89s/it]


‚úÖ Sauvegarde 16-bit termin√©e!

üíæ Sauvegarde en 4-bit pour la taille minimale...
Unsloth: Merging LoRA weights into 4bit model...
Unsloth: Merging finished.
Unsloth: Found skipped modules: ['model.layers.0.self_attn.q_proj', 'model.layers.0.self_attn.k_proj', 'model.layers.0.self_attn.v_proj', 'model.layers.0.self_attn.o_proj', 'model.layers.1.mlp.gate_proj', 'model.layers.1.mlp.up_proj', 'model.layers.1.mlp.down_proj', 'model.layers.2.mlp.gate_proj', 'model.layers.2.mlp.up_proj', 'model.layers.2.mlp.down_proj', 'model.layers.3.self_attn.q_proj', 'model.layers.3.self_attn.k_proj', 'model.layers.3.self_attn.v_proj', 'model.layers.3.self_attn.o_proj', 'model.layers.3.mlp.gate_proj', 'model.layers.3.mlp.up_proj', 'model.layers.3.mlp.down_proj', 'model.layers.5.mlp.gate_proj', 'model.layers.5.mlp.up_proj', 'model.layers.5.mlp.down_proj', 'model.layers.6.self_attn.q_proj', 'model.layers.6.self_attn.k_proj', 'model.layers.6.self_attn.v_proj', 'model.layers.6.self_attn.o_proj', 'model.la

## 12. Pr√©paration pour la publication sur Hugging Face

Nous pr√©parons le mod√®le pour sa publication sur Hugging Face Hub.

In [14]:
# Cr√©ation du README pour Hugging Face
readme_content = f"""---
library_name: transformers
license: mit
base_model: {model_name}
tags:
- trl
- sft
- generated_from_trainer
- french
- lora
- qwen3
model-index:
- name: Qwen3-4B-French-LoRA
  results: []
---

# Qwen3-4B-French-LoRA

## Description

Ce mod√®le est une version fine-tun√©e de Qwen3-4B-Instruct sp√©cialis√©e pour le fran√ßais. Il a √©t√© entra√Æn√© sur un dataset synth√©tique d'instructions-r√©ponses en fran√ßais.

## D√©tails d'entra√Ænement

- **Base Model**: {model_name}
- **Training Framework**: Unsloth + TRL
- **Quantization**: 4-bit (QLoRA)
- **LoRA Rank**: {lora_config['r']}
- **LoRA Alpha**: {lora_config['lora_alpha']}
- **Training Epochs**: {training_args.num_train_epochs}
- **Learning Rate**: {training_args.learning_rate}
- **Dataset Size**: {len(dataset_dict['train'])} examples

## Performance

- **Training Loss**: {trainer_stats.training_loss:.4f}
- **Validation Loss**: {eval_results.get('eval_loss', 'N/A')}

## Utilisation

```python
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# Chargement du mod√®le
model_path = "votre-username/Qwen3-4B-French-LoRA"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)

# Formatage du prompt
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{{}}

### Input:
{{}}

### Response:
{{}}"""

# G√©n√©ration
prompt = alpaca_prompt.format(
    "Qu'est-ce que l'intelligence artificielle?",
    "",
    ""
)

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
```

## Limitations

- Le mod√®le est sp√©cialis√© pour le fran√ßais
- Performances limit√©es pour les t√¢ches n√©cessitant un raisonnement complexe
- Peut g√©n√©rer des informations incorrectes (hallucinations)

## √âthique

Ce mod√®le est destin√© √† des fins √©ducatives et de recherche. Les utilisateurs doivent √™tre conscients des biais potentiels et utiliser le mod√®le de mani√®re responsable.
"""

# Sauvegarde du README
with open(model_save_path / "README.md", 'w', encoding='utf-8') as f:
    f.write(readme_content)

print("üìù README cr√©√© pour Hugging Face Hub")

# Instructions pour la publication
print("\nüöÄ Instructions pour la publication sur Hugging Face Hub:")
print("1. Cr√©ez un compte sur Hugging Face: https://huggingface.co/join")
print("2. Installez l'CLI Hugging Face: pip install 'huggingface_hub[cli]'")
print("3. Connectez-vous: huggingface-cli login")
print("4. Cr√©ez un nouveau repository: huggingface-cli repo create Qwen3-4B-French-LoRA --type model")
print("5. Uploadez votre mod√®le: huggingface-cli upload ./models/lora_qwen3_french votre-username/Qwen3-4B-French-LoRA")

# Script de publication automatis√©
publish_script = f"""#!/bin/bash
# Script pour publier le mod√®le sur Hugging Face Hub

# Remplacez VOTRE_USERNAME par votre username Hugging Face
USERNAME="VOTRE_USERNAME"
MODEL_NAME="Qwen3-4B-French-LoRA"
MODEL_PATH="./models/lora_qwen3_french"

echo "Publication du mod√®le $MODEL_NAME sur Hugging Face Hub..."

# V√©rification que le mod√®le existe
if [ ! -d "$MODEL_PATH" ]; then
    echo "Erreur: Le mod√®le n'existe pas dans $MODEL_PATH"
    exit 1
fi

# Upload du mod√®le
huggingface-cli upload $MODEL_PATH $USERNAME/$MODEL_NAME \
    --repo-type model \
    --private  # Changez √† --public pour un mod√®le public

echo "‚úÖ Mod√®le publi√© avec succ√®s!"
echo "üîó Visitez: https://huggingface.co/$USERNAME/$MODEL_NAME"
"""

with open(model_save_path / "publish.sh", 'w') as f:
    f.write(publish_script)

# Rendre le script ex√©cutable
os.chmod(model_save_path / "publish.sh", 0o755)
print("\nüìú Script de publication cr√©√©: publish.sh")

SyntaxError: invalid syntax (2040911683.py, line 52)

## 13. R√©sum√© et conclusions

In [15]:
# R√©sum√© final et completion de TrackIO
print("üéâ TP de fine-tuning LoRA avec Unsloth termin√©!\n")

print("üìä R√©sum√© des r√©sultats:")
print(f"   - Mod√®le de base: {model_name}")
print(f"   - Param√®tres LoRA: rank={lora_config['r']}, alpha={lora_config['lora_alpha']}")
print(f"   - Dataset d'entra√Ænement: {len(dataset_dict['train'])} exemples")
print(f"   - √âpoques d'entra√Ænement: {training_args.num_train_epochs}")
print(f"   - Perte finale: {trainer_stats.training_loss:.4f}")
print(f"   - Perte validation: {eval_results.get('eval_loss', 'N/A')}")
print(f"   - M√©moire GPU utilis√©e: {torch.cuda.memory_allocated() / 1e9:.1f} GB")
print(f"   - TrackIO: Activ√© et logg√©")

print("\nüìÅ Fichiers cr√©√©s:")
print(f"   - {model_save_path.name}/ (adaptateurs LoRA)")
print(f"   - {model_save_path.name}/merged_16bit/ (mod√®le fusionn√© 16-bit)")
print(f"   - {model_save_path.name}/merged_4bit/ (mod√®le fusionn√© 4-bit)")
print(f"   - {model_save_path.name}/README.md (documentation)")
print(f"   - {model_save_path.name}/publish.sh (script de publication)")

print("\nüîç Points cl√©s appris:")
print("   1. LoRA permet de fine-tuner avec ~1% des param√®tres")
print("   2. QLoRA r√©duit significativement la m√©moire GPU")
print("   3. Unsloth acc√©l√®re l'entra√Ænement de 2-3x")
print("   4. TrackIO permet un suivi pr√©cis des exp√©riences")
print("   5. Plusieurs formats de sauvegarde pour diff√©rents cas d'usage")

print("\nüöÄ Prochaines √©tapes:")
print("   1. Publier le mod√®le sur Hugging Face Hub")
print("   2. Tester avec des donn√©es r√©elles")
print("   3. Exp√©rimenter avec diff√©rents param√®tres LoRA")
print("   4. Essayer d'autres techniques de fine-tuning")
print("   5. Analyser les r√©sultats dans TrackIO dashboard")

# Finalisation de TrackIO
trackio.log({
    "experiment_completed": True,
    "completion_time": time.time(),
    "model_saved": True,
    "total_experiment_time": time.time() - trackio._start_time if hasattr(trackio, '_start_time') else 0,
    "key_learnings": [
        "Unsloth provides significant speedup for LoRA training",
        "QLoRA enables training on consumer GPUs",
        "Multiple save formats provide flexibility for deployment",
        "TrackIO enables experiment tracking and comparison"
    ]
})

# Completion de l'exp√©rience
trackio.finish()

print("\nüìä TrackIO: Exp√©rience compl√©t√©e et sauvegard√©e!")
print("   - Visualisez les r√©sultats avec: trackio show")
print("   - Ou consultez le dashboard TrackIO")

üéâ TP de fine-tuning LoRA avec Unsloth termin√©!

üìä R√©sum√© des r√©sultats:
   - Mod√®le de base: Qwen/Qwen3-4B-Instruct-2507
   - Param√®tres LoRA: rank=16, alpha=16
   - Dataset d'entra√Ænement: 32 exemples
   - √âpoques d'entra√Ænement: 3
   - Perte finale: 1.1228
   - Perte validation: 1.1588257551193237
   - M√©moire GPU utilis√©e: 3.8 GB
   - TrackIO: Activ√© et logg√©

üìÅ Fichiers cr√©√©s:
   - lora_qwen3_french/ (adaptateurs LoRA)
   - lora_qwen3_french/merged_16bit/ (mod√®le fusionn√© 16-bit)
   - lora_qwen3_french/merged_4bit/ (mod√®le fusionn√© 4-bit)
   - lora_qwen3_french/README.md (documentation)
   - lora_qwen3_french/publish.sh (script de publication)

üîç Points cl√©s appris:
   1. LoRA permet de fine-tuner avec ~1% des param√®tres
   2. QLoRA r√©duit significativement la m√©moire GPU
   3. Unsloth acc√©l√®re l'entra√Ænement de 2-3x
   4. TrackIO permet un suivi pr√©cis des exp√©riences
   5. Plusieurs formats de sauvegarde pour diff√©rents cas d'usage

üöÄ P

## 15. Pour aller plus loin

### Exp√©rimentations sugg√©r√©es

1. **Variation du rank LoRA**: Tester r=8, r=16, r=32 et comparer les performances
2. **Diff√©rents taux d'apprentissage**: 1e-4, 2e-4, 5e-4
3. **Augmentation du dataset**: G√©n√©rer plus de donn√©es synth√©tiques

### Optimisations possibles

1. **Batch processing**: Augmenter la taille du batch si m√©moire permet
2. **Gradient checkpointing**: Activ√© par d√©faut dans Unsloth
3. **Mixed precision**: Utiliser bf16 si disponible
4. **Data parallelism**: Pour multi-GPU

### √âvaluation approfondie

1. **Benchmarks automatiques**: Utiliser des benchmarks fran√ßais
2. **√âvaluation humaine**: Qualit√© des r√©ponses g√©n√©r√©es
3. **Comparaison baseline**: Contre le mod√®le de base
4. **Analyse d'erreurs**: Comprendre les faiblesses du mod√®le

### D√©ploiement

2. **Optimisation inf√©rence**: Regarder vLLM et SGLang
3. **Quantification post-entra√Ænement**: GGUF, AWQ

### TrackIO avanc√©

Pour analyser vos exp√©riences plus en d√©tail:

```python
# Comparer plusieurs exp√©riences
trackio.compare_experiments([
    "qwen3-4b-lora-french-1",
    "qwen3-4b-lora-french-2",
    "qwen3-4b-lora-french-3"
])

# Exporter les r√©sultats
trackio.export_results("experiment_results.csv")

# Visualiser les courbes d'apprentissage
trackio.plot_training_curves()
```