# TP Partie 2 : Fine-tuning de LLM avec LoRA

## üìö Contexte

Dans ce notebook, nous allons explorer le fine-tuning de mod√®les de langage avec la technique LoRA (Low-Rank Adaptation). Cette approche permet d'adapter des LLMs pour des t√¢ches sp√©cifiques.

## üéØ Objectifs

1. **Comprendre** le fonctionnement de LoRA et ses avantages
2. **Pr√©parer** le dataset synth√©tique g√©n√©r√© pr√©c√©demment
3. **Configurer** un entra√Ænement LoRA avec Unsloth
4. **Entra√Æner** un mod√®le Qwen3-4B sp√©cialis√© en fran√ßais
5. **√âvaluer** les performances du mod√®le fine-tun√©
6. **Publier** le mod√®le sur Hugging Face Hub

## üîß Etapes

Notre approche utilise :

1. **Unsloth** : Biblioth√®que optimis√©e pour le fine-tuning LoRA
2. **Qwen3-4B** : Mod√®le de base pr√©-entra√Æn√©
3. **QLoRA** : Quantization + LoRA pour r√©duire la m√©moire GPU
4. **Hugging Face Hub** : Publication et partage du mod√®le

Resources √† garder sous la main durant le TP:

- [LoRA Hyperparameters Guide](https://docs.unsloth.ai/get-started/fine-tuning-llms-guide/lora-hyperparameters-guide)
- [What Model Should I Use?](https://docs.unsloth.ai/get-started/fine-tuning-llms-guide/what-model-should-i-use)
- [Qwen3 instruct fine tune guide](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_(4B)-Instruct.ipynb)

In [None]:
# Import des biblioth√®ques Unsloth et TrackIO
import time
try:
    from unsloth import FastLanguageModel
    import torch
    import trackio
    
    # V√©rification GPU
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print(f"Device utilis√©: {device}")
    if torch.cuda.is_available():
        print(f"GPU: {torch.cuda.get_device_name()}")
        print(f"M√©moire GPU: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
        
except ImportError as e:
    print(f"‚ùå Erreur d'import: {e}")
    print("Veuillez ex√©cuter 'uv sync' pour installer les d√©pendances.")

## 3. Chargement et pr√©paration du dataset

Nous chargeons le dataset synth√©tique g√©n√©r√© dans la partie pr√©c√©dente.

In [None]:
# Configuration des chemins
data_dir = Path("../data/synthetic")

# Chargement du dataset
print("Chargement du dataset synth√©tique...")
if (data_dir / "synthetic_dataset_alpaca.json").exists():
    with open(data_dir / "synthetic_dataset_alpaca.json", 'r', encoding='utf-8') as f:
        alpaca_data = json.load(f)
    print(f"‚úÖ Dataset charg√©: {len(alpaca_data)} paires instruction-r√©ponse")
else:
    print("‚ùå Dataset non trouv√©. Veuillez ex√©cuter le notebook 01 d'abord.")
    # Cr√©ation d'un dataset d'exemple
    alpaca_data = [
        {
            "instruction": "Qu'est-ce que l'apprentissage automatique?",
            "input": "",
            "output": "L'apprentissage automatique est un sous-domaine de l'intelligence artificielle qui permet aux syst√®mes d'apprendre √† partir de donn√©es sans √™tre explicitement programm√©s."
        }
    ]

# Conversion en DataFrame pour analyse
df = pd.DataFrame(alpaca_data)
print(f"\nüìä Statistiques du dataset:")
print(f"   - Nombre total de paires: {len(df)}")
print(f"   - Longueur moyenne des instructions: {df['instruction'].str.len().mean():.0f} caract√®res")
print(f"   - Longueur moyenne des r√©ponses: {df['output'].str.len().mean():.0f} caract√®res")

# Affichage des premi√®res lignes
print("\nüìù Exemples de donn√©es:")
for i in range(min(3, len(alpaca_data))):
    print(f"\n--- Exemple {i+1} ---")
    print(f"Instruction: {alpaca_data[i]['instruction']}")
    print(f"R√©ponse: {alpaca_data[i]['output'][:100]}...")

## 4. Pr√©paration des donn√©es pour l'entra√Ænement

Nous formatons les donn√©es selon le format attendu par Unsloth pour le fine-tuning instructionnel.

In [None]:
# Template de formatage pour le mod√®le
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

EOS_TOKEN = "<|im_end|>"  # Token de fin pour Qwen3

def format_prompts(examples):
    """
    Formate les exemples selon le template Alpaca pour le fine-tuning.
    """
    instructions = examples["instruction"]
    inputs = examples["input"]
    outputs = examples["output"]
    
    texts = []
    for instruction, input_text, output in zip(instructions, inputs, outputs):
        # Formatage du prompt
        text = alpaca_prompt.format(instruction, input_text, output) + EOS_TOKEN
        texts.append(text)
    
    return {"text": texts}

# Conversion en Dataset Hugging Face
dataset = Dataset.from_pandas(df)

# Application du formatage
print("Formatage des donn√©es pour l'entra√Ænement...")
dataset = dataset.map(format_prompts, batched=True)

# Split train/validation
train_test_split = dataset.train_test_split(test_size=0.1, seed=42)
dataset_dict = DatasetDict({
    'train': train_test_split['train'],
    'validation': train_test_split['test']
})

print(f"\n‚úÖ Dataset pr√©par√©:")
print(f"   - Training set: {len(dataset_dict['train'])} exemples")
print(f"   - Validation set: {len(dataset_dict['validation'])} exemples")

# Affichage d'un exemple format√©
print("\nüìù Exemple format√©:")
print(dataset_dict['train'][0]['text'][:500] + "...")

## 5. Configuration du mod√®le et de LoRA avec TrackIO

Nous configurons le mod√®le Qwen3-4B avec les param√®tres LoRA optimis√©s selon les meilleures pratiques Unsloth, et initialisons TrackIO pour le suivi des exp√©riences.

In [None]:
# Initialisation de TrackIO pour le suivi des exp√©riences
experiment_name = f"qwen3-4b-lora-french-{int(time.time())}"
trackio.init(
    project="llm-finetuning-tp",
    name=experiment_name,
    config={
        "model": "Qwen/Qwen3-4B-Instruct-2507",
        "dataset": "synthetic_french",
        "framework": "unsloth",
        "optimization": "qlora"
    }
)

print(f"üìä TrackIO initialis√© - Exp√©rience: {experiment_name}")

# Configuration du mod√®le avec param√®tres optimis√©s Unsloth
model_name = "Qwen/Qwen3-4B-Instruct-2507"
max_seq_length = 2048  # Longueur maximale de s√©quence
dtype = None  # D√©tection automatique du type
load_in_4bit = True  # Utilisation de la quantification 4-bit

print(f"Chargement du mod√®le {model_name}...")

# Chargement du mod√®le avec Unsloth
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=model_name,
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit,
    token=None,  # Pas besoin de token pour les mod√®les publics
)

print("‚úÖ Mod√®le charg√© avec succ√®s!")
print(f"   - M√©moire utilis√©e: {torch.cuda.memory_allocated() / 1e9:.1f} GB")
print(f"   - M√©moire r√©serv√©e: {torch.cuda.memory_reserved() / 1e9:.1f} GB")

# Log des informations syst√®me
trackio.log({
    "gpu_memory_allocated_gb": torch.cuda.memory_allocated() / 1e9,
    "gpu_memory_reserved_gb": torch.cuda.memory_reserved() / 1e9,
    "model_parameters_total": sum(p.numel() for p in model.parameters()),
    "model_size_gb": sum(p.numel() * p.element_size() for p in model.parameters()) / 1e9
})

In [None]:
# Configuration des param√®tres LoRA optimis√©s selon les meilleures pratiques Unsloth
lora_config = {
    "r": 16,  # Rank des matrices de mise √† jour
    "target_modules": [
        "q_proj", "k_proj", "v_proj", "o_proj",
        "gate_proj", "up_proj", "down_proj",
    ],  # Modules √† adapter
    "lora_alpha": 32,  # Facteur d'√©chelle (typiquement 2*r)
    "lora_dropout": 0.05,  # Dropout pour r√©gularisation
    "bias": "none",  # Pas d'adaptation des biais
    "use_gradient_checkpointing": "unsloth",  # Optimis√© Unsloth
    "random_state": 3407,
    "use_rslora": False,  # Ne pas utiliser scaled LoRA
    "loftq_config": None,  # Configuration LoftQ (pour quantification avanc√©e)
}

print("Configuration LoRA:")
for key, value in lora_config.items():
    print(f"   - {key}: {value}")

# Application de la configuration LoRA
model = FastLanguageModel.get_peft_model(
    model,
    **lora_config
)

print("\\n‚úÖ Configuration LoRA appliqu√©e!")

# Log des param√®tres LoRA
trackio.log({
    "lora_rank": lora_config["r"],
    "lora_alpha": lora_config["lora_alpha"],
    "lora_dropout": lora_config["lora_dropout"],
    "target_modules": lora_config["target_modules"],
    "gradient_checkpointing": lora_config["use_gradient_checkpointing"]
})

# Affichage des param√®tres entra√Ænables
trainable_stats = model.print_trainable_parameters()
print(f"   - Param√®tres entra√Ænables: {trainable_stats}")

## 6. Configuration de l'entra√Ænement

Nous configurons les hyperparam√®tres d'entra√Ænement et le trainer.

In [None]:
# Configuration des arguments d'entra√Ænement optimis√©s avec TrackIO
training_args = TrainingArguments(
    output_dir="./lora_finetuned_model",
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    gradient_accumulation_steps=4,
    warmup_steps=5,
    num_train_epochs=3,  # Nombre d'√©poques
    learning_rate=2e-4,  # Taux d'apprentissage optimal pour LoRA
    fp16=not torch.cuda.is_bf16_supported(),
    bf16=torch.cuda.is_bf16_supported(),
    logging_steps=1,
    optim="adamw_8bit",
    weight_decay=0.01,
    lr_scheduler_type="linear",
    seed=3407,
    output_dir="./outputs",
    report_to="trackio",  # Utilisation de TrackIO pour le tracking
    save_strategy="epoch",
    evaluation_strategy="epoch",
    load_best_model_at_end=True,
    metric_for_best_model="loss",
    greater_is_better=False,
    # Param√®tres suppl√©mentaires pour le monitoring
    logging_first_step=True,
    logging_dir="./logs",
    ddp_find_unused_parameters=False,
)

print("Arguments d'entra√Ænement:")
print(f"   - Batch size: {training_args.per_device_train_batch_size}")
print(f"   - Gradient accumulation: {training_args.gradient_accumulation_steps}")
print(f"   - Learning rate: {training_args.learning_rate}")
print(f"   - Epochs: {training_args.num_train_epochs}")
print(f"   - Warmup steps: {training_args.warmup_steps}")
print(f"   - Report to: {training_args.report_to}")

# Log des hyperparam√®tres
trackio.log({
    "per_device_train_batch_size": training_args.per_device_train_batch_size,
    "gradient_accumulation_steps": training_args.gradient_accumulation_steps,
    "learning_rate": training_args.learning_rate,
    "num_train_epochs": training_args.num_train_epochs,
    "warmup_steps": training_args.warmup_steps,
    "weight_decay": training_args.weight_decay,
    "optimizer": training_args.optim,
    "lr_scheduler_type": training_args.lr_scheduler_type,
    "effective_batch_size": training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps
})

In [None]:
# Configuration du trainer
trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset_dict["train"],
    eval_dataset=dataset_dict["validation"],
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    dataset_num_proc=2,
    packing=False,  # Ne pas packer les s√©quences
    args=training_args,
)

print("‚úÖ Trainer configur√©!")
print(f"   - √âchantillons d'entra√Ænement: {len(trainer.train_dataset)}")
print(f"   - √âchantillons de validation: {len(trainer.eval_dataset)}")

## 7. Entra√Ænement du mod√®le

**‚ö†Ô∏è Important** : Cette √©tape peut prendre du temps (15-30 minutes) selon votre GPU et la taille du dataset.

In [None]:
# D√©marrage de l'entra√Ænement avec monitoring TrackIO
print("üöÄ D√©marrage de l'entra√Ænement LoRA...")
print(f"   - Dataset: {len(dataset_dict['train'])} exemples")
print(f"   - Param√®tres LoRA: rank={lora_config['r']}, alpha={lora_config['lora_alpha']}")
print(f"   - Learning rate: {training_args.learning_rate}")
print(f"   - Epochs: {training_args.num_train_epochs}")
print(f"   - TrackIO: Activ√©\\n")

# Suivi de la m√©moire avant entra√Ænement
if torch.cuda.is_available():
    print(f"M√©moire GPU avant entra√Ænement: {torch.cuda.memory_allocated() / 1e9:.1f} GB")

# Fonction de monitoring GPU pour TrackIO
def log_gpu_stats():
    if torch.cuda.is_available():
        gpu_stats = {
            "gpu_memory_allocated_gb": torch.cuda.memory_allocated() / 1e9,
            "gpu_memory_reserved_gb": torch.cuda.memory_reserved() / 1e9,
            "gpu_utilization_percent": torch.cuda.utilization(),
        }
        try:
            # Tentative de lecture de la temp√©rature et de la puissance
            gpu_stats.update({
                "gpu_temperature_c": torch.cuda.temperature(),
                "gpu_power_watts": torch.cuda.power_draw(),
            })
        except:
            pass
        trackio.log(gpu_stats)

# Log initial
log_gpu_stats()
trackio.log({
    "training_start_time": time.time(),
    "dataset_size": len(dataset_dict['train']),
    "validation_size": len(dataset_dict['validation'])
})

# Lancement de l'entra√Ænement
trainer_stats = trainer.train()

print("\\n‚úÖ Entra√Ænement termin√©!")
print(f"   - Perte finale: {trainer_stats.training_loss:.4f}")
print(f"   - Temps d'entra√Ænement: {trainer_stats.metrics.get('train_runtime', 0):.1f} secondes")

# Suivi de la m√©moire apr√®s entra√Ænement
if torch.cuda.is_available():
    print(f"M√©moire GPU apr√®s entra√Ænement: {torch.cuda.memory_allocated() / 1e9:.1f} GB")

# Log des r√©sultats finaux
log_gpu_stats()
trackio.log({
    "training_end_time": time.time(),
    "final_training_loss": trainer_stats.training_loss,
    "training_runtime_seconds": trainer_stats.metrics.get('train_runtime', 0),
    "training_samples_per_second": trainer_stats.metrics.get('train_samples_per_second', 0),
    "total_steps": trainer.state.global_step
})

## 8. √âvaluation du mod√®le

Nous √©valuons les performances du mod√®le fine-tun√© sur le jeu de validation.

In [None]:
# √âvaluation sur le jeu de validation avec TrackIO
print("üìä √âvaluation du mod√®le sur le jeu de validation...")
eval_results = trainer.evaluate()

print("\\nR√©sultats de l'√©valuation:")
for key, value in eval_results.items():
    if isinstance(value, (int, float)):
        print(f"   - {key}: {value:.4f}")

# Log des r√©sultats d'√©valuation
trackio.log({
    "eval_loss": eval_results.get("eval_loss", 0),
    "eval_runtime": eval_results.get("eval_runtime", 0),
    "eval_samples_per_second": eval_results.get("eval_samples_per_second", 0),
    "eval_steps_per_second": eval_results.get("eval_steps_per_second", 0)
})

# Visualisation de la courbe d'apprentissage
if hasattr(trainer, "state") and trainer.state.log_history:
    log_history = trainer.state.log_history
    losses = [log.get('loss', 0) for log in log_history if 'loss' in log]
    steps = [log.get('step', 0) for log in log_history if 'loss' in log]
    
    plt.figure(figsize=(10, 6))
    plt.plot(steps, losses, 'b-', label='Training Loss')
    plt.xlabel('Steps')
    plt.ylabel('Loss')
    plt.title('Courbe d\\'apprentissage')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.show()
    
    # Log des m√©triques de la courbe d'apprentissage
    if losses:
        trackio.log({
            "training_loss_min": min(losses),
            "training_loss_final": losses[-1],
            "training_loss_improvement": losses[0] - losses[-1] if len(losses) > 1 else 0
        })

## 9. Test d'inf√©rence

Nous testons le mod√®le fine-tun√© sur quelques exemples pour √©valuer sa capacit√© √† g√©n√©rer des r√©ponses en fran√ßais.

In [None]:
# Configuration du mod√®le pour l'inf√©rence optimis√©e
FastLanguageModel.for_inference(model)

# Fonction de g√©n√©ration optimis√©e
def generate_response(instruction: str, max_new_tokens: int = 512) -> str:
    """
    G√©n√®re une r√©ponse √† partir d'une instruction avec param√®tres optimis√©s.
    """
    prompt = alpaca_prompt.format(
        instruction,
        "",  # Input vide
        ""  # Laisser vide pour la g√©n√©ration
    )
    
    inputs = tokenizer([prompt], return_tensors="pt").to("cuda")
    
    # G√©n√©ration avec param√®tres optimis√©s pour le fran√ßais
    outputs = model.generate(
        **inputs,
        max_new_tokens=max_new_tokens,
        use_cache=True,
        temperature=0.7,
        top_p=0.9,
        top_k=50,
        repetition_penalty=1.1,
        do_sample=True,
        pad_token_id=tokenizer.eos_token_id,
        eos_token_id=tokenizer.eos_token_id,
    )
    
    response = tokenizer.batch_decode(outputs)[0]
    # Extraire seulement la r√©ponse g√©n√©r√©e
    response = response.split("### Response:")[1].strip()
    return response

# Test avec exemples vari√©s en fran√ßais
test_instructions = [
    "Qu'est-ce que l'intelligence artificielle?",
    "Explique le principe du fine-tuning avec LoRA.",
    "Quels sont les avantages de QLoRA par rapport au fine-tuning classique?",
    "Comment fonctionne l'apprentissage par renforcement?",
    "Qu'est-ce que la quantification 4-bit dans les LLMs?"
]

print("üß™ Tests d'inf√©rence:\\n")

# Log des tests d'inf√©rence
inference_results = []

for i, instruction in enumerate(test_instructions):
    print(f"--- Test {i+1} ---")
    print(f"Instruction: {instruction}")
    
    start_time = time.time()
    response = generate_response(instruction)
    inference_time = time.time() - start_time
    
    print(f"R√©ponse: {response[:300]}...")
    print(f"Temps de g√©n√©ration: {inference_time:.2f} secondes\\n")
    
    # Stocker les r√©sultats pour le logging
    inference_results.append({
        "test_id": i + 1,
        "instruction": instruction,
        "response_length": len(response),
        "inference_time": inference_time,
        "tokens_per_second": len(response.split()) / inference_time if inference_time > 0 else 0
    })

# Log des r√©sultats d'inf√©rence
trackio.log({
    "inference_tests": inference_results,
    "avg_inference_time": sum(r["inference_time"] for r in inference_results) / len(inference_results),
    "avg_tokens_per_second": sum(r["tokens_per_second"] for r in inference_results) / len(inference_results)
})

## 10. Analyse des compromis LoRA

Nous analysons les avantages et inconv√©nients de l'approche LoRA.

In [None]:
# Analyse des param√®tres entra√Ænables
total_params = sum(p.numel() for p in model.parameters())
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
percentage = (trainable_params / total_params) * 100

print("üìä Analyse des param√®tres:")
print(f"   - Param√®tres totaux: {total_params:,}")
print(f"   - Param√®tres entra√Ænables: {trainable_params:,}")
print(f"   - Pourcentage entra√Ænable: {percentage:.2f}%")

# Comparaison des approches
comparison_data = {
    "Approche": ["Full Fine-tuning", "LoRA (r=16)", "LoRA (r=8)", "LoRA (r=32)"],
    "Param√®tres entra√Ænables": [
        f"{total_params:,}",
        f"{trainable_params:,}",
        f"{trainable_params//2:,}",
        f"{trainable_params*2:,}"
    ],
    "M√©moire GPU estim√©e": ["~24GB", "~8GB", "~6GB", "~10GB"],
    "Temps d'entra√Ænement": ["100%", "~30%", "~20%", "~40%"],
    "Performance relative": ["100%", "~95%", "~85%", "~98%"]
}

comparison_df = pd.DataFrame(comparison_data)
print("\nüîÑ Comparaison des approches:")
print(comparison_df.to_string(index=False))

# Visualisation
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Distribution des types de param√®tres
param_types = ['Entra√Ænables', 'Gel√©s']
param_counts = [trainable_params, total_params - trainable_params]

axes[0].pie(param_counts, labels=param_types, autopct='%1.1f%%', startangle=90)
axes[0].set_title('Distribution des param√®tres')

# Efficacit√© m√©moire
approaches = ['Full FT', 'LoRA r=16', 'LoRA r=8', 'LoRA r=32']
memory_usage = [100, 33, 25, 42]  # Pourcentage du full fine-tuning

axes[1].bar(approaches, memory_usage, color=['red', 'green', 'blue', 'orange'])
axes[1].set_ylabel('M√©moire GPU relative (%)')
axes[1].set_title('Efficacit√© m√©moire')
axes[1].set_ylim(0, 120)

# Ajout des valeurs sur les barres
for i, v in enumerate(memory_usage):
    axes[1].text(i, v + 2, f'{v}%', ha='center', va='bottom')

plt.tight_layout()
plt.show()

## 11. Sauvegarde du mod√®le

Nous sauvegardons le mod√®le fine-tun√© pour une utilisation future.

In [None]:
# Cr√©ation du dossier de sauvegarde
model_save_path = Path("../models/lora_qwen3_french")
model_save_path.mkdir(parents=True, exist_ok=True)

print(f"üíæ Sauvegarde du mod√®le dans {model_save_path}...")

# Sauvegarde du mod√®le LoRA
model.save_pretrained(model_save_path)
tokenizer.save_pretrained(model_save_path)

# Sauvegarde de la configuration
config = {
    "base_model": model_name,
    "lora_config": lora_config,
    "training_args": {
        "num_train_epochs": training_args.num_train_epochs,
        "learning_rate": training_args.learning_rate,
        "per_device_train_batch_size": training_args.per_device_train_batch_size,
    },
    "dataset_info": {
        "train_size": len(dataset_dict['train']),
        "val_size": len(dataset_dict['validation']),
        "source": "synthetic_dataset"
    },
    "results": {
        "final_loss": trainer_stats.training_loss,
        "eval_results": eval_results
    }
}

with open(model_save_path / "config.json", 'w', encoding='utf-8') as f:
    json.dump(config, f, ensure_ascii=False, indent=2)

print(f"‚úÖ Mod√®le sauvegard√© avec succ√®s!")
print(f"   - Poids du mod√®le: {sum(os.path.getsize(model_save_path/f) for f in os.listdir(model_save_path) if os.path.isfile(model_save_path/f)) / 1e6:.1f} MB")

# Optionnel: Sauvegarde en 16-bit pour l'inf√©rence
print("\nüíæ Sauvegarde en 16-bit pour l'inf√©rence...")
model.save_pretrained_merged(
    model_save_path / "merged_16bit",
    tokenizer,
    save_method="merged_16bit"
)
print("‚úÖ Sauvegarde 16-bit termin√©e!")

## 12. Pr√©paration pour la publication sur Hugging Face

Nous pr√©parons le mod√®le pour sa publication sur Hugging Face Hub.

In [None]:
# Cr√©ation du README pour Hugging Face
readme_content = f"""---
library_name: transformers
license: mit
base_model: {model_name}
tags:
- trl
- sft
- generated_from_trainer
- french
- lora
- qwen3
model-index:
- name: Qwen3-4B-French-LoRA
  results: []
---

# Qwen3-4B-French-LoRA

## Description

Ce mod√®le est une version fine-tun√©e de Qwen3-4B-Instruct sp√©cialis√©e pour le fran√ßais. Il a √©t√© entra√Æn√© sur un dataset synth√©tique d'instructions-r√©ponses en fran√ßais.

## D√©tails d'entra√Ænement

- **Base Model**: {model_name}
- **Training Framework**: Unsloth + TRL
- **Quantization**: 4-bit (QLoRA)
- **LoRA Rank**: {lora_config['r']}
- **LoRA Alpha**: {lora_config['lora_alpha']}
- **Training Epochs**: {training_args.num_train_epochs}
- **Learning Rate**: {training_args.learning_rate}
- **Dataset Size**: {len(dataset_dict['train'])} examples

## Performance

- **Training Loss**: {trainer_stats.training_loss:.4f}
- **Validation Loss**: {eval_results.get('eval_loss', 'N/A')}

## Utilisation

```python
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# Chargement du mod√®le
model_path = "votre-username/Qwen3-4B-French-LoRA"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)

# Formatage du prompt
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{{}}

### Input:
{{}}

### Response:
{{}}"""

# G√©n√©ration
prompt = alpaca_prompt.format(
    "Qu'est-ce que l'intelligence artificielle?",
    "",
    ""
)

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
```

## Limitations

- Le mod√®le est sp√©cialis√© pour le fran√ßais
- Performances limit√©es pour les t√¢ches n√©cessitant un raisonnement complexe
- Peut g√©n√©rer des informations incorrectes (hallucinations)

## √âthique

Ce mod√®le est destin√© √† des fins √©ducatives et de recherche. Les utilisateurs doivent √™tre conscients des biais potentiels et utiliser le mod√®le de mani√®re responsable.
"""

# Sauvegarde du README
with open(model_save_path / "README.md", 'w', encoding='utf-8') as f:
    f.write(readme_content)

print("üìù README cr√©√© pour Hugging Face Hub")

# Instructions pour la publication
print("\nüöÄ Instructions pour la publication sur Hugging Face Hub:")
print("1. Cr√©ez un compte sur Hugging Face: https://huggingface.co/join")
print("2. Installez l'CLI Hugging Face: pip install 'huggingface_hub[cli]'")
print("3. Connectez-vous: huggingface-cli login")
print("4. Cr√©ez un nouveau repository: huggingface-cli repo create Qwen3-4B-French-LoRA --type model")
print("5. Uploadez votre mod√®le: huggingface-cli upload ./models/lora_qwen3_french votre-username/Qwen3-4B-French-LoRA")

# Script de publication automatis√©
publish_script = f"""#!/bin/bash
# Script pour publier le mod√®le sur Hugging Face Hub

# Remplacez VOTRE_USERNAME par votre username Hugging Face
USERNAME="VOTRE_USERNAME"
MODEL_NAME="Qwen3-4B-French-LoRA"
MODEL_PATH="./models/lora_qwen3_french"

echo "Publication du mod√®le $MODEL_NAME sur Hugging Face Hub..."

# V√©rification que le mod√®le existe
if [ ! -d "$MODEL_PATH" ]; then
    echo "Erreur: Le mod√®le n'existe pas dans $MODEL_PATH"
    exit 1
fi

# Upload du mod√®le
huggingface-cli upload $MODEL_PATH $USERNAME/$MODEL_NAME \
    --repo-type model \
    --private  # Changez √† --public pour un mod√®le public

echo "‚úÖ Mod√®le publi√© avec succ√®s!"
echo "üîó Visitez: https://huggingface.co/$USERNAME/$MODEL_NAME"
"""

with open(model_save_path / "publish.sh", 'w') as f:
    f.write(publish_script)

# Rendre le script ex√©cutable
os.chmod(model_save_path / "publish.sh", 0o755)
print("\nüìú Script de publication cr√©√©: publish.sh")

## 13. R√©sum√© et conclusions

In [None]:
# R√©sum√© final et completion de TrackIO
print("üéâ TP de fine-tuning LoRA termin√©!\\n")

print("üìä R√©sum√© des r√©sultats:")
print(f"   - Mod√®le de base: {model_name}")
print(f"   - Param√®tres LoRA: rank={lora_config['r']}, alpha={lora_config['lora_alpha']}")
print(f"   - Dataset d'entra√Ænement: {len(dataset_dict['train'])} exemples")
print(f"   - √âpoques d'entra√Ænement: {training_args.num_train_epochs}")
print(f"   - Perte finale: {trainer_stats.training_loss:.4f}")
print(f"   - Perte validation: {eval_results.get('eval_loss', 'N/A')}")
print(f"   - M√©moire GPU utilis√©e: {torch.cuda.memory_allocated() / 1e9:.1f} GB")
print(f"   - TrackIO: Activ√© et logg√©")

print("\\nüìÅ Fichiers cr√©√©s:")
print(f"   - {model_save_path.name}/ (mod√®le LoRA)")
print(f"   - {model_save_path.name}/merged_16bit/ (mod√®le fusionn√©)")
print(f"   - {model_save_path.name}/README.md (documentation)")
print(f"   - {model_save_path.name}/publish.sh (script de publication)")

print("\\nüîç Points cl√©s appris:")
print("   1. LoRA permet de fine-tuner avec ~1% des param√®tres")
print("   2. QLoRA r√©duit significativement la m√©moire GPU")
print("   3. Unsloth acc√©l√®re l'entra√Ænement de 2-3x")
print("   4. TrackIO permet un suivi pr√©cis des exp√©riences")
print("   5. Le mod√®le reste petit et facile √† partager")

print("\\nüöÄ Prochaines √©tapes:")
print("   1. Publier le mod√®le sur Hugging Face Hub")
print("   2. Tester avec des donn√©es r√©elles")
print("   3. Exp√©rimenter avec diff√©rents param√®tres LoRA")
print("   4. Essayer d'autres techniques de fine-tuning")
print("   5. Analyser les r√©sultats dans TrackIO dashboard")

# Finalisation de TrackIO
trackio.log({
    "experiment_completed": True,
    "completion_time": time.time(),
    "model_saved": True,
    "total_experiment_time": time.time() - trackio._start_time if hasattr(trackio, '_start_time') else 0
})

# Completion de l'exp√©rience
trackio.finish()

print("\\nüìä TrackIO: Exp√©rience compl√©t√©e et sauvegard√©e!")
print("   - Visualisez les r√©sultats avec: trackio show")
print("   - Ou consultez le dashboard TrackIO")

## 15. Pour aller plus loin

### Exp√©rimentations sugg√©r√©es

1. **Variation du rank LoRA**: Tester r=8, r=16, r=32 et comparer les performances
2. **Diff√©rents taux d'apprentissage**: 1e-4, 2e-4, 5e-4
3. **Augmentation du dataset**: G√©n√©rer plus de donn√©es synth√©tiques
4. **Techniques avanc√©es**:
   - DoRA (Weight-Decomposed LoRA)
   - VeRA (Vector-based Random Matrix Adaptation)
   - QLoRA avec diff√©rents niveaux de quantification

### Optimisations possibles

1. **Batch processing**: Augmenter la taille du batch si m√©moire permet
2. **Gradient checkpointing**: Activ√© par d√©faut dans Unsloth
3. **Mixed precision**: Utiliser bf16 si disponible
4. **Data parallelism**: Pour multi-GPU

### √âvaluation approfondie

1. **Benchmarks automatiques**: Utiliser des benchmarks fran√ßais
2. **√âvaluation humaine**: Qualit√© des r√©ponses g√©n√©r√©es
3. **Comparaison baseline**: Contre le mod√®le de base
4. **Analyse d'erreurs**: Comprendre les faiblesses du mod√®le

### D√©ploiement

1. **API REST**: Cr√©er une API pour le mod√®le
2. **Optimisation inf√©rence**: vLLM, TensorRT-LLM
3. **Quantification post-entra√Ænement**: GGUF, AWQ
4. **Monitoring**: Suivi des performances en production

### TrackIO avanc√©

Pour analyser vos exp√©riences plus en d√©tail:

```python
# Comparer plusieurs exp√©riences
trackio.compare_experiments([
    "qwen3-4b-lora-french-1",
    "qwen3-4b-lora-french-2",
    "qwen3-4b-lora-french-3"
])

# Exporter les r√©sultats
trackio.export_results("experiment_results.csv")

# Visualiser les courbes d'apprentissage
trackio.plot_training_curves()
```