# üè• Doctis AI - Fine-Tuning Notebook

**Projet:** Doctis AI - Assistant de Pr√©-diagnostic M√©dical

**Auteurs:** Adam Beloucif & Amina Medjdoub

**Module:** IA G√©n√©rative & Data Engineering - EFREI 2025

---

Ce notebook permet de :
1. Fine-tuner un SLM (Phi-3 / TinyLlama) sur des donn√©es m√©dicales
2. Convertir le mod√®le en format GGUF pour ex√©cution CPU
3. Pr√©parer le d√©ploiement sur Render

## üì¶ Installation des d√©pendances

In [None]:
# =============================================================================
# Projet: Doctis AI
# Auteurs: Adam Beloucif & Amina Medjdoub
# =============================================================================

!pip install -q transformers==4.38.0 datasets accelerate peft bitsandbytes trl
!pip install -q huggingface_hub sentencepiece

print("‚úÖ D√©pendances install√©es")

In [None]:
# Connexion √† Hugging Face (optionnel mais recommand√©)
from huggingface_hub import login

# D√©commentez et ajoutez votre token HF
# login(token="hf_VOTRE_TOKEN_ICI")

print("üí° Conseil: Ajoutez votre token HF pour acc√©der aux mod√®les priv√©s")

## üîß Configuration du mod√®le

In [None]:
import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments
)
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from trl import SFTTrainer
from datasets import load_dataset

# =============================================================================
# CONFIGURATION - Modifiez selon vos besoins
# =============================================================================

# Choix du mod√®le de base
MODEL_NAME = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"  # L√©ger, rapide
# MODEL_NAME = "microsoft/Phi-3-mini-4k-instruct"  # Plus performant

OUTPUT_DIR = "./doctis-ai-finetuned"

print(f"üìå Mod√®le s√©lectionn√©: {MODEL_NAME}")
print(f"üìÅ R√©pertoire de sortie: {OUTPUT_DIR}")

In [None]:
# Configuration de la quantification 4-bit
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True
)

# Chargement du mod√®le
print(f"‚è≥ Chargement de {MODEL_NAME}...")

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True
)

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

print(f"‚úÖ Mod√®le charg√© avec succ√®s!")
print(f"   GPU: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'Non disponible'}")

## üéØ Configuration LoRA

In [None]:
# Configuration LoRA pour un fine-tuning efficace
lora_config = LoraConfig(
    r=16,                       # Rang des matrices LoRA
    lora_alpha=32,              # Facteur d'√©chelle
    target_modules=[            # Modules cibl√©s
        "q_proj", "k_proj", "v_proj", "o_proj",
        "gate_proj", "up_proj", "down_proj"
    ],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# Pr√©paration du mod√®le pour l'entra√Ænement
model = prepare_model_for_kbit_training(model)
model = get_peft_model(model, lora_config)

# Affichage des statistiques
model.print_trainable_parameters()

## üìä Chargement du Dataset

In [None]:
# =============================================================================
# OPTION 1: Dataset ChatDoctor (recommand√© pour le m√©dical)
# =============================================================================

print("‚è≥ Chargement du dataset...")

# Charge un sous-ensemble pour l'entra√Ænement rapide
dataset = load_dataset(
    "lavita/ChatDoctor-HealthCareMagic-100k",
    split="train[:3000]"  # Ajustez selon vos besoins
)

print(f"‚úÖ Dataset charg√©: {len(dataset)} exemples")
print(f"   Colonnes: {dataset.column_names}")

In [None]:
# Formatage des donn√©es pour l'entra√Ænement
def format_medical_prompt(example):
    """Formate les exemples au format chat m√©dical."""

    # Extraction des champs (adapt√© au format ChatDoctor)
    instruction = example.get("instruction", example.get("input", ""))
    response = example.get("output", example.get("response", ""))

    # Format de prompt pour Doctis AI
    formatted_text = f"""<|system|>
Tu es Doctis AI, un assistant m√©dical bienveillant et professionnel.
Tu analyses les sympt√¥mes d√©crits par le patient et fournis des informations
m√©dicales claires, rassurantes et fond√©es sur des connaissances m√©dicales.
Tu rappelles toujours l'importance de consulter un professionnel de sant√©.<|end|>
<|user|>
{instruction}<|end|>
<|assistant|>
{response}<|end|>"""

    return {"text": formatted_text}

# Application du formatage
dataset = dataset.map(format_medical_prompt)

# Aper√ßu d'un exemple
print("üìù Exemple de donn√©es format√©es:")
print("-" * 50)
print(dataset[0]["text"][:500] + "...")

## üèãÔ∏è Entra√Ænement

In [None]:
# Configuration de l'entra√Ænement
training_args = TrainingArguments(
    output_dir=OUTPUT_DIR,
    num_train_epochs=3,                    # Nombre d'√©poques
    per_device_train_batch_size=4,         # Batch size
    gradient_accumulation_steps=4,         # Accumulation de gradients
    learning_rate=2e-4,                    # Taux d'apprentissage
    weight_decay=0.01,                     # R√©gularisation
    warmup_ratio=0.03,                     # Warmup
    lr_scheduler_type="cosine",            # Scheduler
    logging_steps=25,                      # Fr√©quence de logging
    save_steps=500,                        # Fr√©quence de sauvegarde
    save_total_limit=2,                    # Nombre de checkpoints max
    fp16=True,                             # Mixed precision
    optim="paged_adamw_8bit",              # Optimiseur efficace
    report_to="none",                      # Pas de logging externe
    max_grad_norm=0.3,                     # Gradient clipping
)

# Cr√©ation du trainer
trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    tokenizer=tokenizer,
    args=training_args,
    dataset_text_field="text",
    max_seq_length=512,
    packing=False
)

print("‚úÖ Trainer configur√©")
print(f"   √âpoques: {training_args.num_train_epochs}")
print(f"   Batch size effectif: {training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps}")

In [None]:
# üöÄ LANCEMENT DE L'ENTRA√éNEMENT
print("="*60)
print("üè• DOCTIS AI - D√©marrage du fine-tuning")
print("   Auteurs: Adam Beloucif & Amina Medjdoub")
print("="*60)

trainer.train()

print("\n" + "="*60)
print("‚úÖ Entra√Ænement termin√©!")
print("="*60)

In [None]:
# Sauvegarde du mod√®le fine-tun√©
trainer.save_model(OUTPUT_DIR)
tokenizer.save_pretrained(OUTPUT_DIR)

print(f"‚úÖ Mod√®le sauvegard√© dans {OUTPUT_DIR}")

## üîÄ Fusion des poids LoRA

In [None]:
from peft import AutoPeftModelForCausalLM

print("‚è≥ Fusion des poids LoRA...")

# Recharge le mod√®le avec les adaptateurs
model = AutoPeftModelForCausalLM.from_pretrained(
    OUTPUT_DIR,
    device_map="auto",
    torch_dtype=torch.float16
)

# Fusion des poids
merged_model = model.merge_and_unload()

# Sauvegarde du mod√®le fusionn√©
MERGED_DIR = "./doctis-ai-merged"
merged_model.save_pretrained(MERGED_DIR, safe_serialization=True)
tokenizer.save_pretrained(MERGED_DIR)

print(f"‚úÖ Mod√®le fusionn√© sauvegard√© dans {MERGED_DIR}")

## üì¶ Conversion en GGUF

In [None]:
# Installation de llama.cpp
!git clone https://github.com/ggerganov/llama.cpp
%cd llama.cpp
!pip install -q -r requirements.txt

print("‚úÖ llama.cpp install√©")

In [None]:
# Conversion au format GGUF
print("‚è≥ Conversion en GGUF (format F16)...")

!python convert_hf_to_gguf.py ../doctis-ai-merged \
    --outfile ../doctis-ai-f16.gguf \
    --outtype f16

print("‚úÖ Conversion F16 termin√©e")

In [None]:
# Compilation de llama.cpp pour la quantification
!make -j llama-quantize

print("‚úÖ llama-quantize compil√©")

In [None]:
# Quantification Q4_K_M (recommand√©e pour CPU)
print("‚è≥ Quantification Q4_K_M...")

!./llama-quantize ../doctis-ai-f16.gguf ../doctis-ai-Q4_K_M.gguf Q4_K_M

print("‚úÖ Quantification termin√©e")

# Affiche les tailles
!ls -lh ../doctis-ai-*.gguf

## üì• T√©l√©chargement du mod√®le

In [None]:
from google.colab import files

print("üì• T√©l√©chargement du mod√®le quantifi√©...")
print("   Cela peut prendre quelques minutes selon la taille du fichier.")

files.download("../doctis-ai-Q4_K_M.gguf")

print("\n" + "="*60)
print("üéâ F√âLICITATIONS!")
print("   Votre mod√®le Doctis AI est pr√™t pour le d√©ploiement!")
print("   ")
print("   Prochaine √©tape: Placez le fichier .gguf dans")
print("   le dossier backend/models/ de votre projet.")
print("="*60)
print("\n   Projet: Doctis AI")
print("   Auteurs: Adam Beloucif & Amina Medjdoub")
print("   EFREI 2025")

## üß™ Test du mod√®le (Optionnel)

In [None]:
# Test rapide du mod√®le GGUF avec llama-cpp-python
!pip install -q llama-cpp-python

from llama_cpp import Llama

print("‚è≥ Chargement du mod√®le GGUF pour test...")

llm = Llama(
    model_path="../doctis-ai-Q4_K_M.gguf",
    n_ctx=512,
    n_threads=4,
    verbose=False
)

# Test de g√©n√©ration
test_prompt = """<|system|>
Tu es Doctis AI, un assistant m√©dical bienveillant.<|end|>
<|user|>
J'ai mal au ventre en bas √† droite depuis ce matin, avec des naus√©es.<|end|>
<|assistant|>
"""

print("\nüìù Test de g√©n√©ration:")
print("-" * 50)

response = llm(
    test_prompt,
    max_tokens=200,
    temperature=0.7,
    stop=["<|end|>", "<|user|>"]
)

print(response["choices"][0]["text"])
print("-" * 50)
print("‚úÖ Test r√©ussi!")