# Fine-tuning Qwen2.5-0.5B pour post-traitement dict√©e FR

**Objectif** : Entra√Æner Qwen2.5-0.5B-Instruct avec LoRA pour corriger les sorties brutes de Whisper en fran√ßais.

**T√¢ches couvertes** :
- Task 20 ‚Äî G√©n√©ration du dataset (paires brut Whisper ‚Üí texte corrig√©)
- Task 21 ‚Äî Fine-tuning LoRA/QLoRA sur Qwen2.5-0.5B
- Task 22 ‚Äî Export du mod√®le au format GGUF pour int√©gration dans l'app

## Instructions
1. **Runtime** ‚Üí Modifier le type d'ex√©cution ‚Üí GPU (T4 gratuit ou mieux)
2. Cliquer **Ex√©cution** ‚Üí **Tout ex√©cuter**
3. √Ä la fin (~2-4h sur T4), t√©l√©charger `qwen25-dictation-fr-q4.gguf`
4. Placer le fichier dans `~/Library/Application Support/dictation-ia/models/`

---
**Pr√©requis** : Aucun. Tout est automatis√©.

**Co√ªt** : 0‚Ç¨ (Colab gratuit T4) ou ~3-5‚Ç¨ (Colab Pro A100, 4√ó plus rapide)

## 0. V√©rification GPU

In [None]:
import subprocess
result = subprocess.run(['nvidia-smi', '--query-gpu=name,memory.total', '--format=csv,noheader'], 
                       capture_output=True, text=True)
if result.returncode == 0:
    gpu_info = result.stdout.strip()
    print(f'‚úÖ GPU d√©tect√© : {gpu_info}')
else:
    raise RuntimeError('‚ùå Aucun GPU d√©tect√©. Allez dans Runtime ‚Üí Modifier le type d\'ex√©cution ‚Üí GPU')

## 1. Installation des d√©pendances

In [None]:
%%capture
!pip install -q \
    transformers==4.46.0 \
    peft==0.13.0 \
    trl==0.12.0 \
    datasets==3.1.0 \
    bitsandbytes==0.44.1 \
    accelerate==1.1.0 \
    llama-cpp-python==0.3.2 \
    huggingface_hub

print('‚úÖ D√©pendances install√©es')

## 2. Configuration

In [None]:
# ‚îÄ‚îÄ Configuration ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
MODEL_ID       = 'Qwen/Qwen2.5-0.5B-Instruct'
OUTPUT_DIR     = '/content/qwen25-dictation-fr'
GGUF_NAME      = 'qwen25-dictation-fr-q4.gguf'
MAX_SEQ_LEN    = 256   # Phrases dict√©es courtes ‚Äî √©conomise la VRAM
EPOCHS         = 3
BATCH_SIZE     = 8
GRAD_ACCUM     = 4     # Batch effectif = 32
LEARNING_RATE  = 2e-4
LORA_R         = 16
LORA_ALPHA     = 32
LORA_DROPOUT   = 0.05
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ

import os, json, random
from pathlib import Path

Path(OUTPUT_DIR).mkdir(parents=True, exist_ok=True)
print(f'‚úÖ Config OK ‚Äî mod√®le cible : {MODEL_ID}')

## 3. G√©n√©ration du dataset (Task 20)

G√©n√®re ~10 000 paires *(sortie brute Whisper ‚Üí texte corrig√©)* en fran√ßais.
Les erreurs typiques de Whisper FR sont simul√©es : fillers, √©lisions mal form√©es, ponctuation manquante, b√©gaiements.

In [None]:
import re, random

# ‚îÄ‚îÄ Corpus de phrases fran√ßaises propres ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
CLEAN_SENTENCES = [
    # Quotidien
    "Je voudrais r√©server une table pour deux personnes ce soir.",
    "Peux-tu m'envoyer le document par email s'il te pla√Æt ?",
    "La r√©union est pr√©vue pour demain matin √† neuf heures.",
    "Il faudrait qu'on discute de ce projet avant la fin de la semaine.",
    "J'ai besoin d'aide pour configurer mon ordinateur.",
    "Le rapport doit √™tre remis au plus tard vendredi.",
    "Tu peux me rappeler dans une heure ?",
    "On se retrouve √† la gare √† midi moins le quart.",
    "N'oublie pas d'acheter du pain sur le chemin du retour.",
    "La pr√©sentation s'est tr√®s bien pass√©e, tout le monde √©tait satisfait.",
    # Professionnel
    "Suite √† notre √©change t√©l√©phonique, je vous adresse ce compte-rendu.",
    "Merci de bien vouloir confirmer votre pr√©sence avant jeudi.",
    "Je reste disponible pour toute question compl√©mentaire.",
    "Le budget pr√©visionnel a √©t√© valid√© par la direction.",
    "Nous devons imp√©rativement respecter les d√©lais contractuels.",
    "L'√©quipe technique travaille sur la r√©solution du probl√®me.",
    "Ce point sera abord√© lors de la prochaine r√©union de suivi.",
    "Je vous transmets les documents demand√©s en pi√®ce jointe.",
    "Pouvez-vous me confirmer les sp√©cifications techniques requises ?",
    "La mise en production est planifi√©e pour le premier du mois prochain.",
    # Technique
    "Il faut mettre √† jour la base de donn√©es avant le d√©ploiement.",
    "Le bug est li√© √† une mauvaise gestion des erreurs dans le module audio.",
    "On utilise une architecture microservices avec des conteneurs Docker.",
    "Les tests unitaires doivent couvrir au moins quatre-vingts pourcent du code.",
    "J'ai trouv√© la source du probl√®me dans la fonction de traitement audio.",
    "La latence du pipeline doit rester inf√©rieure √† deux secondes.",
    "Le mod√®le de langage tourne en local sur le processeur neural Apple.",
    "Il faudrait optimiser l'algorithme de d√©tection de fin de parole.",
    "Les logs indiquent une fuite m√©moire dans le gestionnaire de ressources.",
    "On peut am√©liorer les performances en utilisant le cache de second niveau.",
    # Conversation
    "Franchement je pense que cette solution est la meilleure.",
    "Tu vois ce que je veux dire, c'est vraiment important pour nous.",
    "En fait la situation est plus compliqu√©e que ce qu'on croyait.",
    "Je ne sais pas trop comment aborder ce sujet avec lui.",
    "C'est exactement √ßa, tu as tout √† fait compris.",
    "Attends, laisse-moi r√©fl√©chir deux secondes avant de r√©pondre.",
    "Honn√™tement, je ne suis pas s√ªr que ce soit la meilleure approche.",
    "On pourrait essayer d'une autre fa√ßon, √ßa me semble plus simple.",
    "J'ai l'impression qu'on tourne en rond sur ce sujet.",
    "Ce que tu proposes est int√©ressant mais √ßa demande plus de temps.",
]

# ‚îÄ‚îÄ Simulation des erreurs typiques de Whisper FR ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
FILLERS = ['euh ', 'heu ', 'bah ', 'ben ', 'du coup ', 'genre ', 'voil√† ', 
           'en fait ', 'quoi ', 'hein ', 'bon ben ', 'disons ']

def inject_whisper_errors(clean: str) -> str:
    """Simule les erreurs typiques produites par Whisper en FR."""
    raw = clean
    
    # Retirer la ponctuation finale (Whisper l'omet parfois)
    if random.random() < 0.4:
        raw = re.sub(r'[.!?]$', '', raw)
    
    # Minuscule initiale (Whisper parfois)
    if random.random() < 0.3 and raw:
        raw = raw[0].lower() + raw[1:]
    
    # Injecter des fillers au d√©but
    if random.random() < 0.5:
        raw = random.choice(FILLERS) + raw
    
    # Injecter des fillers au milieu
    if random.random() < 0.3:
        words = raw.split()
        if len(words) > 3:
            pos = random.randint(1, len(words) - 1)
            filler = random.choice(FILLERS).strip()
            words.insert(pos, filler)
            raw = ' '.join(words)
    
    # B√©gaiement (mot r√©p√©t√©)
    if random.random() < 0.25:
        words = raw.split()
        if len(words) > 2:
            pos = random.randint(0, len(words) - 1)
            words.insert(pos + 1, words[pos])
            raw = ' '.join(words)
    
    # Espace apr√®s apostrophe (bug Whisper FR)
    if random.random() < 0.4:
        raw = re.sub(r"([jcnldJ])'([a-zA-Z√Ä-√ø])", r"\1' \2", raw)
    
    # Double ponctuation
    if random.random() < 0.15:
        raw = re.sub(r'([.?!])', r'\1\1', raw, count=1)
    
    return raw


def format_prompt(raw: str, mode: str = 'chat') -> str:
    """Format prompt instruction pour le fine-tuning."""
    mode_instructions = {
        'chat': 'Corrige ce texte transcrit par Whisper : supprime les fillers (euh, du coup, genre...), corrige les b√©gaiements, normalise la ponctuation et la majuscule initiale. Conserve le style et le ton naturel.',
        'pro':  'Reformule ce texte transcrit par Whisper en style professionnel : supprime les fillers, corrige les b√©gaiements, am√©liore la formulation pour un email ou document formel.',
        'code': 'Corrige ce texte transcrit par Whisper en pr√©servant le vocabulaire technique. Supprime uniquement les fillers et b√©gaiements √©vidents.',
    }
    instruction = mode_instructions[mode]
    return f'<|im_start|>system\nTu es un assistant de correction de dict√©e vocale fran√ßaise.<|im_end|>\n<|im_start|>user\n{instruction}\n\nTexte brut : {raw}<|im_end|>\n<|im_start|>assistant\n'


# ‚îÄ‚îÄ G√©n√©ration ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
random.seed(42)
N_SAMPLES = 10_000
dataset = []

modes = ['chat', 'chat', 'chat', 'pro', 'code']  # 60% chat, 20% pro, 20% code

for i in range(N_SAMPLES):
    clean = random.choice(CLEAN_SENTENCES)
    # Variations : combiner 2 phrases parfois
    if random.random() < 0.2:
        clean2 = random.choice(CLEAN_SENTENCES)
        if clean2 != clean:
            clean = clean + ' ' + clean2
    
    raw = inject_whisper_errors(clean)
    mode = random.choice(modes)
    
    prompt = format_prompt(raw, mode)
    full_text = prompt + clean + '<|im_end|>'
    
    dataset.append({
        'text': full_text,
        'raw': raw,
        'clean': clean,
        'mode': mode,
    })

# M√©langer et diviser train/val
random.shuffle(dataset)
split = int(len(dataset) * 0.95)
train_data = dataset[:split]
val_data   = dataset[split:]

print(f'‚úÖ Dataset g√©n√©r√© : {len(train_data)} train + {len(val_data)} val')
print(f'\nExemple :')
ex = train_data[0]
print(f'  Brut  : {ex["raw"]}')
print(f'  Propre: {ex["clean"]}')
print(f'  Mode  : {ex["mode"]}')

## 4. (Optionnel) Enrichir avec vos propres logs

Si vous avez des fichiers de logs r√©els de l'application, uploadez-les ici.
Format attendu : CSV avec colonnes `raw` et `clean`, ou JSON `[{"raw": ..., "clean": ...}]`.

In [None]:
from google.colab import files
import json, csv

USE_REAL_LOGS = False  # Mettre True si vous avez des logs r√©els √† uploader

if USE_REAL_LOGS:
    print('üìÅ S√©lectionnez votre fichier de logs (.json ou .csv)')
    uploaded = files.upload()
    
    for filename, content in uploaded.items():
        if filename.endswith('.json'):
            real_data = json.loads(content)
        elif filename.endswith('.csv'):
            import io
            reader = csv.DictReader(io.StringIO(content.decode('utf-8')))
            real_data = list(reader)
        else:
            print(f'Format non support√© : {filename}')
            continue
        
        real_formatted = []
        for item in real_data:
            if 'raw' in item and 'clean' in item:
                mode = item.get('mode', 'chat')
                prompt = format_prompt(item['raw'], mode)
                real_formatted.append({'text': prompt + item['clean'] + '<|im_end|>', **item})
        
        # Les donn√©es r√©elles ont 3√ó plus de poids (r√©p√©t√©es 3x)
        train_data.extend(real_formatted * 3)
        print(f'‚úÖ {len(real_formatted)} exemples r√©els ajout√©s (√ó3 = {len(real_formatted)*3} paires)')
    
    random.shuffle(train_data)
    print(f'Dataset total apr√®s enrichissement : {len(train_data)} exemples')
else:
    print('‚ÑπÔ∏è  Entra√Ænement sur dataset synth√©tique uniquement.')
    print('   Mettez USE_REAL_LOGS = True pour utiliser vos propres logs.')

## 5. Chargement du mod√®le de base (Task 21 ‚Äî d√©but)

In [None]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

# Quantification 4-bit pour √©conomiser la VRAM (T4 = 16 Go)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
)

print(f'‚è≥ Chargement du tokenizer {MODEL_ID}...')
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = 'right'

print(f'‚è≥ Chargement du mod√®le {MODEL_ID} en QLoRA 4-bit...')
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    quantization_config=bnb_config,
    device_map='auto',
    trust_remote_code=True,
)
model.config.use_cache = False

vram_used = torch.cuda.memory_allocated() / 1e9
print(f'‚úÖ Mod√®le charg√© ‚Äî VRAM utilis√©e : {vram_used:.1f} Go')

## 6. Configuration LoRA et entra√Ænement

In [None]:
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from trl import SFTTrainer, SFTConfig
from datasets import Dataset

# Pr√©parer le mod√®le pour le fine-tuning QLoRA
model = prepare_model_for_kbit_training(model)

# Configuration LoRA
lora_config = LoraConfig(
    r=LORA_R,
    lora_alpha=LORA_ALPHA,
    target_modules=['q_proj', 'k_proj', 'v_proj', 'o_proj', 'gate_proj', 'up_proj', 'down_proj'],
    lora_dropout=LORA_DROPOUT,
    bias='none',
    task_type='CAUSAL_LM',
)

model = get_peft_model(model, lora_config)
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
total_params = sum(p.numel() for p in model.parameters())
print(f'‚úÖ LoRA configur√© ‚Äî param√®tres entra√Ænables : {trainable_params:,} / {total_params:,} ({100*trainable_params/total_params:.1f}%)')

# Convertir en datasets HuggingFace
hf_train = Dataset.from_list([{'text': d['text']} for d in train_data])
hf_val   = Dataset.from_list([{'text': d['text']} for d in val_data])

# Configuration entra√Ænement
training_args = SFTConfig(
    output_dir=OUTPUT_DIR,
    num_train_epochs=EPOCHS,
    per_device_train_batch_size=BATCH_SIZE,
    per_device_eval_batch_size=4,
    gradient_accumulation_steps=GRAD_ACCUM,
    learning_rate=LEARNING_RATE,
    fp16=True,
    logging_steps=50,
    eval_strategy='steps',
    eval_steps=200,
    save_steps=500,
    save_total_limit=2,
    load_best_model_at_end=True,
    warmup_ratio=0.03,
    lr_scheduler_type='cosine',
    report_to='none',
    max_seq_length=MAX_SEQ_LEN,
    dataset_text_field='text',
)

trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=hf_train,
    eval_dataset=hf_val,
    tokenizer=tokenizer,
)

print('‚è≥ D√©marrage de l\'entra√Ænement...')
print(f'   Epochs : {EPOCHS} | Batch effectif : {BATCH_SIZE * GRAD_ACCUM} | LR : {LEARNING_RATE}')
trainer.train()
print('‚úÖ Entra√Ænement termin√© !')

## 7. Validation rapide du mod√®le

In [None]:
from transformers import pipeline

model.eval()
pipe = pipeline('text-generation', model=model, tokenizer=tokenizer, 
                device_map='auto', max_new_tokens=128, temperature=0.0, do_sample=False)

test_cases = [
    ('euh du coup je voulais vous dire que genre c est vraiment important hein',   'chat'),
    ('j ai besoin d aide pour euh configurer mon ordinateur',                      'chat'),
    ('suite √† notre √©change je je vous adresse ce compte-rendu',                   'pro'),
    ('le le bug est li√© √† une mauvaise gestion des erreurs dans le module audio',  'code'),
]

print('‚îÄ‚îÄ Validation ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ')
for raw, mode in test_cases:
    prompt = format_prompt(raw, mode)
    output = pipe(prompt)[0]['generated_text']
    # Extraire uniquement la r√©ponse de l'assistant
    response = output.split('<|im_start|>assistant\n')[-1].split('<|im_end|>')[0].strip()
    print(f'[{mode:4s}] Brut  : {raw}')
    print(f'       Corrig√© : {response}')
    print()

## 8. Export GGUF Q4 (Task 22)

Fusionne les poids LoRA, exporte en GGUF Q4_K_M pour llama.cpp.

In [None]:
from peft import PeftModel
import shutil

MERGED_DIR = '/content/qwen25-dictation-fr-merged'

# 1. Fusionner LoRA dans le mod√®le de base
print('‚è≥ Fusion des poids LoRA...')
base_model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID, torch_dtype=torch.float16, device_map='cpu', trust_remote_code=True
)
merged = PeftModel.from_pretrained(base_model, OUTPUT_DIR)
merged = merged.merge_and_unload()
merged.save_pretrained(MERGED_DIR)
tokenizer.save_pretrained(MERGED_DIR)
print(f'‚úÖ Mod√®le fusionn√© sauvegard√© dans {MERGED_DIR}')

# 2. Cloner llama.cpp pour la conversion
print('‚è≥ Installation llama.cpp pour conversion GGUF...')
!git clone -q --depth 1 https://github.com/ggerganov/llama.cpp /content/llama.cpp
!pip install -q -r /content/llama.cpp/requirements/requirements-convert_hf_to_gguf.txt

# 3. Conversion HuggingFace ‚Üí GGUF F16
print('‚è≥ Conversion vers GGUF F16...')
!python /content/llama.cpp/convert_hf_to_gguf.py \
    {MERGED_DIR} \
    --outfile /content/qwen25-dictation-fr-f16.gguf \
    --outtype f16

# 4. Quantification Q4_K_M
print('‚è≥ Quantification Q4_K_M...')
!cd /content/llama.cpp && cmake -B build -DCMAKE_BUILD_TYPE=Release > /dev/null 2>&1
!cd /content/llama.cpp && cmake --build build --config Release -j $(nproc) > /dev/null 2>&1
!/content/llama.cpp/build/bin/llama-quantize \
    /content/qwen25-dictation-fr-f16.gguf \
    /content/{GGUF_NAME} \
    Q4_K_M

size_mb = os.path.getsize(f'/content/{GGUF_NAME}') / 1e6
print(f'\n‚úÖ Export termin√© : {GGUF_NAME} ({size_mb:.0f} Mo)')

## 9. T√©l√©chargement du mod√®le fine-tun√©

In [None]:
from google.colab import files
import os

gguf_path = f'/content/{GGUF_NAME}'

if os.path.exists(gguf_path):
    size_mb = os.path.getsize(gguf_path) / 1e6
    print(f'üì• T√©l√©chargement de {GGUF_NAME} ({size_mb:.0f} Mo)...')
    files.download(gguf_path)
    print()
    print('‚úÖ Fichier t√©l√©charg√© !')
    print()
    print('üìã Prochaine √©tape ‚Äî int√©gration dans l\'app :')
    print(f'   mkdir -p ~/Library/Application\ Support/dictation-ia/models/')
    print(f'   mv ~/Downloads/{GGUF_NAME} ~/Library/Application\ Support/dictation-ia/models/')
    print()
    print('   Dans l\'app, v√©rifier que le mod√®le est d√©tect√© via Settings ‚Üí LLM.')
else:
    print(f'‚ùå Fichier {gguf_path} introuvable. V√©rifiez les erreurs dans la cellule pr√©c√©dente.')

---
## R√©sum√©

| √âtape | Description | Dur√©e estim√©e |
|-------|-------------|---------------|
| Dataset | 10 000 paires synth√©tiques FR | ~30s |
| Chargement mod√®le | Qwen2.5-0.5B-Instruct en QLoRA 4-bit | ~3min |
| Entra√Ænement | 3 epochs, batch effectif 32 | ~2-3h (T4) / ~45min (A100) |
| Export GGUF | Fusion LoRA + quantification Q4_K_M | ~15min |
| **Total** | | **~3-4h (T4)** |

**Taille du mod√®le final** : ~400 Mo (Q4_K_M)

**RAM requise dans l'app** : ~320 Mo (charg√© √† la demande)