# üá´üá∑ Fine-tuning Vigostral-7B-Chat sur votre style personnel

Ce notebook vous guide pour fine-tuner le mod√®le conversationnel fran√ßais **Vigostral-7B-Chat** sur vos dialogues personnels, en utilisant **LoRA** (Low-Rank Adaptation) pour s'adapter aux contraintes m√©moire du GPU T4 gratuit de Google Colab.

## üìã Pr√©requis

1. **GPU T4 activ√©** : Runtime ‚Üí Change runtime type ‚Üí T4 GPU
2. **Dataset de dialogues** au format JSONL
3. **Compte HuggingFace** (gratuit) pour t√©l√©charger Vigostral

## üéØ Objectif

Adapter Vigostral-7B-Chat (mod√®le conversationnel fran√ßais pr√©-entra√Æn√© sur 213k dialogues) √† votre style d'√©criture personnel en fine-tunant sur vos propres conversations.

## ‚öôÔ∏è Technique : LoRA (Low-Rank Adaptation)

- **Probl√®me** : Fine-tuner 7B param√®tres n√©cessite ~50GB de VRAM (impossible sur T4)
- **Solution** : LoRA ne fine-tune que ~1% des param√®tres (~70M)
- **Avantage** : Tient dans 16GB, training rapide, qualit√© pr√©serv√©e


---

## üì¶ Installation des d√©pendances

On installe les biblioth√®ques n√©cessaires :
- `transformers` : Charger Vigostral depuis HuggingFace
- `peft` : Impl√©menter LoRA
- `accelerate` : Optimiser l'entra√Ænement GPU
- `bitsandbytes` : Quantization 4-bit pour r√©duire la m√©moire
- `trl` : Outils de fine-tuning pour LLMs


In [None]:
!pip install -q transformers peft accelerate bitsandbytes trl datasets

---

## üîë Authentification HuggingFace

Vigostral-7B-Chat n√©cessite un token HuggingFace pour t√©l√©charger le mod√®le.

1. Allez sur https://huggingface.co/settings/tokens
2. Cr√©ez un token (Read access suffit)
3. Collez-le ci-dessous quand demand√©


In [None]:
from huggingface_hub import login
login()

---

## üì§ Upload de votre dataset

Uploadez votre fichier `combined_dataset.jsonl` (format : une ligne par dialogue)


In [None]:
from google.colab import files
import os

print("üì§ Uploadez votre fichier combined_dataset.jsonl")
uploaded = files.upload()

# V√©rifier que le fichier est bien upload√©
if 'combined_dataset.jsonl' not in uploaded:
    raise FileNotFoundError("Fichier combined_dataset.jsonl non trouv√©. R√©essayez l'upload.")

print("‚úÖ Dataset upload√© avec succ√®s !")

---

## üìä Chargement et validation du dataset


In [None]:
import json

# Charger le dataset
dialogues = []
with open('combined_dataset.jsonl', 'r', encoding='utf-8') as f:
    for line in f:
        dialogues.append(json.loads(line))

print(f"‚úÖ {len(dialogues)} dialogues charg√©s")

# Afficher un exemple
print("\nüìã Exemple de dialogue :")
print(json.dumps(dialogues[0], indent=2, ensure_ascii=False))

---

## üîÑ Conversion au format Vigostral

Vigostral utilise un format de prompt sp√©cifique. On doit convertir nos dialogues.


In [None]:
def format_dialogue_for_vigostral(dialogue):
    """
    Convertit un dialogue du format OpenAI au format Vigostral.
    
    Vigostral utilise le format Llama-2 :
    <s>[INST] question [/INST] r√©ponse </s>
    """
    messages = dialogue['messages']
    formatted_text = "<s>"
    
    for i in range(0, len(messages), 2):
        if i < len(messages) and messages[i]['role'] == 'user':
            user_msg = messages[i]['content']
            formatted_text += f"[INST] {user_msg} [/INST]"
        
        if i + 1 < len(messages) and messages[i + 1]['role'] == 'assistant':
            assistant_msg = messages[i + 1]['content']
            formatted_text += f" {assistant_msg} </s>"
    
    return formatted_text

# Convertir tous les dialogues
formatted_dialogues = [format_dialogue_for_vigostral(d) for d in dialogues]

print(f"‚úÖ {len(formatted_dialogues)} dialogues format√©s")
print("\nüìã Exemple de dialogue format√© :")
print(formatted_dialogues[0][:500] + "...")

---

## ü§ñ Chargement du mod√®le Vigostral-7B-Chat

On charge le mod√®le avec :
- **Quantization 4-bit** : R√©duit la taille de ~14GB √† ~4GB
- **LoRA** : Ajoute des adaptateurs entra√Ænables (~70M params)


In [None]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training

model_name = "bofenghuang/vigostral-7b-chat"

# Configuration de la quantization 4-bit
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=True,
)

print("üì• T√©l√©chargement du mod√®le Vigostral-7B-Chat (peut prendre 5-10 minutes)...")

# Charger le mod√®le en 4-bit
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True,
)

# Charger le tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

print("‚úÖ Mod√®le charg√© avec succ√®s !")
print(f"   Taille du mod√®le : {model.get_memory_footprint() / 1e9:.2f} GB")

---

## üéõÔ∏è Configuration LoRA

LoRA ajoute de petites matrices entra√Ænables aux couches d'attention du mod√®le.

**Param√®tres** :
- `r=16` : Rang des matrices (plus haut = plus de capacit√©, mais plus de m√©moire)
- `lora_alpha=32` : Facteur de scaling
- `target_modules` : Couches √† adapter (query et value projections)


In [None]:
# Pr√©parer le mod√®le pour LoRA
model = prepare_model_for_kbit_training(model)

# Configuration LoRA
lora_config = LoraConfig(
    r=16,  # Rang des matrices LoRA
    lora_alpha=32,  # Facteur de scaling
    target_modules=["q_proj", "v_proj"],  # Couches √† adapter
    lora_dropout=0.05,  # Dropout pour r√©gularisation
    bias="none",
    task_type="CAUSAL_LM",
)

# Appliquer LoRA au mod√®le
model = get_peft_model(model, lora_config)

# Afficher le nombre de param√®tres entra√Ænables
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
all_params = sum(p.numel() for p in model.parameters())
print(f"‚úÖ LoRA activ√© !")
print(f"   Param√®tres entra√Ænables : {trainable_params:,} ({100 * trainable_params / all_params:.2f}%)")
print(f"   Param√®tres totaux : {all_params:,}")

---

## üìö Pr√©paration du dataset pour l'entra√Ænement


In [None]:
from datasets import Dataset

# Cr√©er un dataset HuggingFace
dataset_dict = {"text": formatted_dialogues}
dataset = Dataset.from_dict(dataset_dict)

# Split train/validation (90/10)
dataset = dataset.train_test_split(test_size=0.1, seed=42)

print(f"‚úÖ Dataset pr√©par√© :")
print(f"   Train : {len(dataset['train'])} dialogues")
print(f"   Validation : {len(dataset['test'])} dialogues")

---

## üöÄ Configuration de l'entra√Ænement

**Param√®tres optimis√©s pour T4** :
- `per_device_train_batch_size=1` : 1 exemple √† la fois (limite m√©moire)
- `gradient_accumulation_steps=4` : Accumule 4 gradients avant mise √† jour (batch effectif = 4)
- `num_train_epochs=3` : 3 passages sur le dataset
- `learning_rate=2e-4` : Learning rate pour LoRA
- `fp16=True` : Utilise float16 pour √©conomiser la m√©moire


In [None]:
from transformers import TrainingArguments
from trl import SFTTrainer

# Configuration de l'entra√Ænement
training_args = TrainingArguments(
    output_dir="./vigostral-finetuned",
    num_train_epochs=3,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,
    fp16=True,
    save_strategy="epoch",
    logging_steps=10,
    optim="paged_adamw_8bit",  # Optimizer optimis√© pour m√©moire
    warmup_steps=50,
    report_to="none",  # D√©sactiver wandb/tensorboard
)

# Cr√©er le trainer
trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset['train'],
    eval_dataset=dataset['test'],
    tokenizer=tokenizer,
    dataset_text_field="text",
    max_seq_length=512,
)

print("‚úÖ Trainer configur√© !")

---

## üéØ Lancement de l'entra√Ænement

Dur√©e estim√©e : **20-30 minutes** sur T4 GPU


In [None]:
import time

print("üöÄ D√©but de l'entra√Ænement...\n")
start_time = time.time()

trainer.train()

elapsed_time = time.time() - start_time
print(f"\n‚úÖ Entra√Ænement termin√© en {elapsed_time / 60:.1f} minutes !")

---

## üíæ Sauvegarde du mod√®le fine-tun√©


In [None]:
# Sauvegarder le mod√®le et les adaptateurs LoRA
model.save_pretrained("./vigostral-finetuned-final")
tokenizer.save_pretrained("./vigostral-finetuned-final")

print("‚úÖ Mod√®le sauvegard√© dans ./vigostral-finetuned-final")

---

## üß™ Test du mod√®le fine-tun√©

Testons le mod√®le avec quelques prompts pour voir comment il r√©pond dans votre style.


In [None]:
def chat(prompt, max_length=200, temperature=0.7, top_p=0.9):
    """
    G√©n√®re une r√©ponse du mod√®le fine-tun√©.
    """
    # Formater le prompt au format Vigostral
    formatted_prompt = f"<s>[INST] {prompt} [/INST]"
    
    # Tokenizer
    inputs = tokenizer(formatted_prompt, return_tensors="pt").to(model.device)
    
    # G√©n√©rer
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_length,
            temperature=temperature,
            top_p=top_p,
            do_sample=True,
            pad_token_id=tokenizer.eos_token_id,
        )
    
    # D√©coder la r√©ponse
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    # Extraire seulement la r√©ponse (apr√®s [/INST])
    if "[/INST]" in response:
        response = response.split("[/INST]")[1].strip()
    
    return response

# Test avec quelques prompts
test_prompts = [
    "Explique-moi ton projet principal",
    "Qu'est-ce que tu penses du machine learning ?",
    "Comment tu travailles au quotidien ?",
]

print("\nüß™ Test du mod√®le fine-tun√© :\n")
print("=" * 80)

for prompt in test_prompts:
    print(f"\nüë§ User: {prompt}")
    response = chat(prompt)
    print(f"ü§ñ Assistant: {response}")
    print("-" * 80)

---

## üí¨ Mode interactif

Testez librement votre mod√®le !


In [None]:
print("üí¨ Mode chat interactif")
print("Tapez 'quit' pour quitter\n")

while True:
    user_input = input("üë§ Vous: ")
    
    if user_input.lower() in ['quit', 'exit', 'q']:
        print("üëã Au revoir !")
        break
    
    if not user_input.strip():
        continue
    
    response = chat(user_input)
    print(f"ü§ñ Assistant: {response}\n")

---

## üì¶ T√©l√©charger le mod√®le fine-tun√©

Pour utiliser votre mod√®le localement, t√©l√©chargez les fichiers sauvegard√©s.


In [None]:
# Cr√©er une archive zip du mod√®le
!zip -r vigostral-finetuned-final.zip vigostral-finetuned-final/

# T√©l√©charger l'archive
from google.colab import files
files.download('vigostral-finetuned-final.zip')

print("‚úÖ Mod√®le t√©l√©charg√© ! Taille des adaptateurs LoRA : ~100-200 MB")

---

## üéâ F√©licitations !

Vous avez fine-tun√© Vigostral-7B-Chat sur votre style personnel !

### üìù Prochaines √©tapes

1. **Tester localement** :
   ```python
   from peft import PeftModel
   from transformers import AutoModelForCausalLM, AutoTokenizer
   
   # Charger le mod√®le de base
   model = AutoModelForCausalLM.from_pretrained("bofenghuang/vigostral-7b-chat")
   
   # Charger les adaptateurs LoRA
   model = PeftModel.from_pretrained(model, "./vigostral-finetuned-final")
   ```

2. **Int√©grer avec nanochat** : Voir documentation s√©par√©e

3. **Am√©liorer le mod√®le** :
   - Ajouter plus de dialogues (200+ recommand√©)
   - Augmenter les epochs (5-10)
   - Ajuster `r` dans LoRA (16 ‚Üí 32 pour plus de capacit√©)

---

**Questions ?** Ouvrez une issue sur GitHub : https://github.com/cladjidane/nanochat-french-tutorial