# Finetuning supervis√© avec SFTTrainer

Ce notebook montre comment finetuner le mod√®le `HuggingFaceTB/SmolLM2-135M` en utilisant le `SFTTrainer` de la biblioth√®que `trl`. Les cellules du notebook s'ex√©cutent et vont finetuner le mod√®le. Vous pouvez choisir votre difficult√© en essayant diff√©rents jeux de donn√©es.
<div style='background-color: lightblue; padding: 10px; border-radius: 5px; margin-bottom: 20px; color:black'>
    <h2 style='margin: 0;color:blue'>Exercice : Finetuning de SmolLM2 avec SFTTrainer</h2>
    <p>Prenez un jeu de donn√©es provenant du Hub d'Hugging Face et finetun√© un mod√®le sur dessus. </p> 
    <p><b>Niveaux de difficult√©</b></p>
    <p>üê¢ Utilisez le jeu de donn√©es `HuggingFaceTB/smoltalk`</p>
    <p>üêï Essayez le jeu de donn√©es `bigcode/the-stack-smol` et finetunez un mod√®le de g√©n√©ration de code sur un sous-ensemble sp√©cifique `data/python`</p>
    <p>ü¶Å S√©lectionnez un jeu de donn√©es en rapport avec un cas d'utilisation r√©el qui vous int√©resse</p>
</div>

In [None]:
# Installer les pr√©requis dans Google Colab
# !pip install transformers datasets trl huggingface_hub

# S'authentifier sur Hugging Face
from huggingface_hub import login

login()

# Pour plus de facilit√©, vous pouvez cr√©er une variable d'environnement contenant votre jeton de hub sous la forme HF_TOKEN

In [None]:
# Importer les biblioth√®ques n√©cessaires
from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
from trl import SFTConfig, SFTTrainer, setup_chat_format
import torch

device = (
    "cuda"
    if torch.cuda.is_available()
    else "mps" if torch.backends.mps.is_available() else "cpu"
)

# Charger le mod√®le et le tokenizer
model_name = "HuggingFaceTB/SmolLM2-135M"
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=model_name
).to(device)
tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path=model_name)

# D√©finir le format de chat
model, tokenizer = setup_chat_format(model=model, tokenizer=tokenizer)

# D√©finir le nom du finetuning √† sauvegarder et/ou √† t√©l√©charger
finetune_name = "SmolLM2-FT-MyDataset"
finetune_tags = ["smol-course", "module_1"]

# G√©n√©rer avec le mod√®le de base

Ici, nous allons essayer le mod√®le de base qui n'a pas de gabarit de chat. 

In [None]:
# Testons le mod√®le de base avant l'entra√Ænement
prompt = "Write a haiku about programming"

# Format avec gabarit
messages = [{"role": "user", "content": prompt}]
formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False)

# G√©n√©rer une r√©ponse
inputs = tokenizer(formatted_prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, max_new_tokens=100)
print("Before training:")
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

## Pr√©paration du jeu de donn√©es

Nous allons charger un √©chantillon du jeu de donn√©es et le formater pour l'entra√Ænement. Le jeu de donn√©es doit √™tre structur√© avec des paires entr√©e-sortie, o√π chaque entr√©e est une instruction et la sortie est la r√©ponse attendue du mod√®le.

**TRL va formater les messages d'entr√©e en se basant sur les gabarits de chat du mod√®le.** Ils doivent √™tre repr√©sent√©s sous la forme d'une liste de dictionnaires avec les cl√©s : `role` et `content`.

In [None]:
# Chargement d'un √©chantillon du jeu de donn√©es
from datasets import load_dataset

# TODO : d√©finir votre jeu de donn√©es et votre configuration en utilisant les param√®tres path et name
ds = load_dataset(path="HuggingFaceTB/smoltalk", name="everyday-conversations")

In [None]:
# TODO : ü¶Å Si votre jeu de donn√©es n'est pas dans un format que TRL peut convertir en gabarit de chat, vous devrez le traiter. Reportez-vous au [module](../chat_templates.md)

## Configurer le SFTTrainer

Le `SFTTrainer` est configur√© avec diff√©rents param√®tres qui contr√¥lent le processus d'apprentissage. Ceux-ci incluent le nombre d'√©tapes d'entra√Ænement, la taille de batch, le taux d'apprentissage et la strat√©gie d'√©valuation. Ajustez ces param√®tres en fonction de vos besoins sp√©cifiques et de vos ressources de calcul.

In [None]:
# Configurer le SFTTrainer
sft_config = SFTConfig(
    output_dir="./sft_output",
    max_steps=1000,  # Ajuster en fonction de la taille du jeu de donn√©es et de la dur√©e d'entra√Ænement souhait√©e
    per_device_train_batch_size=4,  # R√©gler en fonction de la capacit√© de m√©moire de votre GPU
    learning_rate=5e-5,  # Point de d√©part commun pour le finetuning
    logging_steps=10,  # Fr√©quence d'enregistrement des m√©triques d'entra√Ænement
    save_steps=100,  # Fr√©quence de sauvegarde des checkpoints du mod√®le
    evaluation_strategy="steps",  # √âvaluer le mod√®le √† intervalles r√©guliers
    eval_steps=50,  # Fr√©quence de l'√©valuation
    use_mps_device=(
        True if device == "mps" else False
    ),  # Utiliser MPS pour un entra√Ænement √† pr√©cision mixte
    hub_model_id=finetune_name,  # D√©finissez un nom unique pour votre mod√®le
)

# Initialiser le SFTTrainer
trainer = SFTTrainer(
    model=model,
    args=sft_config,
    train_dataset=ds["train"],
    tokenizer=tokenizer,
    eval_dataset=ds["test"],
)

# TODO : ü¶Å üêï aligner les param√®tres de SFTTrainer avec le jeu de donn√©es que vous avez choisi. 
# Par exemple, si vous utilisez le jeu de donn√©es `bigcode/the-stack-smol`, vous devrez choisir la colonne `content`

## Entra√Ænement du mod√®le

Une fois le Trainer configur√©, nous pouvons maintenant proc√©der √† l'entra√Ænement du mod√®le. Le processus d'entra√Ænement consiste √† it√©rer sur le jeu de donn√©es, √† calculer la perte et √† mettre √† jour les param√®tres du mod√®le afin de minimiser cette perte.

In [None]:
# Entra√Æner le mod√®le
trainer.train()

# Sauvegarder le mod√®le
trainer.save_model(f"./{finetune_name}")

In [None]:
trainer.push_to_hub(tags=finetune_tags)

<div style='background-color: lightblue; padding: 10px; border-radius: 5px; margin-bottom: 20px; color:black'>
    <h2 style='margin: 0;color:blue'>Exercice bonus : G√©n√©rer avec un mod√®le finetun√©</h2>
    <p>üêï Utiliser le mod√®le finetun√© pour g√©n√©rer une r√©ponse, comme dans l'exemple de base</p>
</div>

In [None]:
# Tester le mod√®le finetun√© sur la m√™me instruction

# Testons le mod√®le de base avant l'entra√Ænement
prompt = "Write a haiku about programming"

# Format avec gabarit
messages = [{"role": "user", "content": prompt}]
formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False)

# G√©n√©rer une r√©ponse
inputs = tokenizer(formatted_prompt, return_tensors="pt").to(device)

# TODO : utiliser le mod√®le finetun√© pour g√©n√©rer une r√©ponse, comme dans l'exemple de base.

## üíê Vous avez termin√© !

Ce *notebook* fournit un guide √©tape par √©tape pour finetuner le mod√®le `HuggingFaceTB/SmolLM2-135M` en utilisant le `SFTTrainer`. En suivant ces √©tapes, vous pouvez adapter le mod√®le pour effectuer des t√¢ches sp√©cifiques plus efficacement. Si vous voulez continuer √† travailler sur ce cours, voici quelques √©tapes que vous pouvez essayer :

- Essayez ce *notebook*  avec un niveau de difficult√© plus √©lev√©
- Examiner la PR d'un coll√®gue
- Am√©liorez le mat√©riel de cours par le biais d'une *issue* ou d'une PR.