# **Fine-tuning du mod√®le Microsoft Phi-3 pour la fourniture de conseils en sant√© mentale**


#### Probl√©matique
L'am√©lioration des mod√®les de langage pour fournir des conseils en sant√© mentale est d'une importance capitale. En effet, de nombreuses personnes recherchent des conseils et du soutien en ligne pour faire face √† des probl√®mes de sant√© mentale. Un mod√®le capable de g√©n√©rer des r√©ponses pr√©cises, empathiques et utiles peut non seulement am√©liorer l'acc√®s aux ressources de sant√© mentale, mais aussi all√©ger la charge des professionnels en offrant des r√©ponses initiales et en orientant les utilisateurs vers des solutions adapt√©es. Le fine-tuning du mod√®le Microsoft Phi-3 sur un dataset sp√©cialis√© permettrait de renforcer ses capacit√©s √† fournir des r√©ponses pertinentes et bienveillantes dans ce domaine sensible.

#### Dataset
Le dataset "Amod/mental_health_counseling_conversations" est une collection de questions et de r√©ponses issues de deux plateformes en ligne de counseling et de th√©rapie. Les questions couvrent une large gamme de sujets li√©s √† la sant√© mentale, et les r√©ponses sont fournies par des psychologues qualifi√©s.

- **Context** : Il s'agit de la question pos√©e par un utilisateur, repr√©sentant les pr√©occupations ou les probl√®mes sp√©cifiques li√©s √† la sant√© mentale.
- **Response** : Il s'agit de la r√©ponse fournie par un psychologue, contenant des conseils et des orientations pour aider l'utilisateur.


Ce dataset est id√©al pour le fine-tuning du mod√®le Microsoft Phi-3 dans le but d'am√©liorer ses capacit√©s √† g√©n√©rer des conseils en sant√© mentale, en combinant pr√©cision, pertinence et empathie dans ses r√©ponses.

# Biblioth√®ques & Installations üóÇ¬∂

Imports importants expliqu√©s et exemple d'utilisation basique :

#### datasets
- **But** : biblioth√®que pour charger et traiter facilement les ensembles de donn√©es de HF.
- **Utilisation Basique** :
  ```python
  from datasets import load_dataset, load_from_disk
  dataset = load_dataset('path/to/dataset', split='train')
  ```

#### peft
- **But** : fournit des utilitaires pour un ajustement fin efficace des param√®tres.
- **Utilisation Basique** :
  ```python
  from peft import LoraConfig, prepare_model_for_kbit_training
  lora_config = LoraConfig()
  ```

#### transformers
- **But** : fournit des classes et des fonctions pour les mod√®les transformers.
- **Utilisation Basique** :
  ```python
  from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, HfArgumentParser, TrainingArguments
  model = AutoModelForCausalLM.from_pretrained('model_name')
  tokenizer = AutoTokenizer.from_pretrained('model_name')
  ```

#### trl
- **But** : fournit des utilitaires pour entra√Æner des mod√®les transformers avec l'apprentissage par renforcement (mais pas que).
- **Utilisation Basique** :
  ```python
  from trl import SFTTrainer
  trainer = SFTTrainer(model, tokenizer)
  ```

In [1]:
!pip install -q torch peft bitsandbytes scipy trl transformers accelerate einops tqdm huggingface_hub --use-deprecated=legacy-resolver

[31mERROR: pip's legacy dependency resolver does not consider dependency conflicts when selecting packages. This behaviour is the source of the following dependency conflicts.
kfp 2.5.0 requires google-cloud-storage<3,>=2.2.1, but you'll have google-cloud-storage 1.44.0 which is incompatible.[0m[31m
[0m

In [2]:
import os
import torch
import pandas as pd
from datasets import load_dataset, load_from_disk
from peft import LoraConfig, prepare_model_for_kbit_training
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, HfArgumentParser, TrainingArguments 
from trl import SFTTrainer
from huggingface_hub import notebook_login
from tqdm.notebook import tqdm
from sklearn.model_selection import train_test_split

2024-07-07 20:18:14.044959: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-07-07 20:18:14.045066: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-07-07 20:18:14.171869: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


In [6]:
print(f"Version pytorch --> {torch.__version__}")

Version pytorch --> 2.1.2


In [7]:
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(f"device --> {device}")

device --> cuda:0


In [8]:
### pour se connecter √† Hugging Face
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv‚Ä¶

# Pr√©paration des donn√©es üõ¢

In [9]:
dataset = load_dataset("Amod/mental_health_counseling_conversations", split="train")
dataset

Downloading readme:   0%|          | 0.00/2.82k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/4.79M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/3512 [00:00<?, ? examples/s]

Dataset({
    features: ['Context', 'Response'],
    num_rows: 3512
})

In [10]:
df = pd.DataFrame(dataset)
df.head()

Unnamed: 0,Context,Response
0,I'm going through some things with my feelings...,"If everyone thinks you're worthless, then mayb..."
1,I'm going through some things with my feelings...,"Hello, and thank you for your question and see..."
2,I'm going through some things with my feelings...,First thing I'd suggest is getting the sleep y...
3,I'm going through some things with my feelings...,Therapy is essential for those that are feelin...
4,I'm going through some things with my feelings...,I first want to let you know that you are not ...


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3512 entries, 0 to 3511
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Context   3512 non-null   object
 1   Response  3512 non-null   object
dtypes: object(2)
memory usage: 55.0+ KB


In [12]:
def format_row(row):
    question = row["Context"]
    response = row["Response"]
    formatted_string = f"[INST] {question} [/INST] {response}"
    return formatted_string

df["Text"] = df.apply(format_row, axis=1)
df.head(3)

Unnamed: 0,Context,Response,Text
0,I'm going through some things with my feelings...,"If everyone thinks you're worthless, then mayb...",[INST] I'm going through some things with my f...
1,I'm going through some things with my feelings...,"Hello, and thank you for your question and see...",[INST] I'm going through some things with my f...
2,I'm going through some things with my feelings...,First thing I'd suggest is getting the sleep y...,[INST] I'm going through some things with my f...


In [13]:
new_df = df[["Text"]]
train, test = train_test_split(new_df, test_size=0.2, shuffle=True)

In [14]:
train.to_csv("train_data.csv", index=False)
test.to_csv("test_data.csv", index=False)

In [15]:
train_dataset = load_dataset("csv", data_files="train_data.csv", split="train")
test_dataset  = load_dataset("csv", data_files="test_data.csv", split="train")

Generating train split: 0 examples [00:00, ? examples/s]

Generating train split: 0 examples [00:00, ? examples/s]

In [16]:
train_dataset

Dataset({
    features: ['Text'],
    num_rows: 2809
})

# Fine-tuning ü¶æ

In [17]:
base_model = "microsoft/phi-2"
new_model  = "phi2-ft-mental-health"

#### Tokenizer

1. **Chargement du Tokenizer** (`AutoTokenizer.from_pretrained`) : charge un tokenizer pr√©-entra√Æn√© pour le mod√®le sp√©cifi√©.
     - **Param√®tres** :
       - `base_model` : identifiant du mod√®le pr√©-entra√Æn√© (par exemple, un nom de mod√®le ou un chemin).
       - `use_fast=True` : sp√©cifie que la version rapide du tokenizer doit √™tre utilis√©e. Les tokenizers rapides sont g√©n√©ralement plus efficaces et plus rapides.  

2. **D√©finition du token de padding** (`tokenizer.pad_token = tokenizer.eos_token`) : d√©finit le jeton de remplissage du tokenizer pour qu'il soit le m√™me que le jeton de fin de s√©quence (EOS). Dans certains mod√®les et configurations d'entra√Ænement, il est utile d'utiliser le jeton EOS √† des fins de remplissage pour garantir la coh√©rence du processus de tokenisation.

3. **Sp√©cification du C√¥t√© de Remplissage** (`tokenizer.padding_side = "right"`) : sp√©cifie de quel c√¥t√© de la s√©quence les jetons de remplissage doivent √™tre ajout√©s.
   - **Options** :
     - `"right"` : Les jetons de remplissage sont ajout√©s du c√¥t√© droit de la s√©quence.
     - `"left"` : Les jetons de remplissage sont ajout√©s du c√¥t√© gauche de la s√©quence.

In [18]:
tokenizer = AutoTokenizer.from_pretrained(base_model, use_fast=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

tokenizer_config.json:   0%|          | 0.00/7.34k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/798k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.11M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/1.08k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/99.0 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


#### BitsAndBytesConfig

1. **Classe** : `BitsAndBytesConfig`
2. **Param√®tres** :
   - `load_in_4bit=True` : activer ou non le chargement du mod√®le en pr√©cision 4 bits (√©conomise la m√©moire et acc√©l√®re les calculs).
   - `bnb_4bit_quant_type="nf4"` : Sp√©cifie le type de quantification pour la pr√©cision 4 bits.
     - **Options** : 
       - `"nf4"` : Quantification Non-Flottante 4 bits, plus efficace en termes de m√©moire.
       - `"fp4"` : Quantification en Virgule Flottante 4 bits, offrant une plus grande pr√©cision.
   - `bnb_4bit_compute_dtype=torch.float16` : d√©finit le type de donn√©es pour les calculs avec une pr√©cision de 4 bits.
     - **Options** : 
       - `torch.float16` : Utilise des flottants 16 bits pour des calculs plus rapides avec moins de m√©moire utilis√©e.
       - `torch.float32` : Utilise des flottants 32 bits pour une plus grande pr√©cision mais plus de m√©moire utilis√©e.
   - `bnb_4bit_use_double_quant=False` : d√©termine s'il faut utiliser la double quantification, qui applique la quantification deux fois pour une meilleure pr√©cision (`True` : applique la double quantification pour une meilleure pr√©cision, `False` : ne pas appliquer).

#### LoraConfig

1. **Classe** : `LoraConfig`
2. **Param√®tres** :
   - `r=32` : rang de la matrice de faible rang dans LoRA, contr√¥lant la capacit√© de l'adaptation.
     - **Options** : Valeurs enti√®res (par exemple, 4, 8, 16, 32). Des valeurs plus √©lev√©es augmentent la capacit√© mais n√©cessitent plus de calculs.
   - `lora_alpha=64` : un facteur de mise √† l'√©chelle pour les mises √† jour de faible rang, affectant le taux d'apprentissage de l'adaptation.
     - **Options** : Valeurs enti√®res (par exemple, 16, 32, 64, 128). Des valeurs plus √©lev√©es peuvent entra√Æner des mises √† jour plus importantes.
   - `lora_dropout=0.05` : le taux de dropout appliqu√© aux mises √† jour de faible rang pour √©viter le surajustement.
     - **Options** : Valeurs flottantes entre 0 et 1 (par exemple, 0.1, 0.2, 0.5). Des valeurs plus √©lev√©es augmentent la r√©gularisation.
   - `bias_type="none"` : Sp√©cifie comment g√©rer les termes de biais dans les couches LoRA.
     - **Options** : 
       - `"none"` : aucun terme de biais n'est adapt√©.
       - `"all"` : tous les termes de biais sont adapt√©s.
       - `"some"` : seuls certains termes de biais sont adapt√©s.
   - `task_type="CAUSAL_LM"` : type de t√¢che pour laquelle LoRA est utilis√©.
     - **Options** : 
       - `"CAUSAL_LM"` : Mod√©lisation de Langage Causal, pour des t√¢ches auto-r√©gressives.
       - `"SEQ2SEQ_LM"` : Mod√©lisation de Langage S√©quence-√†-S√©quence, pour des t√¢ches de traduction ou de r√©sum√©.
   - `target_modules=["Wqkv", "fc1", "fc2"]` : couches du mod√®le o√π LoRA sera appliqu√©.
     - **Options** : Liste de noms de couches (par exemple, `["Wqkv"]`, `["fc1"]`, `["fc2"]`). Sp√©cifique √† l'architecture du mod√®le √† ajuster.

In [21]:
bnb_configs = BitsAndBytesConfig(   load_in_4bit=True,
                                    bnb_4bit_quant_type="nf4",
                                    bnb_4bit_compute_dtype=torch.float16,
                                    bnb_4bit_use_double_quant=True
                                )

peft_configs = LoraConfig(  r=8,
                            lora_alpha=32,
                            lora_dropout=0.1,
                            bias="none",
                            task_type="CAUSAL_LM",
                            target_modules="all-linear"
                         )

## Initialisation et configurations du mod√®le

1. **Initialisation du Mod√®le** (`AutoModelForCausalLM.from_pretrained`) : charge un mod√®le de langage causal pr√©-entra√Æn√©.
   - **Param√®tres** :
     - `base_model` : identifiant du mod√®le pr√©-entra√Æn√© (par exemple, nom ou chemin du mod√®le).
     - `flash_attn=True` : active le m√©canisme d'attention Flash, qui optimise les m√©canismes d'attention pour am√©liorer les performances.
     - `flash_rotary=True` : active le m√©canisme Rotary Flash, qui am√©liore les embeddings rotatifs pour un meilleur apprentissage de la repr√©sentation.
     - `fused_dense=True` : utilise des op√©rations denses fusionn√©es, combinant plusieurs op√©rations en un seul noyau pour plus d'efficacit√©.
     - `low_cpu_mem_usage=True` : optimise l'utilisation de la m√©moire CPU, r√©duisant l'empreinte m√©moire lors de l'ex√©cution du mod√®le.
     - `device_map={"": 0}` : mappe les appareils pour les composants du mod√®le.
     - `revision="refs/pr/23"` : sp√©cifie une r√©vision sp√©cifique du mod√®le √† charger.

2. **Configurations du Mod√®le** :
   - `model.config.use_cache = False` : d√©sactive la mise en cache des calculs internes dans le mod√®le.
   - `model.config.pretraining_tp = 1` : d√©finit un param√®tre sp√©cifique de la t√¢che de pr√©-entra√Ænement √† 1.

3. **Pr√©paration du Mod√®le pour l'entra√Ænement en k-bit** (`prepare_model_for_kbit_training`) : pr√©pare le mod√®le pour l'entra√Ænement avec quantification en k-bit.
   - **Param√®tres** :
     - `model` : L'instance du mod√®le √† pr√©parer pour l'entra√Ænement.
     - `use_gradient_checkpointing=True` : Active le gradient checkpointing pour l'efficacit√© de la m√©moire pendant l'entra√Ænement.

In [22]:
model = AutoModelForCausalLM.from_pretrained(
                                base_model,
                                quantization_config=bnb_configs,
                                torch_dtype=torch.float16,
                                trust_remote_code=True,
                                flash_attn=True,
                                flash_rotary=True,
                                fused_dense=True,
                                low_cpu_mem_usage=True,
                                device_map=device,
                                revision="refs/pr/23"
                                )

#model.to(device)
model.config.use_cache = False
model.config.pretraining_tp = 1

model = prepare_model_for_kbit_training(model, use_gradient_checkpointing=True)

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.


## Entra√Ænement du mod√®le ü§ñ

**Param√®tres des arguments d'entra√Ænement** (`TrainingArguments`) :
 - `num_train_epochs=1` : nombre de fois que le mod√®le sera entra√Æn√© sur l'ensemble du jeu de donn√©es.
 - `per_device_train_batch_size=2` : nombre d'√©chantillons d'entra√Ænement trait√©s simultan√©ment sur chaque appareil (GPU ou CPU).
 - `gradient_accumulation_steps=32` : nombre de lots pour accumuler les gradients avant d'effectuer une passe arri√®re.
   - **Objectif** : aide √† l'entra√Ænement avec des tailles de lot effectives plus grandes que la m√©moire ne le permet, utile lorsque la m√©moire GPU est limit√©e.
   - **Options** : valeurs enti√®res (par exemple, 1, 2, 4, 8, etc.).
 - `evaluation_strategy="steps"` : d√©termine quand effectuer une √©valuation pendant l'entra√Ænement.
   - **Objectif** : sp√©cifie la strat√©gie pour √©valuer le mod√®le pendant l'entra√Ænement, bas√©e sur les √©tapes, les √©poques ou aucune √©valuation.
   - **Options** : `"no"` (pas d'√©valuation), `"steps"` (√©valuation tous les `eval_steps`), `"epoch"` (√©valuation √† la fin de chaque √©poque).
 - `eval_steps=1500` : intervalle en √©tapes pour l'√©valuation si `evaluation_strategy="steps"`.
 - `logging_steps=1500` : intervalle en √©tapes pour la journalisation des m√©triques d'entra√Ænement dans la console ou les fichiers.
 - `optim="paged_adamw_8bit"` : type d'optimiseur utilis√© pour l'entra√Ænement, ici utilisant **paged AdamW avec une pr√©cision de 8 bits**.
   - **Options** : d√©pend de l'impl√©mentation sp√©cifique et des optimiseurs disponibles.
 - `learning_rate=2e-4` : taux d'apprentissage initial pour l'optimiseur.
   - **Objectif** : contr√¥le la taille des pas pendant la descente de gradient ou l'optimisation.
   - **Options** : valeurs flottantes (par exemple, 0.001, 0.0001, etc.).
 - `lr_scheduler_type="cosine"` : type de planificateur de taux d'apprentissage appliqu√© pendant l'entra√Ænement.
   - **Objectif** : ajuste le taux d'apprentissage pendant l'entra√Ænement pour optimiser la convergence du mod√®le.
   - **Options** : `"linear"`, `"cosine"`, `"step"`, `"polynomial"`, etc., selon l'impl√©mentation du planificateur.
 - `save_steps=1500` : intervalle en √©tapes pour enregistrer les points de contr√¥le du mod√®le.
 - `warmup_ratio=0.05` : ratio du nombre total d'√©tapes d'entra√Ænement pour lesquelles le taux d'apprentissage sera augment√© progressivement.
   - **Objectif** : emp√™che le mod√®le de diverger pendant les premi√®res √©tapes de l'entra√Ænement en augmentant lentement le taux d'apprentissage.
   - **Options** : valeurs flottantes entre 0 et 1 (par exemple, 0.1, 0.05, etc.).
 - `weight_decay=0.01` : force de la r√©gularisation de la d√©croissance des poids appliqu√©e aux param√®tres du mod√®le pendant l'optimisation.
   - **Objectif** : aide √† pr√©venir le surapprentissage en p√©nalisant les poids √©lev√©s.
   - **Options** : valeurs flottantes (par exemple, 0.001, 0.01, etc.).
 - `max_steps=-1` : nombre maximum d'√©tapes d'entra√Ænement ; `-1` indique un nombre illimit√© d'√©tapes.
   - **Objectif** : limite le nombre d'it√©rations que le mod√®le subira pendant l'entra√Ænement.
   - **Options** : valeurs enti√®res ou `-1` pour un nombre illimit√© d'√©tapes d'entra√Ænement.

In [23]:
training_args = TrainingArguments(output_dir="trained_weigths",                          ### r√©pertoire pour sauvegarder et identifiant du r√©f√©rentiel
                                num_train_epochs=1,                       ### nombre d'√©poques d'entra√Ænement
                                per_device_train_batch_size=1,            ### taille du batch par p√©riph√©rique pendant l'entra√Ænement
                                gradient_accumulation_steps=4,            ### nombre d'√©tapes avant d'effectuer une passe de r√©tropropagation/mise √† jour
                                gradient_checkpointing=True,              ### utilise le point de contr√¥le de gradient pour √©conomiser de la m√©moire
                                optim="paged_adamw_32bit",
                                save_steps=0,
                                logging_steps=25,                         ### enregistre chaque 25 √©tapes
                                learning_rate=2e-4,                       ### taux d'apprentissage, bas√© sur le papier QLoRA
                                weight_decay=0.001,
                                fp16=True,
                                bf16=False,
                                max_grad_norm=0.3,                        ### norme maximale du gradient bas√©e sur le papier QLoRA
                                max_steps=-1,
                                warmup_ratio=0.03,                        ### ratio de pr√©chauffage bas√© sur le papier QLoRA
                                group_by_length=True,
                                lr_scheduler_type="cosine",               ### utilise le programmeur de taux d'apprentissage cosinus
                                evaluation_strategy="steps"               ### sauvegarde le checkpoint √† chaque √©poque
                                 ) 


trainer = SFTTrainer(   model=model,
                        train_dataset=train_dataset,
                        eval_dataset=test_dataset,
                        peft_config=peft_configs,
                        dataset_text_field="Text",
                        max_seq_length=690,
                        tokenizer=tokenizer,
                        args=training_args
                    )


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.
You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.


Map:   0%|          | 0/2809 [00:00<?, ? examples/s]

Map:   0%|          | 0/703 [00:00<?, ? examples/s]

In [None]:
trainer.train()

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
[34m[1mwandb[0m: Paste an API key from your profile and hit enter, or press ctrl+c to quit:

  ¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


Step,Training Loss,Validation Loss


# Push to hub

In [None]:
model.save_pretrained("./trained_model")
model.push_to_hub("anyantudre/phi-2-ft-mental_health")