# Fine-tuning de Llama 2 pour l'analyse de sentiments

**Pour ce tutoriel pratique sur le fine-tuning de Llama 2, nous allons traiter d'une analyse de sentiments sur des informations financi√®res et √©conomiques.**   

#### Probl√©matique
L'analyse de sentiments sur des informations financi√®res et √©conomiques est cruciale pour les entreprises. Elle fournit des informations pr√©cieuses sur les **tendances du march√©, la confiance des investisseurs et le comportement des consommateurs.** De plus, elle permet d'identifier les risques potentiels pour la r√©putation et aide √† √©valuer le sentiment des parties prenantes, des investisseurs et du grand public, facilitant ainsi la prise de d√©cisions d'investissement √©clair√©es.

Avant d'aborder les aspects techniques du finetuning d'un LLM comme Llama 2, nous devons trouver l'ensemble de donn√©es ad√©quat pour d√©montrer les possibilit√©s et capacit√©s du finetuning.

#### Dataset
L'ensemble de donn√©es **FinancialPhraseBank** est une collection compl√®te qui capture les sentiments des titres de l'actualit√© financi√®re du point de vue d'un investisseur. Comprenant deux colonnes cl√©s, √† savoir **"Sentiment"** et **"Titre de l'actualit√©"**, l'ensemble de donn√©es classe efficacement les sentiments comme √©tant **soit n√©gatifs, soit neutres, soit positifs**.  

[Consultez la carte du Dataset ici](https://www.kaggle.com/datasets/ankurzing/sentiment-analysis-for-financial-news)

## Biblioth√®ques & Installations üóÇ


Les biblioth√®ques sp√©cifiques n√©cessaires sont entre autres:

* **accelerate:** biblioth√®que d'entra√Ænement distribu√© pour PyTorch par HuggingFace. Elle vous permet d'entra√Æner vos mod√®les sur plusieurs GPU ou CPU en parall√®le (configurations distribu√©es), ce qui peut acc√©l√©rer consid√©rablement l'entra√Ænement en pr√©sence de plusieurs GPU (nous ne l'utiliserons pas dans notre exemple).

* **peft:** biblioth√®que Python par HuggingFace pour l'adaptation efficace des LLMs sans ajuster tous les param√®tres du mod√®le. Les m√©thodes PEFT n'ajustent qu'un petit nombre de param√®tres (suppl√©mentaires) du mod√®le, r√©duisant ainsi consid√©rablement les co√ªts computationnels et de stockage.   
[**D√©tails PEFT:** Voir ressources de la S√©ance 7](https://github.com/ANYANTUDRE/Stage-IA-Selever-GO-AI-Corp/blob/main/02.%20Supports%20de%20Cours%20-%20Formations/07.%20S%C3%A9ance%207%20-%20M%C3%A9triques%20%26%20%20PEFTs%20-%20LoRA%20%26%20QLoRA/03.%20Parameter%20efficient%20Fine-tuning%20(PEFT).pdf)

* **bitsandbytes:** wrapper l√©ger autour des fonctions personnalis√©es CUDA, en particulier les optimisateurs 8 bits, la multiplication matricielle, et les fonctions de quantification. Il permet d'ex√©cuter des mod√®les stock√©s en pr√©cision 4 bits : bien que bitsandbytes stocke les poids en 4 bits, le calcul se fait toujours en 16 ou 32 bits et ici, toute combinaison peut √™tre choisie (float16, bfloat16, float32, etc.).    
[**D√©tails Quantization:** Voir ressources de la S√©ance 5](https://github.com/ANYANTUDRE/Stage-IA-Selever-GO-AI-Corp/blob/main/02.%20Supports%20de%20Cours%20-%20Formations/05.%20S%C3%A9ance%205%20-%20Quantization%20%26%20Rappels/02.%20Technique%20de%20Quantization.pdf)

* **transformers:** biblioth√®que pour le traitement du langage naturel (NLP). Elle fournit un certain nombre de mod√®les pr√©-entra√Æn√©s pour des t√¢ches NLP telles que la classification de texte, les r√©ponses aux questions, et la traduction automatique.  
[**D√©tails Transformers:** Voir ressources de la S√©ance 4](https://github.com/ANYANTUDRE/Stage-IA-Selever-GO-AI-Corp/tree/main/02.%20Supports%20de%20Cours%20-%20Formations/04.%20S%C3%A9ance%204%20-%20Utilisation%20des%20Transformers%20de%20Hugging%20Face)

* **trl:** biblioth√®que compl√®te par HuggingFace fournissant un ensemble d'outils pour entra√Æner des mod√®les de langage de type transformer avec l'apprentissage par renforcement, depuis l'√©tape de fine-tuning supervis√© (SFT), l'√©tape de mod√©lisation de la r√©compense (RM) jusqu'√† l'√©tape d'optimisation de la politique proximale (PPO).   
[**Documentation officielle**](https://huggingface.co/docs/trl/sft_trainer)

In [1]:
!pip install -q -U "torch==2.1.2" tensorboard

[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
fastai 2.7.12 requires torch<2.1,>=1.7, but you have torch 2.1.2 which is incompatible.
tensorflow 2.12.0 requires tensorboard<2.13,>=2.12, but you have tensorboard 2.17.0 which is incompatible.
torchdata 0.6.0 requires torch==2.0.0, but you have torch 2.1.2 which is incompatible.[0m[31m
[0m

In [2]:
!pip install -q -U "transformers==4.36.2" "datasets==2.16.1" "accelerate==0.26.1" "bitsandbytes==0.42.0"

In [3]:
!pip install -q -U git+https://github.com/huggingface/trl@a3c5b7178ac4f65569975efadc97db2f3749c65e
!pip install -q -U git+https://github.com/huggingface/peft@4a1559582281fc3c9283892caea8ccef1d6f5a4f

[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
cudf 23.8.0 requires cupy-cuda11x>=12.0.0, which is not installed.
cuml 23.8.0 requires cupy-cuda11x>=12.0.0, which is not installed.
dask-cudf 23.8.0 requires cupy-cuda11x>=12.0.0, which is not installed.
apache-beam 2.46.0 requires dill<0.3.2,>=0.3.1.1, but you have dill 0.3.7 which is incompatible.
apache-beam 2.46.0 requires pyarrow<10.0.0,>=3.0.0, but you have pyarrow 11.0.0 which is incompatible.
chex 0.1.82 requires numpy>=1.25.0, but you have numpy 1.23.5 which is incompatible.
cudf 23.8.0 requires pandas<1.6.0dev0,>=1.3, but you have pandas 2.0.2 which is incompatible.
cudf 23.8.0 requires protobuf<5,>=4.21, but you have protobuf 3.20.3 which is incompatible.
cuml 23.8.0 requires dask==2023.7.1, but you have dask 2023.9.0 which is incompatible.
dask-cudf 23.8.0 requires dask==2023.7.1, but 

La cellule suivante importe le module os et d√©finit deux variables d'environnement :
* **CUDA_VISIBLE_DEVICES** : variable d'environnement indiquant √† PyTorch quels GPU utiliser. Dans ce cas, le code d√©finit la variable d'environnement √† 0, ce qui signifie que PyTorch utilisera le premier GPU.
* **TOKENIZERS_PARALLELISM** : variable d'environnement indiquant √† la biblioth√®que Hugging Face Transformers s'il faut parall√©liser le processus de tokenisation. Dans ce cas, le code d√©finit la variable d'environnement √† false, ce qui signifie que le processus de tokenisation ne sera pas parall√©lis√©.

In [4]:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
os.environ["TOKENIZERS_PARALLELISM"] = "false"

In [5]:
import warnings
warnings.filterwarnings("ignore") ### filtrer et ignorer les avertissements inutiles

In [6]:
import numpy as np
import pandas as pd
import os
from tqdm import tqdm
import bitsandbytes as bnb
import torch
import torch.nn as nn
import transformers
from datasets import Dataset
from peft import LoraConfig, PeftConfig
from trl import SFTTrainer,setup_chat_format
from transformers import (AutoModelForCausalLM, 
                          AutoTokenizer, 
                          BitsAndBytesConfig, 
                          TrainingArguments, 
                          pipeline, 
                          logging)
from sklearn.metrics import (accuracy_score, 
                             classification_report, 
                             confusion_matrix)
from sklearn.model_selection import train_test_split

In [7]:
print(f"PyTorch version --> {torch.__version__}")

PyTorch version --> 2.1.2+cu121


In [8]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(f"Device --> {device}")

Device --> cuda:0


## Pr√©paration des donn√©es üõ¢ & utilitaires 

Le code dans la cellule suivante effectue les √©tapes suivantes :

1. Lit le jeu de donn√©es d'entr√©e √† partir du fichier all-data.csv, qui est un fichier CSV avec deux colonnes : **sentiment et texte.**
2. Divise le jeu de donn√©es en ensembles d'entra√Ænement et de test, avec 300 √©chantillons dans chaque ensemble. La division est stratifi√©e par sentiment, de sorte que chaque ensemble contient un √©chantillon repr√©sentatif de sentiments positifs, neutres et n√©gatifs.
3. M√©lange les donn√©es d'entra√Ænement dans un ordre reproductible (random_state=2024).
4. Transforme les textes contenus dans les donn√©es d'entra√Ænement et de test en prompts √† utiliser par Llama : les prompts d'entra√Ænement contiennent la r√©ponse attendue avec laquelle nous voulons affiner le mod√®le.
5. Les exemples r√©siduels qui ne sont pas dans l'entra√Ænement ou le test, √† des fins de reporting pendant l'entra√Ænement (mais qui ne seront pas utilis√©s pour l'arr√™t anticip√©), sont trait√©s comme des donn√©es d'√©valuation, qui sont √©chantillonn√©es avec r√©p√©tition afin d'avoir un √©chantillon de 50/50/50 (les instances n√©gatives √©tant tr√®s peu nombreuses, elles doivent donc √™tre r√©p√©t√©es).
6. Les donn√©es d'entra√Ænement et d'√©valuation sont encapsul√©es par la classe de Hugging Face (https://huggingface.co/docs/datasets/index).

**Cela pr√©pare en une seule cellule les jeux de donn√©es train_data, eval_data et test_data √† utiliser dans notre fine-tuning.**

In [9]:
filename = "../input/sentiment-analysis-for-financial-news/all-data.csv"

df = pd.read_csv(filename, 
                 names=["sentiment", "text"],
                 encoding="utf-8", encoding_errors="replace")

X_train = list()
X_test = list()
for sentiment in ["positive", "neutral", "negative"]:
    train, test  = train_test_split(df[df.sentiment==sentiment], 
                                    train_size=300,
                                    test_size=300, 
                                    random_state=2024)
    X_train.append(train)
    X_test.append(test)

X_train = pd.concat(X_train).sample(frac=1, random_state=10)
X_test = pd.concat(X_test)

eval_idx = [idx for idx in df.index if idx not in list(X_train.index) + list(X_test.index)]
X_eval = df[df.index.isin(eval_idx)]
X_eval = (X_eval
          .groupby('sentiment', group_keys=False)
          .apply(lambda x: x.sample(n=50, random_state=10, replace=True)))
X_train = X_train.reset_index(drop=True)

def generate_prompt(data_point):
    return f"""
            Analyse le sentiment du titre de l'actualit√© inclus entre crochets, 
            d√©termine s'il est positif, neutre ou n√©gatif, et retourner la r√©ponse 
            sous forme d'√©tiquette de sentiment correspondante "positive", "neutral" ou "negative".

            [{data_point["text"]}] = {data_point["sentiment"]}
            """.strip()

def generate_test_prompt(data_point):
    return f"""
            Analyse le sentiment du titre de l'actualit√© inclus entre crochets, 
            d√©termine s'il est positif, neutre ou n√©gatif, et retourner la r√©ponse 
            sous forme d'√©tiquette de sentiment correspondante "positive", "neutral" ou "negative".

            [{data_point["text"]}] = """.strip()

X_train = pd.DataFrame(X_train.apply(generate_prompt, axis=1), 
                       columns=["text"])
X_eval = pd.DataFrame(X_eval.apply(generate_prompt, axis=1), 
                      columns=["text"])

y_true = X_test.sentiment
X_test = pd.DataFrame(X_test.apply(generate_test_prompt, axis=1), columns=["text"])

train_data = Dataset.from_pandas(X_train)
eval_data = Dataset.from_pandas(X_eval)

Ensuite, nous cr√©ons une fonction pour √©valuer les r√©sultats de notre mod√®le de sentiment affin√©. La fonction effectue les √©tapes suivantes :

1. Associe les √©tiquettes de sentiment √† une repr√©sentation num√©rique, o√π **2 repr√©sente positif, 1 repr√©sente neutre, et 0 repr√©sente n√©gatif.**
2. Calcule la pr√©cision du mod√®le sur les donn√©es de test.
3. G√©n√®re un rapport de pr√©cision pour chaque √©tiquette de sentiment.
4. G√©n√®re un rapport de classification pour le mod√®le.
5. G√©n√®re une matrice de confusion pour le mod√®le.

In [10]:
def evaluate(y_true, y_pred):
    labels = ['positive', 'neutral', 'negative']
    mapping = {'positive': 2, 'neutral': 1, 'none':1, 'negative': 0}
    def map_func(x):
        return mapping.get(x, 1)
    
    y_true = np.vectorize(map_func)(y_true)
    y_pred = np.vectorize(map_func)(y_pred)
    
    ### pr√©cision
    accuracy = accuracy_score(y_true=y_true, y_pred=y_pred)
    print(f'Pr√©cision: {accuracy:.3f}')
        
    ### rapport de classification
    class_report = classification_report(y_true=y_true, y_pred=y_pred)
    print('\nRapport de classification:')
    print(class_report)
    
    ### matrice de confusion
    conf_matrix = confusion_matrix(y_true=y_true, y_pred=y_pred, labels=[0, 1, 2])
    print('\nMatrice de Confusion:')
    print(conf_matrix)

## Tester Llama2 avant fine-tuning üë®üèæ‚Äçüíª

Ensuite, nous devons nous occuper du mod√®le, qui est un 7b-hf (7 milliards de param√®tres, sans RLHF, au format compatible avec HuggingFace), en le chargeant √† partir des mod√®les Kaggle et en le quantifiant.

#### Chargement et quantification du mod√®le :

* D'abord, le code charge le mod√®le de langage Llama-2 depuis le Hub Hugging Face.
* Ensuite, le code obtient le type de donn√©es float16 de la biblioth√®que torch. C'est le type de donn√©es qui sera utilis√© pour les calculs.
* Ensuite, il cr√©e un objet BitsAndBytesConfig avec les param√®tres suivants :
    1. load_in_4bit : charge les poids du mod√®le au format 4 bits.
    2. bnb_4bit_quant_type : utilise le type de quantification "nf4". Le 4-bit NormalFloat (NF4) est un nouveau type de donn√©es th√©oriquement optimal pour les poids distribu√©s normalement.
    3. bnb_4bit_compute_dtype : utilise le type de donn√©es float16 pour les calculs.
    4. bnb_4bit_use_double_quant : pour la double quantification (r√©duit l'empreinte m√©moire moyenne en quantifiant √©galement les constantes de quantification et √©conomise 0,4 bits suppl√©mentaires par param√®tre).
* Ensuite, le code cr√©e un objet AutoModelForCausalLM √† partir du mod√®le de langage pr√©-entra√Æn√© Llama-2, en utilisant l'objet BitsAndBytesConfig pour la quantification.
* Apr√®s cela, le code d√©sactive la mise en cache pour le mod√®le.
* Enfin, le code d√©finit la probabilit√© des tokens de pr√©-entra√Ænement √† 1.


#### Chargement du tokenizer :

* D'abord, le code charge le tokenizer pour le mod√®le de langage Llama-2.
* Ensuite, il d√©finit le token de padding comme √©tant le token de fin de s√©quence (EOS).
* Enfin, le code d√©finit le c√¥t√© de padding sur "right", ce qui signifie que les s√©quences d'entr√©e seront remplies du c√¥t√© droit. C'est crucial pour une direction de padding correcte (c'est ainsi que fonctionne Llama 2).

In [11]:
model_name = "togethercomputer/LLaMA-2-7B-32K"

compute_dtype = getattr(torch, "float16")

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True, 
    bnb_4bit_quant_type="nf4", 
    bnb_4bit_compute_dtype=compute_dtype,
    bnb_4bit_use_double_quant=True,
)

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map=device,
    torch_dtype=compute_dtype,
    quantization_config=bnb_config, 
)

model.config.use_cache = False
model.config.pretraining_tp = 1

tokenizer = AutoTokenizer.from_pretrained(model_name, 
                                          trust_remote_code=True,
                                         )
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

model, tokenizer = setup_chat_format(model, tokenizer)

config.json:   0%|          | 0.00/620 [00:00<?, ?B/s]

pytorch_model.bin.index.json:   0%|          | 0.00/26.8k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

pytorch_model-00001-of-00002.bin:   0%|          | 0.00/9.98G [00:00<?, ?B/s]

pytorch_model-00002-of-00002.bin:   0%|          | 0.00/3.50G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/132 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/942 [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/4.00 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/96.0 [00:00<?, ?B/s]

Dans la cellule suivante, nous d√©finissons une fonction pour pr√©dire le sentiment d'un titre d'actualit√© en utilisant le mod√®le de langage Llama-2. La fonction prend trois arguments :

- `test` : un DataFrame Pandas contenant les titres d'actualit√©s √† pr√©dire.
- `model` : le mod√®le de langage pr√©-entra√Æn√© Llama-2.
- `tokenizer` : le tokenizer pour le mod√®le de langage Llama-2.

La fonction fonctionne comme suit :

1. Pour chaque titre d'actualit√© dans le DataFrame `test` :
    * Cr√©er un prompt pour le mod√®le de langage, lui demandant d'analyser le sentiment du titre d'actualit√© et de renvoyer l'√©tiquette de sentiment correspondante.
    * Utiliser la fonction `pipeline()` de la biblioth√®que Hugging Face Transformers pour g√©n√©rer du texte √† partir du mod√®le de langage, en utilisant le prompt.
    * Extrayer l'√©tiquette de sentiment pr√©dite du texte g√©n√©r√©.
    * Ajouter l'√©tiquette de sentiment pr√©dite √† la liste `y_pred`.
2. Retournez la liste `y_pred`.

In [12]:
def predict(test, model, tokenizer):
    y_pred = []
    for i in tqdm(range(len(X_test))):
        prompt = X_test.iloc[i]["text"]
        pipe = pipeline(task="text-generation", 
                        model=model, 
                        tokenizer=tokenizer, 
                        max_new_tokens = 1, 
                        temperature = 1,
                       )
        result = pipe(prompt)
        answer = result[0]['generated_text'].split("=")[-1]
        if "positive" in answer:
            y_pred.append("positive")
        elif "negative" in answer:
            y_pred.append("negative")
        elif "neutral" in answer:
            y_pred.append("neutral")
        else:
            y_pred.append("none")
    return y_pred

√Ä ce stade, nous sommes pr√™ts √† tester le mod√®le Llama 2 7b-hf et √† √©valuer ses performances sur notre probl√®me sans aucun ajustement fin. Cela nous permet d'obtenir des informations sur le mod√®le lui-m√™me et d'√©tablir une ligne de base.

In [13]:
y_pred = predict(test, model, tokenizer)

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 900/900 [05:59<00:00,  2.50it/s]


Dans la cellule suivante, nous √©valuons les r√©sultats. Il y a peu √† dire, les performances sont vraiment terribles car le mod√®le 7b-hf a tendance √† pr√©dire principalement un sentiment neutre et d√©tecte rarement les sentiments positifs ou n√©gatifs.

In [14]:
evaluate(y_true, y_pred)

Pr√©cision: 0.339

Rapport de classification:
              precision    recall  f1-score   support

           0       1.00      0.00      0.01       300
           1       0.33      1.00      0.50       300
           2       0.83      0.02      0.03       300

    accuracy                           0.34       900
   macro avg       0.72      0.34      0.18       900
weighted avg       0.72      0.34      0.18       900


Matrice de Confusion:
[[  1 299   0]
 [  0 299   1]
 [  0 295   5]]


## Fine-tuning ü¶æ

Dans la cellule suivante, nous pr√©parons tout pour le fine-tuning. Nous configurons et initialisons un entra√Æneur **Simple Fine-tuning Trainer (SFTTrainer)** pour entra√Æner le LLM en utilisant la m√©thode d'**ajustement efficace des param√®tres (PEFT)**, ce qui devrait √©conomiser du temps car elle op√®re sur un nombre r√©duit de param√®tres par rapport √† la taille totale du mod√®le.  

La m√©thode PEFT se concentre sur le raffinement d'un ensemble limit√© de param√®tres suppl√©mentaires du mod√®le, tout en maintenant la majorit√© des param√®tres du LLM pr√©-entra√Æn√© fixes. Cela r√©duit consid√©rablement les co√ªts √† la fois computationnels et de stockage. De plus, cette strat√©gie adresse le d√©fi de l'oubli catastrophique, qui se produit souvent lors du fine-tuning complet des LLMs.  

[**D√©tails PEFT:** Voir ressources de la S√©ance 7](https://github.com/ANYANTUDRE/Stage-IA-Selever-GO-AI-Corp/blob/main/02.%20Supports%20de%20Cours%20-%20Formations/07.%20S%C3%A9ance%207%20-%20M%C3%A9triques%20%26%20%20PEFTs%20-%20LoRA%20%26%20QLoRA/03.%20Parameter%20efficient%20Fine-tuning%20(PEFT).pdf)


#### PEFTConfig :

L'objet `peft_config` sp√©cifie les param√®tres pour PEFT. Voici quelques param√®tres importants :

- `lora_alpha` : taux d'apprentissage pour les matrices de mise √† jour LoRA.
- `lora_dropout` : probabilit√© de dropout pour les matrices de mise √† jour LoRA (permet d'√©viter l'overfitting)
- `r` : rang des matrices de mise √† jour LoRA.
- `bias` : type de biais √† utiliser. Les valeurs possibles sont none, additive et learned.
- `task_type` : type de t√¢che pour laquelle le mod√®le est entra√Æn√©. Les valeurs possibles sont CAUSAL_LM et MASKED_LM.

#### TrainingArguments :

L'objet `training_arguments` sp√©cifie les param√®tres pour l'entra√Ænement du mod√®le. Voici quelques param√®tres importants :

- `output_dir` : r√©pertoire o√π les journaux d'entra√Ænement et les checkpoints seront sauvegard√©s.
- `num_train_epochs` : nombre d'√©poques pour entra√Æner le mod√®le.
- `per_device_train_batch_size` : nombre d'√©chantillons dans chaque batch sur chaque dispositif (ici on utilise un seul GPU)
- `gradient_accumulation_steps` : nombre de batches pour accumuler les gradients avant de mettre √† jour les param√®tres du mod√®le.
- `optim` :optimiseur √† utiliser pour l'entra√Ænement du mod√®le.
- `save_steps` : nombre d'√©tapes apr√®s lesquelles sauvegarder un checkpoint.
- `logging_steps` : nombre d'√©tapes apr√®s lesquelles enregistrer les m√©triques d'entra√Ænement.
- `learning_rate` : taux d'apprentissage pour l'optimiseur.
- `weight_decay` : param√®tre de d√©gradation du poids pour l'optimiseur.
- `fp16` : utilisation ou non de la pr√©cision de virgule flottante 16 bits.
- `bf16` : utilisation ou non de la pr√©cision BFloat16.
- `max_grad_norm` : norme maximale du gradient.
- `max_steps` : nombre maximal d'√©tapes pour entra√Æner le mod√®le.
- `warmup_ratio` : proportion des √©tapes d'entra√Ænement √† utiliser pour le r√©chauffement du taux d'apprentissage.
- `group_by_length` : grouper ou non les √©chantillons d'entra√Ænement par longueur.
- `lr_scheduler_type` : type de planificateur de taux d'apprentissage √† utiliser.
- `report_to` : outils auxquels rapporter les m√©triques d'entra√Ænement.
- `evaluation_strategy` : strat√©gie pour √©valuer le mod√®le pendant l'entra√Ænement.


#### SFTTrainer :

Le SFTTrainer est une classe d'entra√Æneur personnalis√©e de la biblioth√®que TRL. Il est utilis√© pour entra√Æner les LLMs (utilisant √©galement la m√©thode PEFT).

L'objet SFTTrainer est initialis√© avec les arguments suivants :

- `model` : mod√®le √† entra√Æner.
- `train_dataset` : dataset d'entra√Ænement.
- `eval_dataset` : dataset d'√©valuation.
- `peft_config` : configuration PEFT.
- `dataset_text_field` : nom du champ texte dans le dataset.
- `tokenizer` : tokenizer √† utiliser.
- `args` : arguments d'entra√Ænement.
- `packing` : indique si les √©chantillons d'entra√Ænement doivent √™tre empaquet√©s.
- `max_seq_length` : longueur maximale de la s√©quence.

Une fois que l'objet SFTTrainer est initialis√©, il peut √™tre utilis√© pour entra√Æner le mod√®le en appelant la m√©thode `train()`.

In [15]:
peft_config = LoraConfig(
        lora_alpha=32, 
        lora_dropout=0.1,
        r=8,
        bias="none",
        target_modules="all-linear",
        task_type="CAUSAL_LM",
)

training_arguments = TrainingArguments(
    output_dir="trained_weigths",             ### r√©pertoire pour sauvegarder et identifiant du r√©f√©rentiel
    num_train_epochs=1,                       ### nombre d'√©poques d'entra√Ænement
    per_device_train_batch_size=1,            ### taille du batch par p√©riph√©rique pendant l'entra√Ænement
    gradient_accumulation_steps=4,            ### nombre d'√©tapes avant d'effectuer une passe de r√©tropropagation/mise √† jour
    gradient_checkpointing=True,              ### utilise le point de contr√¥le de gradient pour √©conomiser de la m√©moire
    optim="paged_adamw_32bit",
    save_steps=0,
    logging_steps=25,                         ### enregistre chaque 25 √©tapes
    learning_rate=2e-4,                       ### taux d'apprentissage, bas√© sur le papier QLoRA
    weight_decay=0.001,
    fp16=True,
    bf16=False,
    max_grad_norm=0.3,                        ### norme maximale du gradient bas√©e sur le papier QLoRA
    max_steps=-1,
    warmup_ratio=0.03,                        ### ratio de pr√©chauffage bas√© sur le papier QLoRA
    group_by_length=True,
    lr_scheduler_type="cosine",               ### utilise le programmeur de taux d'apprentissage cosinus
    report_to="tensorboard",                  ### rapporte les m√©triques √† tensorboard
    evaluation_strategy="epoch"               ### sauvegarde le checkpoint √† chaque √©poque
)

trainer = SFTTrainer(
    model=model,
    args=training_arguments,
    train_dataset=train_data,
    eval_dataset=eval_data,
    peft_config=peft_config,
    dataset_text_field="text",
    tokenizer=tokenizer,
    max_seq_length=1024,
    packing=False,
    dataset_kwargs={
        "add_special_tokens": False,
        "append_concat_token": False,
    }
)

Map:   0%|          | 0/900 [00:00<?, ? examples/s]

Map:   0%|          | 0/150 [00:00<?, ? examples/s]

Le code suivant va entra√Æner le mod√®le en utilisant la m√©thode `trainer.train()` et ensuite sauvegarder le mod√®le entra√Æn√© dans le r√©pertoire `trained-model`. En utilisant le GPU standard P100 offert par Kaggle, l'entra√Ænement devrait √™tre assez rapide.

In [16]:
# train model
trainer.train()

You're using a LlamaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Epoch,Training Loss,Validation Loss
1,0.5963,0.520684


TrainOutput(global_step=225, training_loss=0.6397684393988715, metrics={'train_runtime': 1319.221, 'train_samples_per_second': 0.682, 'train_steps_per_second': 0.171, 'total_flos': 4056091312422912.0, 'train_loss': 0.6397684393988715, 'epoch': 1.0})

Le mod√®le et le tokenizer sont sauvegard√©s sur le disque pour une utilisation ult√©rieure.

In [17]:
trainer.save_model()
tokenizer.save_pretrained("trained_weigths")

('trained_weigths/tokenizer_config.json',
 'trained_weigths/special_tokens_map.json',
 'trained_weigths/tokenizer.model',
 'trained_weigths/added_tokens.json',
 'trained_weigths/tokenizer.json')

Ensuite, charger l'extension TensorBoard et d√©marrer TensorBoard, en pointant vers le r√©pertoire `logs/runs`, qui est cens√© contenir les journaux d'entra√Ænement et les checkpoints de votre mod√®le, vous permettra de comprendre comment le mod√®le s'ajuste pendant l'entra√Ænement.

In [18]:
%load_ext tensorboard
%tensorboard --logdir logs/runs

## Sauvegarde du mod√®le üíæ

√Ä ce stade, afin de d√©montrer comment r√©utiliser le mod√®le, nous le rechargeons √† partir du disque et le fusionnons avec le mod√®le LLama d'origine.

En fait, lorsque nous travaillons avec QLoRA, nous n'entra√Ænons exclusivement que des adaptateurs au lieu du mod√®le entier. Ainsi, lorsque vous sauvegardez le mod√®le pendant l'entra√Ænement, vous ne conservez que les poids des adaptateurs, pas l'ensemble du mod√®le. Si vous souhaitez sauvegarder le mod√®le complet pour une utilisation plus facile avec l'inf√©rence de g√©n√©ration de texte, vous pouvez fusionner les poids des adaptateurs avec les poids du mod√®le en utilisant la m√©thode `merge_and_unload`. Ensuite, vous pouvez sauvegarder le mod√®le en utilisant la m√©thode `save_pretrained`. Cela cr√©era un mod√®le par d√©faut pr√™t pour les t√¢ches d'inf√©rence.

Avant de continuer, nous commen√ßons par supprimer le mod√®le pr√©c√©dent et nettoyer la m√©moire des diff√©rents objets que nous n'utiliserons plus.

In [19]:
import gc

del [model, tokenizer, peft_config, trainer, train_data, eval_data, bnb_config, training_arguments]
del [df, X_train, X_eval]
del [TrainingArguments, SFTTrainer, LoraConfig, BitsAndBytesConfig]

In [20]:
for _ in range(100):
    torch.cuda.empty_cache()
    gc.collect()

In [21]:
!nvidia-smi

Sun Jul  7 12:39:03 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.90.07              Driver Version: 550.90.07      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  Tesla P100-PCIE-16GB           Off |   00000000:00:04.0 Off |                    0 |
| N/A   53C    P0             37W /  250W |     361MiB /  16384MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                     

Ensuite, nous pouvons proc√©der √† la fusion des poids et utiliser le mod√®le fusionn√© √† des fins de test.

In [22]:
from peft import AutoPeftModelForCausalLM

finetuned_model = "./trained_weigths/"
compute_dtype = getattr(torch, "float16")
tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoPeftModelForCausalLM.from_pretrained(
     finetuned_model,
     torch_dtype=compute_dtype,
     return_dict=False,
     low_cpu_mem_usage=True,
     device_map=device,
)

merged_model = model.merge_and_unload()
merged_model.save_pretrained("./merged_model",safe_serialization=True, max_shard_size="2GB")
tokenizer.save_pretrained("./merged_model")

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


('./merged_model/tokenizer_config.json',
 './merged_model/special_tokens_map.json',
 './merged_model/tokenizer.model',
 './merged_model/added_tokens.json',
 './merged_model/tokenizer.json')

## Test üë®üèæ‚Äçüíª

Le code suivant pr√©dira d'abord les √©tiquettes de sentiment pour l'ensemble de test en utilisant la fonction `predict()`. Ensuite, il √©valuera les performances du mod√®le sur l'ensemble de test en utilisant la fonction `evaluate()`. Les r√©sultats devraient maintenant √™tre impressionnants avec une pr√©cision globale de plus de 0.8 et une pr√©cision √©lev√©e, ainsi qu'un rappel √©lev√© pour les √©tiquettes de sentiment individuelles. La pr√©diction de l'√©tiquette neutre peut encore √™tre am√©lior√©e, mais il est impressionnant de voir ce qui peut √™tre r√©alis√© avec peu de donn√©es et un peu d'ajustement fin.

In [23]:
y_pred = predict(test, merged_model, tokenizer)
evaluate(y_true, y_pred)

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 900/900 [04:20<00:00,  3.45it/s]

Pr√©cision: 0.856

Rapport de classification:
              precision    recall  f1-score   support

           0       0.96      0.95      0.96       300
           1       0.77      0.80      0.79       300
           2       0.83      0.81      0.82       300

    accuracy                           0.86       900
   macro avg       0.86      0.86      0.86       900
weighted avg       0.86      0.86      0.86       900


Matrice de Confusion:
[[285  15   0]
 [ 10 241  49]
 [  1  55 244]]





Le code suivant cr√©era un DataFrame Pandas appel√© `evaluation` contenant le texte, les √©tiquettes r√©elles et les √©tiquettes pr√©dites de l'ensemble de test. Cela est particuli√®rement utile pour comprendre les erreurs que le mod√®le finement r√©gl√© commet et obtenir des insights sur la fa√ßon d'am√©liorer le prompt.

In [24]:
evaluation = pd.DataFrame({'text': X_test["text"], 
                           'y_true':y_true, 
                           'y_pred': y_pred},
                         )
evaluation.to_csv("test_predictions.csv", index=False)