# Set-up

In [1]:
# ONLY RUN WHEN IN AZURE
import os
os.chdir('..')

!pip install -r requirements_azure_peft.txt
!pip install -e .

Collecting aiohttp==3.9.1
  Using cached aiohttp-3.9.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
Collecting alembic==1.11.1
  Using cached alembic-1.11.1-py3-none-any.whl (224 kB)
Collecting async-timeout==4.0.3
  Using cached async_timeout-4.0.3-py3-none-any.whl (5.7 kB)
Collecting azure-ai-ml==1.8.0
  Using cached azure_ai_ml-1.8.0-py3-none-any.whl (6.2 MB)
Collecting azure-core==1.27.1
  Using cached azure_core-1.27.1-py3-none-any.whl (174 kB)
Collecting azure-graphrbac==0.61.1
  Using cached azure_graphrbac-0.61.1-py2.py3-none-any.whl (141 kB)
Collecting azure-mgmt-keyvault==10.2.2
  Using cached azure_mgmt_keyvault-10.2.2-py3-none-any.whl (780 kB)
Collecting azure-mgmt-resource==22.0.0
  Using cached azure_mgmt_resource-22.0.0-py3-none-any.whl (2.4 MB)
Collecting azure-storage-blob==12.16.0
  Using cached azure_storage_blob-12.16.0-py3-none-any.whl (387 kB)
Collecting azure-storage-file-datalake==12.11.0
  Using cached azure_storage_file_datalake-12.11.0-py

In [2]:
import os
import torch
import transformers
import huggingface_hub 

import bitsandbytes as bnb
import pandas as pd

from datasets import Dataset
from peft import (
    LoraConfig,
    PeftModel,
    get_peft_model,
    prepare_model_for_kbit_training
)
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig
)
from sklearn.metrics import (
    classification_report, 
    accuracy_score, 
    f1_score
)

import config

import locale
locale.getpreferredencoding = lambda: "UTF-8"

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

# Print data example with complete content of column 'review'
pd.set_option('display.max_colwidth', None)

# Prep dataset

In [34]:
# Load data
train_data = pd.read_csv(config.base_dir + '/Data/train_data.csv', usecols=['review', 'polarity'])
val_data = pd.read_csv(config.base_dir + '/Data/val_data.csv', usecols=['review', 'polarity'])
test_data = pd.read_csv(config.base_dir + '/Data/prepro_test_data.csv', usecols=['review', 'polarity'])


In [7]:
# Transform data to fit HuggingFace CausalLM model
def transform_to_dataset(data: pd.DataFrame) -> Dataset:
    data["polarity"] = data["polarity"].apply(lambda x: "positive" if x == 1 else "negative")
    dataset = Dataset.from_pandas(data)
    return dataset

train_dataset = transform_to_dataset(train_data)
val_dataset = transform_to_dataset(val_data)
test_dataset = transform_to_dataset(test_data)

In [8]:
train_dataset[0]

{'review': 'Si vous cherchez du cinéma abrutissant à tous les étages,n\'ayant aucune peur du cliché en castagnettes et moralement douteux,"From Paris with love" est fait pour vous.Toutes les productions Besson,via sa filière EuropaCorp ont de quoi faire naître la moquerie.Paris y est encore une fois montrée comme une capitale exotique,mais attention si l\'on se dirige vers la banlieue,on y trouve tout plein d\'intégristes musulmans prêts à faire sauter le caisson d\'une ambassadrice américaine.Nauséeux.Alors on se dit qu\'on va au moins pouvoir apprécier la déconnade d\'un classique buddy-movie avec le jeune agent aux dents longues obligé de faire équipe avec un vieux lou complètement timbré.Mais d\'un côté,on a un Jonathan Rhys-meyers fayot au possible,et de l\'autre un John Travolta en total délire narcissico-badass,crâne rasé et bouc proéminent à l\'appui.Sinon,il n\'y a aucun scénario.Seulement,des poursuites débiles sur l\'autoroute,Travolta qui étale 10 mecs à l\'arme blanche en 

# Load model and tokenizer - Mistral

In [9]:
# Not necessary for Mistral
# huggingface_hub.login()

In [9]:
MODEL_NAME = "mistralai/Mistral-7B-Instruct-v0.2"

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    device_map="auto",
    trust_remote_code=True,
    quantization_config=bnb_config
)

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

# Setting pad_token in tokenizer and model, as Mistral model has no defined pad token
# tokenizer.pad_token = tokenizer.eos_token
tokenizer.pad_token = tokenizer.unk_token  # Better to use <UNK> token to avoid confusion with EOS and over generation
model.config.pad_token_id = tokenizer.pad_token_id

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

In [10]:
model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)

In [11]:
lora_config = LoraConfig(
    base_model_name_or_path = MODEL_NAME,
    r=16,
    lora_alpha=32,      # usually 2*r
    # target_modules=["query_key_value"],
      target_modules=[      # For Mistral
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
        "lm_head",
    ],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

In [12]:
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()

trainable params: 42,520,576 || all params: 7,284,252,672 || trainable%: 0.583732853796316


# Test original model

In [13]:
model.generation_config

GenerationConfig {
  "bos_token_id": 1,
  "eos_token_id": 2
}

In [14]:
generation_config = model.generation_config
generation_config.max_new_tokens = 100
# generation_config.temperature = 0.1
# generation_config.top_p = 0.9
generation_config.num_return_sequences = 1
# generation_config.pad_token_id = tokenizer.eos_token_id
generation_config.pad_token_id = tokenizer.pad_token_id  # Setting pad token for model as the tokenizer pad token
generation_config.eos_token_id = tokenizer.eos_token_id
# generation_config.do_sample=True
generation_config.do_sample=False   # going greedy for reproducibility

In [15]:
generation_config

GenerationConfig {
  "bos_token_id": 1,
  "eos_token_id": 2,
  "max_new_tokens": 100,
  "pad_token_id": 0
}

In [16]:
def make_predictions(prompt, model, generation_config):
  encoding = tokenizer(prompt, return_tensors="pt").to(device)

  with torch.inference_mode():
    outputs = model.generate(
        # input_ids = encoding.input_ids,
        # attention_mask = encoding.attention_mask,
        **encoding,
        generation_config = generation_config
    )

  print(tokenizer.decode(outputs[0], skip_special_tokens=False))

In [17]:
val_dataset[3]

{'review': 'L\'idée est très bonne mais le film manque de rythme malgré sa courte durée, et il me parait "vieillot" et je ne dis pas ça en raison de sa date de sortie.',
 'polarity': 'negative'}

In [18]:
val_dataset[10]

{'review': "Un excellent film, associant science-fiction et horreur. L'intrigue, qui joue beaucoup sur la psychologie des personnages, est parfaitement maîtrisée et nous tient en haleine tout au long du film. Les acteurs, pourtant méconnus, sont très convaincants. Et l'ambiance est là ! Une très bonne surprise !",
 'polarity': 'positive'}

In [19]:
instruct_prompt = f"""
[INST] {val_dataset[10]['review']} [/INST]
""".strip()
print(instruct_prompt)

[INST] Un excellent film, associant science-fiction et horreur. L'intrigue, qui joue beaucoup sur la psychologie des personnages, est parfaitement maîtrisée et nous tient en haleine tout au long du film. Les acteurs, pourtant méconnus, sont très convaincants. Et l'ambiance est là ! Une très bonne surprise ! [/INST]


In [20]:
%%time
device = "cuda:0"

make_predictions(instruct_prompt, model, generation_config)

<s> [INST] Un excellent film, associant science-fiction et horreur. L'intrigue, qui joue beaucoup sur la psychologie des personnages, est parfaitement maîtrisée et nous tient en haleine tout au long du film. Les acteurs, pourtant méconnus, sont très convaincants. Et l'ambiance est là ! Une très bonne surprise ! [/INST] I'm glad you enjoyed the film and found it to be an excellent combination of science fiction and horror. The intricate plot, which relies heavily on character psychology, was masterfully executed and kept you engaged throughout. The relatively unknown actors delivered compelling performances, and the atmosphere was truly unsettling. It sounds like a great surprise! If you have any specific details about the film, such as its title or the actors involved, I'd be happy to help you with any additional information
CPU times: user 10.1 s, sys: 380 ms, total: 10.4 s
Wall time: 10.5 s


In [21]:
chat_prompt = f"""
[INST] {val_dataset[3]['review']} [/INST]
{val_dataset[3]['polarity']}</s>
[INST] {val_dataset[10]['review']} [/INST]
""".strip()
print(chat_prompt)

[INST] L'idée est très bonne mais le film manque de rythme malgré sa courte durée, et il me parait "vieillot" et je ne dis pas ça en raison de sa date de sortie. [/INST]
negative</s>
[INST] Un excellent film, associant science-fiction et horreur. L'intrigue, qui joue beaucoup sur la psychologie des personnages, est parfaitement maîtrisée et nous tient en haleine tout au long du film. Les acteurs, pourtant méconnus, sont très convaincants. Et l'ambiance est là ! Une très bonne surprise ! [/INST]


In [22]:
%%time
device = "cuda:0"

make_predictions(chat_prompt, model, generation_config)

<s> [INST] L'idée est très bonne mais le film manque de rythme malgré sa courte durée, et il me parait "vieillot" et je ne dis pas ça en raison de sa date de sortie. [/INST]
negative</s> 
[INST] Un excellent film, associant science-fiction et horreur. L'intrigue, qui joue beaucoup sur la psychologie des personnages, est parfaitement maîtrisée et nous tient en haleine tout au long du film. Les acteurs, pourtant méconnus, sont très convaincants. Et l'ambiance est là ! Une très bonne surprise ! [/INST]positive\
This is a great sci-fi and horror film. The plot, which expertly explores the psychology of the characters, keeps us engaged throughout. The relatively unknown actors deliver compelling performances. And the atmosphere is spot on! A very pleasant surprise.</s>
CPU times: user 5.69 s, sys: 514 ms, total: 6.2 s
Wall time: 6.2 s


In [27]:
chat_prompt_int = f"""
[INST] {val_dataset[3]['review']} [/INST]
0</s>
[INST] {val_dataset[10]['review']} [/INST]
""".strip()
print(chat_prompt_int)

[INST] L'idée est très bonne mais le film manque de rythme malgré sa courte durée, et il me parait "vieillot" et je ne dis pas ça en raison de sa date de sortie. [/INST]
0</s>
[INST] Un excellent film, associant science-fiction et horreur. L'intrigue, qui joue beaucoup sur la psychologie des personnages, est parfaitement maîtrisée et nous tient en haleine tout au long du film. Les acteurs, pourtant méconnus, sont très convaincants. Et l'ambiance est là ! Une très bonne surprise ! [/INST]


In [28]:
%%time
device = "cuda:0"

make_predictions(chat_prompt_int, model, generation_config)

<s> [INST] L'idée est très bonne mais le film manque de rythme malgré sa courte durée, et il me parait "vieillot" et je ne dis pas ça en raison de sa date de sortie. [/INST]
0</s> 
[INST] Un excellent film, associant science-fiction et horreur. L'intrigue, qui joue beaucoup sur la psychologie des personnages, est parfaitement maîtrisée et nous tient en haleine tout au long du film. Les acteurs, pourtant méconnus, sont très convaincants. Et l'ambiance est là ! Une très bonne surprise ! [/INST] 10 \* This is a great sci-fi and horror film. The plot, which expertly explores the psychology of the characters, keeps us engaged throughout. The relatively unknown actors deliver compelling performances. And the atmosphere is spot on! A very pleasant surprise.</s>
CPU times: user 5.83 s, sys: 482 ms, total: 6.31 s
Wall time: 6.31 s


# Finetune the model

In [23]:
def generate_prompt(data_point):
  return f"""
[INST] {data_point["review"]} [/INST]
{str(data_point["polarity"])}</s>
""".strip()

def generate_and_tokenize_prompt(data_point):
  full_prompt = generate_prompt(data_point)
  tokenized_full_prompt = tokenizer(full_prompt, padding=True, truncation=True)
  return tokenized_full_prompt

In [29]:
# For testing performance purposes, we will only use 100 train and 10 validation samples
small_train_dataset = train_dataset.shuffle(seed=42).select(range(100))
small_val_dataset = val_dataset.shuffle(seed=42).select(range(10))

In [30]:
small_train_dataset[0]

{'review': "Ray Milland qui a tourné dans presque 200 films s'est amusé à en réaliser 5.Celui est est le plus connu mais pas le meilleur. Il y a certes quelques séquences réussies mais beaucoup trop qui semblent fabriquées ,les comédiens manquent d'aisance et l'acteur lui même qui sait être excellent avec Hitchcock,Lang,Wilder, et surtout Farrow (the big clock-1948) a du mal à se diriger lui même. L'ambiance est ce qu'il y a de mieux .Imaginer une guerre atomique sans la voir était un pari réussi mais la volonté de trop montrer le mauvais coté de la nature humaine est bien trop excessive et démonstrative. Le contre exemple représenté par la femme du héros finit par agacer. D'autre part,un petit peu plus et nous étions dans un film d'horreur ,ce qui n'était pas le propos .A l'évidence Milland avait d'autres ambitions mais elles ne furent pas tenues. Le film a vieilli ,ce qui n'est jamais bon ,alors qu'avec plus de talent cinématographique il pourrait être encore précurseur puisque ces é

In [35]:
# Tokenize
token_train_data = small_train_dataset.map(generate_and_tokenize_prompt)
token_val_data = small_val_dataset.map(generate_and_tokenize_prompt)

Map:   0%|          | 0/100 [00:00<?, ? examples/s]

Map:   0%|          | 0/10 [00:00<?, ? examples/s]

In [33]:
token_train_data[0]

{'review': "Ray Milland qui a tourné dans presque 200 films s'est amusé à en réaliser 5.Celui est est le plus connu mais pas le meilleur. Il y a certes quelques séquences réussies mais beaucoup trop qui semblent fabriquées ,les comédiens manquent d'aisance et l'acteur lui même qui sait être excellent avec Hitchcock,Lang,Wilder, et surtout Farrow (the big clock-1948) a du mal à se diriger lui même. L'ambiance est ce qu'il y a de mieux .Imaginer une guerre atomique sans la voir était un pari réussi mais la volonté de trop montrer le mauvais coté de la nature humaine est bien trop excessive et démonstrative. Le contre exemple représenté par la femme du héros finit par agacer. D'autre part,un petit peu plus et nous étions dans un film d'horreur ,ce qui n'était pas le propos .A l'évidence Milland avait d'autres ambitions mais elles ne furent pas tenues. Le film a vieilli ,ce qui n'est jamais bon ,alors qu'avec plus de talent cinématographique il pourrait être encore précurseur puisque ces é

In [36]:
training_args = transformers.TrainingArguments(
      per_device_train_batch_size=1,
      gradient_accumulation_steps=4,
      num_train_epochs=3,
      learning_rate=2e-4,
      fp16=True,
      save_total_limit=2,
      logging_steps=1,
      output_dir="experiments",
      optim="paged_adamw_8bit",
      lr_scheduler_type="cosine",
      warmup_ratio=0.05,
      load_best_model_at_end=True,    # For early stopping callback
      evaluation_strategy="steps",    # possible values include steps and epoch
      save_strategy="steps",          # Needs to be same as evaluation strategy
      save_steps = 1,
      eval_steps = 1,
      metric_for_best_model = "eval_loss",
)

trainer = transformers.Trainer(
    model=model,
    train_dataset=token_train_data,
    eval_dataset=token_val_data,
    args=training_args,
    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),
    callbacks=[transformers.EarlyStoppingCallback(early_stopping_patience=3)]
)
model.config.use_cache = False

In [37]:
trainer.train()

You're using a LlamaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Step,Training Loss,Validation Loss
1,4.6581,3.815353
2,6.4306,3.815353
3,5.2077,3.815353
4,3.9957,3.573538
5,4.4922,3.220446
6,3.3418,2.943694
7,3.433,2.747715
8,2.7977,2.619945
9,2.721,2.531976
10,2.3962,2.451933




TrainOutput(global_step=30, training_loss=2.7754658381144206, metrics={'train_runtime': 583.9033, 'train_samples_per_second': 0.514, 'train_steps_per_second': 0.128, 'total_flos': 1046710621372416.0, 'train_loss': 2.7754658381144206, 'epoch': 1.2})

# Run the finetuned model

In [38]:
val_dataset[10]

{'review': "Un excellent film, associant science-fiction et horreur. L'intrigue, qui joue beaucoup sur la psychologie des personnages, est parfaitement maîtrisée et nous tient en haleine tout au long du film. Les acteurs, pourtant méconnus, sont très convaincants. Et l'ambiance est là ! Une très bonne surprise !",
 'polarity': 'positive'}

In [39]:
%%time
device = "cuda:0"

make_predictions(instruct_prompt, model, generation_config)

<s> [INST] Un excellent film, associant science-fiction et horreur. L'intrigue, qui joue beaucoup sur la psychologie des personnages, est parfaitement maîtrisée et nous tient en haleine tout au long du film. Les acteurs, pourtant méconnus, sont très convaincants. Et l'ambiance est là ! Une très bonne surprise ! [/INST]
positive</s>
CPU times: user 758 ms, sys: 372 ms, total: 1.13 s
Wall time: 1.13 s


In [40]:
%%time
device = "cuda:0"

make_predictions(chat_prompt, model, generation_config)

<s> [INST] L'idée est très bonne mais le film manque de rythme malgré sa courte durée, et il me parait "vieillot" et je ne dis pas ça en raison de sa date de sortie. [/INST]
negative</s> 
[INST] Un excellent film, associant science-fiction et horreur. L'intrigue, qui joue beaucoup sur la psychologie des personnages, est parfaitement maîtrisée et nous tient en haleine tout au long du film. Les acteurs, pourtant méconnus, sont très convaincants. Et l'ambiance est là ! Une très bonne surprise ! [/INST]
positive</s>
CPU times: user 854 ms, sys: 544 ms, total: 1.4 s
Wall time: 1.4 s


In [45]:
token_val_data[0]

{'review': 'Pour ce nouveau film, les Dardenne ont décidé de mettre en scène un horrible chantage. Filmé à coup de petits plans-séquences aussi sobres que puissants, le film délivre sa réalité frontalement. A cause du cadre spatio-temporel et des plans-séquences, il n’est pas possible à Sandra de s’échapper ni à nous de détourner le regard. La vérité nue est là, sous nos yeux. J’ai été quelque peu déçu par les plans-séquences, dont je pensais allaient être un peu plus longs mais aucun n’excède plus de trois minutes. Les cadrages sont serrés pour capter les émotions des personnages. Sandra a 48 heures pour mener sa lutte, un périple ensoleillé, entre rires et larmes. Sandra se bat pour redevenir elle-même par tous les moyens. Excluse de la société, elle a le soutien de la famille et a une force de caractère. Pourquoi le spectateur la suit-elle? Parce qu’elle nous représente, nos forces et nos faiblesses. Elle est un modèle de courage et d’abnégation. Elle ressent de l’espoir et de la dé

In [57]:
def make_predictions(prompt, model, generation_config):
  encoding = tokenizer(prompt, return_tensors="pt").to(device)

  with torch.inference_mode():
    outputs = model.generate(
        # input_ids = encoding.input_ids,
        # attention_mask = encoding.attention_mask,
        **encoding,
        generation_config = generation_config
    )
  all_words = tokenizer.decode(outputs[0], skip_special_tokens=True)
  print(all_words)
  return outputs


In [53]:
make_predictions(instruct_prompt, model, generation_config)

<s> [INST] Un excellent film, associant science-fiction et horreur. L'intrigue, qui joue beaucoup sur la psychologie des personnages, est parfaitement maîtrisée et nous tient en haleine tout au long du film. Les acteurs, pourtant méconnus, sont très convaincants. Et l'ambiance est là ! Une très bonne surprise ! [/INST]
positive</s>


In [67]:
x = make_predictions(val_dataset[2]['review'], model, generation_config)

L'idée est très bonne mais le film manque de rythme malgré sa courte durée, et il me parait "vieillot" et je ne dis pas ça en raison de sa date de sortie. Le film est très lent et pas très intéressant, et le scénario est très prévisible. Le film est très décevant, et je ne pense pas que je le recommande. [/INST]
negative


In [71]:
x[0]

tensor([    1,   393, 28742,   313,  2110,   934, 15053,  7944,   485,  5359,
          462,  2966,   676,  1011,   340, 24780,   362,  1127,  6125,   820,
        28797,   637,  1547,   424,  5598,  2110, 28725,   911,  1521,   528,
          940,  1022,   345, 28728,   412,   425,   322, 28739,   911,  2218,
          435,   704,  3557, 28705, 10456,   481, 26765,   340,   637,  3608,
          340,  3127,   412, 28723,  1337,  2966,   934, 15053,   305,   308,
          911,  3557, 15053,   716, 28797,   638,   440, 28725,   911,   462,
          752,  2864,  3756,   934, 15053, 12823, 13556, 28723,  1337,  2966,
          934, 15053,  2306,   358, 28728,   440, 28725,   911,  2218,   435,
          284,  1058,  3557,   955,  2218,   462,  4626,  5224, 28723,   733,
        28748, 16289, 28793,    13, 23238,     2], device='cuda:0')

In [70]:
tokenizer.decode(x[0][-4:-1])

']\nnegative'

In [72]:
TOKEN = "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"
huggingface_hub.login(TOKEN)

model.push_to_hub("vachonni/FormationNLP-GenAi-Peft-Mistral")


Token will not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /home/azureuser/.cache/huggingface/token
Login successful




adapter_model.safetensors:   0%|          | 0.00/694M [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/vachonni/FormationNLP-GenAi-Peft-Mistral/commit/18ac7cf5d4ca0863b7d40497a826cecb04ca4040', commit_message='Upload model', commit_description='', oid='18ac7cf5d4ca0863b7d40497a826cecb04ca4040', pr_url=None, pr_revision=None, pr_num=None)