In [1]:
# If you are running this notebook on Google Colab run this cell to clone the repository
!git clone https://github.com/Memento2121/Fine-tuning-GPT2-and-QLoRA-Llama3.1-8B.git
%cd Fine-tuning-GPT2-and-QLoRA-Llama3.1-8B

fatal: destination path 'Fine-tuning-GPT2-and-QLoRA-Llama3.1-8B' already exists and is not an empty directory.
/content/Fine-tuning-GPT2-and-QLoRA-Llama3.1-8B


In [2]:
import os
import time
import datetime

!pip install peft trl
!pip install -U bitsandbytes
!pip install --upgrade transformers

from peft import LoraConfig
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, TrainingArguments

import pandas as pd
import seaborn as sns
import numpy as np
import random

import matplotlib.pyplot as plt

import torch
from torch.utils.data import Dataset, DataLoader, random_split, RandomSampler, SequentialSampler

from transformers import GPT2LMHeadModel,  GPT2Tokenizer, GPT2Config, GPT2LMHeadModel
from transformers import AdamW, get_linear_schedule_with_warmup
from transformers import Trainer, TrainingArguments

from trl import SFTConfig, SFTTrainer, DataCollatorForCompletionOnlyLM, setup_chat_format



In [3]:
seed_val = 42

def set_seed(seed):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)

# Set seed for reproducibility
set_seed(seed_val)

In [4]:
model_id = "meta-llama/Meta-Llama-3.1-8B"

api_token = "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"

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

max_seq_length = 2048

model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb_config, use_auth_token=api_token, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_id, use_auth_token=api_token)



Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]



In [5]:
model, tokenizer = setup_chat_format(model, tokenizer)
print(tokenizer.chat_template)

{% for message in messages %}{{'<|im_start|>' + message['role'] + '
' + message['content'] + '<|im_end|>' + '
'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant
' }}{% endif %}


In [6]:
from datasets import Dataset, load_dataset

# load jsonl dataset
dataset = load_dataset("json", data_files="output.jsonl", split = 'train')

split_ratio = 0.8
split_index = int(len(dataset) * split_ratio)

train_dataset = dataset.select(range(split_index))
val_dataset = dataset.select(range(split_index, len(dataset)))

print(f"Training set size: {len(train_dataset)}")
print(f"Validation set size: {len(val_dataset)}")

print(train_dataset.column_names)


print(train_dataset[0])
print(val_dataset[0])

Training set size: 20
Validation set size: 5
['messages']
{'messages': [{'role': 'system', 'content': "Tu es un assistant qui aide à réécrire les introductions de rapport de présentation d'entreprises générées par l'IA pour les rendre plus humaines, chaleureuses et engageantes. Chaque texte doit refléter un ton personnel et authentique, comme s'il était écrit par une personne réelle travaillant dans l'entreprise. Utilise les exemples fournis d'introductions générées par l'IA et rédigées par des humains pour identifier et appliquer les nuances de style, de ton et de structure qui rendent un texte plus personnel et proche du lecteur."}, {'role': 'user', 'content': "Akeneo a été fondée en 2013 avec l'objectif de fournir aux entreprises un outil pour gérer et valoriser efficacement leurs produits, considérés comme une ressource essentielle. Dans des secteurs comme les produits culturels ou la grande distribution, les catalogues peuvent comprendre des millions de produits répartis en centai

In [7]:
print(val_dataset[0]['messages'][0]['content'])

Tu es un assistant qui aide à réécrire les introductions de rapport de présentation d'entreprises générées par l'IA pour les rendre plus humaines, chaleureuses et engageantes. Chaque texte doit refléter un ton personnel et authentique, comme s'il était écrit par une personne réelle travaillant dans l'entreprise. Utilise les exemples fournis d'introductions générées par l'IA et rédigées par des humains pour identifier et appliquer les nuances de style, de ton et de structure qui rendent un texte plus personnel et proche du lecteur.


In [8]:
print(val_dataset[0]['messages'][1]['content'])

Fondé en 2004 par Chafik GASMI, CHAFIK STUDIO est un studio de création polyvalent qui englobe divers domaines tels que l'architecture, l'architecture d'intérieur, le design, le retail design et la direction artistique. Le studio est reconnu pour ses réalisations novatrices, fonctionnelles et intemporelles, alliant simplicité et séduction. CHAFIK.STUDIO a collaboré avec des marques prestigieuses comme Lancôme, Baccarat, Fendi, Sephora, entre autres. L'objectif du studio est de placer l'art au centre de chaque expérience, grâce à une équipe pluridisciplinaire aux compétences variées et complémentaires. Le studio est à l'origine de nombreuses innovations uniques qui ont rencontré un grand succès. Parmi ces réalisations, on compte le premier concept de magasin Sephora sur les Champs-Élysées, le premier musée d'art moderne du monde arabe, le premier hôtel Baccarat, ainsi que la nouvelle expérience de vente au détail pour Lancôme. Le studio a également conçu des œuvres emblématiques comme l

In [9]:
print(model)

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(128258, 4096)
    (layers): ModuleList(
      (0-31): 32 x LlamaDecoderLayer(
        (self_attn): LlamaSdpaAttention(
          (q_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear4bit(in_features=4096, out_features=1024, bias=False)
          (v_proj): Linear4bit(in_features=4096, out_features=1024, bias=False)
          (o_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear4bit(in_features=4096, out_features=14336, bias=False)
          (up_proj): Linear4bit(in_features=4096, out_features=14336, bias=False)
          (down_proj): Linear4bit(in_features=14336, out_features=4096, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm((4096,), eps=1e-05)
        (post_attention_layernorm): LlamaRMSNorm((4096,), eps

In [10]:
from peft import prepare_model_for_kbit_training

model = prepare_model_for_kbit_training(model)

In [11]:
def print_trainable_parameters(model):
    """
    Prints the number of trainable parameters in the model.
    """
    trainable_params = 0
    all_param = 0
    for _, param in model.named_parameters():
        all_param += param.numel()
        if param.requires_grad:
            trainable_params += param.numel()
    print(
        f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 * trainable_params / all_param}"
    )

In [12]:
from peft import LoraConfig, get_peft_model

config = LoraConfig(
    r=8,
    lora_alpha=32,
    target_modules="all-linear",
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, config)

print_trainable_parameters(model)

trainable params: 20971520 || all params: 4561588224 || trainable%: 0.45974162879634795


In [13]:
tokenizer.pad_token = tokenizer.eos_token
tokenizer.pad_token_id = tokenizer.eos_token_id

sft_config = SFTConfig(
    output_dir='./Intro_Humanizer_Weights',
    evaluation_strategy="steps",
    logging_strategy="steps",
    eval_steps=5,
    logging_steps=5,  # Log every 100 steps
    learning_rate=5e-5,
    warmup_ratio=0.1,
    weight_decay=0.01,
    lr_scheduler_type="cosine",
    per_device_train_batch_size=1,
    gradient_checkpointing=True,
    fp16=True,
    torch_compile=True,
    per_device_eval_batch_size=1,
    num_train_epochs=5,
    logging_dir='./logs',
    optim="paged_adamw_8bit",
    max_grad_norm=1.0,
    max_steps=80,
    max_seq_length = max_seq_length
)

if sft_config.gradient_checkpointing :
  model.gradient_checkpointing_enable()

# Initialize Trainer
trainer = SFTTrainer(
    model=model,
    args=sft_config,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    tokenizer=tokenizer
)

# Train the model
trainer.train()

The speedups for torchdynamo mostly come wih GPU Ampere or higher and which is not detected here.
max_steps is given, it will override any value given in num_train_epochs
  self.pid = os.fork()
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.


Step,Training Loss,Validation Loss
5,1.815,2.003617
10,1.9264,1.839483
15,1.6531,1.521506
20,1.3575,1.331915
25,1.2214,1.164214
30,1.1342,1.04695
35,0.9924,0.973866
40,1.0479,0.951375
45,0.8452,0.943676
50,0.9347,0.943993


We detected that you are passing `past_key_values` as a tuple and this is deprecated and will be removed in v4.43. Please use an appropriate `Cache` class (https://huggingface.co/docs/transformers/v4.41.3/en/internal/generation_utils#transformers.Cache)

Cannot access gated repo for url https://huggingface.co/meta-llama/Meta-Llama-3.1-8B/resolve/main/config.json.
Access to model meta-llama/Meta-Llama-3.1-8B is restricted. You must be authenticated to access it. - silently ignoring the lookup for the file config.json in meta-llama/Meta-Llama-3.1-8B.


TrainOutput(global_step=80, training_loss=1.1088514298200607, metrics={'train_runtime': 463.4845, 'train_samples_per_second': 0.173, 'train_steps_per_second': 0.173, 'total_flos': 3074903909597184.0, 'train_loss': 1.1088514298200607, 'epoch': 4.0})

In [14]:
conversation = [
    {"role": "user", "content": "What's the weather like?"},
    {"role": "assistant", "content": "It's sunny and warm."}
]

# Example of processing the conversation
formatted_input = tokenizer.apply_chat_template(conversation)
print(tokenizer.decode(formatted_input))

<|im_start|>user
What's the weather like?<|im_end|>
<|im_start|>assistant
It's sunny and warm.<|im_end|>



In [15]:
model.eval()

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

def remove_assistant_part(entry):
    # Filter out the assistant's response from the messages
    messages = [msg for msg in entry["messages"] if msg["role"] != "assistant"]
    return messages

text = val_dataset[0]
entry = remove_assistant_part(text)

prompt = tokenizer.apply_chat_template(entry, tokenize = True, add_generation_prompt=True)
generated = torch.tensor(prompt).unsqueeze(0)
generated = generated.to(device)

sample_outputs = model.generate(
                                generated,
                                max_new_tokens = 350,
                                eos_token_id=tokenizer.eos_token_id,
                                pad_token_id=tokenizer.pad_token_id,
                                do_sample=True,
                                top_k=50,
                                top_p=0.95,
                                temperature=1,
                                )

for i, sample_output in enumerate(sample_outputs):
  print("{}: {}\n\n".format(i, tokenizer.decode(sample_output, skip_special_tokens=False)))

expected_output = text["messages"][-1]["content"]
print(f"Expected: {expected_output}")

The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


0: <|im_start|>system
Tu es un assistant qui aide à réécrire les introductions de rapport de présentation d'entreprises générées par l'IA pour les rendre plus humaines, chaleureuses et engageantes. Chaque texte doit refléter un ton personnel et authentique, comme s'il était écrit par une personne réelle travaillant dans l'entreprise. Utilise les exemples fournis d'introductions générées par l'IA et rédigées par des humains pour identifier et appliquer les nuances de style, de ton et de structure qui rendent un texte plus personnel et proche du lecteur.<|im_end|>
<|im_start|>user
Fondé en 2004 par Chafik GASMI, CHAFIK STUDIO est un studio de création polyvalent qui englobe divers domaines tels que l'architecture, l'architecture d'intérieur, le design, le retail design et la direction artistique. Le studio est reconnu pour ses réalisations novatrices, fonctionnelles et intemporelles, alliant simplicité et séduction. CHAFIK.STUDIO a collaboré avec des marques prestigieuses comme Lancôme, 

In [16]:
model.eval()

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

def remove_assistant_part(entry):
    # Filter out the assistant's response from the messages
    messages = [msg for msg in entry["messages"] if msg["role"] != "assistant"]
    return messages

text = val_dataset[1]
entry = remove_assistant_part(text)

prompt = tokenizer.apply_chat_template(entry, tokenize = True, add_generation_prompt=True)
generated = torch.tensor(prompt).unsqueeze(0)
generated = generated.to(device)

sample_outputs = model.generate(
                                generated,
                                max_new_tokens = 350,
                                eos_token_id=tokenizer.eos_token_id,
                                pad_token_id=tokenizer.pad_token_id,
                                do_sample=True,
                                top_k=50,
                                top_p=0.95,
                                temperature=1,
                                )

for i, sample_output in enumerate(sample_outputs):
  print("{}: {}\n\n".format(i, tokenizer.decode(sample_output, skip_special_tokens=False)))

expected_output = text["messages"][-1]["content"]
print(f"Expected: {expected_output}")

0: <|im_start|>system
Tu es un assistant qui aide à réécrire les introductions de rapport de présentation d'entreprises générées par l'IA pour les rendre plus humaines, chaleureuses et engageantes. Chaque texte doit refléter un ton personnel et authentique, comme s'il était écrit par une personne réelle travaillant dans l'entreprise. Utilise les exemples fournis d'introductions générées par l'IA et rédigées par des humains pour identifier et appliquer les nuances de style, de ton et de structure qui rendent un texte plus personnel et proche du lecteur.<|im_end|>
<|im_start|>user
Née du rapprochement de Commercy Soudure et de Cimlec Industrie en 2013, Commercy Robotique est devenue le pôle d'expertise robotique du Groupe Gorgé, une ETI familiale française fondée en 1990, reconnue pour son innovation et son orientation à l'export dans le domaine des technologies de pointe. Commercy Robotique intègre des robots pour une large gamme de clients, des PME aux grandes industries, couvrant dive