In [None]:
!pip install transformers
!pip install -q -U git+https://github.com/huggingface/peft.git
!pip install trl wandb accelerate bitsandbytes 
!pip install torch==2.4.0

# Huggingface login

In [None]:
from huggingface_hub import login

login(token="your_token_here")

## Auxiliary method

Particolarmente importante è la funzione di formattazione *formatting_func_alt* che permette di realizzare la formattazione del dataset in maniera opportuna secondo ciò che è ripostato nel datast _link_. \
Il dataset (estratto dal sito https://www.jefit.com/routines) è in formato JSON ed è composto da coppie <Question,Answer> dove la prima è una stringa e la seconda un oggetto routine composto da titolo e lista degli allenamenti. Gli allenamenti sono delle tabelle composte da cinque feature <Esercizio,Reps,Sets,Rest,Interval> dove l'esercizio consiste in un oggetto caratterizzato da un nome e un gruppo muscolare target. \
L'output della formatting_func_alt consiste in una stringa formata da tanti elementi tante quante sono le righe nelle tabelle e hanno la forma \
{'i',Excercise:'Nome Esercizio',Reps:'# ripetizioni',Sets:'# set', Interval:'durata esercizio se prevista', Rest:'Durata della pausa finito l'esercizio', Day:'giorno di riferimento'} \
Da notare che l'indice *i* è univoco per ogni riga e che il nome corrisponde al solo nome dell'esercizio (viene eliminata l'informazione sul gruppo muscolare di riferimento). \
Da notare che la domanda è invece ottenuta combinando la domanda originale del dataset con il nome della routine nella ground truth per differenziare maggiormente gli esempi.

In [None]:
import json

# metodo che effettua la formattazione delle coppie (Question,Answer) del dataset originale andando a creare una coppia di messaggi associati ad una domanda ottenuta come
# concatenazione della Question originale e del nome del piano contenuto in Answer e ad una risposta che consiste in una versione serializzata della tabella originale.
def formatting_func_alt(example):
    answer = example['Answer']['Routine']
    name = example['Answer']['Plan Name']
    name = name.replace('- JEFIT','')
    question = f'{example["Question"]} {name}'
    answ=[]
    d=1
    c=0
    for routine in answer:
        for excercise in routine:
            tmp = excercise['Exercise']['Name']
            excercise['Day']=d
            excercise['Exercise']=tmp
            tmp = {c:excercise}
            c+=1
            answ.append(tmp)
        d+=1
    ris = [{"role":"user","content": question},{"role":"assistant","content": answ}]
    return ris

# applica ad un esempio del dataset la formattazione e la trasformazione in prompt nella forma richiesta da mistral78 instruct e successivamente la tokenizza
def generate_and_tokenize_prompt(prompt,max_length =  2048):
    pairs = tokenizer.apply_chat_template(
        formatting_func_alt(prompt),
        tokenize=False,
        add_generation_prompt=False)
    
    result = tokenizer(
        pairs,
        truncation=True,
        max_length=max_length,
        padding="max_length",
    )
    result["labels"] = result["input_ids"].copy()
    return result

# metodo ausiliario per il conteggio del numero di parametri addestrabbili del modello
def print_trainable_parameters(model):
    trainable_params = 0
    all_param = 0
    for _, param in model.named_parameters():
        all_param += param.numel()
        if param.requires_grad:
            trainable_params += param.numel()
    print(
        f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 * trainable_params / all_param}"
    )

# Loading dataset
Osservazione si è lasciata la porzione finale del dataset come validation set per ogni esecuzione di addestramento.

In [None]:
import numpy as np # linear algebra
from datasets import load_dataset

train_dataset = load_dataset('json', data_files='/kaggle/input/bb-routines/dataset.json', split='train[:5%]')
eval_dataset = load_dataset('json', data_files='/kaggle/input/bb-routines/dataset.json', split='train[-1%:]')

In [None]:
print(len(train_dataset))
print(len(eval_dataset))

# Loading Model

In [None]:
import torch
from transformers import AutoModelForCausalLM, BitsAndBytesConfig

model_id = "mistralai/Mistral-7B-Instruct-v0.3"

quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=quant_config, device_map="auto",low_cpu_mem_usage=True)

# Tokenizzation

In [None]:
import torch
from transformers import AutoTokenizer

model_id = "mistralai/Mistral-7B-Instruct-v0.3"
tokenizer = AutoTokenizer.from_pretrained(
    model_id,
    padding_side="left",
    add_eos_token=True,
    add_bos_token=True,
)
tokenizer.pad_token = tokenizer.eos_token

Applicazione della trasformazione e della tokenizzazione degli esempi del dataset.

In [None]:
tokenized_train_dataset = train_dataset.map(generate_and_tokenize_prompt)
tokenized_val_dataset = eval_dataset.map(generate_and_tokenize_prompt)

In [None]:
import matplotlib.pyplot as plt

def plot_data_lengths(tokenized_train_dataset, tokenized_val_dataset):
    lengths = [len(x['input_ids']) for x in tokenized_train_dataset]
    lengths += [len(x['input_ids']) for x in tokenized_val_dataset]
    print(len(lengths))

    # Plotting the histogram
    plt.figure(figsize=(10, 6))
    plt.hist(lengths, bins=20, alpha=0.7, color='blue')
    plt.xlabel('Length of input_ids')
    plt.ylabel('Frequency')
    plt.title('Distribution of Lengths of input_ids')
    plt.show()

plot_data_lengths(tokenized_train_dataset, tokenized_val_dataset)

# Setup for fine tuning

In [None]:
from peft import prepare_model_for_kbit_training

model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)

In [None]:
from peft import LoraConfig, get_peft_model

config = LoraConfig(
    r=8,
    lora_alpha=16,
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
        "lm_head",
    ],
    bias="none",
    lora_dropout=0.05,
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, config)
print_trainable_parameters(model)

# Training
Attenzione: eseguendo il codice così come si sovrascrivono i pesi memorizzati nella repo huggingface finito il training del modello.

In [None]:
import wandb
wandb.login(key="your_key_here")

In [None]:
import transformers
from trl import SFTTrainer
from datetime import datetime

project = "finetune"
base_model_name = "mistral"
run_name = base_model_name + "-" + project
output_dir = "./" + run_name # path output locale dei checkpoint del modello

training_args = transformers.TrainingArguments(
        output_dir=output_dir,
        warmup_steps=5,
        per_device_train_batch_size=6,
        gradient_accumulation_steps=1,
        gradient_checkpointing=True,
        max_steps=105,
        learning_rate=1e-4,
        lr_scheduler_type="cosine",
        optim="paged_adamw_8bit",
        logging_steps=15,
        logging_dir="./logs",
        save_strategy="steps",
        save_steps=105,
        evaluation_strategy="steps",
        eval_steps=15,
        do_eval=True,
        report_to="wandb",
        run_name="mistral_gym_training_1",
        max_grad_norm=1.5,
        hub_strategy="checkpoint",
        hub_model_id="fabritmp/gym_mistral_finetune", #nome repository huggingface
        hub_token="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",
        push_to_hub= True
    )

trainer = SFTTrainer(
    model=model,
    train_dataset=tokenized_train_dataset,
    eval_dataset=tokenized_val_dataset,
    peft_config=config,
    max_seq_length= None,
    dataset_text_field="text",
    tokenizer=tokenizer,
    args=training_args,
    packing= False,
    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),
)

model.config.use_cache = False  # silence the warnings. Please re-enable for inference!
trainer.train()

# Reset

In [None]:
from numba import cuda
device = cuda.get_current_device()
device.reset()

# Test

In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import PeftConfig
import torch

model_id = "fabritmp/gym_mistral_finetune"

config = PeftConfig.from_pretrained(model_id)

nf4_config = BitsAndBytesConfig(
   load_in_4bit=True,
   bnb_4bit_quant_type="nf4",
   bnb_4bit_use_double_quant=True,
   bnb_4bit_compute_dtype=torch.bfloat16
)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map='auto',
    quantization_config=nf4_config,
    use_cache=False
)

tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path)

tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "left"

In [None]:
def generate_response(prompt, model):
  encoded_input = tokenizer(prompt,  return_tensors="pt", add_special_tokens=True)
  model_inputs = encoded_input.to('cuda')

  generated_ids = model.generate(**model_inputs, max_new_tokens=1000, do_sample=True, pad_token_id=tokenizer.eos_token_id)

  decoded_output = tokenizer.batch_decode(generated_ids)

  return decoded_output[0].replace(prompt, "")

In [None]:
print(generate_response("Advanced level Maintaining 3 day a week Barbell", model))