In [None]:
%%capture
!pip install -q wandb -U
!pip install -q -U bitsandbytes
!pip install -q -U git+https://github.com/huggingface/transformers.git
!pip install -q -U git+https://github.com/huggingface/peft.git
!pip install -q -U git+https://github.com/huggingface/accelerate.git
!pip install -q -U datasets scipy ipywidgets matplotlib

In [None]:
import wandb
import os

wandb.login()

wandb_project = "themis-instruct"

if len(wandb_project) > 0:
    os.environ["WANDB_PROJECT"] = wandb_project

In [None]:
from huggingface_hub import notebook_login

notebook_login()

## Load Data

In [None]:
import sqlite3
import random
import pandas as pd

from google.colab import userdata, drive

import torch
from datasets import Dataset
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from peft import prepare_model_for_kbit_training, LoraConfig, get_peft_model, PeftModel
from datetime import datetime

random.seed(42)

In [None]:
# load drive
drive.mount('/content/drive')

In [None]:
# open sqlite database as pandas dataframe
conn = sqlite3.connect('/content/drive/MyDrive/dataset/questions.db')
df = pd.read_sql_query('SELECT * FROM questions', conn)

# split into train and eval
train_length = int(0.8 * df.shape[0])
df = df.sample(frac=1, random_state=42).reset_index(drop=True).drop('id', axis=1)
df_train = df.iloc[:train_length, :].copy()
df_eval = df.iloc[train_length:, :].copy()
del df

# show dataframe
display(df_train.head())

In [None]:
train_dataset = Dataset.from_pandas(df_train)
eval_dataset = Dataset.from_pandas(df_eval)

## Train Setup

In [None]:
base_model_id = "dominguesm/canarim-7b-instruct"

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

In [None]:
model = AutoModelForCausalLM.from_pretrained(
  base_model_id,
  quantization_config=bnb_config,
)

In [None]:
prompts_list = [
    "Explique em detalhes:",
    "Forneça uma resposta abrangente para:",
    "Analise a seguinte questão:",
    "Dê uma visão geral de:",
    "Responda à pergunta abaixo:",
    "Forneça uma resposta clara e concisa para a seguinte questão:",
    "Elabore sobre a seguinte pergunta:",
    "Dê sua perspectiva sobre a seguinte questão:",
    "Explique detalhadamente a seguinte pergunta:",
    "Analise a pergunta a seguir:",
    "Descreva sua interpretação da pergunta abaixo:",
    "Aborde a seguinte pergunta de maneira abrangente:",
    "Comente sobre a importância da pergunta a seguir:",
    "Sumarize suas principais conclusões em relação à pergunta abaixo:",
    "Explique como a pergunta a seguir impacta o tema:",
    "Responda à seguinte questão com detalhes:",
    "Dê uma visão geral da resposta à pergunta abaixo:",
    "Discuta as razões por trás da pergunta seguinte:",
    "Descreva a relação entre sua resposta e a pergunta abaixo:",
    "Compare e contrasta sua abordagem com a pergunta a seguir:",
    "Examine criticamente a seguinte pergunta:",
    "Apresente uma perspectiva sólida sobre a pergunta abaixo:",
    "Ilustre sua resposta com exemplos relacionados à pergunta seguinte:",
    "Destaque as diferenças fundamentais entre sua resposta e a pergunta abaixo:",
    "Apresente argumentos convincentes a favor e contra a pergunta seguinte:",
    "Contextualize a importância da pergunta a seguir:",
    "Relate como sua resposta se relaciona à pergunta abaixo:",
    "Considere as implicações de longo prazo da pergunta seguinte:",
    "Esboce um plano claro para abordar a pergunta abaixo:",
    "Apresente soluções para a pergunta abaixo:",
    "Explique as nuances envolvidas na pergunta abaixo:",
    "Apresente evidências convincentes que sustentem sua resposta à pergunta seguinte:",
    "Sugira maneiras práticas de melhorar sua abordagem à pergunta abaixo:",
    "Analise criticamente a teoria subjacente à pergunta seguinte:",
]


def format_instruction(sample):
    instruction = random.choice(prompts_list)
    return f"""### Instruction:
{instruction}

### Input:
{sample['question']}

### Response: {sample['answer']}"""


def generate_and_tokenize_prompt(prompt):
    return tokenizer(format_instruction(prompt))

In [None]:
tokenizer = AutoTokenizer.from_pretrained(
    base_model_id,
    padding_side="left",
    add_eos_token=True,
    add_bos_token=True,
)

tokenizer.pad_token = tokenizer.eos_token

In [None]:
encoded_input = tokenizer(f'{tokenizer.eos_token}', return_tensors="pt")
print(f"encoded_input {encoded_input}")

In [None]:
tokenized_train_dataset = train_dataset.map(generate_and_tokenize_prompt)
tokenized_eval_dataset = eval_dataset.map(generate_and_tokenize_prompt)

In [None]:
import matplotlib.pyplot as plt


def plot_data_lengths(tokenized_train_dataset, tokenized_val_dataset):
    lengths = [len(x['input_ids']) for x in tokenized_train_dataset]
    lengths += [len(x['input_ids']) for x in tokenized_val_dataset]
    print(len(lengths))

    # Plotting the histogram
    plt.figure(figsize=(10, 6))
    plt.hist(lengths, bins=20, alpha=0.7, color='blue')
    plt.xlabel('Length of input_ids')
    plt.ylabel('Frequency')
    plt.title('Distribution of Lengths of input_ids')
    plt.show()

plot_data_lengths(tokenized_train_dataset, tokenized_eval_dataset)

In [None]:
max_length = 1024

def generate_and_tokenize_prompt2(prompt):
    result = tokenizer(
        format_instruction(prompt),
        truncation=True,
        max_length=max_length,
        padding="max_length",
    )

    result["labels"] = result["input_ids"].copy()

    return result

In [None]:
tokenized_train_dataset = train_dataset.map(generate_and_tokenize_prompt2)
tokenized_val_dataset = eval_dataset.map(generate_and_tokenize_prompt2)
plot_data_lengths(tokenized_train_dataset, tokenized_val_dataset)

## Set Up LoRA

In [None]:
model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)

In [None]:
def print_trainable_parameters(model):
    trainable_params = 0
    all_param = 0

    for _, param in model.named_parameters():
        all_param += param.numel()

        if param.requires_grad:
            trainable_params += param.numel()
    print(
        f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 * trainable_params / all_param}"
    )

In [None]:
config = LoraConfig(
    r=32,
    lora_alpha=64,
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
        "lm_head",
    ],
    bias="none",
    lora_dropout=0.05,
    task_type="CAUSAL_LM",
)

model = get_peft_model(model, config)
print_trainable_parameters(model)

## Accelerator

In [None]:
from accelerate import FullyShardedDataParallelPlugin, Accelerator
from torch.distributed.fsdp.fully_sharded_data_parallel import FullOptimStateDictConfig, FullStateDictConfig

fsdp_plugin = FullyShardedDataParallelPlugin(
    state_dict_config=FullStateDictConfig(offload_to_cpu=True, rank0_only=False),
    optim_state_dict_config=FullOptimStateDictConfig(offload_to_cpu=True, rank0_only=False),
)

accelerator = Accelerator(fsdp_plugin=fsdp_plugin)

In [None]:
model = accelerator.prepare_model(model)

In [None]:
base_model_name = "themis"
run_name = wandb_project
output_dir = "./" + run_name

trainer = transformers.Trainer(
    model=model,
    train_dataset=tokenized_train_dataset,
    eval_dataset=tokenized_val_dataset,
    callbacks=[transformers.EarlyStoppingCallback(7)],
    args=transformers.TrainingArguments(
        output_dir=output_dir,
        warmup_steps=1,
        per_device_train_batch_size=16,
        gradient_accumulation_steps=1,
        gradient_checkpointing=True,
        load_best_model_at_end=True,
        max_steps=300,
        learning_rate=2.5e-5, # Want a small lr for finetuning
        lr_scheduler_type='cosine',
        weight_decay=0.01,
        bf16=True,  # CHANGE
        optim="paged_adamw_8bit",
        logging_steps=25,              # When to start reporting loss
        logging_dir="./logs",        # Directory for storing logs
        save_strategy="steps",       # Save the model checkpoint every logging step
        save_steps=25,                # Save checkpoints every 50 steps
        evaluation_strategy="steps", # Evaluate the model every logging step
        # eval_steps=25,               # Evaluate and save checkpoints every 50 steps
        do_eval=True,                # Perform evaluation at the end of training
        report_to="wandb",           # Comment this out if you don't want to use weights & baises
        run_name=f"{run_name}-{datetime.now().strftime('%Y-%m-%d-%H-%M')}" # Name of the W&B run (optional)
    ),
    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),
)

model.config.use_cache = False
trainer.train()

In [None]:
!pip install huggingface_hub
!python -c "from huggingface_hub.hf_api import HfFolder; HfFolder.save_token('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')"

In [None]:
trainer.push_to_hub(f'gsoaresbaptista/{wandb_project}')

In [None]:
# Save artifacts
#trainer.model.save_pretrained("final_checkpoint")
#tokenizer.save_pretrained("final_checkpoint")

# Flush memory
#del trainer, model
#gc.collect()
new_model = 'themis-instruct-qa'
torch.cuda.empty_cache()

# Reload model in FP16 (instead of NF4)
base_model = AutoModelForCausalLM.from_pretrained(
    base_model_id,
    return_dict=True,
    torch_dtype=torch.float16,
)
tokenizer = AutoTokenizer.from_pretrained(base_model_id)

# Merge base model with the adapter
model = PeftModel.from_pretrained(base_model, "final_checkpoint")
model = model.merge_and_unload()

# Save model and tokenizer
model.save_pretrained(new_model)
tokenizer.save_pretrained(new_model)

# Push them to the HF Hub
model.push_to_hub(new_model, use_temp_dir=False)
tokenizer.push_to_hub(new_model, use_temp_dir=False)

In [None]:
from google.colab import runtime
runtime.unassign()