<a href="https://colab.research.google.com/github/rafaelpivetta/tech-challenge-fase3/blob/main/fine-tuning/Tech3_Finetuning_com_LoRA_e_unsloth.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Fine-tuning utilizando Tinyllama com Unsloth

### Instala√ß√£o da Biblioteca `unsloth`

In [1]:
%%capture
!pip install unsloth
# Also get the latest nightly Unsloth!
!pip uninstall unsloth -y && pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"

### Carregamento do modelo

Este c√≥digo utiliza a biblioteca `unsloth` para carregar um modelo de linguagem quantizado em 4 bits, configurado com um comprimento m√°ximo de sequ√™ncia de 2048 tokens. O modelo √© inicialmente carregado com um nome predefinido e pode ser alterado para uma vers√£o customizada ap√≥s o primeiro treino.

**Principais configura√ß√µes:**
- `max_seq_length`: Comprimento m√°ximo da sequ√™ncia (2048 tokens).
- `dtype`: Detec√ß√£o autom√°tica do tipo de dado. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
- `load_in_4bit`: Quantiza√ß√£o em 4 bits ativada para economia de mem√≥ria.
- `new_model_name`: Nome do modelo personalizado a ser usado ap√≥s o primeiro treino.

In [2]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048
dtype = None
load_in_4bit = True

#new_model_name = unsloth/tinyllama-chat-bnb-4bit # Alterar ap√≥s o 1¬∫ treino
new_model_name = "rafaelpivetta/tinyllama-chat-bnb-4bit-g19"
data_set_name = "LuizfvFonseca/trn_limpo_parte_X_de_70"

# Ap√≥s o 1¬∫ treino, alterar o model para rafaelpivetta/tinyllama-chat-bnb-4bit-g19
# model, tokenizer = FastLanguageModel.from_pretrained(
#     model_name = "unsloth/tinyllama-chat-bnb-4bit",
#     max_seq_length = max_seq_length,
#     dtype = dtype,
#     load_in_4bit = load_in_4bit,
# )

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = new_model_name,
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)

# tokenizer.pad_token = tokenizer.eos_token # pad sequences - n√£o √© indicado que o pad_token seja o mesmo que o eos_token
# tokenizer.padding_side = 'right' # right pad sequences

ü¶• Unsloth: Will patch your computer to enable 2x faster free finetuning.
==((====))==  Unsloth 2024.9.post1: Fast Llama patching. Transformers = 4.44.2.
   \\   /|    GPU: Tesla T4. Max memory: 14.748 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.4.1+cu121. CUDA = 7.5. CUDA Toolkit = 12.1.
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.28.post1. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


model.safetensors:   0%|          | 0.00/762M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.37k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/438 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

adapter_model.safetensors:   0%|          | 0.00/50.5M [00:00<?, ?B/s]

Unsloth 2024.9.post1 patched 22 layers with 22 QKV layers, 22 O layers and 22 MLP layers.


### Cria√ß√£o do alpaca_prompt para cada linha do dataset, coluna 'text', que ser√° usado no SFTTrainer

O c√≥digo abaixo formata um conjunto de dados para treinamento de um modelo de linguagem usando um template de prompt no estilo Alpaca. O processo envolve a cria√ß√£o de instru√ß√µes personalizadas para cada exemplo no conjunto de dados e a formata√ß√£o dessas instru√ß√µes em um prompt espec√≠fico.

**Passos do C√≥digo:**
1. **Template `alpaca_prompt`:** Define um formato de prompt que inclui uma instru√ß√£o (`Instruction`) e uma resposta (`Response`), com um token de fim de sequ√™ncia (EOS_TOKEN).
2. **Fun√ß√£o `formatting_prompts_func`:** Recebe as instru√ß√µes e os conte√∫dos do dataset, aplica o template `alpaca_prompt`, e adiciona o token de fim de sequ√™ncia, criando uma nova coluna chamada `text`.
3. **Carregamento do Dataset:** Carrega um dataset especificado pela vari√°vel `data_set_name`, utilizando a divis√£o de treinamento (`train`).
4. **Fun√ß√£o `add_instruction_column`:** Cria uma nova coluna `instruction` no dataset, que consiste em uma frase que pede para criar uma descri√ß√£o do produto baseado no t√≠tulo de cada item do dataset.
5. **Mapeamento das Fun√ß√µes:** Aplica as fun√ß√µes `add_instruction_column` e `formatting_prompts_func` ao dataset, gerando as instru√ß√µes personalizadas e os textos formatados.
6. **Exemplo de Texto Formatado:** Exibe um exemplo de prompt formatado do dataset.

In [3]:
alpaca_prompt = """Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{}

### Response:
{}"""

EOS_TOKEN = tokenizer.eos_token # EOS_TOKEN - token de fim de sequ√™ncia

# Fun√ß√£o respons√°vel pela cria√ß√£o do alpaca_prompt de cada linha e cria√ß√£o da coluna 'text' que ser√° usada no treino 
def formatting_prompts_func(examples):
    instructions = examples["instruction"]
    contents    = examples["content"]
    texts = []
    for instruction, content in zip(instructions, contents):
        text = alpaca_prompt.format(instruction, content) + EOS_TOKEN
        texts.append(text)
    return { "text" : texts, }
pass

from datasets import load_dataset
dataset = load_dataset(data_set_name, split = "train")

# Fun√ß√£o respons√°vel por concatenar 'Describe the product xxxx' com o t√≠tulo e criar uma nova coluna instruction
def add_instruction_column(example):
    example["instruction"] =  f"Create a description for the following product: {example['title']}"
    return example

# Aplica a fun√ß√£o add_instruction_column ao dataset
dataset = dataset.map(add_instruction_column)

dataset = dataset.map(formatting_prompts_func, batched = True,)

alpaca_prompt_text = dataset['text'][3]
print(alpaca_prompt_text)

trn_limpo_2_de_70.json:   0%|          | 0.00/26.3M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/20000 [00:00<?, ? examples/s]

Map:   0%|          | 0/20000 [00:00<?, ? examples/s]

Map:   0%|          | 0/20000 [00:00<?, ? examples/s]

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
Create a description for the following product: Design-For-Test For Digital IC's and Embedded Core Systems

### Response:
PrefaceThis book is made primarily for design engineers and managers, and for test and design-for-test engineers and managers. It can also be used for students of digital design and test, as well. The purpose of this book is to introduce the basic concepts of test and design-for-test (DFT), and to then address the application of these concepts with an eye toward the trade-offs of the engineering budgets (silicon area, operating frequency target, power consumption, etc.), the business drivers, and the cost factors.Currently, some very good test and DFT texts are available. However, many of them are from an academic focus. In my years of being part of the integrated circuit design community, I have had to train many IC designers and junior DFT en

### Infer√™ncia antes do treino

1. **Habilita Infer√™ncia R√°pida:** O m√©todo `FastLanguageModel.for_inference(model)` √© usado para ativar uma infer√™ncia at√© 2 vezes mais r√°pida no modelo carregado.
2. **Tokeniza√ß√£o dos Inputs:** A instru√ß√£o √© formatada com o `alpaca_prompt` para criar um prompt, que √© ent√£o tokenizado e preparado para ser processado pelo modelo em um dispositivo CUDA (GPU).

In [4]:
FastLanguageModel.for_inference(model) # Enable native 2x faster inference

inputs = tokenizer(
[
    alpaca_prompt.format(
        "Create a description for the following product: Invitation to Cryptology", # instruction
        "", # response - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

print(inputs)

['<s> Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\nCreate a description for the following product: Invitation to Cryptology\n\n### Response:\n"This is a very good book. It is well written, well organized, and contains a wealth of information. It is a good reference book for the student of cryptology."--Journal of Cryptology</s>']

3. **Gera√ß√£o de Texto:** Gera√ß√£o de sa√≠da com base nos inputs, limitando a gera√ß√£o a 128 tokens. V√°rias op√ß√µes, como `use_cache`, s√£o usadas para otimizar a gera√ß√£o.

In [None]:
outputs = model.generate(**inputs,
                         max_new_tokens = 128,
                         use_cache = True,
                        #  temperature=0.7,
                        #  top_p=0.9,
                        #  repetition_penalty=1.1
                         )

print(outputs)

4. **Decodifica√ß√£o da Sa√≠da:** Os tokens gerados s√£o decodificados de volta para texto, resultando na resposta gerada pelo modelo para a instru√ß√£o dada.

In [None]:
tokenizer.batch_decode(outputs)

### Configura√ß√£o do Modelo com PEFT (Parameter-Efficient Fine-Tuning)

Este c√≥digo utiliza a fun√ß√£o `get_peft_model` da biblioteca `FastLanguageModel` para aplicar o fine-tuning eficiente de par√¢metros (PEFT) a um modelo de linguagem. As configura√ß√µes incluem a aplica√ß√£o da t√©cnica LoRA (Low-Rank Adaptation) para ajustar os par√¢metros de forma eficiente, utilizando menos mem√≥ria e possibilitando o treinamento de lotes maiores.

**Principais Configura√ß√µes:**
- **Rank `r`:** Define a dimens√£o do espa√ßo de rank baixo (exemplo: 16).
- **M√≥dulos Alvo (`target_modules`):** Lista de m√≥dulos espec√≠ficos do modelo para aplicar a adapta√ß√£o LoRA, como proje√ß√µes de queries (`q_proj`), chaves (`k_proj`), valores (`v_proj`), entre outros.
- **`lora_alpha`:** Par√¢metro de escala para o ajuste LoRA.
- **`lora_dropout`:** Probabilidade de dropout aplicada nos caminhos LoRA. Um valor de 0 √© otimizado para essa configura√ß√£o.
- **`bias`:** Configura√ß√£o de bias, com a op√ß√£o "none" sendo a mais otimizada.
- **`use_gradient_checkpointing`:** Ativado como "unsloth", que permite economizar 30% de VRAM e suportar contextos muito longos com batch sizes maiores.
- **`use_rslora`:** Controle de ativa√ß√£o para Rank Stabilized LoRA, uma varia√ß√£o da t√©cnica.
- **`loftq_config`:** Configura√ß√£o para LoftQ, que n√£o est√° sendo utilizada neste exemplo.

In [5]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 16, # Choose any number > 0 ! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    # target_modules = ["q_proj","k_proj","v_proj","o_proj","gate_proj","down_proj","up_proj","lm_head"], # Teste com todos os par√¢metros
    lora_alpha = 16,
    lora_dropout = 0, # Supports any, but = 0 is optimized
    bias = "none",    # Supports any, but = "none" is optimized
    # [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
    use_gradient_checkpointing = "unsloth", # True or "unsloth" for very long context
    random_state = 3407,
    use_rslora = False,  # We support rank stabilized LoRA
    loftq_config = None, # And LoftQ
)

Unsloth: Already have LoRA adapters! We shall skip this step.


### Garbage Collection e Limpeza de Cache

√â usado para otimizar o uso de recursos de mem√≥ria durante o treinamento de modelos no Google Colab. A coleta de lixo ajuda a liberar mem√≥ria ocupada por objetos que n√£o s√£o mais necess√°rios, enquanto a limpeza do cache do CUDA assegura que a mem√≥ria da GPU seja liberada.

In [6]:
#Garbage collection para que os recursos no colab n√£o excedam no momento do treino
import gc # garbage collection
gc.collect()
torch.cuda.empty_cache() #clean cache

## Configura√ß√£o do SFTTrainer para Treinamento de Modelos

Este trecho configura um `SFTTrainer` (Supervised Fine-Tuning Trainer) para treinar um modelo de linguagem utilizando a biblioteca `transformers` e a biblioteca `unsloth`. O `SFTTrainer` √© utilizado para realizar o fine-tuning de modelos de forma eficiente.

**Principais Componentes da Configura√ß√£o:**

- **Modelo e Tokenizer:** O modelo e o tokenizer j√° carregados s√£o passados para o treinador.
- **Dataset de Treinamento:** O dataset utilizado para treinamento √© especificado, incluindo o campo de texto (`dataset_text_field`).
- **Max Sequence Length:** Define o comprimento m√°ximo da sequ√™ncia para o treinamento.

**Par√¢metros do Treinamento:**
- **Batch Size:** `per_device_train_batch_size` √© definido como 2, especificando quantos exemplos ser√£o processados em cada passo de treinamento.
- **Gradient Accumulation:** `gradient_accumulation_steps` √© definido como 16, permitindo acumular gradientes antes de realizar uma atualiza√ß√£o do modelo.
- **Warmup Steps:** Define o n√∫mero de passos de aquecimento antes de aumentar a taxa de aprendizado.
- **Max Steps:** O treinamento ser√° limitado a 100 passos.
- **Learning Rate:** A taxa de aprendizado √© definida como 2e-4.
- **Mixed Precision:** `fp16` e `bf16` s√£o utilizados dependendo do suporte para `bfloat16`.
- **Gradient Clipping:** `max_grad_norm` √© definido como 0.3 para estabilizar o treinamento.
- **Logging:** Define que as informa√ß√µes de log ser√£o exibidas a cada passo.
- **Otimiza√ß√£o:** Utiliza o otimizador "adamw_8bit" com uma taxa de decaimento de peso de 0.01.
- **Scheduler:** O tipo de agendador de taxa de aprendizado √© definido como "linear".
- **Seed:** Um valor de semente para garantir a reprodutibilidade.
- **Group by Length:** Agrupa sequ√™ncias de comprimentos semelhantes para melhorar a efici√™ncia do treinamento.
- **Output Directory:** Especifica o diret√≥rio de sa√≠da para salvar os resultados.

In [7]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset,
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False, # Can make training 5x faster for short sequences.
    args = TrainingArguments(
        per_device_train_batch_size = 2,
        gradient_accumulation_steps = 16,
        warmup_steps = 5,
        # num_train_epochs = 1, # Set this for 1 full training run.
        max_steps = 100,
        learning_rate = 2e-4,
        fp16 = not is_bfloat16_supported(),
        bf16 = is_bfloat16_supported(),
        max_grad_norm=0.3, #prevents the gradients from becoming too large and helps stabilize training. Gradient Clipping
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        group_by_length=True, #which will group similar-length sequences together to make training more efficient.
        output_dir = "outputs",
    ),
)

Map (num_proc=2):   0%|          | 0/20000 [00:00<?, ? examples/s]

max_steps is given, it will override any value given in num_train_epochs


### Treinamento do modelo

In [8]:
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 20,000 | Num Epochs = 1
O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 16
\        /    Total batch size = 32 | Total steps = 100
 "-____-"     Number of trainable parameters = 12,615,680


Step,Training Loss
1,2.1256
2,2.087
3,2.0688
4,2.0557
5,2.0862
6,2.0658
7,2.1284
8,2.1116
9,2.0993
10,2.0663


### Infer√™ncia ap√≥s o treino

In [9]:
FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "Create a description for the following product: Invitation to Cryptology", # instruction
        "", # response - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs,
                         max_new_tokens = 128,
                         use_cache = True,
                        #  temperature=0.7,
                        #  top_p=0.9,
                        #  repetition_penalty=1.1
                         )
tokenizer.batch_decode(outputs)

['<s> Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\nCreate a description for the following product: Invitation to Cryptology\n\n### Response:\n"This is a very good book. It is written in a clear and concise style, and the examples are very helpful. The book is well-organized and easy to read."--Journal of Cryptology</s>']

### Infer√™ncia ap√≥s o treino utilizando `TextStreamer`

In [26]:
FastLanguageModel.for_inference(model)
inputs = tokenizer(
[
    alpaca_prompt.format(
        "Create a description for the following product: Invitation to Cryptology", # instruction
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

from transformers import TextStreamer
text_streamer = TextStreamer(tokenizer)
_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 128)

<s> Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
Create a description for the following product: Invitation to Cryptology

### Response:
"This is a very good book. It is well written, well organized, and well illustrated. It is a good introduction to cryptology for the non-specialist. It is also a good reference book for the specialist. It is a good book for the student of cryptology to have on hand."--Journal of the American Society for Information Science and Technology</s>


### Carregamento do modelo finetuned para o HuggingFace

In [10]:
from google.colab import userdata

# import gc # garbage collection
# gc.collect()
# torch.cuda.empty_cache() #clean cache

#model.save_pretrained("lora_model") # Local saving
#tokenizer.save_pretrained("lora_model")
model.push_to_hub(new_model_name, token = userdata.get('HF_TOKEN')) # Online saving
tokenizer.push_to_hub(new_model_name, token = userdata.get('HF_TOKEN')) # Online saving


README.md:   0%|          | 0.00/588 [00:00<?, ?B/s]

  0%|          | 0/1 [00:00<?, ?it/s]

adapter_model.safetensors:   0%|          | 0.00/50.5M [00:00<?, ?B/s]

Saved model to https://huggingface.co/rafaelpivetta/tinyllama-chat-bnb-4bit-g19


No files have been modified since last commit. Skipping to prevent empty commit.


### Fontes

- [Databricks Blog: Efficient Fine-Tuning with LoRA](https://www.databricks.com/blog/efficient-fine-tuning-lora-guide-llms)
- [GitHub - Unsloth](https://github.com/unslothai/unsloth?tab=readme-ov-file)
