<a href="https://colab.research.google.com/github/isaacdono/ml-studies/blob/main/deep%20learning/fine_tuning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìù Guia Pr√°tico de Fine-Tuning: Llama 3 8B com QLoRA

Ol√°! Este notebook √© seu guia passo a passo para o mundo do fine-tuning de LLMs. Como estudante de Engenharia de Computa√ß√£o, √© crucial entender n√£o apenas *como* fazer, mas *por que* as t√©cnicas funcionam.



As Estrat√©gias de Fine-Tuning

1.  **Full Fine-Tuning**:
    * **O que √©?** Ajustar *todos* os bilh√µes de pesos do modelo.
    * **Problema:** Requer uma quantidade massiva de VRAM (mem√≥ria de GPU), sendo invi√°vel para modelos de 8B em hardware comum ou no Colab. Um modelo de 8B com precis√£o total (32-bit) precisaria de `8B * 4 bytes = 32 GB` de VRAM s√≥ para ser carregado, sem contar a mem√≥ria extra para o treinamento.

2.  **PEFT (Parameter-Efficient Fine-Tuning)**:
    * **O que √©?** Uma fam√≠lia de t√©cnicas que congela os pesos originais do LLM (que s√£o 99.9% do total) e treina apenas um n√∫mero min√∫sculo de novos par√¢metros "adaptadores".
    * **Vantagem:** Redu√ß√£o dr√°stica no uso de mem√≥ria e acelera√ß√£o do treino.

3.  **LoRA (Low-Rank Adaptation)**:
    * **A Estrela do PEFT.** A ideia √© que a "atualiza√ß√£o" dos pesos para uma nova tarefa pode ser representada por matrizes de baixo posto (muito menores). Em vez de modificar uma matriz de peso gigante `W`, adicionamos o resultado de duas matrizes pequenas, `A` e `B`, que s√£o trein√°veis (`W' = W + B*A`).

4.  **QLoRA (Quantized LoRA)**:
    * **A Magia que nos permite rodar no Colab.** √â uma otimiza√ß√£o do LoRA que faz duas coisas geniais:
        1.  **Quantiza√ß√£o:** Carrega o modelo principal (Llama 3 8B) com precis√£o reduzida (4-bit em vez de 16-bit), cortando o uso de mem√≥ria em 4x.
        2.  **Adapta√ß√£o LoRA:** Treina os adaptadores LoRA normalmente sobre esse modelo quantizado.

**Nosso objetivo hoje:** Vamos ensinar o `Meta Llama 3 8B Instruct` a responder a um comando em linguagem natural com um output em formato JSON bem estruturado, uma tarefa muito √∫til em engenharia de software.

## Parte 1

In [1]:
!pip install -q -U transformers accelerate bitsandbytes peft trl

[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m40.1/40.1 kB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m11.6/11.6 MB[0m [31m51.8 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
from huggingface_hub import login
from google.colab import userdata

# Retrieve the HF_TOKEN from Colab secrets and login
hf_token = userdata.get("HF_TOKEN")
login(token=hf_token)

In [28]:
# Para este exemplo, n√£o vamos usar um dataset externo.
# Vamos criar um pequeno dataset na m√£o para ensinar o modelo a estruturar sa√≠das em JSON.

from datasets import Dataset

# Nosso objetivo √© transformar um texto n√£o estruturado sobre um usu√°rio em um JSON.
instructions = [
    "Extraia o nome, a idade e a cidade de: 'O usu√°rio Jo√£o Silva tem 28 anos e mora em S√£o Paulo.'",
    "Transforme em JSON os dados de: 'Ana Souza, 35 anos, residente do Rio de Janeiro.'",
    "Formate as seguintes informa√ß√µes: 'Carlos Pereira, de Curitiba, tem 42 anos.'",
    "Converta para JSON: 'Maria Fernandes, 30 anos, vive em Belo Horizonte.'",
    "Gere um JSON para: 'Pedro Costa, 22 anos, natural de Porto Alegre.'",
    "Estruture em JSON os dados de: 'Luiza Mendes, 45 anos, moradora de Fortaleza.'",
    "Extraia e formate em JSON: 'Fernando Rocha, 50 anos, reside em Recife.'",
    "Converta os detalhes para JSON: 'Patr√≠cia Alves, 29 anos, de Salvador.'",
    "Crie um JSON para: 'Gustavo Ribeiro, 38 anos, morador de Bras√≠lia.'",
    "Formate os dados em JSON: 'Carolina Dias, 27 anos, vive em Curitiba.'"

]

outputs = [
    '{"nome": "Jo√£o Silva", "idade": 28, "cidade": "S√£o Paulo"}',
    '{"nome": "Ana Souza", "idade": 35, "cidade": "Rio de Janeiro"}',
    '{"nome": "Carlos Pereira", "idade": 42, "cidade": "Curitiba"}',
    '{"nome": "Maria Fernandes", "idade": 30, "cidade": "Belo Horizonte"}',
    '{"nome": "Pedro Costa", "idade": 22, "cidade": "Porto Alegre"}',
    '{"nome": "Luiza Mendes", "idade": 45, "cidade": "Fortaleza"}',
    '{"nome": "Fernando Rocha", "idade": 50, "cidade": "Recife"}',
    '{"nome": "Patr√≠cia Alves", "idade": 29, "cidade": "Salvador"}',
    '{"nome": "Gustavo Ribeiro", "idade": 38, "cidade": "Bras√≠lia"}',
    '{"nome": "Carolina Dias", "idade": 27, "cidade": "Curitiba"}'
]

# O formato do prompt √© crucial para modelos "instruct".
formatted_data = []
for instruction, output in zip(instructions, outputs):
    # Formato do Gemma: <start_of_turn> e <end_of_turn>
    text = f"<start_of_turn>user\n{instruction}<end_of_turn>\n<start_of_turn>model\n{output}<end_of_turn>"
    formatted_data.append({"text": text})

# Criando um objeto Dataset da Hugging Face
dataset = Dataset.from_dict({"text": [item["text"] for item in formatted_data]})

print("Exemplo de um item do dataset formatado:")
print(dataset[0]['text'])

Exemplo de um item do dataset formatado:
<start_of_turn>user
Extraia o nome, a idade e a cidade de: 'O usu√°rio Jo√£o Silva tem 28 anos e mora em S√£o Paulo.'<end_of_turn>
<start_of_turn>model
{"nome": "Jo√£o Silva", "idade": 28, "cidade": "S√£o Paulo"}<end_of_turn>


In [37]:
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch

# Carregando o modelo base
model_id = "google/gemma-2b"

# Configura√ß√£o de quantiza√ß√£o (4-bit)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=False,
)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True,
    torch_dtype="auto"
)

# Carregando o tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token = tokenizer.eos_token


# Ativa otimiza√ß√µes para o treino com quantiza√ß√£o
model.config.use_cache = False
model.config.pretraining_tp = 1
model = prepare_model_for_kbit_training(model)

# Configura√ß√£o dos adaptadores LoRA
lora_config = LoraConfig(
    r=8,  # "rank" da decomposi√ß√£o. Um valor maior treina mais par√¢metros, mas pode levar a overfitting. 16 √© um bom come√ßo.
    lora_alpha=16, # Par√¢metro de escala. A regra geral √© que seja 2 * r.
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], # Common target modules for decoder models
    lora_dropout=0.05, # Dropout para regulariza√ß√£o
    bias="none",
    task_type="CAUSAL_LM" # Tarefa de modelagem de linguagem causal
)

# Aplica o wrapper PEFT no nosso modelo
peft_model = get_peft_model(model, lora_config)

# Imprime o n√∫mero de par√¢metros trein√°veis para vermos a m√°gica do PEFT
peft_model.print_trainable_parameters()
# Voc√™ ver√° que o n√∫mero de par√¢metros trein√°veis √© < 1% do total!

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

trainable params: 9,805,824 || all params: 2,515,978,240 || trainable%: 0.3897


In [38]:
from transformers import TrainingArguments
from trl import SFTTrainer, SFTConfig

# Seus Argumentos do treinamento
training_args = TrainingArguments(
    output_dir="./google/gemma-2b-json-finetune",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=4,
    learning_rate=2e-5,
    max_grad_norm=0.3,
    num_train_epochs=50,
    logging_steps=10,
    bf16=True,
    push_to_hub=False,
    report_to="wandb"
)

# 3. Passe o 'config' para o SFTTrainer e remova os argumentos antigos
trainer = SFTTrainer(
    model=peft_model,
    train_dataset=dataset,
    args=training_args,
)

# Inicia o treinamento
trainer.train()

Adding EOS to train dataset:   0%|          | 0/10 [00:00<?, ? examples/s]

Tokenizing train dataset:   0%|          | 0/10 [00:00<?, ? examples/s]

Truncating train dataset:   0%|          | 0/10 [00:00<?, ? examples/s]

  return fn(*args, **kwargs)


Step,Training Loss
10,4.2462
20,4.2439
30,4.2078
40,4.2452
50,4.2109
60,4.2609
70,4.2675


KeyboardInterrupt: 

## Parte 2

Parab√©ns, voc√™ treinou um adaptador LoRA! No entanto, no estado atual, voc√™ tem duas partes: o modelo base gigante (Llama 3 8B) e seu pequeno adaptador LoRA. Para fazer uma infer√™ncia, voc√™ precisa carregar ambos.

A **mesclagem** √© o processo de "fundir" os pesos do seu adaptador LoRA de volta aos pesos do modelo base. O resultado √© um **√∫nico modelo aut√¥nomo** que j√° cont√©m a sua especializa√ß√£o.

### Por que mesclar?

1.  **Simplifica√ß√£o de Deploy:** Em vez de gerenciar o modelo base + o adaptador, voc√™ distribui um √∫nico modelo. √â muito mais simples para colocar em produ√ß√£o.
2.  **Performance de Infer√™ncia:** A infer√™ncia pode ser ligeiramente mais r√°pida, pois o modelo n√£o precisa mais combinar dinamicamente os pesos do LoRA com os pesos base a cada passada. O c√°lculo `W' = W + B*A` j√° foi feito e "assado" no modelo.
3.  **Compartilhamento:** Permite que voc√™ compartilhe seu modelo fine-tuned completo na Hugging Face como um novo modelo, e n√£o apenas como um adaptador.

Vamos ver como fazer isso na pr√°tica.

In [31]:
# C√©lula 11: Carregando o Modelo Base e o Adaptador para Mesclagem
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from peft import PeftModel

# --- Carregando o Modelo Base ---
# Desta vez, vamos carregar o modelo em precis√£o reduzida (4-bit)
# para a mesclagem, caso a vers√£o de 16-bit exija muita mem√≥ria.

model_id = "google/gemma-2b"

# Configura√ß√£o de quantiza√ß√£o (4-bit)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=False,
)

base_model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config, # Use the 4-bit quantization config
    device_map="auto", # Explicitly set device_map to auto
    trust_remote_code=True,
)

tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token = tokenizer.eos_token

# --- Carregando o Adaptador PEFT ---
# Apontamos para o diret√≥rio onde o `trainer` salvou nosso adaptador LoRA.
adapter_path = "./google/gemma-2b-json-finetune/checkpoint-100"
peft_model = PeftModel.from_pretrained(base_model, adapter_path)

print("Modelo base e adaptador carregados com sucesso.")

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Modelo base e adaptador carregados com sucesso.


In [32]:
# C√©lula 12: Executando a Mesclagem e Testando o Modelo Final

# Este √© o comando m√°gico que funde os pesos!
# Ele "descarrega" o wrapper PEFT e retorna um modelo transformers padr√£o.
merged_model = peft_model.merge_and_unload()

print("Mesclagem conclu√≠da!")

# --- Teste do Modelo Mesclado ---
# Agora, podemos usar este `merged_model` como qualquer outro modelo da Hugging Face.
# Note que n√£o precisamos mais do objeto `peft_model` aqui.

from transformers import pipeline

# O mesmo prompt de teste que usamos antes, formatado manualmente
# according to the structure defined in cell DiPtigwsBGly.
test_instruction = "Extraia as informa√ß√µes de 'Mariana Lima, 25 anos, de Salvador.' em formato JSON."
# Use the Gemma prompt format
test_prompt = f"<start_of_turn>user\n{test_instruction}<end_of_turn>\n<start_of_turn>model\n"


# Criamos um pipeline com o nosso NOVO modelo mesclado
merged_pipe = pipeline("text-generation", model=merged_model, tokenizer=tokenizer)

# Executamos a infer√™ncia
# Set max_new_tokens to a reasonable value to avoid infinite generation.
merged_output = merged_pipe(test_prompt, max_new_tokens=50, do_sample=False)

print("\n--- Resposta do Modelo Mesclado e Aut√¥nomo ---")
print(merged_output[0]['generated_text'])

# O resultado deve ser id√™ntico ao do modelo com o adaptador PEFT,
# provando que a mesclagem foi um sucesso!

Device set to use cuda:0


Mesclagem conclu√≠da!

--- Resposta do Modelo Mesclado e Aut√¥nomo ---
<start_of_turn>user
Extraia as informa√ß√µes de 'Mariana Lima, 25 anos, de Salvador.' em formato JSON.<end_of_turn>
<start_of_turn>model
Extraia as informa√ß√µes de 'Mariana Lima, 25 anos, de Salvador.' em formato JSON. ‚Ç¨)
SneakyThrows
SneakyThrows
SneakyThrows
SneakyThrows
SneakyThrows
SneakyThrows
SneakyThrows
SneakyThrows
SneakyThrows
SneakyThrows
SneakyThrows
SneakyThrows
SneakyThrows
SneakyThrows


In [36]:
# C√©lula 13: Salvando o Modelo Mesclado Completo para o Disco

# Agora voc√™ tem um modelo completo. Vamos salv√°-lo.
# Este diret√≥rio conter√° todos os arquivos necess√°rios para carregar o modelo
# sem precisar do c√≥digo do fine-tuning ou dos adaptadores.

output_merged_dir = "./google/gemma-2b-json-finetune" # Updated output directory

merged_model.save_pretrained(output_merged_dir)
tokenizer.save_pretrained(output_merged_dir)

print(f"Modelo mesclado completo salvo em: {output_merged_dir}")
# A partir daqui, voc√™ poderia carregar este modelo com um simples:
# AutoModelForCausalLM.from_pretrained("./google/gemma-2b-json-finetune")

Modelo mesclado completo salvo em: ./google/gemma-2b-json-finetune


## Saiba Mais

E se voc√™ tivesse treinado **v√°rios adaptadores** LoRA?
* Um para gerar JSON (o que fizemos).
* Outro para ser um especialista em programa√ß√£o Python.
* Um terceiro para escrever de forma criativa.

Voc√™ pode mescl√°-los para criar um "super-modelo" que faz tudo isso. A fun√ß√£o `.merge_and_unload()` n√£o √© ideal para isso. A ferramenta padr√£o da comunidade √© a **`mergekit`**.

`mergekit` funciona com um arquivo de configura√ß√£o YAML onde voc√™ especifica os modelos e a estrat√©gia de mesclagem.
