# Fine-tuning do Modelo Llama-3.2-1B com unsloth e LoRA

Este notebook realiza o fine-tuning de um modelo Llama-3.2-1B utilizando quantização 4-bit e ajuste eficiente de parâmetros (PEFT) com LoRA. As etapas incluem o carregamento dos dados, configuração do modelo, definição dos argumentos de treinamento e a execução do fine-tuning.

In [None]:
# Importação das bibliotecas necessárias
import json
from unsloth import FastLanguageModel, is_bfloat16_supported
from trl import SFTTrainer
from transformers import TrainingArguments, AutoTokenizer

# Se necessário, instale as dependências (descomente a linha abaixo)
# !pip install unsloth trl transformers

In [None]:
# Definição dos parâmetros de configuração
max_seq_length = 2048  # Comprimento máximo da sequência de tokens
dtype = None  # Tipo de dados (None para usar o padrão)
load_in_4bit = True  # Ativar quantização de 4 bits para economizar memória
dataset_path = "dataset_formatado.json"  # Caminho para o conjunto de dados

In [None]:
# Carregamento do conjunto de dados
with open(dataset_path, 'r', encoding='utf-8') as f:
    finetune_data = json.load(f)

print(f"Conjunto de dados carregado com {len(finetune_data)} exemplos.")

In [None]:
# Carregamento do modelo base - Llama-3.2-1B com quantização 4-bit
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/llama-3.2-1b-bnb-4bit",  # Usando o modelo Llama-3.2-1B
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit
)

print("Modelo e tokenizer carregados com sucesso.")

In [None]:
# Configuração do PEFT com LoRA
model = FastLanguageModel.get_peft_model(
    model,
    r = 16,  # Rank da decomposição LoRA - controla a capacidade de adaptação
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
    lora_alpha = 16,  # Fator de escala para os pesos LoRA
    lora_dropout = 0,  # Taxa de dropout para regularização
    bias = "none",  # Não ajustar parâmetros de bias
    use_gradient_checkpointing = "unsloth",  # Economiza memória durante o treinamento
    random_state = 3407,  # Semente para reprodutibilidade
    use_rslora = False,  # Não usar Rank-Stabilized LoRA
    loftq_config = None  # Configuração LoftQ (não utilizada)
)

print("PEFT configurado com LoRA.")

In [None]:
# Definição dos argumentos de treinamento
training_args = TrainingArguments(
    per_device_train_batch_size = 2,  # Tamanho do batch por dispositivo
    gradient_accumulation_steps = 4,  # Acumular gradientes para simular batches maiores
    warmup_steps = 5,  # Passos de aquecimento para a taxa de aprendizado
    max_steps = 60,  # Número máximo de passos de treinamento
    learning_rate = 2e-4,  # Taxa de aprendizado
    fp16 = not is_bfloat16_supported(),  # Usar precisão mista FP16 se BF16 não for suportado
    bf16 = is_bfloat16_supported(),  # Usar BF16 se suportado (mais eficiente em GPUs recentes)
    logging_steps = 1,  # Frequência de registro de métricas
    optim = "adamw_8bit",  # Otimizador quantizado para economia de memória
    weight_decay = 0.01,  # Regularização L2
    lr_scheduler_type = "linear",  # Decaimento linear da taxa de aprendizado
    seed = 3407,  # Semente para reprodutibilidade
    output_dir = "outputs"  # Diretório para salvar os checkpoints
)

print("Argumentos de treinamento definidos.")

In [None]:
# Inicialização do treinador
trainer = SFTTrainer(
    model = model,  
    tokenizer = tokenizer,
    train_dataset = finetune_data,  # Conjunto de dados de treinamento
    dataset_text_field = "prompt",  # Campo de texto nos dados
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,  # Número de processos para processamento dos dados
    packing = False,  # Não empacotar múltiplas sequências em um único exemplo
    args = training_args
)

print("Treinador inicializado.")

In [None]:
# Execução do treinamento
trainer_stats = trainer.train()

print("Treinamento concluído.")

In [None]:
# Otimização do modelo para inferência
FastLanguageModel.for_inference(model)

print("Modelo otimizado para inferência.")

In [None]:
print("Fine-tuning concluído com sucesso!")