# üöÄ Fine-Tuning QLoRA - Google Colab

Este notebook implementa fine-tuning de LLMs usando QLoRA (Quantized LoRA).

## üìã Pr√©-requisitos

1. ‚úÖ Google Colab com **GPU T4** (gratuito)
2. ‚úÖ Dataset preparado (use `prepare_finetuning_data.ipynb`)
3. ‚úÖ Conta HuggingFace (para baixar modelos)

## üéØ O que este notebook faz:

1. Configura ambiente com GPU
2. Instala depend√™ncias QLoRA
3. Carrega dataset do Google Drive
4. Carrega modelo base com quantiza√ß√£o 4-bit
5. Aplica LoRA adapters
6. Fine-tuna com seu dataset
7. Salva modelo treinado
8. Exporta para usar localmente

## ‚è±Ô∏è Tempo estimado: 30 min - 2 horas

Depende do tamanho do modelo e dataset.

## üí° Dica

Execute c√©lula por c√©lula e monitore uso de GPU/RAM.

---

**‚ö†Ô∏è IMPORTANTE: Ative GPU no Colab**

`Runtime > Change runtime type > Hardware accelerator > T4 GPU`


## üîç Verificar GPU


In [None]:
!nvidia-smi

import torch
print(f"\nüî• PyTorch version: {torch.__version__}")
print(f"‚úÖ CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"üéÆ GPU: {torch.cuda.get_device_name(0)}")
    print(f"üíæ GPU Memory: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB")


## üì¶ Instalar Depend√™ncias


In [None]:
!pip install -q -U transformers accelerate peft bitsandbytes datasets trl
!pip install -q -U wandb tensorboard  # Opcional: para tracking

print("‚úÖ Depend√™ncias instaladas!")


## üîê Autentica√ß√£o HuggingFace

Para baixar modelos privados (como Llama 2).


In [None]:
from huggingface_hub import login
from google.colab import userdata

# Tentar obter token do Colab Secrets
try:
    HF_TOKEN = userdata.get('HF_TOKEN')
    login(token=HF_TOKEN)
    print("‚úÖ Autenticado no HuggingFace via Colab Secret!")
except Exception as e:
    print(f"‚ö†Ô∏è N√£o foi poss√≠vel acessar HF_TOKEN dos secrets: {e}")
    print("‚ö†Ô∏è Apenas modelos p√∫blicos dispon√≠veis")
    print("\nüí° Dica: Adicione HF_TOKEN nos Secrets do Colab:")
    print("   üîë √çcone de chave no menu lateral ‚Üí Add Secret ‚Üí Nome: HF_TOKEN")

## üìÇ Montar Google Drive

Para acessar seu dataset.


In [None]:
from google.colab import drive
drive.mount('/content/drive')

print("‚úÖ Google Drive montado!")


## ‚öôÔ∏è Configura√ß√£o do Treinamento


In [None]:
# ========================================
# CONFIGURA√á√ïES - AJUSTE AQUI
# ========================================

# Modelo base (escolha um)
MODEL_NAME = "microsoft/phi-2"  # 2.7B - r√°pido, bom para testes
# MODEL_NAME = "meta-llama/Llama-2-7b-hf"  # 7B - melhor qualidade, mais lento
# MODEL_NAME = "mistralai/Mistral-7B-v0.1"  # 7B - excelente qualidade

# Caminho do dataset no Google Drive
DATASET_PATH = "/content/drive/MyDrive/datascience/data/training_dataset"  # Ajuste!

# Nome do modelo final
OUTPUT_MODEL_NAME = "phi2-retail-media"

# Diret√≥rio de sa√≠da
OUTPUT_DIR = "./results"

# Par√¢metros de treinamento
EPOCHS = 3
BATCH_SIZE = 1  # ‚ö° Otimizado para T4 (15GB)
GRADIENT_ACCUMULATION = 16  # Mant√©m effective batch = 16
LEARNING_RATE = 2e-4
MAX_SEQ_LENGTH = 1024  # ‚ö° Reduzido para economizar mem√≥ria (antes: 2048)

# LoRA config
LORA_R = 8  # ‚ö° Reduzido para economizar mem√≥ria (antes: 16)
LORA_ALPHA = 16  # Mant√©m propor√ß√£o 2:1 com R
LORA_DROPOUT = 0.05

# Logging
USE_WANDB = False  # True para usar Weights & Biases
WANDB_PROJECT = "qlora-finetuning"

print("‚úÖ Configura√ß√£o definida!")
print(f"üì¶ Modelo: {MODEL_NAME}")
print(f"üìÅ Dataset: {DATASET_PATH}")
print(f"üéØ Output: {OUTPUT_MODEL_NAME}")


## üìä Carregar Dataset


In [None]:
from datasets import load_from_disk, load_dataset

# Carregar dataset do Google Drive
try:
    dataset = load_from_disk(DATASET_PATH)
    print(f"‚úÖ Dataset carregado do Google Drive!")
except:
    print("‚ö†Ô∏è N√£o foi poss√≠vel carregar do Drive, usando dataset de exemplo...")
    # Criar dataset de exemplo para testes
    from datasets import Dataset
    
    sample_data = [
        {"text": "### Instruction:\nO que √© Retail Media?\n\n### Response:\nRetail Media √© uma forma de publicidade digital onde varejistas monetizam seus sites..."},
        {"text": "### Instruction:\nExplique RTB\n\n### Response:\nRTB (Real-Time Bidding) √© um processo de compra automatizada de an√∫ncios..."},
        # Adicione mais exemplos ou carregue de outro lugar
    ]
    
    dataset_dict = {"train": Dataset.from_list(sample_data), "test": Dataset.from_list(sample_data[:1])}
    from datasets import DatasetDict
    dataset = DatasetDict(dataset_dict)

print(f"\nüìä Dataset info:")
print(f"   Train: {len(dataset['train'])} exemplos")
if 'test' in dataset:
    print(f"   Test: {len(dataset['test'])} exemplos")

print(f"\nüìù Exemplo:")
print(dataset['train'][0]['text'][:200] + "...")

# ‚ö†Ô∏è AVISO DE DATASET PEQUENO
train_size = len(dataset['train'])
print(f"\n{'='*80}")
if train_size < 500:
    print(f"‚ö†Ô∏è  ATEN√á√ÉO: Dataset muito pequeno!")
    print(f"   Voc√™ tem apenas {train_size} exemplos de treino")
    print(f"   Para fine-tuning efetivo, recomenda-se:")
    print(f"   ‚Ä¢ M√≠nimo: 500-1000 exemplos")
    print(f"   ‚Ä¢ Ideal: 2000-5000 exemplos")
    print(f"\n   Com poucos exemplos, o modelo pode:")
    print(f"   ‚ùå Overfitar completamente")
    print(f"   ‚ùå Esquecer conhecimento geral (catastrophic forgetting)")
    print(f"   ‚ùå Gerar respostas sem sentido")
    print(f"\n   üí° Alternativas:")
    print(f"   1. Use apenas RAG (sem fine-tuning) - geralmente funciona melhor!")
    print(f"   2. Aumente o dataset usando data augmentation")
    print(f"   3. Use um modelo j√° especializado (ex: Llama-2-chat)")
else:
    print(f"‚úÖ Tamanho do dataset adequado: {train_size} exemplos")
print(f"{'='*80}\n")


## ü§ñ Carregar Modelo com Quantiza√ß√£o 4-bit


In [None]:
import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    Trainer,
    DataCollatorForLanguageModeling,
)
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training

print("üîÑ Carregando modelo e tokenizer...")

# Configurar quantiza√ß√£o 4-bit
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
)

# Carregar modelo
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True,
    use_cache=False,  # Necess√°rio para gradient checkpointing
)

# Preparar para treinamento k-bit
model = prepare_model_for_kbit_training(model)

# Carregar tokenizer
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)

# Configurar padding
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
    model.config.pad_token_id = model.config.eos_token_id

print("‚úÖ Modelo e tokenizer carregados!")
print(f"üìä Modelo: {MODEL_NAME}")
print(f"üíæ Tamanho: {model.get_memory_footprint() / 1024**3:.2f} GB")


## üéØ Aplicar LoRA


In [None]:
# Configurar LoRA
lora_config = LoraConfig(
    r=LORA_R,
    lora_alpha=LORA_ALPHA,
    lora_dropout=LORA_DROPOUT,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],  # Ajuste para seu modelo
    bias="none",
    task_type="CAUSAL_LM",
)

# Aplicar LoRA ao modelo
model = get_peft_model(model, lora_config)

# Mostrar par√¢metros trein√°veis
model.print_trainable_parameters()

print("\n‚úÖ LoRA aplicado!")
print(f"üéØ Rank: {LORA_R}")
print(f"üìä Alpha: {LORA_ALPHA}")


## üî§ Tokenizar Dataset


In [None]:
def tokenize_function(examples):
    outputs = tokenizer(
        examples["text"],
        truncation=True,
        max_length=MAX_SEQ_LENGTH,
        padding="max_length",
        return_tensors=None,
    )
    outputs["labels"] = outputs["input_ids"].copy()
    return outputs

print("üîÑ Tokenizando dataset...")

tokenized_dataset = dataset.map(
    tokenize_function,
    batched=True,
    remove_columns=dataset["train"].column_names,
    desc="Tokenizing",
)

print("‚úÖ Dataset tokenizado!")
print(f"   Train: {len(tokenized_dataset['train'])} exemplos")
if 'test' in tokenized_dataset:
    print(f"   Test: {len(tokenized_dataset['test'])} exemplos")


## üöÄ Configurar e Iniciar Treinamento


In [None]:
# Configurar argumentos de treinamento
training_args = TrainingArguments(
    output_dir=OUTPUT_DIR,
    num_train_epochs=EPOCHS,
    per_device_train_batch_size=BATCH_SIZE,
    per_device_eval_batch_size=BATCH_SIZE,
    gradient_accumulation_steps=GRADIENT_ACCUMULATION,
    learning_rate=LEARNING_RATE,
    max_grad_norm=0.3,
    warmup_ratio=0.03,
    lr_scheduler_type="cosine",
    optim="paged_adamw_32bit",
    weight_decay=0.001,
    fp16=False,
    bf16=True,
    logging_steps=10,
    save_strategy="steps",
    save_steps=100,
    eval_strategy="steps" if 'test' in tokenized_dataset else "no",  # Mudou de evaluation_strategy para eval_strategy
    eval_steps=100 if 'test' in tokenized_dataset else None,
    save_total_limit=3,
    seed=42,
    report_to="wandb" if USE_WANDB else "none",
    gradient_checkpointing=True,
    gradient_checkpointing_kwargs={"use_reentrant": False},
)

# Data collator
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False,
)

# Criar trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset.get("test"),
    data_collator=data_collator,
)

print("‚úÖ Trainer configurado!")
print(f"\nüìä Par√¢metros de treinamento:")
print(f"   Epochs: {EPOCHS}")
print(f"   Batch size: {BATCH_SIZE}")
print(f"   Gradient accumulation: {GRADIENT_ACCUMULATION}")
print(f"   Effective batch size: {BATCH_SIZE * GRADIENT_ACCUMULATION}")
print(f"   Learning rate: {LEARNING_RATE}")
print(f"   Max sequence length: {MAX_SEQ_LENGTH}")

print("\nüöÄ Iniciando treinamento...")
print("="*80)


## üßπ Otimizar Mem√≥ria GPU

In [None]:
# üßπ LIMPAR MEM√ìRIA GPU ANTES DE TREINAR
import gc
import os

# Configurar vari√°vel de ambiente para fragmenta√ß√£o de mem√≥ria
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

# Limpar cache da GPU
torch.cuda.empty_cache()
gc.collect()

# Mostrar mem√≥ria dispon√≠vel
if torch.cuda.is_available():
    print(f"üíæ GPU Memory antes do treino:")
    print(f"   Alocada: {torch.cuda.memory_allocated(0) / 1024**3:.2f} GB")
    print(f"   Reservada: {torch.cuda.memory_reserved(0) / 1024**3:.2f} GB")
    print(f"   Livre: {(torch.cuda.get_device_properties(0).total_memory - torch.cuda.memory_reserved(0)) / 1024**3:.2f} GB")

print("‚úÖ Mem√≥ria otimizada! Pronto para treinar.")


In [None]:
# TREINAR!
trainer.train()

print("\n" + "="*80)
print("‚úÖ TREINAMENTO CONCLU√çDO!")
print("="*80)


## üíæ Salvar Modelo


In [None]:
import os

# Criar diret√≥rio de sa√≠da
final_output_dir = f"./models/{OUTPUT_MODEL_NAME}"
os.makedirs(final_output_dir, exist_ok=True)

# Salvar apenas adaptadores LoRA (muito menor!)
model.save_pretrained(final_output_dir)
tokenizer.save_pretrained(final_output_dir)

print(f"‚úÖ Modelo salvo em: {final_output_dir}")
print(f"üì¶ Tamanho dos adaptadores: ~{sum(os.path.getsize(os.path.join(dirpath,filename)) for dirpath, dirnames, filenames in os.walk(final_output_dir) for filename in filenames) / 1024 / 1024:.1f} MB")

# Copiar para Google Drive (backup)
drive_output = f"/content/drive/MyDrive/datascience/finetuned_models/{OUTPUT_MODEL_NAME}"
!mkdir -p "{drive_output}"
!cp -r "{final_output_dir}"/* "{drive_output}/"

print(f"\n‚úÖ Backup salvo no Google Drive: {drive_output}")


## ‚ö†Ô∏è IMPORTANTE: Antes de testar

Se seu dataset tem **menos de 500 exemplos**, o modelo provavelmente vai gerar respostas sem sentido!

### üî¥ Sintomas de dataset pequeno:
- Respostas sobre t√≥picos completamente diferentes (m√∫sica, matem√°tica, etc)
- Texto repetitivo ou sem coer√™ncia
- Mistura de l√≠nguas ou conceitos aleat√≥rios
- C√≥digo Python aparecendo nas respostas

### ‚úÖ Solu√ß√£o:

**Op√ß√£o 1 (RECOMENDADO):** Use RAG sem fine-tuning
- Seu RAG j√° funciona bem com os 107 markdowns
- Sem risco de catastrophic forgetting
- Mais f√°cil de manter

**Op√ß√£o 2:** Aumente o dataset para 2000+ exemplos
- Veja: `docs/FINE_TUNING_VS_RAG.md`
- Use data augmentation com GPT-4
- Colete mais dados reais

**Op√ß√£o 3:** N√£o teste agora, apenas salve o modelo
- S√≥ teste depois de aumentar o dataset
- Ou use este modelo como experimento/aprendizado


## üß™ Testar Modelo


In [None]:
def generate_response(prompt, max_length=512):
    """Gera resposta usando o modelo fine-tunado."""
    
    # Formatar prompt (Alpaca format)
    formatted_prompt = f"### Instruction:\n{prompt}\n\n### Response:\n"
    
    # Tokenizar
    inputs = tokenizer(formatted_prompt, return_tensors="pt").to(model.device)
    
    # Gerar
    with torch.no_grad():  # Desabilitar gradientes durante infer√™ncia
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_length,
            temperature=0.7,
            top_p=0.9,
            do_sample=True,
            pad_token_id=tokenizer.eos_token_id,
            eos_token_id=tokenizer.eos_token_id,
            repetition_penalty=1.1,  # Evita repeti√ß√£o
        )
    
    # Decodificar
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    # Extrair apenas a resposta
    if "### Response:" in response:
        response = response.split("### Response:")[1].strip()
    
    return response

# üîß Preparar modelo para infer√™ncia
print("üîß Preparando modelo para infer√™ncia...")
model.eval()  # Modo de avalia√ß√£o
model.config.use_cache = True  # Habilitar cache para infer√™ncia

# Testar
test_prompts = [
    "Como funciona o cat√°logo no Mercado Livre?",
    "Explique o conceito de ACOS",
    "Como dominar as vendas nos marketplaces?",
]

print("üß™ Testando modelo fine-tunado:")
print("="*80)

for prompt in test_prompts:
    print(f"\nüìù Pergunta: {prompt}")
    print(f"üí¨ Resposta: {generate_response(prompt)}")
    print("-"*80)


## üì¶ Comprimir para Download


In [None]:
# Comprimir modelo para facilitar download
!cd models && zip -r {OUTPUT_MODEL_NAME}.zip {OUTPUT_MODEL_NAME}

print(f"‚úÖ Modelo comprimido: models/{OUTPUT_MODEL_NAME}.zip")
print(f"\nüì• Para usar localmente:")
print(f"   1. Baixe o arquivo ZIP")
print(f"   2. Descompacte na sua m√°quina")
print(f"   3. Use o c√≥digo em export_to_ollama.py para converter para Ollama")


## üìã Resumo e Pr√≥ximos Passos

### ‚úÖ O que fizemos:

1. ‚úÖ Configuramos ambiente com GPU
2. ‚úÖ Instalamos depend√™ncias QLoRA
3. ‚úÖ Carregamos modelo base com quantiza√ß√£o 4-bit
4. ‚úÖ Aplicamos LoRA adapters
5. ‚úÖ Fine-tunamos com seu dataset
6. ‚úÖ Salvamos modelo treinado
7. ‚úÖ Testamos o modelo

### üì• Arquivos gerados:

- **Adaptadores LoRA**: `models/{OUTPUT_MODEL_NAME}/` (~50-200 MB)
- **Backup no Drive**: Salvo automaticamente
- **ZIP para download**: `models/{OUTPUT_MODEL_NAME}.zip`

### üè† Pr√≥ximos passos (localmente):

1. **Download**: Baixe o modelo treinado do Colab/Drive
2. **Merge**: Use `export_to_ollama.py` para fazer merge com modelo base
3. **Converter**: Converta para GGUF usando llama.cpp (opcional)
4. **Ollama**: Crie Modelfile e use com `ollama run`

### üí° Dicas:

- **Qualidade**: Se respostas n√£o est√£o boas, treine mais epochs ou aumente dataset
- **Overfitting**: Se modelo decorou respostas, reduza epochs ou aumente dataset
- **Mem√≥ria**: Se ficou sem GPU memory, reduza `BATCH_SIZE` ou `MAX_SEQ_LENGTH`
- **Velocidade**: Modelos menores (Phi-2) s√£o mais r√°pidos que 7B

### üìö Recursos:

- [QLoRA Paper](https://arxiv.org/abs/2305.14314)
- [PEFT Documentation](https://huggingface.co/docs/peft)
- [Transformers Documentation](https://huggingface.co/docs/transformers)

---