# Fine-Tuning de Modelo LLM para Dom√≠nio M√©dico

Este notebook implementa o pipeline completo de fine-tuning de um modelo LLM para tarefas de question-answering m√©dico baseado em evid√™ncias cient√≠ficas.

## ‚ö†Ô∏è IMPORTANTE: Pr√©-requisito ANTES de usar este notebook

**Voc√™ PRECISA processar o dataset m√©dico ANTES de usar este notebook!**

### Passo 1: Preparar Dataset (FAZER LOCALMENTE, ANTES DO COLAB)

No seu computador local, execute:

```bash
cd fine_tuning
python run_pipeline.py --all
```

Isso ir√°:
1. Processar o dataset m√©dico (`ori_pqal.json`)
2. Anonimizar dados sens√≠veis
3. Formatar no padr√£o Alpaca
4. Gerar o arquivo: `formatted_medical_dataset.json`

### Passo 2: Usar no Google Colab

1. Fa√ßa upload do arquivo `formatted_medical_dataset.json` para o Colab (c√©lula 4)
2. Execute todas as c√©lulas sequencialmente
3. O modelo treinado ser√° salvo e voc√™ pode fazer download

## Objetivos:
1. Carregar dataset m√©dico formatado no padr√£o Alpaca
2. Carregar modelo base pr√©-quantizado (Unsloth)
3. Configurar LoRA para treinamento eficiente
4. Treinar modelo com dados m√©dicos
5. Testar e salvar modelo treinado

## Requisitos:
- **Google Colab** (recomendado) ou ambiente com GPU
- GPU com pelo menos 8GB VRAM (recomendado 16GB+)
- Dataset formatado: `formatted_medical_dataset.json` (gerado pelo `run_pipeline.py`)

## Ordem de Execu√ß√£o:
Execute as c√©lulas **sequencialmente** (de cima para baixo).


In [None]:
# ============================================================================
# C√âLULA 1: INSTALA√á√ÉO DE DEPEND√äNCIAS (OBRIGAT√ìRIO NO COLAB)
# ============================================================================
# Esta c√©lula instala todas as bibliotecas necess√°rias para o fine-tuning.
# Execute esta c√©lula primeiro se estiver usando Google Colab.

print("üì¶ Instalando depend√™ncias...")
print("‚è≥ Isso pode levar alguns minutos na primeira execu√ß√£o...")

!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps xformers "trl<0.9.0" peft accelerate bitsandbytes
!pip install transformers datasets

print("\n‚úÖ Depend√™ncias instaladas com sucesso!")


In [None]:
# ============================================================================
# C√âLULA 2: IMPORTA√á√ïES DE BIBLIOTECAS
# ============================================================================
# Importa todas as bibliotecas necess√°rias para o fine-tuning

from unsloth import FastLanguageModel, is_bfloat16_supported
import torch
import json
from datasets import load_dataset
from trl import SFTTrainer
from transformers import TrainingArguments, TextStreamer
from pathlib import Path

print("‚úÖ Bibliotecas importadas com sucesso!")
print(f"   PyTorch version: {torch.__version__}")
print(f"   CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"   GPU: {torch.cuda.get_device_name(0)}")
    print(f"   VRAM: {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB")
else:
    print("   ‚ö†Ô∏è  GPU n√£o detectada! Fine-tuning ser√° muito lento em CPU.")


In [None]:
# ============================================================================
# C√âLULA 3: CONFIGURA√á√ïES COMPLETAS (TUDO INLINE)
# ============================================================================
# Todas as configura√ß√µes est√£o definidas aqui - n√£o precisa de arquivos externos

# ============================================================================
# CONFIGURA√á√ïES DO MODELO BASE
# ============================================================================
MAX_SEQ_LENGTH = 2048
DTYPE = None  # Auto-detect
LOAD_IN_4BIT = True
DEFAULT_MODEL = "unsloth/llama-3-8b-bnb-4bit"

# ============================================================================
# CONFIGURA√á√ïES LoRA
# ============================================================================
LORA_CONFIG = {
    "r": 16,
    "lora_alpha": 16,
    "lora_dropout": 0,
    "bias": "none",
    "target_modules": [
        "q_proj", "k_proj", "v_proj", "o_proj",
        "gate_proj", "up_proj", "down_proj",
    ],
    "use_gradient_checkpointing": "unsloth",
    "random_state": 3407,
    "use_rslora": False,
    "loftq_config": None,
}

# ============================================================================
# HIPERPAR√ÇMETROS DE TREINAMENTO
# ============================================================================
TRAINING_CONFIG = {
    "per_device_train_batch_size": 2,
    "gradient_accumulation_steps": 4,
    "warmup_steps": 5,
    "max_steps": 100,
    "learning_rate": 2e-4,
    "optim": "adamw_8bit",
    "weight_decay": 0.01,
    "lr_scheduler_type": "linear",
    "seed": 3407,
    "output_dir": "outputs",
    "logging_steps": 1,
}

# ============================================================================
# CONFIGURA√á√ïES DE DATASET
# ============================================================================
DATASET_CONFIG = {
    "dataset_num_proc": 2,
    "packing": False,
}

# ============================================================================
# CONFIGURA√á√ïES DE INFER√äNCIA
# ============================================================================
INFERENCE_CONFIG = {
    "max_new_tokens": 256,
    "use_cache": True,
    "temperature": 0.7,
    "top_p": 0.9,
    "top_k": 50,
}

# ============================================================================
# FUN√á√ïES DE PROMPTS (INLINE)
# ============================================================================
MEDICAL_ALPACA_PROMPT = """Below is a medical instruction that describes a task, paired with medical context and a question. Write a response that appropriately completes the request based on the provided medical evidence.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

def get_medical_alpaca_prompt(instruction: str, input_text: str, response: str = "") -> str:
    """Formata um prompt m√©dico usando o template Alpaca"""
    return MEDICAL_ALPACA_PROMPT.format(instruction, input_text, response)

def get_instruction_only() -> str:
    """Retorna apenas a instru√ß√£o padr√£o para tarefas m√©dicas"""
    return "Responda √† pergunta baseando-se nos contextos fornecidos."

# ============================================================================
# CAMINHOS (AJUSTE PARA COLAB)
# ============================================================================
# No Colab, voc√™ pode:
# 1. Fazer upload do arquivo diretamente (use o caminho abaixo)
# 2. Montar Google Drive e usar caminho do Drive
# 3. Usar caminho absoluto do arquivo

FORMATTED_DATASET_PATH = Path("formatted_medical_dataset.json")  # Arquivo na raiz do Colab
MODEL_OUTPUT_DIR = Path("lora_model_medical")
TRAINING_OUTPUT_DIR = Path("outputs")

print("=" * 80)
print("CONFIGURA√á√ïES DE FINE-TUNING")
print("=" * 80)
print(f"Modelo: {DEFAULT_MODEL}")
print(f"Max sequence length: {MAX_SEQ_LENGTH}")
print(f"LoRA rank: {LORA_CONFIG['r']}")
print(f"Learning rate: {TRAINING_CONFIG['learning_rate']}")
print(f"Max steps: {TRAINING_CONFIG['max_steps']}")
print(f"Dataset: {FORMATTED_DATASET_PATH}")
print(f"Output model: {MODEL_OUTPUT_DIR}")
print("=" * 80)


In [None]:
# ============================================================================
# C√âLULA 4: UPLOAD DO DATASET FORMATADO
# ============================================================================
# ‚ö†Ô∏è IMPORTANTE: Este notebook espera que voc√™ j√° tenha processado o dataset!
#
# ANTES de usar este notebook, voc√™ DEVE ter executado localmente:
#   cd fine_tuning
#   python run_pipeline.py --all
#
# Isso gera o arquivo: formatted_medical_dataset.json
#
# Agora, fa√ßa upload desse arquivo para o Colab:

# Verifica se est√° no Colab
try:
    from google.colab import files
    IN_COLAB = True
except ImportError:
    IN_COLAB = False

# Verifica se o arquivo j√° existe
if not FORMATTED_DATASET_PATH.exists():
    if IN_COLAB:
        print("=" * 80)
        print("üì§ UPLOAD DO DATASET FORMATADO")
        print("=" * 80)
        print("\n‚ö†Ô∏è  Arquivo n√£o encontrado!")
        print("\nüìã INSTRU√á√ïES:")
        print("   1. Voc√™ deve ter processado o dataset ANTES de usar este notebook")
        print("   2. Execute localmente: python run_pipeline.py --all")
        print("   3. Isso gera: formatted_medical_dataset.json")
        print("   4. Agora fa√ßa upload desse arquivo abaixo:")
        print("\n" + "-" * 80)
        
        uploaded = files.upload()
        
        # Verifica se o arquivo foi enviado
        if 'formatted_medical_dataset.json' in uploaded:
            print("\n‚úÖ Arquivo enviado com sucesso!")
        else:
            raise FileNotFoundError(
                "\n‚ùå Arquivo 'formatted_medical_dataset.json' n√£o foi encontrado no upload.\n"
                "Certifique-se de que:\n"
                "  1. Voc√™ executou 'python run_pipeline.py --all' localmente\n"
                "  2. O arquivo gerado se chama exatamente 'formatted_medical_dataset.json'\n"
                "  3. Voc√™ fez upload do arquivo correto"
            )
    else:
        raise FileNotFoundError(
            f"\n‚ùå Dataset n√£o encontrado: {FORMATTED_DATASET_PATH}\n\n"
            f"üìã INSTRU√á√ïES:\n"
            f"   1. Execute localmente: python run_pipeline.py --all\n"
            f"   2. Isso gera: formatted_medical_dataset.json\n"
            f"   3. Coloque o arquivo no diret√≥rio atual ou ajuste FORMATTED_DATASET_PATH"
        )
else:
    print(f"‚úÖ Arquivo j√° existe: {FORMATTED_DATASET_PATH}")

# ============================================================================
# C√âLULA 4.1: CARREGAMENTO DO DATASET FORMATADO
# ============================================================================
# Carrega o dataset m√©dico j√° formatado no padr√£o Alpaca.
# Este arquivo foi gerado pelo pipeline run_pipeline.py --all

print("\n" + "=" * 80)
print("üì¶ CARREGANDO DATASET FORMATADO")
print("=" * 80)
print(f"Arquivo: {FORMATTED_DATASET_PATH}")

# load_dataset do Hugging Face carrega JSON diretamente
dataset = load_dataset("json", data_files=str(FORMATTED_DATASET_PATH), split="train")

print(f"\n‚úÖ Dataset carregado: {len(dataset)} exemplos")
print(f"   Estrutura: {dataset.features}")

# Valida estrutura esperada (formato Alpaca)
expected_fields = ['instruction', 'input', 'output']
if not all(field in dataset.features for field in expected_fields):
    raise ValueError(
        f"‚ùå Dataset n√£o est√° no formato Alpaca esperado!\n"
        f"   Campos esperados: {expected_fields}\n"
        f"   Campos encontrados: {list(dataset.features.keys())}\n"
        f"   Certifique-se de que executou 'python run_pipeline.py --all' corretamente."
    )

print(f"\nüìÑ Exemplo de entrada:")
print(f"   Instruction: {dataset[0]['instruction'][:100]}...")
print(f"   Input: {dataset[0]['input'][:100]}...")
print(f"   Output: {dataset[0]['output'][:100]}...")


In [None]:
# ============================================================================
# C√âLULA 5: CARREGAMENTO DO MODELO BASE
# ============================================================================
# Carrega modelo pr√©-quantizado do Unsloth.
# Unsloth fornece modelos otimizados que reduzem uso de mem√≥ria em ~75%
# mantendo qualidade pr√≥xima ao modelo original.

print("=" * 80)
print("CARREGANDO MODELO BASE")
print("=" * 80)
print("‚è≥ Isso pode levar alguns minutos na primeira execu√ß√£o...")

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=DEFAULT_MODEL,
    max_seq_length=MAX_SEQ_LENGTH,
    dtype=DTYPE,
    load_in_4bit=LOAD_IN_4BIT,
)

print("‚úÖ Modelo carregado!")
print(f"   Par√¢metros totais: {sum(p.numel() for p in model.parameters()):,}")


In [None]:
# ============================================================================
# C√âLULA 6: CONFIGURA√á√ÉO LoRA
# ============================================================================
# LoRA (Low-Rank Adaptation) permite treinar apenas ~1-5% dos par√¢metros,
# reduzindo drasticamente mem√≥ria e tempo de treinamento.

print("=" * 80)
print("CONFIGURANDO LoRA")
print("=" * 80)

model = FastLanguageModel.get_peft_model(
    model,
    r=LORA_CONFIG['r'],
    target_modules=LORA_CONFIG['target_modules'],
    lora_alpha=LORA_CONFIG['lora_alpha'],
    lora_dropout=LORA_CONFIG['lora_dropout'],
    bias=LORA_CONFIG['bias'],
    use_gradient_checkpointing=LORA_CONFIG['use_gradient_checkpointing'],
    random_state=LORA_CONFIG['random_state'],
    use_rslora=LORA_CONFIG['use_rslora'],
    loftq_config=LORA_CONFIG['loftq_config'],
)

trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
total_params = sum(p.numel() for p in model.parameters())

print(f"‚úÖ LoRA configurado!")
print(f"   Par√¢metros trein√°veis: {trainable_params:,}")
print(f"   Par√¢metros totais: {total_params:,}")
print(f"   Fra√ß√£o trein√°vel: {(trainable_params/total_params)*100:.2f}%")


In [None]:
# ============================================================================
# C√âLULA 7: DEFINI√á√ÉO DO PROMPT ALPACA M√âDICO
# ============================================================================
# Define a fun√ß√£o que formata exemplos do dataset para o formato Alpaca.
# Esta fun√ß√£o ser√° aplicada a cada exemplo durante o treinamento.

EOS_TOKEN = tokenizer.eos_token

def formatting_prompts_func(examples):
    """
    Formata exemplos para o formato Alpaca m√©dico
    
    Combina instruction, input e output em um √∫nico texto formatado
    que o modelo aprender√° a gerar.
    """
    instructions = examples["instruction"]
    inputs = examples["input"]
    outputs = examples["output"]
    
    texts = []
    for instruction, input_text, output in zip(instructions, inputs, outputs):
        # Usa template Alpaca m√©dico
        text = get_medical_alpaca_prompt(instruction, input_text, output) + EOS_TOKEN
        texts.append(text)
    
    return {"text": texts}

print("‚úÖ Fun√ß√£o de formata√ß√£o definida!")


In [None]:
# ============================================================================
# C√âLULA 8: PREPARA√á√ÉO DO DATASET PARA TREINAMENTO
# ============================================================================
# Aplica formata√ß√£o de prompts a todos os exemplos do dataset

print("=" * 80)
print("FORMATANDO DATASET")
print("=" * 80)

formatted_dataset = dataset.map(
    formatting_prompts_func,
    batched=True,
    remove_columns=dataset.column_names
)

print(f"‚úÖ Dataset formatado: {len(formatted_dataset)} exemplos")
print(f"   Estrutura: {formatted_dataset.features}")

# Mostra exemplo formatado
print(f"\nExemplo de texto formatado (primeiros 500 caracteres):")
print("-" * 80)
print(formatted_dataset[0]['text'][:500] + "...")
print("-" * 80)


In [None]:
# ============================================================================
# C√âLULA 9: CONFIGURA√á√ÉO DO TRAINER
# ============================================================================
# Configura o SFTTrainer (Supervised Fine-Tuning Trainer) que gerencia
# todo o processo de treinamento.

print("=" * 80)
print("CONFIGURANDO TRAINER")
print("=" * 80)

training_args = TrainingArguments(
    per_device_train_batch_size=TRAINING_CONFIG['per_device_train_batch_size'],
    gradient_accumulation_steps=TRAINING_CONFIG['gradient_accumulation_steps'],
    warmup_steps=TRAINING_CONFIG['warmup_steps'],
    max_steps=TRAINING_CONFIG['max_steps'],
    learning_rate=TRAINING_CONFIG['learning_rate'],
    fp16=not is_bfloat16_supported(),
    bf16=is_bfloat16_supported(),
    logging_steps=TRAINING_CONFIG['logging_steps'],
    optim=TRAINING_CONFIG['optim'],
    weight_decay=TRAINING_CONFIG['weight_decay'],
    lr_scheduler_type=TRAINING_CONFIG['lr_scheduler_type'],
    seed=TRAINING_CONFIG['seed'],
    output_dir=str(TRAINING_OUTPUT_DIR),
)

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=formatted_dataset,
    dataset_text_field="text",
    max_seq_length=MAX_SEQ_LENGTH,
    dataset_num_proc=DATASET_CONFIG['dataset_num_proc'],
    packing=DATASET_CONFIG['packing'],
    args=training_args,
)

print("‚úÖ Trainer configurado!")
print(f"   Batch efetivo: {training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps}")
print(f"   Max steps: {training_args.max_steps}")
print(f"   Learning rate: {training_args.learning_rate}")


In [None]:
# ============================================================================
# C√âLULA 10: TREINAMENTO DO MODELO
# ============================================================================
# Inicia o processo de treinamento. Este processo pode levar v√°rios minutos
# ou horas dependendo do tamanho do dataset e performance da GPU.
#
# Durante o treinamento, voc√™ ver√° logs mostrando:
# - Loss (deve diminuir ao longo do tempo)
# - Learning rate atual
# - Progresso (steps completados)

print("=" * 80)
print("INICIANDO TREINAMENTO")
print("=" * 80)
print("‚ö†Ô∏è  Este processo pode levar v√°rios minutos ou horas...")
print("-" * 80)

trainer_stats = trainer.train()

print("\n" + "=" * 80)
print("‚úÖ TREINAMENTO CONCLU√çDO")
print("=" * 80)
print(f"Loss final: {trainer_stats.training_loss:.4f}")
print(f"Steps completados: {trainer_stats.global_step}")


In [None]:
# ============================================================================
# C√âLULA 11: TESTE DO MODELO TREINADO
# ============================================================================
# Testa o modelo com um exemplo m√©dico para verificar a qualidade
# das respostas geradas.

print("=" * 80)
print("TESTANDO MODELO TREINADO")
print("=" * 80)

# Prepara modelo para infer√™ncia
FastLanguageModel.for_inference(model)

# Exemplo de teste
example_instruction = get_instruction_only()
example_input = """Contexto: Programmed cell death (PCD) is the regulated death of cells within an organism. The lace plant produces perforations in its leaves through PCD.
Pergunta: Do mitochondria play a role in remodelling plant leaves during programmed cell death?"""

# Formata prompt (sem resposta, queremos que o modelo gere)
prompt = get_medical_alpaca_prompt(example_instruction, example_input, "")

# Tokeniza e gera
device = "cuda" if torch.cuda.is_available() else "cpu"
inputs = tokenizer([prompt], return_tensors="pt").to(device)

outputs = model.generate(
    **inputs,
    max_new_tokens=INFERENCE_CONFIG['max_new_tokens'],
    use_cache=INFERENCE_CONFIG['use_cache'],
    temperature=INFERENCE_CONFIG['temperature'],
    top_p=INFERENCE_CONFIG['top_p'],
    top_k=INFERENCE_CONFIG['top_k'],
)

generated_text = tokenizer.batch_decode(outputs)[0]

print("Prompt de entrada:")
print("-" * 80)
print(prompt[:300] + "...")
print("-" * 80)
print("\nResposta gerada:")
print("-" * 80)
print(generated_text)
print("-" * 80)


In [None]:
# ============================================================================
# C√âLULA 12: SALVAMENTO DO MODELO
# ============================================================================
# Salva o modelo treinado (apenas adaptadores LoRA) e o tokenizer.
# O modelo salvo pode ser carregado depois para infer√™ncia.

print("=" * 80)
print("SALVANDO MODELO")
print("=" * 80)

MODEL_OUTPUT_DIR.mkdir(parents=True, exist_ok=True)

model.save_pretrained(str(MODEL_OUTPUT_DIR))
tokenizer.save_pretrained(str(MODEL_OUTPUT_DIR))

print(f"‚úÖ Modelo salvo em: {MODEL_OUTPUT_DIR}")
print("\nPara carregar o modelo depois, use:")
print(f"  model, tokenizer = FastLanguageModel.from_pretrained('{MODEL_OUTPUT_DIR}')")

# ============================================================================
# C√âLULA 12.1: DOWNLOAD DO MODELO (OPCIONAL - APENAS NO COLAB)
# ============================================================================
# No Google Colab, voc√™ pode fazer download do modelo treinado.
# Descomente as linhas abaixo para fazer download.

try:
    from google.colab import files
    import shutil
    
    print("\n" + "=" * 80)
    print("PREPARANDO DOWNLOAD DO MODELO")
    print("=" * 80)
    
    # Compacta o modelo
    shutil.make_archive('lora_model_medical', 'zip', str(MODEL_OUTPUT_DIR))
    
    # Faz download
    files.download('lora_model_medical.zip')
    
    print("‚úÖ Download iniciado!")
except ImportError:
    print("\nüí° Para fazer download no Colab, descomente o c√≥digo acima nesta c√©lula.")


# ============================================================================
# C√âLULA 15: MERGE LoRA PARA OLLAMA (OPCIONAL)
# ============================================================================
# Esta c√©lula faz merge do modelo LoRA treinado com o modelo base e prepara
# para uso no Ollama. Isso permite usar o modelo fine-tunado localmente.
#
# ‚ö†Ô∏è IMPORTANTE:
# - Esta c√©lula √© OPCIONAL - s√≥ execute se quiser usar o modelo no Ollama
# - Requer bastante mem√≥ria RAM (16GB+ recomendado)
# - O processo pode demorar v√°rios minutos
# - O modelo merged ser√° salvo para download
#
# üìã PR√â-REQUISITOS:
# 1. Voc√™ deve ter executado as c√©lulas anteriores (treinamento completo)
# 2. O modelo LoRA deve estar salvo em MODEL_OUTPUT_DIR
# 3. Voc√™ precisa ter acesso ao modelo base (meta-llama/Meta-Llama-3-8B)
#
# üéØ O QUE ESTA C√âLULA FAZ:
# 1. Instala depend√™ncias necess√°rias (peft, transformers, etc.)
# 2. Autentica no HuggingFace (se necess√°rio)
# 3. Carrega modelo base
# 4. Faz merge do LoRA treinado com modelo base
# 5. Salva modelo merged
# 6. Cria Modelfile para Ollama
# 7. Prepara para download


In [None]:
# ============================================================================
# C√âLULA 15: MERGE LoRA PARA OLLAMA
# ============================================================================
# Faz merge do LoRA treinado com modelo base e prepara para Ollama

import sys
import os

print("=" * 80)
print("MERGE LoRA PARA OLLAMA")
print("=" * 80)
print("‚ö†Ô∏è  Esta c√©lula √© OPCIONAL - s√≥ execute se quiser usar no Ollama")
print("=" * 80)

# ============================================================================
# CONFIGURA√á√ïES
# ============================================================================
# Modelo base (deve corresponder ao modelo usado no treinamento)
BASE_MODEL_ID = "meta-llama/Meta-Llama-3-8B"

# Diret√≥rio de sa√≠da para modelo merged
MERGED_OUTPUT_DIR = Path("merged_model_for_ollama")
MERGED_OUTPUT_DIR.mkdir(parents=True, exist_ok=True)

# Nome do modelo para Ollama
OLLAMA_MODEL_NAME = "biobyia"

# ============================================================================
# VERIFICA√á√ïES INICIAIS
# ============================================================================
print("\nüìã Verificando pr√©-requisitos...")

# Verifica se modelo LoRA existe
if not MODEL_OUTPUT_DIR.exists():
    raise FileNotFoundError(
        f"\n‚ùå Modelo LoRA n√£o encontrado: {MODEL_OUTPUT_DIR}\n"
        f"   Execute as c√©lulas anteriores primeiro (treinamento completo)."
    )

print(f"‚úÖ Modelo LoRA encontrado: {MODEL_OUTPUT_DIR}")

# Verifica se est√° no Colab
try:
    from google.colab import files
    IN_COLAB = True
    print("‚úÖ Executando no Google Colab")
except ImportError:
    IN_COLAB = False
    print("‚ÑπÔ∏è  Executando localmente")

# ============================================================================
# INSTALA√á√ÉO DE DEPEND√äNCIAS
# ============================================================================
print("\n" + "=" * 80)
print("üì¶ INSTALANDO DEPEND√äNCIAS")
print("=" * 80)

try:
    from peft import PeftModel
    from transformers import AutoModelForCausalLM, AutoTokenizer
    from huggingface_hub import login, HfApi
    print("‚úÖ Depend√™ncias j√° instaladas")
except ImportError:
    print("üì• Instalando depend√™ncias...")
    if IN_COLAB:
        import subprocess
        subprocess.check_call([
            sys.executable, "-m", "pip", "install", "-q",
            "peft", "transformers", "accelerate", "huggingface_hub"
        ])
    else:
        import subprocess
        subprocess.check_call([
            sys.executable, "-m", "pip", "install", "-q",
            "peft", "transformers", "accelerate", "huggingface_hub"
        ])
    from peft import PeftModel
    from transformers import AutoModelForCausalLM, AutoTokenizer
    from huggingface_hub import login, HfApi
    print("‚úÖ Depend√™ncias instaladas")

# ============================================================================
# AUTENTICA√á√ÉO HUGGINGFACE
# ============================================================================
print("\n" + "=" * 80)
print("üîê AUTENTICA√á√ÉO HUGGINGFACE")
print("=" * 80)

# Tenta usar token de vari√°vel de ambiente
hf_token = os.getenv("HUGGINGFACE_API_KEY") or os.getenv("HF_TOKEN")

if hf_token:
    print("‚úÖ Token encontrado nas vari√°veis de ambiente")
    login(token=hf_token)
else:
    print("‚ö†Ô∏è  Token n√£o encontrado. Voc√™ ser√° solicitado a fazer login.")
    print("üí° Voc√™ pode definir HUGGINGFACE_API_KEY ou HF_TOKEN")
    login()

print("‚úÖ Autenticado no HuggingFace!")

# ============================================================================
# CARREGAR MODELO BASE
# ============================================================================
print("\n" + "=" * 80)
print("üì• CARREGANDO MODELO BASE")
print("=" * 80)
print(f"Modelo: {BASE_MODEL_ID}")
print("‚ö†Ô∏è  Isso pode demorar e requer bastante mem√≥ria RAM...")
print("‚è≥ Aguarde...")

try:
    print("üì• Baixando/carregando modelo base...")
    base_model = AutoModelForCausalLM.from_pretrained(
        BASE_MODEL_ID,
        torch_dtype=torch.float16,
        device_map="auto",
        trust_remote_code=True
    )
    base_tokenizer = AutoTokenizer.from_pretrained(
        BASE_MODEL_ID,
        trust_remote_code=True
    )
    
    print("‚úÖ Modelo base carregado!")
    print(f"   Par√¢metros: {sum(p.numel() for p in base_model.parameters()):,}")
except Exception as e:
    print(f"\n‚ùå Erro ao carregar modelo base: {e}")
    print(f"\nüí° Verifique:")
    print(f"   1. Se voc√™ tem acesso ao modelo: https://huggingface.co/{BASE_MODEL_ID}")
    print(f"   2. Se voc√™ aceitou as condi√ß√µes do modelo")
    print(f"   3. Se sua API key tem permiss√£o")
    raise

# ============================================================================
# CARREGAR E FAZER MERGE DO LoRA
# ============================================================================
print("\n" + "=" * 80)
print("üîÑ FAZENDO MERGE DO LoRA COM MODELO BASE")
print("=" * 80)

try:
    print(f"üì• Carregando adaptadores LoRA de: {MODEL_OUTPUT_DIR}")
    
    # Carrega LoRA sobre o modelo base
    lora_model = PeftModel.from_pretrained(
        base_model,
        str(MODEL_OUTPUT_DIR),
        torch_dtype=torch.float16
    )
    
    print("üîÑ Fazendo merge dos adaptadores...")
    print("‚è≥ Isso pode demorar alguns minutos...")
    
    # Faz merge
    merged_model = lora_model.merge_and_unload()
    
    print("üíæ Salvando modelo merged...")
    merged_model.save_pretrained(
        str(MERGED_OUTPUT_DIR),
        safe_serialization=True
    )
    base_tokenizer.save_pretrained(str(MERGED_OUTPUT_DIR))
    
    print(f"‚úÖ Modelo merged salvo em: {MERGED_OUTPUT_DIR}")
    
except Exception as e:
    print(f"\n‚ùå Erro ao fazer merge: {e}")
    import traceback
    traceback.print_exc()
    raise

# ============================================================================
# CRIAR MODELFILE PARA OLLAMA
# ============================================================================
print("\n" + "=" * 80)
print("üìù CRIANDO MODELFILE PARA OLLAMA")
print("=" * 80)

modelfile_path = MERGED_OUTPUT_DIR / "Modelfile"

modelfile_content = f"""# Modelfile para {OLLAMA_MODEL_NAME}
# Modelo base: {BASE_MODEL_ID}
# LoRA treinado: {MODEL_OUTPUT_DIR}

FROM {MERGED_OUTPUT_DIR}

# Template do sistema
SYSTEM \"\"\"Voc√™ √© um assistente m√©dico especializado em question-answering baseado em evid√™ncias cient√≠ficas.
Voc√™ responde perguntas m√©dicas baseando-se em contextos fornecidos, sempre citando evid√™ncias.
Seja preciso, claro e baseado em evid√™ncias cient√≠ficas.\"\"\"

# Par√¢metros
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER top_k 40
PARAMETER num_predict 2048

# Template de prompt (Alpaca format)
TEMPLATE \"\"\"{{{{ if .System }}}}System: {{{{ .System }}}}
{{{{ end }}}}{{{{ if .Prompt }}}}Instruction: {{{{ .Prompt }}}}
{{{{ end }}}}Response:\"\"\"
"""

with open(modelfile_path, 'w') as f:
    f.write(modelfile_content)

print(f"‚úÖ Modelfile criado: {modelfile_path}")

# ============================================================================
# PREPARAR PARA DOWNLOAD (COLAB)
# ============================================================================
if IN_COLAB:
    print("\n" + "=" * 80)
    print("üì¶ PREPARANDO PARA DOWNLOAD")
    print("=" * 80)
    
    import shutil
    
    # Compacta o modelo merged
    zip_path = f"{OLLAMA_MODEL_NAME}_merged.zip"
    print(f"üì¶ Compactando modelo merged...")
    shutil.make_archive(OLLAMA_MODEL_NAME + "_merged", 'zip', str(MERGED_OUTPUT_DIR))
    
    print(f"‚úÖ Arquivo compactado: {zip_path}")
    print(f"\nüí° Para fazer download, execute a c√©lula abaixo ou use:")
    print(f"   files.download('{zip_path}')")

# ============================================================================
# INSTRU√á√ïES FINAIS
# ============================================================================
print("\n" + "=" * 80)
print("‚úÖ MERGE CONCLU√çDO COM SUCESSO!")
print("=" * 80)

print("\nüìã PR√ìXIMOS PASSOS PARA USAR NO OLLAMA:\n")
print("=" * 80)
print("OP√á√ÉO 1: Download e uso local")
print("=" * 80)
if IN_COLAB:
    print("1. Fa√ßa download do arquivo compactado (c√©lula abaixo)")
    print("2. Extraia o arquivo no seu computador")
    print("3. Siga as instru√ß√µes em: fine_tuning/MERGE_OLLAMA_GUIDE.md")
else:
    print(f"1. Modelo merged salvo em: {MERGED_OUTPUT_DIR}")
    print("2. Siga as instru√ß√µes em: fine_tuning/MERGE_OLLAMA_GUIDE.md")

print("\n" + "=" * 80)
print("OP√á√ÉO 2: Converter para GGUF (recomendado para Ollama)")
print("=" * 80)
print("1. Instale llama.cpp:")
print("   git clone https://github.com/ggerganov/llama.cpp")
print("   cd llama.cpp && make")
print(f"\n2. Converta para GGUF:")
print(f"   python llama.cpp/convert_hf_to_gguf.py {MERGED_OUTPUT_DIR} --outdir {MERGED_OUTPUT_DIR}/gguf")
print(f"\n3. Quantize (opcional):")
print(f"   ./llama.cpp/quantize {MERGED_OUTPUT_DIR}/gguf/model.gguf {MERGED_OUTPUT_DIR}/gguf/biobyia-q4_0.gguf q4_0")
print(f"\n4. Importe no Ollama:")
print(f"   ollama create {OLLAMA_MODEL_NAME} -f {modelfile_path}")

print("\n" + "=" * 80)
print("CONFIGURA√á√ÉO NO .ENV")
print("=" * 80)
print("Adicione ao seu backend/.env:")
print(f"BIOBYIA_MODEL={OLLAMA_MODEL_NAME}")
print("BIOBYIA_BASE_URL=http://localhost:11434")
print("LLM_PROVIDER=biobyia")

print("\n" + "=" * 80)
print("LOCALIZA√á√ÉO DOS ARQUIVOS")
print("=" * 80)
print(f"Modelo merged: {MERGED_OUTPUT_DIR}")
print(f"Modelfile: {modelfile_path}")
if IN_COLAB:
    print(f"Arquivo compactado: {zip_path}")

print("\n" + "=" * 80)


In [None]:
# ============================================================================
# C√âLULA 16: DOWNLOAD DO MODELO MERGED (APENAS NO COLAB)
# ============================================================================
# Faz download do modelo merged compactado para uso local

try:
    from google.colab import files
    
    print("=" * 80)
    print("üì• DOWNLOAD DO MODELO MERGED")
    print("=" * 80)
    
    zip_path = f"{OLLAMA_MODEL_NAME}_merged.zip"
    
    if Path(zip_path).exists():
        print(f"üì¶ Fazendo download de: {zip_path}")
        print("‚è≥ Aguarde...")
        files.download(zip_path)
        print(f"\n‚úÖ Download conclu√≠do!")
        print(f"\nüí° Pr√≥ximos passos:")
        print(f"   1. Extraia o arquivo {zip_path} no seu computador")
        print(f"   2. Siga as instru√ß√µes em: fine_tuning/MERGE_OLLAMA_GUIDE.md")
        print(f"   3. Configure o Ollama e use no backend")
    else:
        print(f"‚ö†Ô∏è  Arquivo n√£o encontrado: {zip_path}")
        print(f"   Execute a c√©lula anterior primeiro (merge do LoRA)")
        
except ImportError:
    print("‚ÑπÔ∏è  Esta c√©lula √© apenas para Google Colab")
    print(f"   No ambiente local, o modelo est√° em: {MERGED_OUTPUT_DIR}")


In [None]:
# ============================================================================
# C√âLULA 14: UPLOAD PARA HUGGING FACE (OPCIONAL)
# ============================================================================
# Faz upload dos adaptadores LoRA para o Hugging Face.
# Isso permite usar o modelo via Inference API ou baixar depois.

print("=" * 80)
print("UPLOAD PARA HUGGING FACE")
print("=" * 80)

# Instala huggingface_hub se necess√°rio
try:
    from huggingface_hub import HfApi, login, create_repo
    from huggingface_hub.utils import HfHubHTTPError
except ImportError:
    print("üì¶ Instalando huggingface_hub...")
    !pip install huggingface_hub
    from huggingface_hub import HfApi, login, create_repo
    from huggingface_hub.utils import HfHubHTTPError

# ============================================================================
# CONFIGURA√á√ÉO - AJUSTE AQUI
# ============================================================================
# Substitua pelos seus dados:
HF_REPO_ID = "seu-usuario/biobyia-medical-lora"  # Ex: "joao-silva/biobyia-medical-lora"
HF_TOKEN = None  # Ou coloque seu token aqui: "hf_xxxxxxxxxxxxx"
PRIVATE_REPO = False  # True para reposit√≥rio privado

# ============================================================================
# UPLOAD
# ============================================================================
if HF_REPO_ID == "seu-usuario/biobyia-medical-lora":
    print("‚ö†Ô∏è  ATEN√á√ÉO: Configure HF_REPO_ID antes de fazer upload!")
    print("   Edite a vari√°vel HF_REPO_ID nesta c√©lula")
    print("   Formato: seu-usuario/nome-do-modelo")
else:
    print(f"üì§ Preparando upload para: {HF_REPO_ID}")
    
    # Login
    if HF_TOKEN:
        login(token=HF_TOKEN)
    else:
        print("üîê Fa√ßa login no Hugging Face:")
        login()
    
    # Cria reposit√≥rio
    api = HfApi()
    try:
        create_repo(
            repo_id=HF_REPO_ID,
            repo_type="model",
            private=PRIVATE_REPO,
            exist_ok=True
        )
        print(f"‚úÖ Reposit√≥rio criado/verificado: {HF_REPO_ID}")
    except HfHubHTTPError as e:
        if "already exists" in str(e).lower():
            print(f"‚úÖ Reposit√≥rio j√° existe: {HF_REPO_ID}")
        else:
            raise
    
    # Faz upload
    print(f"\nüì§ Fazendo upload de: {MODEL_OUTPUT_DIR}")
    print("   Isso pode levar alguns minutos...")
    
    try:
        api.upload_folder(
            folder_path=str(MODEL_OUTPUT_DIR),
            repo_id=HF_REPO_ID,
            repo_type="model",
            ignore_patterns=["*.pt", "*.bin", "__pycache__", "*.pyc"]
        )
        print(f"\n‚úÖ Upload conclu√≠do com sucesso!")
        print(f"   Modelo dispon√≠vel em: https://huggingface.co/{HF_REPO_ID}")
        print(f"\nüí° Pr√≥ximos passos:")
        print(f"   1. Acesse: https://huggingface.co/{HF_REPO_ID}")
        print(f"   2. Teste o modelo na interface do Hugging Face")
        print(f"   3. Use no backend com HuggingFaceProvider")
    except Exception as e:
        print(f"\n‚ùå Erro durante upload: {e}")
        print(f"\nüí° Alternativa: Use o script upload_to_huggingface.py localmente")
        print(f"   python upload_to_huggingface.py --lora_path {MODEL_OUTPUT_DIR} --repo_id {HF_REPO_ID}")


In [None]:
# ============================================================================
# C√âLULA 13: CARREGAMENTO E TESTE DO MODELO SALVO
# ============================================================================
# Demonstra como carregar o modelo salvo e fazer infer√™ncia.
# Esta c√©lula √© √∫til para testar o modelo ap√≥s reiniciar o ambiente.

print("=" * 80)
print("CARREGANDO MODELO SALVO")
print("=" * 80)

# Carrega modelo salvo
loaded_model, loaded_tokenizer = FastLanguageModel.from_pretrained(
    model_name=str(MODEL_OUTPUT_DIR),
    max_seq_length=MAX_SEQ_LENGTH,
    dtype=DTYPE,
    load_in_4bit=LOAD_IN_4BIT,
)

FastLanguageModel.for_inference(loaded_model)

print("‚úÖ Modelo carregado com sucesso!")

# Testa com outro exemplo
example_instruction = get_instruction_only()
example_input = """Contexto: Assessment of visual acuity depends on the optotypes used for measurement.
Pergunta: What are the differences between Landolt C and Snellen E acuity in strabismus amblyopia?"""

prompt = get_medical_alpaca_prompt(example_instruction, example_input, "")
device = "cuda" if torch.cuda.is_available() else "cpu"
inputs = loaded_tokenizer([prompt], return_tensors="pt").to(device)

# Usa TextStreamer para visualizar gera√ß√£o em tempo real
text_streamer = TextStreamer(loaded_tokenizer)
_ = loaded_model.generate(
    **inputs,
    streamer=text_streamer,
    max_new_tokens=INFERENCE_CONFIG['max_new_tokens']
)
