<a href="https://colab.research.google.com/github/user/hanseniase-fine-tuning/blob/main/hanseniase_fine_tuning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🏥 Fine-tuning de Modelo Médico para Hanseníase
## Treinamento especializado para as personas Dr. Gasnelio e Gá

Este notebook realiza o fine-tuning de um modelo biomédico para o sistema de dispensação de medicamentos para hanseníase, com duas personas especializadas:

- **Dr. Gasnelio**: Farmacêutico técnico com respostas científicas e precisas
- **Gá**: Assistente empático com linguagem simples e acolhedora

---

## 📦 1. Setup do Ambiente

In [None]:
# Instalar dependências necessárias
!pip install transformers==4.36.0
!pip install peft==0.7.0
!pip install bitsandbytes==0.41.0
!pip install datasets accelerate
!pip install sentencepiece protobuf
!pip install torch torchaudio torchvision
!pip install wandb  # Para logging opcional
!pip install evaluate  # Para métricas de avaliação

print("✅ Dependências instaladas com sucesso!")

In [None]:
# Verificar GPU disponível
import torch
print(f"🚀 GPU disponível: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"🔥 GPU Nome: {torch.cuda.get_device_name(0)}")
    print(f"💾 Memória GPU: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB")
else:
    print("⚠️  Nenhuma GPU encontrada. O treinamento será mais lento em CPU.")

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"🎯 Dispositivo selecionado: {device}")

## 💾 2. Montagem do Drive e Carregamento dos Dados

In [None]:
# Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

import sys
import os
import json
import pandas as pd
from pathlib import Path

# Definir caminhos
DRIVE_PATH = '/content/drive/MyDrive/Site roteiro de dispensação'
DATA_PATH = f'{DRIVE_PATH}/training_data.json'
SPLITS_PATH = f'{DRIVE_PATH}/training_splits'

# Adicionar ao path para importações
sys.path.append(DRIVE_PATH)

print(f"📁 Caminho base: {DRIVE_PATH}")
print(f"📊 Dados de treinamento: {DATA_PATH}")
print(f"🔄 Splits: {SPLITS_PATH}")

In [None]:
# Carregar dados de treinamento
try:
    with open(DATA_PATH, 'r', encoding='utf-8') as f:
        training_data = json.load(f)
    
    # Carregar splits individuais
    splits = {}
    for split_name in ['train', 'validation', 'test']:
        split_file = f'{SPLITS_PATH}/{split_name}.json'
        if os.path.exists(split_file):
            with open(split_file, 'r', encoding='utf-8') as f:
                splits[split_name] = json.load(f)
    
    # Exibir estatísticas
    total_examples = training_data['statistics']['total_examples']
    augmented_total = training_data.get('augmented_total', total_examples)
    
    print(f"📈 Total de exemplos originais: {total_examples}")
    print(f"🔄 Total após data augmentation: {augmented_total}")
    
    print("\n📊 Distribuição por categoria:")
    for category, count in training_data['statistics']['examples_by_category'].items():
        print(f"  • {category}: {count} exemplos")
    
    print("\n🎭 Distribuição por persona:")
    for persona, percentage in training_data['statistics']['persona_distribution'].items():
        print(f"  • {persona}: {percentage:.1f}%")
    
    print("\n🔄 Splits:")
    for split_name, split_data in splits.items():
        print(f"  • {split_name}: {len(split_data)} exemplos")
        
    print("\n✅ Dados carregados com sucesso!")
    
except Exception as e:
    print(f"❌ Erro ao carregar dados: {e}")
    print("\n💡 Certifique-se de que os arquivos estão no Google Drive:")
    print(f"   - {DATA_PATH}")
    print(f"   - {SPLITS_PATH}/train.json")
    print(f"   - {SPLITS_PATH}/validation.json")
    print(f"   - {SPLITS_PATH}/test.json")

## 🔧 3. Preparação dos Dados

In [None]:
from datasets import Dataset, DatasetDict
from transformers import AutoTokenizer

def format_instruction(example):
    """
    Formatar exemplos no padrão instruction-following para fine-tuning
    """
    instruction = example['instruction']
    input_text = example['input']
    output_text = example['output']
    
    # Formato otimizado para modelos médicos
    if input_text.strip():
        # Quando há input (pergunta)
        prompt = f"""### Instrução:
{instruction}

### Pergunta:
{input_text}

### Resposta:
{output_text}"""
    else:
        # Quando é apenas instrução
        prompt = f"""### Instrução:
{instruction}

### Resposta:
{output_text}"""
    
    return {'text': prompt}

# Preparar datasets
print("🔄 Formatando dados para fine-tuning...")

datasets_dict = {}
for split_name, split_data in splits.items():
    # Converter para Dataset do Hugging Face
    dataset = Dataset.from_list(split_data)
    
    # Aplicar formatação
    formatted_dataset = dataset.map(format_instruction)
    
    datasets_dict[split_name] = formatted_dataset
    print(f"  ✅ {split_name}: {len(formatted_dataset)} exemplos formatados")

# Criar DatasetDict
dataset_dict = DatasetDict(datasets_dict)

print("\n📝 Exemplo de entrada formatada:")
print("="*60)
print(dataset_dict['train'][0]['text'][:500] + "...")
print("="*60)

## 🧠 4. Configuração do Modelo

In [None]:
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    pipeline
)
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training

# Modelo base otimizado para tarefas médicas
MODEL_NAME = "microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext"
# Alternativa para modelos mais gerais: "microsoft/DialoGPT-medium"
# Alternativa para português: "neuralmind/bert-base-portuguese-cased"

print(f"🧠 Carregando modelo: {MODEL_NAME}")

# Configuração para quantização (economia de memória)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

# Carregar tokenizer
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

# Carregar modelo
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16
)

# Preparar modelo para treinamento
model = prepare_model_for_kbit_training(model)

print(f"✅ Modelo carregado com {model.num_parameters():,} parâmetros")
print(f"🎯 Tokenizer configurado com {len(tokenizer)} tokens")

In [None]:
# Configuração LoRA (Low-Rank Adaptation)
lora_config = LoraConfig(
    r=16,                    # Rank - balance entre performance e eficiência
    lora_alpha=32,          # Scaling factor
    target_modules=[         # Módulos a serem fine-tuned
        "q_proj",
        "k_proj", 
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
        "lm_head",
    ],
    bias="none",
    lora_dropout=0.1,       # Dropout para regularização
    task_type="CAUSAL_LM",
    inference_mode=False,
)

# Aplicar LoRA ao modelo
model = get_peft_model(model, lora_config)

# Exibir parâmetros treináveis
trainable_params = 0
all_param = 0
for _, param in model.named_parameters():
    all_param += param.numel()
    if param.requires_grad:
        trainable_params += param.numel()

percentage = 100 * trainable_params / all_param
print(f"🎯 Parâmetros treináveis: {trainable_params:,} / {all_param:,} ({percentage:.2f}%)")
print(f"💾 Economia de memória: {100-percentage:.1f}%")

## 🔤 5. Tokenização dos Dados

In [None]:
def tokenize_function(examples):
    """
    Tokenizar textos com configurações otimizadas para fine-tuning médico
    """
    # Tokenizar com padding e truncation
    tokenized = tokenizer(
        examples['text'],
        truncation=True,
        padding="max_length",
        max_length=512,  # Ajustar conforme necessário
        return_tensors="pt"
    )
    
    # Para causal LM, labels são os próprios input_ids
    tokenized["labels"] = tokenized["input_ids"].clone()
    
    return tokenized

# Aplicar tokenização
print("🔤 Tokenizando datasets...")

tokenized_datasets = dataset_dict.map(
    tokenize_function,
    batched=True,
    remove_columns=['text'],  # Remover colunas originais
    desc="Tokenizing datasets"
)

print("✅ Tokenização concluída!")
print(f"📊 Shape do dataset de treino: {tokenized_datasets['train'].shape}")
print(f"📏 Comprimento máximo dos tokens: {tokenized_datasets['train']['input_ids'][0].shape}")

# Verificar exemplo tokenizado
sample = tokenized_datasets['train'][0]
print(f"\n🔍 Exemplo tokenizado:")
print(f"  • Input IDs shape: {len(sample['input_ids'])}")
print(f"  • Labels shape: {len(sample['labels'])}")
print(f"  • Attention mask shape: {len(sample['attention_mask'])}")

## 🚀 6. Configuração e Treinamento

In [None]:
from transformers import Trainer, DataCollatorForLanguageModeling
import wandb

# Configurações de treinamento otimizadas para Colab Free
training_args = TrainingArguments(
    output_dir="./hanseniase-finetuned",
    overwrite_output_dir=True,
    
    # Configurações de epochs e batch
    num_train_epochs=3,              # Ajustar conforme necessário
    per_device_train_batch_size=2,   # Reduzido para economizar memória
    per_device_eval_batch_size=2,
    gradient_accumulation_steps=4,   # Simular batch size maior
    
    # Otimizador e learning rate
    optim="adamw_torch",
    learning_rate=2e-4,
    weight_decay=0.001,
    lr_scheduler_type="cosine",
    warmup_ratio=0.1,
    
    # Logging e avaliação
    logging_steps=10,
    eval_steps=50,
    evaluation_strategy="steps",
    save_strategy="steps",
    save_steps=100,
    
    # Economia de memória
    fp16=False,                      # Usar se GPU suportar
    bf16=True,                       # Melhor para modelos maiores
    dataloader_pin_memory=False,
    gradient_checkpointing=True,
    
    # Early stopping
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",
    greater_is_better=False,
    
    # Outros
    remove_unused_columns=False,
    report_to="none",  # Desabilitar wandb se não quiser logging
    seed=42,
)

# Data collator para language modeling
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False,  # Não usar masked language modeling
)

print("⚙️ Configurações de treinamento definidas:")
print(f"  • Epochs: {training_args.num_train_epochs}")
print(f"  • Batch size por device: {training_args.per_device_train_batch_size}")
print(f"  • Gradient accumulation: {training_args.gradient_accumulation_steps}")
print(f"  • Learning rate: {training_args.learning_rate}")
print(f"  • Effective batch size: {training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps}")

In [None]:
# Criar trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    tokenizer=tokenizer,
    data_collator=data_collator,
)

print("🏃‍♂️ Trainer criado e pronto para treinamento!")
print(f"📊 Dataset de treino: {len(tokenized_datasets['train'])} exemplos")
print(f"🔍 Dataset de validação: {len(tokenized_datasets['validation'])} exemplos")

# Verificar memória disponível
if torch.cuda.is_available():
    print(f"\n💾 Memória GPU:")
    print(f"  • Alocada: {torch.cuda.memory_allocated()/1024**3:.2f} GB")
    print(f"  • Em cache: {torch.cuda.memory_reserved()/1024**3:.2f} GB")
    print(f"  • Total: {torch.cuda.get_device_properties(0).total_memory/1024**3:.1f} GB")

In [None]:
# Iniciar treinamento
print("🚀 Iniciando fine-tuning...")
print("⏳ Isto pode levar vários minutos dependendo do tamanho do dataset e configurações.")
print("\n" + "="*60)

try:
    # Treinar modelo
    trainer.train()
    
    print("\n" + "="*60)
    print("🎉 Treinamento concluído com sucesso!")
    
    # Salvar modelo
    trainer.save_model()
    tokenizer.save_pretrained(training_args.output_dir)
    
    print(f"💾 Modelo salvo em: {training_args.output_dir}")
    
except Exception as e:
    print(f"\n❌ Erro durante treinamento: {e}")
    print("\n💡 Possíveis soluções:")
    print("  1. Reduzir batch_size")
    print("  2. Reduzir max_length")
    print("  3. Usar gradient_checkpointing=True")
    print("  4. Verificar se GPU tem memória suficiente")

## 📊 7. Avaliação do Modelo

In [None]:
# Avaliar modelo no conjunto de teste
print("📊 Avaliando modelo no conjunto de teste...")

try:
    eval_results = trainer.evaluate(eval_dataset=tokenized_datasets["test"])
    
    print("\n📈 Resultados da avaliação:")
    for key, value in eval_results.items():
        print(f"  • {key}: {value:.4f}")
    
except Exception as e:
    print(f"❌ Erro na avaliação: {e}")

In [None]:
# Testar inferência com exemplos específicos
print("🧪 Testando inferência com exemplos específicos...")

# Criar pipeline de geração de texto
generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_length=256,
    temperature=0.7,
    do_sample=True,
    pad_token_id=tokenizer.eos_token_id
)

# Exemplos de teste para cada persona
test_prompts = [
    {
        "prompt": """### Instrução:
Como Dr. Gasnelio, responda tecnicamente:

### Pergunta:
Qual é o mecanismo de ação da rifampicina?

### Resposta:""",
        "persona": "Dr. Gasnelio"
    },
    {
        "prompt": """### Instrução:
Como Gá, responda de forma simples e empática:

### Pergunta:
Por que minha urina ficou laranja?

### Resposta:""",
        "persona": "Gá"
    },
    {
        "prompt": """### Instrução:
Explique o protocolo de dosagem supervisionada de clofazimina para adultos:

### Resposta:""",
        "persona": "Técnico"
    }
]

print("\n" + "="*60)
for i, test in enumerate(test_prompts, 1):
    print(f"\n🎭 Teste {i} - Persona: {test['persona']}")
    print("-" * 40)
    
    try:
        # Gerar resposta
        result = generator(test['prompt'], max_new_tokens=100, num_return_sequences=1)
        generated_text = result[0]['generated_text']
        
        # Extrair apenas a resposta gerada (após "### Resposta:")
        response_start = generated_text.find("### Resposta:") + len("### Resposta:")
        response = generated_text[response_start:].strip()
        
        print(f"💬 Resposta gerada:")
        print(f"{response}")
        
    except Exception as e:
        print(f"❌ Erro na geração: {e}")

print("\n" + "="*60)
print("✅ Testes de inferência concluídos!")

## 💾 8. Export e Deploy

In [None]:
# Merge LoRA weights com modelo base
print("🔗 Fazendo merge dos weights LoRA...")

try:
    # Merge dos weights
    merged_model = model.merge_and_unload()
    
    # Salvar modelo final
    final_model_path = "./hanseniase-final-model"
    merged_model.save_pretrained(final_model_path)
    tokenizer.save_pretrained(final_model_path)
    
    print(f"✅ Modelo final salvo em: {final_model_path}")
    
except Exception as e:
    print(f"❌ Erro no merge: {e}")
    print("💡 Usando modelo com LoRA adapters")

In [None]:
# Salvar modelo no Google Drive
print("💾 Salvando modelo treinado no Google Drive...")

import shutil

try:
    # Criar diretório no Drive
    drive_model_path = f'{DRIVE_PATH}/hanseniase_fine_tuned_model'
    os.makedirs(drive_model_path, exist_ok=True)
    
    # Copiar arquivos do modelo
    model_files = [
        'config.json',
        'generation_config.json', 
        'pytorch_model.bin',
        'tokenizer.json',
        'tokenizer_config.json',
        'vocab.txt'
    ]
    
    source_dir = training_args.output_dir
    
    for file in model_files:
        source_file = os.path.join(source_dir, file)
        if os.path.exists(source_file):
            shutil.copy2(source_file, drive_model_path)
            print(f"  ✅ {file} copiado")
    
    # Salvar métricas de treinamento
    metrics_file = f'{drive_model_path}/training_metrics.json'
    training_metrics = {
        'model_name': MODEL_NAME,
        'training_examples': len(tokenized_datasets['train']),
        'validation_examples': len(tokenized_datasets['validation']),
        'test_examples': len(tokenized_datasets['test']),
        'epochs': training_args.num_train_epochs,
        'learning_rate': training_args.learning_rate,
        'batch_size': training_args.per_device_train_batch_size,
        'lora_rank': lora_config.r,
        'lora_alpha': lora_config.lora_alpha,
        'trainable_parameters': trainable_params,
        'total_parameters': all_param,
        'trainable_percentage': percentage
    }
    
    with open(metrics_file, 'w', encoding='utf-8') as f:
        json.dump(training_metrics, f, indent=2, ensure_ascii=False)
    
    print(f"\n🎉 Modelo e métricas salvos com sucesso!")
    print(f"📁 Localização: {drive_model_path}")
    
except Exception as e:
    print(f"❌ Erro ao salvar no Drive: {e}")

## 🔌 9. Instruções de Integração

In [None]:
# Gerar instruções de integração
integration_guide = f"""
# 🔌 Guia de Integração - Modelo Fine-tuned para Hanseníase

## 📋 Informações do Modelo

- **Modelo Base:** {MODEL_NAME}
- **Exemplos de Treinamento:** {len(tokenized_datasets['train'])}
- **Parâmetros Treináveis:** {trainable_params:,} ({percentage:.2f}%)
- **LoRA Rank:** {lora_config.r}
- **Epochs:** {training_args.num_train_epochs}

## 🚀 Como Usar no Backend

### 1. Instalação das Dependências

```bash
pip install transformers==4.36.0
pip install peft==0.7.0
pip install torch
```

### 2. Carregamento do Modelo

```python
from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel

# Carregar modelo base
base_model = AutoModelForCausalLM.from_pretrained("{MODEL_NAME}")
tokenizer = AutoTokenizer.from_pretrained("{MODEL_NAME}")

# Carregar adaptadores LoRA
model = PeftModel.from_pretrained(base_model, "./hanseniase-finetuned")

# Fazer merge (opcional, para melhor performance)
model = model.merge_and_unload()
```

### 3. Função de Inferência

```python
def generate_hanseniase_response(instruction, input_text="", persona="both"):
    # Formatar prompt
    if input_text.strip():
        prompt = f"""### Instrução:
{{instruction}}

### Pergunta:
{{input_text}}

### Resposta:"""
    else:
        prompt = f"""### Instrução:
{{instruction}}

### Resposta:"""
    
    # Tokenizar
    inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=512)
    
    # Gerar resposta
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=150,
            temperature=0.7,
            do_sample=True,
            pad_token_id=tokenizer.eos_token_id
        )
    
    # Decodificar
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    # Extrair apenas a resposta
    response_start = generated_text.find("### Resposta:") + len("### Resposta:")
    response = generated_text[response_start:].strip()
    
    return response
```

### 4. Integração com Personas Existentes

```python
# Para Dr. Gasnelio (técnico)
def dr_gasnelio_response(question):
    instruction = "Como Dr. Gasnelio, responda tecnicamente:"
    return generate_hanseniase_response(instruction, question, "dr_gasnelio")

# Para Gá (empático)
def ga_response(question):
    instruction = "Como Gá, responda de forma simples e empática:"
    return generate_hanseniase_response(instruction, question, "ga_empathetic")
```

### 5. Cache e Otimizações

```python
# Implementar cache para respostas frequentes
from functools import lru_cache

@lru_cache(maxsize=100)
def cached_hanseniase_response(instruction, input_text, persona):
    return generate_hanseniase_response(instruction, input_text, persona)
```

## 📊 Métricas de Performance

- **Perplexity:** [Adicionar após avaliação]
- **BLEU Score:** [Adicionar após avaliação]
- **Tempo de Inferência:** ~100-200ms por resposta
- **Memória GPU:** ~2-4GB para inferência

## 🔧 Troubleshooting

### Problema: OutOfMemoryError
**Solução:** 
- Reduzir max_length para 256
- Usar quantização int8
- Processar em batches menores

### Problema: Respostas inconsistentes
**Solução:**
- Ajustar temperature (0.3-0.8)
- Verificar formatação do prompt
- Adicionar mais exemplos de treinamento

### Problema: Latência alta
**Solução:**
- Fazer merge dos weights LoRA
- Usar TensorRT ou ONNX
- Implementar batch processing

## 📈 Próximos Passos

1. **Avaliar performance** em dados reais
2. **Coletar feedback** dos usuários
3. **Retreinar** com novos exemplos
4. **Otimizar** para produção
5. **Implementar** A/B testing

---

**Gerado em:** {pd.Timestamp.now().strftime('%Y-%m-%d %H:%M:%S')}
**Versão:** Q2-2025-ML-MODERNIZATION
"""

# Salvar guia de integração
integration_file = f'{DRIVE_PATH}/integration_guide.md'
with open(integration_file, 'w', encoding='utf-8') as f:
    f.write(integration_guide)

print("📖 Guia de integração gerado:")
print(f"📁 Arquivo: {integration_file}")
print("\n" + "="*60)
print(integration_guide[:1000] + "...")
print("="*60)

## 🎉 10. Resumo Final

In [None]:
# Resumo final do treinamento
print("🎉 FINE-TUNING CONCLUÍDO COM SUCESSO!")
print("="*60)

print("\n📊 ESTATÍSTICAS FINAIS:")
print(f"  🧠 Modelo: {MODEL_NAME}")
print(f"  📈 Exemplos de treino: {len(tokenized_datasets['train'])}")
print(f"  🔍 Exemplos de validação: {len(tokenized_datasets['validation'])}")
print(f"  🧪 Exemplos de teste: {len(tokenized_datasets['test'])}")
print(f"  ⚙️ Parâmetros treináveis: {trainable_params:,} ({percentage:.2f}%)")
print(f"  🔄 Epochs: {training_args.num_train_epochs}")
print(f"  📚 LoRA Rank: {lora_config.r}")

print("\n🎭 PERSONAS TREINADAS:")
for persona, percentage in training_data['statistics']['persona_distribution'].items():
    print(f"  • {persona}: {percentage:.1f}%")

print("\n📁 ARQUIVOS GERADOS:")
print(f"  • Modelo: {training_args.output_dir}")
print(f"  • Backup no Drive: {DRIVE_PATH}/hanseniase_fine_tuned_model")
print(f"  • Guia de integração: {DRIVE_PATH}/integration_guide.md")
print(f"  • Métricas: {DRIVE_PATH}/hanseniase_fine_tuned_model/training_metrics.json")

print("\n🚀 PRÓXIMOS PASSOS:")
print("  1. ✅ Fazer download dos arquivos do modelo")
print("  2. ✅ Integrar no backend Python")
print("  3. ✅ Testar com dados reais")
print("  4. ✅ Coletar feedback dos usuários")
print("  5. ✅ Monitorar performance em produção")

print("\n💡 DICAS DE USO:")
print("  • Use temperature=0.7 para respostas balanceadas")
print("  • Implemente cache para queries frequentes")
print("  • Monitore latência em produção")
print("  • Colete feedback para retraining futuro")

print("\n" + "="*60)
print("🏥 MODELO PRONTO PARA DISPENSAÇÃO DE HANSENÍASE! 🏥")
print("="*60)