# Prepara√ß√£o de Dados M√©dicos para Fine-Tuning

Este notebook processa o dataset `ori_pqal.json` para criar dados formatados para fine-tuning de modelos LLM (LLaMA/Falcon) em dom√≠nio m√©dico.

## üìã Objetivos do Pipeline:

1. **Carregamento**: Ler o dataset m√©dico original (ori_pqal.json) com estrutura complexa
2. **Anonimiza√ß√£o**: Remover dados sens√≠veis (datas, IDs, telefones, emails) para conformidade com LGPD/HIPAA
3. **Transforma√ß√£o**: Converter estrutura JSON aninhada em formato de instru√ß√£o para fine-tuning
4. **Valida√ß√£o**: Verificar integridade e qualidade dos dados processados
5. **Exporta√ß√£o**: Salvar dataset processado em formato JSON pronto para treinamento

## üîÑ Ordem de Execu√ß√£o:

Execute as c√©lulas **sequencialmente** (de cima para baixo) para garantir que todas as depend√™ncias estejam carregadas corretamente.


In [None]:
# ============================================================================
# ETAPA 0: IMPORTA√á√ÉO DE BIBLIOTECAS
# ============================================================================
# Esta c√©lula importa todas as bibliotecas necess√°rias para o processamento
# Execute esta c√©lula PRIMEIRO antes de qualquer outra opera√ß√£o

import json      # Para leitura e escrita de arquivos JSON
import re        # Para express√µes regulares (anonimiza√ß√£o de dados)
from pathlib import Path  # Para manipula√ß√£o de caminhos de arquivos

print("‚úÖ Bibliotecas importadas com sucesso!")
print("   - json: Para manipula√ß√£o de arquivos JSON")
print("   - re: Para anonimiza√ß√£o com express√µes regulares")
print("   - Path: Para gerenciamento de caminhos de arquivos")


In [None]:
# ============================================================================
# ETAPA 1: CARREGAMENTO DO DATASET ORIGINAL
# ============================================================================
# Esta etapa l√™ o arquivo ori_pqal.json que cont√©m dados m√©dicos estruturados
# do PubMedQA (dataset de perguntas e respostas m√©dicas baseadas em evid√™ncias)
#
# Estrutura do dataset:
#   - Chave: ID √∫nico do artigo PubMed (ex: "21645374")
#   - Valor: Objeto com QUESTION, CONTEXTS, LONG_ANSWER, MESHES, etc.
#
# IMPORTANTE: Execute esta c√©lula ANTES de processar os dados

def load_medical_dataset(file_path):
    """
    Carrega o dataset m√©dico do arquivo JSON
    
    Args:
        file_path: Caminho relativo ou absoluto para o arquivo ori_pqal.json
        
    Returns:
        Dicion√°rio Python com estrutura: {id_artigo: {QUESTION, CONTEXTS, ...}}
    """
    with open(file_path, 'r', encoding='utf-8') as f:
        return json.load(f)

# Define o caminho para o dataset original
# Ajuste este caminho se o arquivo estiver em outro local
input_file = '../context/pubmedqa-master/data/ori_pqal.json'

# Carrega todos os dados do arquivo JSON na mem√≥ria
# Isso pode levar alguns segundos dependendo do tamanho do arquivo
raw_data = load_medical_dataset(input_file)

# Exibe informa√ß√µes sobre o dataset carregado
print("=" * 80)
print("üì¶ DATASET CARREGADO COM SUCESSO")
print("=" * 80)
print(f"Total de entradas m√©dicas: {len(raw_data)}")
print(f"Exemplo de ID (chave): {list(raw_data.keys())[0]}")
print(f"\nEstrutura de uma entrada:")
sample_key = list(raw_data.keys())[0]
sample_entry = raw_data[sample_key]
print(f"  - QUESTION: {sample_entry.get('QUESTION', 'N/A')[:80]}...")
print(f"  - CONTEXTS: {len(sample_entry.get('CONTEXTS', []))} contextos")
print(f"  - LONG_ANSWER: {len(sample_entry.get('LONG_ANSWER', ''))} caracteres")
print(f"  - MESHES: {len(sample_entry.get('MESHES', []))} termos")
print("=" * 80)


In [None]:
# ============================================================================
# ETAPA 2: FUN√á√ÉO DE ANONIMIZA√á√ÉO DE DADOS SENS√çVEIS
# ============================================================================
# Esta etapa define a fun√ß√£o que remove informa√ß√µes que possam identificar
# pacientes ou violar privacidade (conformidade com LGPD/HIPAA)
#
# Por que anonimizar?
#   - Prote√ß√£o de dados pessoais (LGPD no Brasil, HIPAA nos EUA)
#   - Preven√ß√£o de vazamento de informa√ß√µes sens√≠veis
#   - Necess√°rio para ambientes hospitalares e pesquisa m√©dica
#
# IMPORTANTE: Esta fun√ß√£o ser√° usada em TODAS as etapas de processamento
#             que envolvem texto com dados de pacientes

def anonymize_text(text):
    """
    Anonimiza texto removendo padr√µes que possam identificar pacientes
    
    Esta fun√ß√£o usa express√µes regulares (regex) para encontrar e substituir:
    - Datas espec√≠ficas ‚Üí [DATA]
    - IDs de pacientes ‚Üí [PACIENTE_ID]
    - Telefones ‚Üí [TELEFONE]
    - Emails ‚Üí [EMAIL]
    
    Args:
        text: String de texto que pode conter dados sens√≠veis
        
    Returns:
        String com dados sens√≠veis substitu√≠dos por placeholders gen√©ricos
    """
    # Verifica se o texto √© uma string v√°lida
    if not isinstance(text, str):
        return text
    
    # PATTERN 1: Remove datas no formato DD/MM/YYYY ou MM/DD/YYYY
    # Exemplo: "15/03/2024" ou "03/15/2024" ‚Üí "[DATA]"
    text = re.sub(r'\d{1,2}/\d{1,2}/\d{4}', '[DATA]', text)
    
    # PATTERN 2: Remove datas no formato ISO (YYYY-MM-DD)
    # Exemplo: "2024-03-15" ‚Üí "[DATA]"
    text = re.sub(r'\d{4}-\d{2}-\d{2}', '[DATA]', text)
    
    # PATTERN 3: Remove IDs de pacientes (formato "ID: 12345" ou "Patient ID: 12345")
    # Exemplo: "ID: 12345" ‚Üí "ID: [PACIENTE_ID]"
    # flags=re.IGNORECASE torna a busca case-insensitive (mai√∫sculas/min√∫sculas)
    text = re.sub(r'ID:\s*\d+', 'ID: [PACIENTE_ID]', text, flags=re.IGNORECASE)
    text = re.sub(r'Patient ID:\s*\d+', 'Patient ID: [PACIENTE_ID]', text, flags=re.IGNORECASE)
    
    # PATTERN 4: Remove n√∫meros de telefone (formato XXX-XXX-XXXX ou XXX.XXX.XXXX)
    # Exemplo: "11987654321" ou "11-98765-4321" ‚Üí "[TELEFONE]"
    text = re.sub(r'\d{3}[-.]?\d{3}[-.]?\d{4}', '[TELEFONE]', text)
    
    # PATTERN 5: Remove endere√ßos de email
    # Exemplo: "email@hospital.com" ‚Üí "[EMAIL]"
    # \b garante que estamos no in√≠cio/fim de uma palavra
    text = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', '[EMAIL]', text)
    
    return text

# ============================================================================
# TESTE DA FUN√á√ÉO DE ANONIMIZA√á√ÉO
# ============================================================================
# Testa a fun√ß√£o com um exemplo real para verificar se est√° funcionando
# corretamente antes de aplicar em todo o dataset

test_text = "Paciente ID: 12345 foi atendido em 15/03/2024. Contato: 11987654321 ou email@hospital.com"

print("=" * 80)
print("üîí TESTE DE ANONIMIZA√á√ÉO")
print("=" * 80)
print("Texto original:")
print(f"  {test_text}")
print("\nTexto anonimizado:")
print(f"  {anonymize_text(test_text)}")
print("=" * 80)
print("‚úÖ Fun√ß√£o de anonimiza√ß√£o testada e pronta para uso!")


In [None]:
# ============================================================================
# ETAPA 3: FORMATA√á√ÉO PARA INSTRUCTION TUNING
# ============================================================================
# Esta etapa transforma os dados m√©dicos brutos em formato de instru√ß√£o
# adequado para fine-tuning de modelos LLM (LLaMA, Falcon, etc.)
#
# O que √© Instruction Tuning?
#   - T√©cnica de fine-tuning onde o modelo aprende a seguir instru√ß√µes
#   - Formato: INSTRU√á√ÉO ‚Üí ENTRADA ‚Üí SA√çDA ESPERADA
#   - Permite que o modelo aprenda a responder perguntas baseadas em contexto
#
# Formato usado (inspirado nos notebooks de refer√™ncia):
#   [|Contexto|] ... [|eContexto|]  ‚Üí Delimitadores para contexto m√©dico
#   [|Pergunta|] ... [|ePergunta|]  ‚Üí Delimitadores para pergunta
#   [|Resposta|] ... [|eResposta|]   ‚Üí Delimitadores para resposta esperada
#
# IMPORTANTE: Esta fun√ß√£o deve ser executada DEPOIS de definir anonymize_text()
#             pois ela usa essa fun√ß√£o para proteger dados sens√≠veis

def prepare_medical_instruction(data_id, content):
    """
    Prepara uma entrada do dataset no formato de instru√ß√£o para fine-tuning
    
    Esta fun√ß√£o:
    1. Extrai QUESTION, CONTEXTS, LONG_ANSWER e MESHES do conte√∫do
    2. Une m√∫ltiplos contextos em um √∫nico bloco de texto
    3. Aplica anonimiza√ß√£o em contextos e respostas
    4. Formata tudo em um prompt estruturado com delimitadores
    
    Args:
        data_id: ID √∫nico do artigo PubMed (chave do dicion√°rio original)
        content: Dicion√°rio com QUESTION, CONTEXTS, LONG_ANSWER, MESHES, etc.
        
    Returns:
        Dicion√°rio com:
          - "id": ID do artigo
          - "input": String formatada pronta para fine-tuning
    """
    # PASSO 1: Extrai os campos principais do conte√∫do m√©dico
    question = content.get("QUESTION", "")           # Pergunta m√©dica a ser respondida
    contexts = content.get("CONTEXTS", [])            # Lista de contextos cient√≠ficos (evid√™ncias)
    long_answer = content.get("LONG_ANSWER", "")      # Resposta longa baseada nas evid√™ncias
    meshes = content.get("MESHES", [])               # Termos t√©cnicos (Medical Subject Headings)
    
    # PASSO 2: Consolida m√∫ltiplos contextos em um √∫nico bloco de texto
    # O dataset pode ter v√°rios contextos (fragmentos de artigos cient√≠ficos)
    # Juntamos todos em uma √∫nica string para facilitar o aprendizado do modelo
    context_str = " ".join(contexts)
    
    # PASSO 3: Formata termos MESH como string separada por v√≠rgulas
    # MESH s√£o termos t√©cnicos que ajudam o modelo a entender o dom√≠nio
    # Exemplo: ["Mitochondria", "Apoptosis", "Cell Differentiation"]
    meshes_str = ", ".join(meshes) if meshes else ""
    
    # PASSO 4: Constr√≥i o prompt formatado seguindo o padr√£o dos notebooks de refer√™ncia
    # Formato inspirado em: [|News|]...[|eNews|] adaptado para medicina
    # 
    # Estrutura do prompt:
    #   INSTRU√á√ÉO M√âDICA: [instru√ß√£o geral]
    #   [|Contexto|] [contextos anonimizados] [|eContexto|]
    #   [|Termos|] [termos MESH] [|eTermos|]  (opcional)
    #   [|Pergunta|] [pergunta] [|ePergunta|]
    #   [|Resposta|] [resposta anonimizada] [|eResposta|]
    
    formatted_input = (
        f"INSTRU√á√ÉO M√âDICA: Responda √† pergunta baseando-se nos contextos fornecidos.\n"
        f"[|Contexto|] {anonymize_text(context_str)}[|eContexto|]\n"
    )
    
    # Adiciona termos MESH apenas se existirem (opcional, mas enriquece o contexto)
    if meshes_str:
        formatted_input += f"[|Termos|] {meshes_str}[|eTermos|]\n"
    
    # Adiciona pergunta e resposta (a resposta √© anonimizada para prote√ß√£o de dados)
    formatted_input += (
        f"[|Pergunta|] {question}[|ePergunta|]\n\n"
        f"[|Resposta|]{anonymize_text(long_answer)}[|eResposta|]"
    )
    
    # Retorna estrutura padronizada para o dataset de fine-tuning
    return {
        "id": data_id,
        "input": formatted_input
    }

# ============================================================================
# TESTE DA FUN√á√ÉO DE FORMATA√á√ÉO
# ============================================================================
# Testa a fun√ß√£o com uma entrada real do dataset para verificar o formato
# antes de processar todas as entradas (economiza tempo e recursos)

sample_id = list(raw_data.keys())[0]      # Pega o primeiro ID dispon√≠vel
sample_content = raw_data[sample_id]      # Obt√©m o conte√∫do desse ID
sample_processed = prepare_medical_instruction(sample_id, sample_content)  # Processa

print("=" * 80)
print("üìù EXEMPLO DE ENTRADA PROCESSADA")
print("=" * 80)
print(f"ID do artigo: {sample_processed['id']}")
print(f"\nFormato do input (primeiros 500 caracteres):")
print("-" * 80)
print(sample_processed["input"][:500] + "...")
print("-" * 80)
print(f"Tamanho total do input: {len(sample_processed['input'])} caracteres")
print("=" * 80)
print("‚úÖ Fun√ß√£o de formata√ß√£o testada e pronta para processar todo o dataset!")


In [None]:
# ============================================================================
# ETAPA 4: PROCESSAMENTO COMPLETO DO DATASET
# ============================================================================
# Esta etapa processa TODAS as entradas do dataset original, aplicando:
#   - Anonimiza√ß√£o de dados sens√≠veis
#   - Formata√ß√£o em estrutura de instru√ß√£o
#   - Tratamento de erros para garantir robustez
#
# IMPORTANTE: Esta etapa pode levar v√°rios minutos dependendo do tamanho
#             do dataset. Para datasets grandes, considere processar em lotes.
#
# IMPORTANTE: Execute esta c√©lula APENAS DEPOIS de:
#             1. Carregar o dataset (Etapa 1)
#             2. Definir anonymize_text() (Etapa 2)
#             3. Definir prepare_medical_instruction() (Etapa 3)

# Inicializa lista vazia para armazenar dados processados
processed_data = []

# Exibe informa√ß√µes sobre o processamento que ser√° realizado
total_entries = len(raw_data)
print("=" * 80)
print("üîÑ INICIANDO PROCESSAMENTO COMPLETO DO DATASET")
print("=" * 80)
print(f"Total de entradas a processar: {total_entries}")
print(f"Este processo pode levar alguns minutos...")
print("-" * 80)

# Itera sobre cada entrada do dataset original
# raw_data.items() retorna pares (id, conte√∫do) para cada artigo m√©dico
for data_id, content in raw_data.items():
    try:
        # Aplica a fun√ß√£o de formata√ß√£o definida na Etapa 3
        # Esta fun√ß√£o j√° inclui anonimiza√ß√£o automaticamente
        entry = prepare_medical_instruction(data_id, content)
        
        # Adiciona a entrada processada √† lista
        processed_data.append(entry)
        
        # Exibe progresso a cada 1000 entradas processadas (opcional, para feedback)
        if len(processed_data) % 1000 == 0:
            progress = (len(processed_data) / total_entries) * 100
            print(f"Progresso: {len(processed_data)}/{total_entries} ({progress:.1f}%)")
            
    except Exception as e:
        # Tratamento de erros: se uma entrada falhar, registra o erro mas continua
        # Isso garante que o processamento n√£o pare por causa de uma entrada problem√°tica
        print(f"‚ö†Ô∏è  Erro ao processar entrada {data_id}: {e}")
        continue

# Exibe resumo final do processamento
print("-" * 80)
print("=" * 80)
print("‚úÖ PROCESSAMENTO CONCLU√çDO")
print("=" * 80)
print(f"Entradas processadas com sucesso: {len(processed_data)}")
print(f"Taxa de sucesso: {(len(processed_data)/total_entries)*100:.2f}%")
print(f"Entradas com erro: {total_entries - len(processed_data)}")
print("=" * 80)


In [None]:
# ============================================================================
# ETAPA 5: SALVAMENTO DO DATASET DE TREINO
# ============================================================================
# Esta etapa salva o dataset processado em um arquivo JSON que ser√° usado
# diretamente no processo de fine-tuning do modelo LLM
#
# Formato do arquivo de sa√≠da:
#   [
#     {
#       "id": "21645374",
#       "input": "INSTRU√á√ÉO M√âDICA: ... [|Contexto|] ... [|eContexto|] ..."
#     },
#     ...
#   ]
#
# IMPORTANTE: Execute esta c√©lula APENAS DEPOIS de processar todos os dados (Etapa 4)
#             Caso contr√°rio, o arquivo ser√° salvo vazio ou incompleto

# Define o nome do arquivo de sa√≠da
# Este arquivo ser√° criado no mesmo diret√≥rio do notebook
output_file = 'medical_tuning_data.json'

print("=" * 80)
print("üíæ SALVANDO DATASET PROCESSADO")
print("=" * 80)
print(f"Arquivo de destino: {output_file}")
print(f"Total de entradas a salvar: {len(processed_data)}")
print("-" * 80)

# Abre o arquivo em modo de escrita ('w') com encoding UTF-8
# UTF-8 √© necess√°rio para suportar caracteres especiais e acentos
with open(output_file, 'w', encoding='utf-8') as f:
    # json.dump() escreve a lista de dados processados no arquivo
    # indent=2: formata o JSON com indenta√ß√£o de 2 espa√ßos (melhora legibilidade)
    # ensure_ascii=False: preserva caracteres n√£o-ASCII (acentos, etc.)
    json.dump(processed_data, f, indent=2, ensure_ascii=False)

# Verifica se o arquivo foi criado e exibe informa√ß√µes
import os
file_size = os.path.getsize(output_file) / (1024 * 1024)  # Tamanho em MB

print("‚úÖ Dataset salvo com sucesso!")
print(f"   Arquivo: {output_file}")
print(f"   Total de entradas: {len(processed_data)}")
print(f"   Tamanho do arquivo: {file_size:.2f} MB")
print("=" * 80)
print("\nüìå PR√ìXIMOS PASSOS:")
print("   1. Valide os dados com: python validate_data.py")
print("   2. Use este arquivo para fine-tuning com Hugging Face, PEFT, etc.")
print("   3. Configure hiperpar√¢metros de treinamento apropriados")
print("=" * 80)


In [None]:
# ============================================================================
# ETAPA 6: VERIFICA√á√ÉO FINAL E VISUALIZA√á√ÉO
# ============================================================================
# Esta etapa exibe uma amostra das entradas processadas para verifica√ß√£o
# visual da qualidade e formato dos dados
#
# Por que verificar?
#   - Confirma que o formato est√° correto
#   - Permite identificar problemas visuais antes do treinamento
#   - Ajuda a entender como os dados ser√£o usados pelo modelo
#
# IMPORTANTE: Esta √© uma etapa opcional, mas recomendada para garantir
#             qualidade antes de iniciar o fine-tuning

print("=" * 80)
print("üîç VERIFICA√á√ÉO FINAL - AMOSTRA DE DADOS PROCESSADOS")
print("=" * 80)
print(f"Exibindo as primeiras 3 entradas do dataset processado")
print(f"(Total de {len(processed_data)} entradas dispon√≠veis)")
print("=" * 80)

# Itera sobre as primeiras 3 entradas processadas
# [:3] pega apenas os primeiros 3 elementos da lista
for i, entry in enumerate(processed_data[:3], start=1):
    print(f"\nüìÑ ENTRADA {i} de 3")
    print("-" * 80)
    print(f"ID do artigo: {entry['id']}")
    print(f"Tamanho do input: {len(entry['input'])} caracteres")
    print(f"\nPreview do input (primeiros 300 caracteres):")
    print("-" * 80)
    print(entry['input'][:300] + "...")
    print("-" * 80)

print("\n" + "=" * 80)
print("‚úÖ Verifica√ß√£o conclu√≠da!")
print("=" * 80)
print("\nüí° DICAS:")
print("   - Verifique se os delimitadores [|Contexto|], [|Pergunta|], etc. est√£o presentes")
print("   - Confirme que dados sens√≠veis foram anonimizados corretamente")
print("   - Valide que o formato est√° consistente entre todas as entradas")
print("=" * 80)
