# Notebook 02: Processamento de Dados M√©dicos

Este notebook processa os dados m√©dicos carregados no notebook anterior. Aqui vamos:

1. **Anonimizar** dados sens√≠veis (conformidade LGPD/HIPAA)
2. **Processar** cada entrada do dataset
3. **Limpar** e normalizar textos
4. **Dividir** textos em chunks otimizados
5. **Validar** qualidade dos dados processados

## üìã Pr√©-requisitos

- Notebook 01 executado com sucesso (dataset carregado)
- Vari√°veis de ambiente configuradas
- Depend√™ncias instaladas

## üîÑ Ordem de Execu√ß√£o

Execute as c√©lulas **sequencialmente** (de cima para baixo).


In [None]:
# ============================================================================
# ETAPA 0: IMPORTA√á√ÉO DE BIBLIOTECAS E CONFIGURA√á√ïES
# ============================================================================

import sys
from pathlib import Path

# Adiciona o diret√≥rio raiz ao path
root_dir = Path.cwd().parent
sys.path.insert(0, str(root_dir))

# Importa m√≥dulos do pipeline RAG
from scripts.data_loader import load_medical_dataset
from scripts.data_processor import (
    process_medical_entry,
    process_batch,
    filter_valid_entries
)
from scripts.text_splitter import MedicalTextSplitter, create_text_splitter
from config.settings import get_settings

# Carrega configura√ß√µes
settings = get_settings()

print("‚úÖ Bibliotecas importadas com sucesso!")


In [None]:
# ============================================================================
# ETAPA 1: CARREGAMENTO DO DATASET (SE N√ÉO J√Å CARREGADO)
# ============================================================================
# Se voc√™ executou o notebook 01, pode pular esta c√©lula
# Caso contr√°rio, execute para carregar o dataset

# Descomente as linhas abaixo se necess√°rio:
# data_path = settings.MEDICAL_DATA_PATH
# raw_data = load_medical_dataset(data_path)
# print(f"‚úÖ Dataset carregado: {len(raw_data)} entradas")

# Se voc√™ j√° tem raw_data do notebook anterior, apenas confirme:
try:
    print(f"‚úÖ Dataset j√° carregado: {len(raw_data)} entradas")
except NameError:
    print("‚ö†Ô∏è  Execute a c√©lula acima para carregar o dataset")
    raise


In [None]:
# ============================================================================
# ETAPA 2: PROCESSAMENTO DE DADOS M√âDICOS
# ============================================================================
# Esta etapa processa cada entrada do dataset:
# - Combina m√∫ltiplos contextos em texto √∫nico
# - Aplica anonimiza√ß√£o de dados sens√≠veis
# - Formata metadados estruturados
# - Prepara dados para embedding

print("=" * 80)
print("üîÑ PROCESSANDO DADOS M√âDICOS")
print("=" * 80)
print(f"Total de entradas a processar: {len(raw_data)}")
print(f"Anonimiza√ß√£o: Habilitada (conformidade LGPD/HIPAA)")
print("-" * 80)

# Processa todas as entradas em lote
processed_entries = process_batch(
    raw_data,
    anonymize=True,  # Habilita anonimiza√ß√£o
    show_progress=True
)

print(f"\n‚úÖ Processamento conclu√≠do!")
print(f"   Entradas processadas: {len(processed_entries)}")
print("=" * 80)


In [None]:
# ============================================================================
# ETAPA 3: FILTRAGEM DE ENTRADAS V√ÅLIDAS
# ============================================================================
# Remove entradas muito curtas ou inv√°lidas que n√£o s√£o adequadas
# para embedding e busca

print("=" * 80)
print("üîç FILTRANDO ENTRADAS V√ÅLIDAS")
print("=" * 80)

total_before = len(processed_entries)
min_text_length = 50  # Tamanho m√≠nimo em caracteres

valid_entries = filter_valid_entries(
    processed_entries,
    min_text_length=min_text_length
)

total_after = len(valid_entries)
removed = total_before - total_after

print(f"Entradas antes da filtragem: {total_before}")
print(f"Entradas ap√≥s filtragem: {total_after}")
print(f"Entradas removidas: {removed} (muito curtas ou inv√°lidas)")
print(f"Taxa de reten√ß√£o: {total_after/total_before*100:.1f}%")
print("=" * 80)


In [None]:
# ============================================================================
# ETAPA 4: DIVIS√ÉO EM CHUNKS
# ============================================================================
# Divide textos longos em chunks menores para otimizar:
# - Embedding (chunks menores s√£o mais eficientes)
# - Busca (recupera√ß√£o mais precisa)
# - Armazenamento (melhor uso do Pinecone)

print("=" * 80)
print("‚úÇÔ∏è  DIVIDINDO TEXTOS EM CHUNKS")
print("=" * 80)
print(f"Chunk size: {settings.CHUNK_SIZE} caracteres")
print(f"Chunk overlap: {settings.CHUNK_OVERLAP} caracteres")
print("-" * 80)

# Cria divisor de texto
text_splitter = create_text_splitter(
    chunk_size=settings.CHUNK_SIZE,
    chunk_overlap=settings.CHUNK_OVERLAP
)

# Divide todas as entradas em chunks
all_chunks = text_splitter.split_batch(
    valid_entries,
    preserve_metadata=True,
    show_progress=True
)

print(f"\n‚úÖ Divis√£o em chunks conclu√≠da!")
print(f"   Entradas originais: {len(valid_entries)}")
print(f"   Total de chunks gerados: {len(all_chunks)}")
print(f"   M√©dia de chunks por entrada: {len(all_chunks)/len(valid_entries):.2f}")
print("=" * 80)


In [None]:
# ============================================================================
# ETAPA 5: VISUALIZA√á√ÉO DE EXEMPLOS PROCESSADOS
# ============================================================================
# Exibe exemplos de chunks processados para verifica√ß√£o visual

print("=" * 80)
print("üìÑ EXEMPLOS DE CHUNKS PROCESSADOS")
print("=" * 80)

# Mostra alguns exemplos
for i, chunk in enumerate(all_chunks[:3], 1):
    print(f"\n{'='*80}")
    print(f"CHUNK {i}")
    print(f"{'='*80}")
    print(f"Article ID: {chunk['article_id']}")
    print(f"Chunk Index: {chunk['chunk_index']}")
    print(f"Tamanho: {len(chunk['text'])} caracteres")
    print(f"\nTexto (primeiros 300 caracteres):")
    print(f"{chunk['text'][:300]}...")
    print(f"\nMetadados:")
    for key, value in chunk['metadata'].items():
        if isinstance(value, str) and len(value) > 100:
            print(f"  {key}: {value[:100]}...")
        else:
            print(f"  {key}: {value}")

print(f"\n{'='*80}")
print("‚úÖ Visualiza√ß√£o conclu√≠da!")
print("=" * 80)


## ‚úÖ Conclus√£o da Etapa 2

Neste notebook voc√™:
- ‚úÖ Processou todas as entradas do dataset
- ‚úÖ Aplicou anonimiza√ß√£o de dados sens√≠veis
- ‚úÖ Filtrou entradas inv√°lidas
- ‚úÖ Dividiu textos em chunks otimizados
- ‚úÖ Validou a qualidade dos dados processados

## üìå Pr√≥ximos Passos

Agora voc√™ est√° pronto para o pr√≥ximo notebook:
- **Notebook 03**: Gera√ß√£o de embeddings e ingest√£o no Pinecone
- Conex√£o com Pinecone
- Gera√ß√£o de embeddings
- Ingest√£o em lotes
