# Notebook 02: Processamento de Dados M√©dicos

Este notebook processa os dados m√©dicos carregados no notebook anterior. Aqui vamos:

1. **Anonimizar** dados sens√≠veis (conformidade LGPD/HIPAA)
2. **Processar** cada entrada do dataset
3. **Limpar** e normalizar textos
4. **Dividir** textos em chunks otimizados
5. **Validar** qualidade dos dados processados

## üìã Pr√©-requisitos

- Notebook 01 executado com sucesso (dataset carregado)
- Vari√°veis de ambiente configuradas
- Depend√™ncias instaladas

## üîÑ Ordem de Execu√ß√£o

Execute as c√©lulas **sequencialmente** (de cima para baixo).


In [6]:
# ============================================================================
# ETAPA 0: IMPORTA√á√ÉO DE BIBLIOTECAS E CONFIGURA√á√ïES
# ============================================================================
# Esta c√©lula importa todas as bibliotecas necess√°rias e configura o ambiente
# Execute esta c√©lula PRIMEIRO antes de qualquer outra opera√ß√£o

import sys
import importlib
from pathlib import Path

# Adiciona o diret√≥rio raiz ao path para importar m√≥dulos
# Quando executado do diret√≥rio notebooks/, o parent √© rag_medical/
root_dir = Path.cwd().parent
if str(root_dir) not in sys.path:
    sys.path.insert(0, str(root_dir))

# Recarrega m√≥dulos se j√° foram importados (√∫til durante desenvolvimento)
# IMPORTANTE: Recarrega na ordem correta (depend√™ncias primeiro)
if 'utils.anonymizer' in sys.modules:
    importlib.reload(sys.modules['utils.anonymizer'])
if 'utils' in sys.modules:
    importlib.reload(sys.modules['utils'])
if 'scripts.data_processor' in sys.modules:
    importlib.reload(sys.modules['scripts.data_processor'])
if 'scripts.data_loader' in sys.modules:
    importlib.reload(sys.modules['scripts.data_loader'])
if 'config.settings' in sys.modules:
    importlib.reload(sys.modules['config.settings'])
if 'config' in sys.modules:
    importlib.reload(sys.modules['config'])

# Importa m√≥dulos do pipeline RAG
from scripts.data_loader import load_medical_dataset
from scripts.data_processor import (
    process_medical_entry,
    process_batch,
    filter_valid_entries
)
from config.settings import get_settings

# Tenta importar text_splitter (pode falhar se depend√™ncias n√£o estiverem instaladas)
try:
    from scripts.text_splitter import MedicalTextSplitter, create_text_splitter
except ImportError as e:
    print(f"‚ö†Ô∏è  Aviso: text_splitter n√£o dispon√≠vel: {e}")
    print("   Voc√™ pode continuar sem ele, mas n√£o poder√° dividir textos em chunks")
    MedicalTextSplitter = None
    create_text_splitter = None

# Carrega configura√ß√µes
settings = get_settings()

# Valida configura√ß√µes b√°sicas (strict=False permite explora√ß√£o sem Pinecone/Embeddings)
is_valid, errors = settings.validate(strict=False)
if not is_valid:
    print("‚ùå ERROS DE CONFIGURA√á√ÉO:")
    for error in errors:
        print(f"   - {error}")
    print("\nüí° Configure as vari√°veis de ambiente no arquivo .env")
    raise ValueError("Configura√ß√µes inv√°lidas")
else:
    print("‚úÖ Configura√ß√µes validadas com sucesso!")
    print(f"üìÅ Arquivo de dados: {settings.MEDICAL_DATA_PATH}")

print("\n‚úÖ Bibliotecas importadas com sucesso!")


‚úÖ Configura√ß√µes validadas com sucesso!
üìÅ Arquivo de dados: /Users/vitorteixeira/Developer/projects/tech_challenge_fase_3_v2/rag_medical/ori_pqal.json

‚úÖ Bibliotecas importadas com sucesso!


In [7]:
# ============================================================================
# ETAPA 1: CARREGAMENTO DO DATASET
# ============================================================================
# Carrega o dataset m√©dico. Se voc√™ j√° executou o notebook 01 e tem
# raw_data em mem√≥ria, esta c√©lula detectar√° e reutilizar√°.
# Caso contr√°rio, carregar√° do arquivo automaticamente.

# Verifica se raw_data j√° est√° carregado (do notebook anterior)
if 'raw_data' not in globals():
    print("üìÇ Carregando dataset do arquivo...")
    data_path = settings.MEDICAL_DATA_PATH
    raw_data = load_medical_dataset(data_path)
    print(f"‚úÖ Dataset carregado: {len(raw_data)} entradas")
else:
    print(f"‚úÖ Dataset j√° carregado (do notebook anterior): {len(raw_data)} entradas")

print(f"üìÅ Arquivo: {settings.MEDICAL_DATA_PATH}")
print("=" * 80)


üìÇ Carregando dataset do arquivo...
‚úÖ Dataset carregado: 1000 entradas
üìÅ Arquivo: /Users/vitorteixeira/Developer/projects/tech_challenge_fase_3_v2/rag_medical/ori_pqal.json


In [8]:
# ============================================================================
# ETAPA 2: PROCESSAMENTO DE DADOS M√âDICOS
# ============================================================================
# Esta etapa processa cada entrada do dataset:
# - Combina m√∫ltiplos contextos em texto √∫nico
# - Aplica anonimiza√ß√£o de dados sens√≠veis
# - Formata metadados estruturados
# - Prepara dados para embedding

print("=" * 80)
print("üîÑ PROCESSANDO DADOS M√âDICOS")
print("=" * 80)
print(f"Total de entradas a processar: {len(raw_data)}")
print(f"Anonimiza√ß√£o: Habilitada (conformidade LGPD/HIPAA)")
print("-" * 80)

# Processa todas as entradas em lote
processed_entries = process_batch(
    raw_data,
    anonymize=True,  # Habilita anonimiza√ß√£o
    show_progress=True
)

print(f"\n‚úÖ Processamento conclu√≠do!")
print(f"   Entradas processadas: {len(processed_entries)}")
print("=" * 80)


üîÑ PROCESSANDO DADOS M√âDICOS
Total de entradas a processar: 1000
Anonimiza√ß√£o: Habilitada (conformidade LGPD/HIPAA)
--------------------------------------------------------------------------------


Processando dados: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1000/1000 [00:00<00:00, 3774.31it/s]


‚úÖ Processamento conclu√≠do!
   Entradas processadas: 1000





In [9]:
# ============================================================================
# ETAPA 3: FILTRAGEM DE ENTRADAS V√ÅLIDAS
# ============================================================================
# Remove entradas muito curtas ou inv√°lidas que n√£o s√£o adequadas
# para embedding e busca

print("=" * 80)
print("üîç FILTRANDO ENTRADAS V√ÅLIDAS")
print("=" * 80)

total_before = len(processed_entries)
min_text_length = 50  # Tamanho m√≠nimo em caracteres

valid_entries = filter_valid_entries(
    processed_entries,
    min_text_length=min_text_length
)

total_after = len(valid_entries)
removed = total_before - total_after

print(f"Entradas antes da filtragem: {total_before}")
print(f"Entradas ap√≥s filtragem: {total_after}")
print(f"Entradas removidas: {removed} (muito curtas ou inv√°lidas)")
print(f"Taxa de reten√ß√£o: {total_after/total_before*100:.1f}%")
print("=" * 80)


üîç FILTRANDO ENTRADAS V√ÅLIDAS
Entradas antes da filtragem: 1000
Entradas ap√≥s filtragem: 1000
Entradas removidas: 0 (muito curtas ou inv√°lidas)
Taxa de reten√ß√£o: 100.0%


In [10]:
# ============================================================================
# ETAPA 4: DIVIS√ÉO EM CHUNKS
# ============================================================================
# Divide textos longos em chunks menores para otimizar:
# - Embedding (chunks menores s√£o mais eficientes)
# - Busca (recupera√ß√£o mais precisa)
# - Armazenamento (melhor uso do Pinecone)

print("=" * 80)
print("‚úÇÔ∏è  DIVIDINDO TEXTOS EM CHUNKS")
print("=" * 80)

# ============================================================================
# VALIDA√á√ÉO: Verifica se valid_entries existe (deve ter sido criado na c√©lula 4)
# ============================================================================
# Esta verifica√ß√£o DEVE ser executada ANTES de qualquer uso de valid_entries
try:
    entries_available = len(valid_entries) > 0
    if not entries_available:
        raise ValueError("valid_entries est√° vazio. Execute a c√©lula 4 primeiro.")
except NameError:
    print("\n" + "=" * 80)
    print("‚ùå ERRO: Vari√°vel 'valid_entries' n√£o encontrada!")
    print("=" * 80)
    print("A vari√°vel 'valid_entries' n√£o est√° definida.")
    print("\nüí° SOLU√á√ÉO:")
    print("Execute as c√©lulas anteriores na ordem:")
    print("   1. C√©lula 1: Importa√ß√£o de bibliotecas (ETAPA 0)")
    print("   2. C√©lula 2: Carregamento do dataset (ETAPA 1)")
    print("   3. C√©lula 3: Processamento de dados (ETAPA 2)")
    print("   4. C√©lula 4: Filtragem de entradas (ETAPA 3) ‚Üê Esta cria 'valid_entries'")
    print("   5. C√©lula 5: Divis√£o em chunks (ETAPA 4) ‚Üê Esta c√©lula")
    print("=" * 80)
    raise NameError(
        "Vari√°vel 'valid_entries' n√£o encontrada. "
        "Execute a c√©lula 4 (ETAPA 3: FILTRAGEM DE ENTRADAS V√ÅLIDAS) primeiro."
    )

# Verifica se text_splitter est√° dispon√≠vel
# Usa verifica√ß√£o segura para evitar NameError se a vari√°vel n√£o foi definida
try:
    text_splitter_available = create_text_splitter is not None
except NameError:
    text_splitter_available = False
    print("‚ö†Ô∏è  ATEN√á√ÉO: Vari√°vel 'create_text_splitter' n√£o encontrada!")
    print("   Execute a c√©lula 1 (ETAPA 0) primeiro para importar as bibliotecas.")
    print("   Continuando sem text_splitter...")

if not text_splitter_available:
    print("‚ö†Ô∏è  text_splitter n√£o dispon√≠vel (depend√™ncias n√£o instaladas ou n√£o importado)")
    print("   Pulando divis√£o em chunks...")
    print("   Usando entradas completas como chunks √∫nicos")
    # Cria chunks simples (uma entrada = um chunk)
    # Nota: valid_entries j√° foi verificado acima, ent√£o est√° dispon√≠vel aqui
    all_chunks = []
    for entry in valid_entries:
        chunk = {
            'text': entry['text'],
            'article_id': entry['article_id'],
            'chunk_index': 0,
            'metadata': entry['metadata']
        }
        all_chunks.append(chunk)
    print(f"\n‚úÖ Usando entradas completas como chunks")
    print(f"   Total de chunks: {len(all_chunks)}")
else:
    print(f"Chunk size: {settings.CHUNK_SIZE} caracteres")
    print(f"Chunk overlap: {settings.CHUNK_OVERLAP} caracteres")
    print("-" * 80)
    
    # Cria divisor de texto
    text_splitter = create_text_splitter(
        chunk_size=settings.CHUNK_SIZE,
        chunk_overlap=settings.CHUNK_OVERLAP
    )
    
    # Divide todas as entradas em chunks
    all_chunks = text_splitter.split_batch(
        valid_entries,
        preserve_metadata=True,
        show_progress=True
    )
    
    print(f"\n‚úÖ Divis√£o em chunks conclu√≠da!")
    print(f"   Entradas originais: {len(valid_entries)}")
    print(f"   Total de chunks gerados: {len(all_chunks)}")
    if len(valid_entries) > 0:
        print(f"   M√©dia de chunks por entrada: {len(all_chunks)/len(valid_entries):.2f}")

print("=" * 80)


‚úÇÔ∏è  DIVIDINDO TEXTOS EM CHUNKS
Chunk size: 512 caracteres
Chunk overlap: 50 caracteres
--------------------------------------------------------------------------------


Dividindo em chunks: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1000/1000 [00:00<00:00, 20590.09it/s]


‚úÖ Divis√£o em chunks conclu√≠da!
   Entradas originais: 1000
   Total de chunks gerados: 5320
   M√©dia de chunks por entrada: 5.32





In [None]:
# ============================================================================
# ETAPA 6: SALVAMENTO DOS CHUNKS (OPCIONAL)
# ============================================================================
# Salva os chunks processados em um arquivo JSON para uso posterior
# Isso permite carregar os chunks no notebook 03 mesmo ap√≥s reiniciar o kernel

import json
from pathlib import Path

# Verifica se all_chunks existe
try:
    chunks_count = len(all_chunks)
    
    # Define o caminho do arquivo (no diret√≥rio raiz do projeto)
    chunks_file = root_dir / 'processed_chunks.json'
    
    print("=" * 80)
    print("üíæ SALVANDO CHUNKS PROCESSADOS")
    print("=" * 80)
    print(f"Total de chunks a salvar: {chunks_count:,}")
    print(f"Arquivo de destino: {chunks_file}")
    print("-" * 80)
    
    # Salva os chunks em arquivo JSON
    with open(chunks_file, 'w', encoding='utf-8') as f:
        json.dump(all_chunks, f, ensure_ascii=False, indent=2)
    
    # Verifica o tamanho do arquivo
    file_size = chunks_file.stat().st_size
    file_size_mb = file_size / (1024 * 1024)
    
    print(f"‚úÖ Chunks salvos com sucesso!")
    print(f"   Arquivo: {chunks_file}")
    print(f"   Tamanho: {file_size_mb:.2f} MB")
    print(f"   Total de chunks: {chunks_count:,}")
    print("\nüí° Agora voc√™ pode:")
    print("   - Carregar este arquivo no notebook 03")
    print("   - Compartilhar os chunks processados")
    print("   - Reutilizar sem reprocessar os dados")
    print("=" * 80)
    
except NameError:
    print("=" * 80)
    print("‚ö†Ô∏è  ATEN√á√ÉO: Vari√°vel 'all_chunks' n√£o encontrada!")
    print("=" * 80)
    print("Execute a c√©lula 5 (ETAPA 4: DIVIS√ÉO EM CHUNKS) primeiro.")
    print("=" * 80)
except Exception as e:
    print("=" * 80)
    print(f"‚ùå ERRO ao salvar chunks: {e}")
    print("=" * 80)
    raise


In [11]:
# ============================================================================
# ETAPA 5: VISUALIZA√á√ÉO DE EXEMPLOS PROCESSADOS
# ============================================================================
# Exibe exemplos de chunks processados para verifica√ß√£o visual

print("=" * 80)
print("üìÑ EXEMPLOS DE CHUNKS PROCESSADOS")
print("=" * 80)

# Mostra alguns exemplos
for i, chunk in enumerate(all_chunks[:3], 1):
    print(f"\n{'='*80}")
    print(f"CHUNK {i}")
    print(f"{'='*80}")
    print(f"Article ID: {chunk['article_id']}")
    print(f"Chunk Index: {chunk['chunk_index']}")
    print(f"Tamanho: {len(chunk['text'])} caracteres")
    print(f"\nTexto (primeiros 300 caracteres):")
    print(f"{chunk['text'][:300]}...")
    print(f"\nMetadados:")
    for key, value in chunk['metadata'].items():
        if isinstance(value, str) and len(value) > 100:
            print(f"  {key}: {value[:100]}...")
        else:
            print(f"  {key}: {value}")

print(f"\n{'='*80}")
print("‚úÖ Visualiza√ß√£o conclu√≠da!")
print("=" * 80)


üìÑ EXEMPLOS DE CHUNKS PROCESSADOS

CHUNK 1
Article ID: 21645374
Chunk Index: 0
Tamanho: 423 caracteres

Texto (primeiros 300 caracteres):
Context: Programmed cell death (PCD) is the regulated death of cells within an organism. The lace plant (Aponogeton madagascariensis) produces perforations in its leaves through PCD. The leaves of the plant consist of a latticework of longitudinal and transverse veins enclosing areoles. PCD occurs i...

Metadados:
  article_id: 21645374
  question: Do mitochondria play a role in remodelling lace plant leaves during programmed cell death?
  source: pubmedqa
  type: medical_qa
  year: 2011
  meshes: Alismataceae, Apoptosis, Cell Differentiation, Mitochondria, Plant Leaves
  labels: BACKGROUND, RESULTS
  final_decision: yes
  reasoning_required: yes
  chunk_index: 0

CHUNK 2
Article ID: 21645374
Chunk Index: 1
Tamanho: 305 caracteres

Texto (primeiros 300 caracteres):
approximately five cells from the vasculature. The role of mitochondria during PCD h

In [12]:
# ============================================================================
# ETAPA 6: SALVAMENTO DOS CHUNKS (OPCIONAL)
# ============================================================================
# Salva os chunks processados em um arquivo JSON para uso posterior
# Isso permite carregar os chunks no notebook 03 mesmo ap√≥s reiniciar o kernel

import json
from pathlib import Path

# Verifica se all_chunks existe
try:
    chunks_count = len(all_chunks)
    
    # Define o caminho do arquivo (no diret√≥rio raiz do projeto)
    chunks_file = root_dir / 'processed_chunks.json'
    
    print("=" * 80)
    print("üíæ SALVANDO CHUNKS PROCESSADOS")
    print("=" * 80)
    print(f"Total de chunks a salvar: {chunks_count:,}")
    print(f"Arquivo de destino: {chunks_file}")
    print("-" * 80)
    
    # Salva os chunks em arquivo JSON
    with open(chunks_file, 'w', encoding='utf-8') as f:
        json.dump(all_chunks, f, ensure_ascii=False, indent=2)
    
    # Verifica o tamanho do arquivo
    file_size = chunks_file.stat().st_size
    file_size_mb = file_size / (1024 * 1024)
    
    print(f"‚úÖ Chunks salvos com sucesso!")
    print(f"   Arquivo: {chunks_file}")
    print(f"   Tamanho: {file_size_mb:.2f} MB")
    print(f"   Total de chunks: {chunks_count:,}")
    print("\nüí° Agora voc√™ pode:")
    print("   - Carregar este arquivo no notebook 03")
    print("   - Compartilhar os chunks processados")
    print("   - Reutilizar sem reprocessar os dados")
    print("=" * 80)
    
except NameError:
    print("=" * 80)
    print("‚ö†Ô∏è  ATEN√á√ÉO: Vari√°vel 'all_chunks' n√£o encontrada!")
    print("=" * 80)
    print("Execute a c√©lula 5 (ETAPA 4: DIVIS√ÉO EM CHUNKS) primeiro.")
    print("=" * 80)
except Exception as e:
    print("=" * 80)
    print(f"‚ùå ERRO ao salvar chunks: {e}")
    print("=" * 80)
    raise

üíæ SALVANDO CHUNKS PROCESSADOS
Total de chunks a salvar: 5,320
Arquivo de destino: /Users/vitorteixeira/Developer/projects/tech_challenge_fase_3_v2/rag_medical/processed_chunks.json
--------------------------------------------------------------------------------
‚úÖ Chunks salvos com sucesso!
   Arquivo: /Users/vitorteixeira/Developer/projects/tech_challenge_fase_3_v2/rag_medical/processed_chunks.json
   Tamanho: 5.76 MB
   Total de chunks: 5,320

üí° Agora voc√™ pode:
   - Carregar este arquivo no notebook 03
   - Compartilhar os chunks processados
   - Reutilizar sem reprocessar os dados


## ‚úÖ Conclus√£o da Etapa 2

Neste notebook voc√™:
- ‚úÖ Processou todas as entradas do dataset
- ‚úÖ Aplicou anonimiza√ß√£o de dados sens√≠veis
- ‚úÖ Filtrou entradas inv√°lidas
- ‚úÖ Dividiu textos em chunks otimizados
- ‚úÖ Validou a qualidade dos dados processados

## üìå Pr√≥ximos Passos

Agora voc√™ est√° pronto para o pr√≥ximo notebook:
- **Notebook 03**: Gera√ß√£o de embeddings e ingest√£o no Pinecone
- Conex√£o com Pinecone
- Gera√ß√£o de embeddings
- Ingest√£o em lotes
