# split_check - Notebook de uso (replica do original)

Este notebook reproduz os passos do notebook original: divis√£o por paciente, verifica√ß√µes de vazamento (patient/study/filestem/duplicatas/temporal), e prepara√ß√£o do dataset no formato YOLO.

ATEN√á√ÉO: este notebook pressup√µe que o arquivo `dataset.csv` foi obtido do site oficial do dataset. Por favor baixe o dataset no site oficial antes de executar (n√£o inclua dados sens√≠veis no reposit√≥rio p√∫blico).

## 1) Prepara√ß√£o do ambiente e imports
Descomente a linha de instala√ß√£o se precisar instalar depend√™ncias a partir de `requirements.txt`.

In [1]:
# Instale depend√™ncias (descomente se necess√°rio)
# %pip install -r requirements.txt

import sys
from pathlib import Path
import importlib.util

# Garantir que o projeto est√° no sys.path para imports locais
proj_root = Path('.').resolve()
if str(proj_root) not in sys.path:
    sys.path.insert(0, str(proj_root))
print('Projeto em', proj_root)

# Importar o m√≥dulo novo (split_check)
import split_check as sc
# Configure logging uma vez para o notebook (prevenindo handlers duplicados)
try:
    sc.configure_logging()
except Exception:
    # configure_logging pode n√£o existir em vers√µes antigas do m√≥dulo; ignorar sem quebrar
    pass
print('split_check vers√£o (m√≥dulo):', getattr(sc, '__version__', 'n/a')) if hasattr(sc, '__version__') else print('split_check importado')

Projeto em C:\Users\rodri\Desktop\GRAZPEDWRI-DX-Split
split_check importado


## 2) Caminhos e configura√ß√£o
Ajuste os caminhos abaixo conforme sua estrutura local.

In [2]:
CSV_PATH = Path('14825193/dataset.csv')
OUTPUT_DIR = Path('splits')
PATIENT_COL = 'patient_id'
STUDY_COL = 'study_number'
DO_ORGANIZE = True  # mudar para True quando quiser copiar imagens/labels
IMG_DIR = Path('images')
LBL_DIR = Path('labels')
DST_ROOT = Path('dataset_yolo')
SEED = 42

print('CSV_PATH:', CSV_PATH)
print('OUTPUT_DIR:', OUTPUT_DIR)
print('Images dir:', IMG_DIR, '\nLabels dir:', LBL_DIR)

CSV_PATH: 14825193\dataset.csv
OUTPUT_DIR: splits
Images dir: images 
Labels dir: labels


## 3) Carregar dataset
Tenta carregar o CSV do dataset; se n√£o encontrado, avisa e interrompe (n√£o gera dados sint√©ticos automaticamente aqui, para evitar confus√£o em produ√ß√£o).

In [3]:
import pandas as pd

try:
    df = sc.load_dataset(CSV_PATH)
except FileNotFoundError as e:
    print('‚ùå', e)
    print('Por favor baixe o dataset no site oficial e coloque em', CSV_PATH)
    raise

# Exibir primeiras linhas e estat√≠sticas b√°sicas
display(df.head(3))
print(f'Total amostras: {len(df)} | pacientes √∫nicos: {df[PATIENT_COL].nunique() if PATIENT_COL in df.columns else "N/A"}')

INFO: Dataset carregado: 20327 amostras, 17 colunas


Unnamed: 0,filestem,patient_id,study_number,timehash,gender,age,laterality,projection,initial_exam,ao_classification,cast,diagnosis_uncertain,osteopenia,fracture_visible,metal,pixel_spacing,device_manufacturer
0,0001_1297860395_01_WRI-L1_M014,1,1,1297860395,M,14.1,L,1,1.0,23r-M/2.1,,,,,,0.144,Siemens
1,0001_1297860435_01_WRI-L2_M014,1,1,1297860435,M,14.1,L,2,1.0,23r-M/2.1,,,,1.0,,0.144,Siemens
2,0002_0354485735_01_WRI-R1_F012,2,1,354485735,F,12.0,R,1,1.0,23r-M/2.1,,1.0,,,,0.144,Siemens


Total amostras: 20327 | pacientes √∫nicos: 6091


## 4) Dividir por paciente (sem vazamento) e salvar splits
Usamos a fun√ß√£o `split_by_patient` do m√≥dulo para obter `train/val/test` e salvamos os CSVs.

In [4]:
# Realizar split
train_df, val_df, test_df = sc.split_by_patient(df, patient_col=PATIENT_COL, seed=SEED)

# Salvar splits
sc.save_splits(train_df, val_df, test_df, out_dir=OUTPUT_DIR, patient_col=PATIENT_COL)


INFO: Split feito: train=14170, val=4118, test=2039 samples
INFO: Splits salvos em splits


## 5) Verifica√ß√µes (patient, study, filestem, duplicatas, temporal)
As verifica√ß√µes abaixo seguem a l√≥gica do notebook original. Algumas checagens apenas imprimem avisos; outras lan√ßam erro se vazamento for encontrado.

In [5]:
# Checagens simples por chaves
keys_to_check = [k for k in [PATIENT_COL, 'study_number', 'filestem', 'filepath'] if k in df.columns]
print('Chaves a checar:', keys_to_check)
sc.check_group_overlap(train_df, val_df, test_df, keys_to_check)

INFO: [patient_id] train‚à©val=0, train‚à©test=0, val‚à©test=0


INFO: [study_number] train‚à©val=11, train‚à©test=9, val‚à©test=9
INFO: [filestem] train‚à©val=0, train‚à©test=0, val‚à©test=0


Chaves a checar: ['patient_id', 'study_number', 'filestem']


In [6]:
# Checagens simples por chaves
keys_to_check = [k for k in [PATIENT_COL, 'study_number', 'filestem', 'filepath'] if k in df.columns]
print('Chaves a checar:', keys_to_check)
sc.check_group_overlap(train_df, val_df, test_df, keys_to_check)

# Checagem por estudo (se existir) ‚Äî garante study_key disjuntas
if 'study_number' in df.columns:
    make_study_key = lambda d: (d[PATIENT_COL].astype(str) + '#' + d['study_number'].astype(str))
    try:
        sc.check_disjoint(make_study_key(train_df), make_study_key(val_df), 'study_key train‚à©val')
        sc.check_disjoint(make_study_key(train_df), make_study_key(test_df), 'study_key train‚à©test')
        sc.check_disjoint(make_study_key(val_df), make_study_key(test_df), 'study_key val‚à©test')
        print('‚úÖ Nenhum vazamento por study_key detectado (se aplic√°vel)')
    except AssertionError as e:
        print('‚ùå Vazamento detectado em study_key:', e)

# Duplicatas exatas (ignorar colunas n√£o relevantes)
ignore_cols = [c for c in ['patient_id','study_number','timehash','filepath'] if c in df.columns]
sc.check_exact_row_duplicates(train_df, val_df, test_df, ignore_cols=ignore_cols)

# Verifica√ß√£o temporal para at√© 3 colunas candidatas
candidate_dates = [c for c in df.columns if any(k in c.lower() for k in ['date','time','timestamp','timehash'])]
if candidate_dates:
    for c in candidate_dates[:3]:
        sc.check_temporal_leakage(train_df, val_df, test_df, datetime_col=c)
else:
    print('Nenhuma coluna temporal detectada.')

INFO: [patient_id] train‚à©val=0, train‚à©test=0, val‚à©test=0
INFO: [study_number] train‚à©val=11, train‚à©test=9, val‚à©test=9
INFO: [filestem] train‚à©val=0, train‚à©test=0, val‚à©test=0
INFO: study_key train‚à©val: 0 interse√ß√µes
INFO: study_key train‚à©test: 0 interse√ß√µes
INFO: study_key val‚à©test: 0 interse√ß√µes
INFO: [duplicatas exatas] train‚à©val=0, train‚à©test=0, val‚à©test=0
INFO: [temporal timehash] max(train)=2011-12-22 01:12:28 | min(val)=1972-06-22 10:11:39 | min(test)=1973-07-13 06:21:15


Chaves a checar: ['patient_id', 'study_number', 'filestem']
‚úÖ Nenhum vazamento por study_key detectado (se aplic√°vel)


## 6) Organiza√ß√£o YOLO (copiar imagens/labels) ‚Äî opcional
Mude `DO_ORGANIZE = True` acima para realmente copiar os arquivos.

In [7]:
if DO_ORGANIZE:
    try:
        sc.organize_yolo(splits_dir=OUTPUT_DIR, src_images=IMG_DIR, src_labels=LBL_DIR, dst_root=DST_ROOT)
        print('‚úÖ Organiza√ß√£o YOLO conclu√≠da em', DST_ROOT)
    except Exception as e:
        print('Erro ao organizar YOLO:', e)
else:
    print('Organiza√ß√£o YOLO desabilitada (DO_ORGANIZE=False)')

INFO: üìÇ Movendo arquivos do split train (14170 amostras)
INFO: üìÇ Movendo arquivos do split val (4118 amostras)
INFO: üìÇ Movendo arquivos do split test (2039 amostras)
INFO: ‚úÖ Organiza√ß√£o YOLO conclu√≠da em dataset_yolo
INFO: Copied original meta.yaml from meta.yaml to dataset_yolo\original_meta.yaml
INFO: Updated data.yaml written to dataset_yolo\data.yaml


‚úÖ Organiza√ß√£o YOLO conclu√≠da em dataset_yolo
