# Preparación y División de Datos para DiaMond

Este notebook ejecuta el proceso de división de datos para el proyecto DiaMond, utilizando el script `process_data.py`.

In [24]:
import sys
import os

sys.path.append("../")
from src.data.process_data import process_metadata
import sys
import pandas as pd

## Configuración de parámetros

Ajustar estos parámetros según la estructura de su proyecto y sus necesidades.

In [25]:
# Configuración de rutas y parámetros
METADATA_PATH = "../data/processed/metadata.csv"  # Ruta al archivo CSV de metadatos
DATA_DIR = "../data/raw"  # Directorio con datos crudos
OUTPUT_DIR = "../data/processed"  # Directorio para archivos HDF5 procesados

# Parámetros adicionales
TEST_SIZE = 0.2  # Proporción del conjunto de prueba
VALID_SIZE = 0.15  # Proporción del conjunto de validación
RANDOM_SEED = 42  # Semilla aleatoria para reproducibilidad
N_SPLITS = 5  # Número de divisiones para validación cruzada

## Ejecución del procesamiento de datos

In [26]:
metadata = process_metadata(METADATA_PATH)

In [27]:
df = pd.read_csv(METADATA_PATH)

# Filtrar solo las filas con rutas válidas
df = df[df["mri_path"].notna() & df["pet_path"].notna()]
df

Unnamed: 0,subject_id,diagnosis,has_metadata,mri_path,pet_path,Image Data ID,Group,Sex,Age,Visit,Modality,Description,Type,Acq Date,Format,Downloaded
0,003_S_1059,AD,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I29247,AD,F,85,sc,MRI,B1-calibration Body,Original,11/09/2006,DCM,3/12/2025
1,003_S_1059,AD,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I29251,AD,F,85,sc,MRI,MPRAGE Repeat,Original,11/09/2006,DCM,3/12/2025
2,003_S_1059,AD,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I29248,AD,F,85,sc,MRI,B1-calibration Head,Original,11/09/2006,DCM,3/12/2025
3,003_S_1059,AD,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I36366,AD,F,85,bl,PET,PET WB,Original,1/10/2007,DCM,3/12/2025
4,003_S_1059,AD,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I29252,AD,F,85,sc,MRI,MPRAGE,Original,11/09/2006,DCM,3/12/2025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
308,109_S_0967,CN,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I27634,CN,M,77,sc,MRI,B1-calibration Body,Original,10/23/2006,DCM,3/12/2025
309,109_S_0967,CN,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I29656,CN,M,77,bl,PET,30 MIN 3D FDG 6i/16s,Original,11/15/2006,ECAT,3/12/2025
310,109_S_0967,CN,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I27639,CN,M,77,sc,MRI,MPRAGE Repeat,Original,10/23/2006,DCM,3/12/2025
311,109_S_0967,CN,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I27635,CN,M,77,sc,MRI,B1-calibration Head,Original,10/23/2006,DCM,3/12/2025


In [29]:
# Clear, remove subject_id duplicates
df = df.drop_duplicates(subset="subject_id")
df

Unnamed: 0,subject_id,diagnosis,has_metadata,mri_path,pet_path,Image Data ID,Group,Sex,Age,Visit,Modality,Description,Type,Acq Date,Format,Downloaded
0,003_S_1059,AD,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I29247,AD,F,85,sc,MRI,B1-calibration Body,Original,11/09/2006,DCM,3/12/2025
31,005_S_0610,CN,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I17304,CN,M,79,sc,MRI,MP-RAGE REPEAT,Original,6/21/2006,DCM,3/12/2025
137,024_S_0985,CN,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I27607,CN,M,80,sc,MRI,MP-RAGE,Original,10/20/2006,DCM,3/12/2025
201,036_S_0672,CN,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I20470,CN,F,62,bl,PET,30 MIN 3D FDG 4i/16s,Original,8/14/2006,ECAT,3/12/2025
206,036_S_0760,AD,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I24208,AD,F,70,bl,PET,30 MIN 3D FDG 4i/16s,Original,9/13/2006,ECAT,3/12/2025
211,036_S_0813,CN,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I23374,CN,M,73,sc,MRI,MPRAGE Repeat,Original,8/25/2006,DCM,3/12/2025
224,041_S_0549,MCI,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I16930,MCI,M,69,sc,MRI,B1-calibration Body,Original,6/13/2006,DCM,3/12/2025
229,041_S_0898,CN,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I26561,CN,F,83,sc,MRI,MPRAGE Repeat,Original,10/18/2006,DCM,3/12/2025
234,041_S_1411,MCI,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I76843,MCI,M,74,bl,PET,30 min 3D FDG 4i/16s,Original,10/05/2007,ECAT,3/12/2025
279,094_S_0531,MCI,True,/Users/nacho/Desktop/code/DiaMond/data/process...,/Users/nacho/Desktop/code/DiaMond/data/process...,I15433,MCI,F,74,sc,MRI,B1-Calibration Body,Original,5/16/2006,DCM,3/12/2025


## Verificación de resultados

Comprobación de los archivos HDF5 generados

In [None]:
import glob
import h5py

# Listar archivos HDF5 generados
h5_files = glob.glob(f"{OUTPUT_DIR}/*.h5")
print(f"Archivos HDF5 generados: {len(h5_files)}")

# Mostrar información sobre cada archivo
for h5_file in h5_files:
    with h5py.File(h5_file, "r") as f:
        num_subjects = f["stats"].attrs.get("num_subjects", 0)
        print(f"\nArchivo: {os.path.basename(h5_file)}")
        print(f"Número de sujetos: {num_subjects}")

        # Mostrar distribución de diagnósticos
        print("Distribución de diagnósticos:")
        for attr_name in f["stats"].attrs:
            if attr_name.startswith("count_"):
                dx = attr_name.replace("count_", "")
                count = f["stats"].attrs[attr_name]
                print(f"  - {dx}: {count}")