# **PREPROCESAMIENTO DE IMÁGENES**

In [62]:
import os
import pandas as pd
import numpy as np
from pathlib import Path
from datetime import datetime
from tqdm import tqdm

from sklearn.experimental import enable_iterative_imputer  # noqa
from sklearn.impute import IterativeImputer
from sklearn.preprocessing import StandardScaler

In [63]:
# [Config] Rutas
# Ajusta estas rutas según tu estructura
BASE_IMAGES_DIR = Path(r"C:\Users\Hp\MACHINE\MRI\Datos\IMAGES")   # ya usado en df['ruta'] (puede ser relativo)
NOTEBOOKS_DIR = Path(r"C:\Users\Hp\MACHINE\MRI\notebooks")
OUT_DIR = Path(r"C:\Users\Hp\MACHINE\MRI\datos\procesadas")      # donde dejaremos los .npy después
OUT_DIR.mkdir(parents=True, exist_ok=True)
df = pd.read_csv("../Datos/Clinical/ADNI_Images.csv")

In [64]:
df.shape

(283, 35)

## Rutas a archivos y estandarización de variables

_____________
* 1. Verificar y normalizar rutas a archivos .nii

In [65]:
# Normalizar rutas a los archivos nii
def normalize_path(p):
    # convierte rutas relativas con .. y / a una Path absoluta
    p = str(p)
    # Reemplaza barras si vienen con mayúsculas, espacios extra, etc.
    return Path(p.replace("/", os.sep)).resolve()
df['ruta_abs'] = df['ruta'].apply(lambda p: normalize_path(p) if pd.notnull(p) else p)
df['archivo'] = df['archivo'].astype(str)

________
* 2. Crear identificadores y nombres de salida

In [66]:
# Normalizamos campos clave
df['sujeto_id'] = df['sujeto_id'].astype(str)
df['VISCODE'] = df['VISCODE'].astype(str)
# EXAMDATE -> intentar parsear (si ya es datetime, no cambia)
def parse_date(x):
    if pd.isnull(x): 
        return pd.NaT
    if isinstance(x, (datetime, pd.Timestamp)):
        return pd.to_datetime(x)
    # probar distintos formatos comunes
    for fmt in ("%Y-%m-%d", "%Y/%m/%d", "%d-%m-%Y", "%Y-%m-%d %H:%M:%S", "%Y-%m-%dT%H:%M:%S"):
        try:
            return pd.to_datetime(x, format=fmt)
        except Exception:
            pass
    return pd.to_datetime(x, errors='coerce')

df['EXAMDATE_parsed'] = df['EXAMDATE'].apply(parse_date)

In [67]:
# id_visita = sujetoid_VISCODE
df['id_visita'] = df['sujeto_id'] + "_" + df['VISCODE']
# fname_out (sin subcarpetas): sujetoid_EXAMDATE_VISCODE_archivoSinExt.npy
def safe_fname(s):
    # quita espacios, reemplaza / : etc
    return "".join(c if c.isalnum() or c in ("-", "_") else "_" for c in s)

def make_output_fname(row):
    subj = row['sujeto_id']
    vis = row['VISCODE']
    examdate = row['EXAMDATE_parsed']
    exam_str = examdate.strftime("%Y%m%d") if pd.notnull(examdate) else "noDate"
    arch = Path(row['archivo']).stem
    fname = f"{subj}_{exam_str}_{vis}_{arch}.npy"
    return safe_fname(fname)

df['fname_out'] = df.apply(make_output_fname, axis=1)
df['ruta_npy'] = df['fname_out'].apply(lambda s: OUT_DIR / s)


In [68]:
# Guardamos manifest preliminar (sin procesar imágenes aún)
manifest_pre = df[['sujeto_id','id_visita','VISCODE','EXAMDATE','EXAMDATE_parsed','archivo','ruta','ruta_abs','ruta_npy','DX']]
manifest_pre.to_csv(OUT_DIR / "manifest_preprocesamiento.csv", index=False)
print("Manifest preliminar guardado en:", OUT_DIR / "manifest_preprocesamiento.csv")


Manifest preliminar guardado en: C:\Users\Hp\MACHINE\MRI\datos\procesadas\manifest_preprocesamiento.csv


____________
* 3. Construir etiquetas binarias

In [69]:
# Definimos mapa VISCODE -> meses
viscode_to_month = {'bl':0, 'm06':6, 'm12':12, 'm18':18, 'm24':24, 'm30':30, 'm36':36}
df['vis_month'] = df['VISCODE'].map(viscode_to_month)



In [70]:
def dx_is_dementia(dx):
    if pd.isnull(dx):
        return np.nan
    s = str(dx).lower()
    if 'dementia' in s:
        return 1
    if 'mci' in s:
        return 0
    return np.nan
df['is_dementia'] = df['DX'].apply(dx_is_dementia)

In [84]:
# Construir label por sujeto:
# Regla: si sujeto presenta transición de non-dementia -> dementia en algún vis <=36 meses -> label 1.
# Implementación simplificada:
labels = []
subjects = df['sujeto_id'].unique()
for subj in tqdm(subjects, desc="Calculando labels por sujeto"):
    subdf = df[df['sujeto_id']==subj].copy()
    # orden por vis_month (si NaN, orden por EXAMDATE_parsed)
    if subdf['vis_month'].notna().any():
        subdf = subdf.sort_values(by=['vis_month','EXAMDATE_parsed'])
    else:
        subdf = subdf.sort_values(by='EXAMDATE_parsed')
    # buscamos primer visita con is_dementia==1 y su mes
    # y primer visita con is_dementia==0 (baseline non-dementia)
    baseline_non_d = subdf[subdf['is_dementia']==0]
    first_non_d = None
    if not baseline_non_d.empty:
        # preferir VISCODE 'bl' si existe
        if (baseline_non_d['VISCODE'].str.lower()=='bl').any():
            first_non_d = baseline_non_d[baseline_non_d['VISCODE'].str.lower()=='bl'].iloc[0]
        else:
            first_non_d = baseline_non_d.iloc[0]
    # buscar conversion
    converted = False
    conversion_info = None
    # consideramos cualquier visita con is_dementia==1 y vis_month <= 36
    dem_vis = subdf[subdf['is_dementia']==1]
    if not dem_vis.empty:
        # si hay baseline non-dementia, la conversión debe ocurrir tras baseline
        if first_non_d is not None:
            # buscar dem_vis cuya month >= baseline month y <=36
            base_month = first_non_d.get('vis_month', 0) if pd.notnull(first_non_d.get('vis_month', np.nan)) else 0
            # candidate dem_vis posteriores
            for _, r in dem_vis.iterrows():
                month = r.get('vis_month', np.nan)
                if pd.isna(month):
                    # si no hay month, intentar por fecha diff
                    if pd.notnull(first_non_d['EXAMDATE_parsed']) and pd.notnull(r['EXAMDATE_parsed']):
                        diff_months = (r['EXAMDATE_parsed'].year - first_non_d['EXAMDATE_parsed'].year)*12 + (r['EXAMDATE_parsed'].month - first_non_d['EXAMDATE_parsed'].month)
                        month = diff_months
                # now check range
                if pd.notnull(month) and (month >= base_month) and (month <= 36):
                    converted = True
                    conversion_info = (r['VISCODE'], month, r['EXAMDATE_parsed'])
                    break
        else:
            # No baseline non-dementia conocido: fallback -> if any dem_vis within <=36 -> label may be ambiguous:
            # we'll mark converted if there's any dem_vis with vis_month<=36
            for _, r in dem_vis.iterrows():
                month = r.get('vis_month', np.nan)
                if pd.notnull(month) and month <= 36:
                    converted = True
                    conversion_info = (r['VISCODE'], month, r['EXAMDATE_parsed'])
                    break
    # Save label for all rows of this subject (we attach label at image-row level later)
    labels.append({'sujeto_id': subj, 'label_progresion': int(converted), 'conversion_info': conversion_info})

labels_df = pd.DataFrame(labels)
print("Labels por sujeto (ejemplo):")
display(labels_df.head(10))

Calculando labels por sujeto: 100%|██████████| 53/53 [00:00<00:00, 262.48it/s]

Labels por sujeto (ejemplo):





Unnamed: 0,sujeto_id,label_progresion,conversion_info
0,007_S_0101,1,"(m24, 24, 2007-12-12 00:00:00)"
1,007_S_0128,1,"(m18, 18, 2007-08-20 00:00:00)"
2,007_S_0249,1,"(m12, 12, 2007-04-03 00:00:00)"
3,013_S_0240,1,"(m18, 18, 2007-10-31 00:00:00)"
4,014_S_0169,0,
5,018_S_0057,1,"(m18, 18, 2007-08-21 00:00:00)"
6,018_S_0080,0,
7,018_S_0087,0,
8,018_S_0103,0,
9,018_S_0142,0,


In [72]:
# Merge back al df (por sujeto_id)
df = df.merge(labels_df[['sujeto_id','label_progresion']], on='sujeto_id', how='left')

# Guardar manifest con label
manifest_final = df[['sujeto_id','id_visita','VISCODE','EXAMDATE','EXAMDATE_parsed','archivo','ruta_abs','ruta_npy','DX','is_dementia','label_progresion']]
manifest_final.to_csv(OUT_DIR / "manifest_labels.csv", index=False)
print("Manifest final con labels guardado en:", OUT_DIR / "manifest_labels.csv")

# Resumen de labels
print("Resumen labels (por sujeto):")
display(labels_df['label_progresion'].value_counts(dropna=False))

# Guardamos también un CSV de sujetos con label para inspección
labels_df.to_csv(OUT_DIR / "labels_por_sujeto.csv", index=False)
print("CSV labels por sujeto guardado en:", OUT_DIR / "labels_por_sujeto.csv")

Manifest final con labels guardado en: C:\Users\Hp\MACHINE\MRI\datos\procesadas\manifest_labels.csv
Resumen labels (por sujeto):


label_progresion
0    31
1    22
Name: count, dtype: int64

CSV labels por sujeto guardado en: C:\Users\Hp\MACHINE\MRI\datos\procesadas\labels_por_sujeto.csv


## Valores nulos e imputación

____________
* 1. Exploración de valores nulos

In [79]:
# Análisis de variables nulas 
cognitivas = [
    "CDRSB", #"Suma de cajas del Clinical Dementia Rating (CDR); mide la severidad de la demencia.",
    "MMSE", #"Mini-Mental State Examination; evaluación global del estado cognitivo (máx. 30 puntos).",
    "ADAS13", #"Alzheimer’s Disease Assessment Scale – 13 ítems; mide deterioro cognitivo en Alzheimer.",
    "FAQ", #"Functional Activities Questionnaire; evalúa la capacidad funcional en actividades diarias.",
    "RAVLT_immediate", # "Puntuación inmediata en la prueba verbal de aprendizaje (Rey Auditory Verbal Learning Test).",
    "RAVLT_learning", # "Puntuación de aprendizaje acumulado en RAVLT; mide retención verbal.",
    "RAVLT_forgetting", # "Índice de olvido en RAVLT; diferencia entre aprendizaje y recuerdo tardío.",
    "DIGITSCOR", #"Digit Span Score; mide memoria de trabajo y atención mediante secuencias numéricas.",
    "TRABSCOR", # "Trail Making Test B Score; evalúa función ejecutiva y flexibilidad cognitiva.",
]
volumen = [
    "Ventricles", # "Volumen de los ventrículos cerebrales; puede indicar atrofia cerebral.",
    "Hippocampus", # "Volumen del hipocampo; clave en memoria y afectado en Alzheimer.",
    "WholeBrain", # "Volumen total del cerebro; útil para evaluar atrofia global.",
    "Entorhinal", # "Volumen de la corteza entorrinal; región afectada tempranamente en Alzheimer.",
    "Fusiform", #"Volumen del giro fusiforme; relacionado con reconocimiento visual.",
    "MidTemp", # "Volumen del lóbulo temporal medio; implicado en memoria y procesamiento auditivo.",
    "ICV", #"Volumen intracraneal total; usado para normalizar medidas volumétricas."
]

In [80]:
def resumen_nulos(df, variables, nombre_grupo):
    # Asegurar que las variables existan en el DataFrame
    variables = [v for v in variables if v in df.columns]
    print('-'*50)
    print(f"Variables consideradas ({nombre_grupo}): \n{variables}")

    # Conteo y proporción de nulos
    nulos_totales = df[variables].isna().sum()
    proporcion_nulos = df[variables].isna().mean() * 100

    # Mostrar resumen
    resumen = pd.DataFrame({
        "nulos": nulos_totales,
        "porcentaje": proporcion_nulos.round(2)
    }).sort_values("porcentaje", ascending=False)

    print("\nResumen de nulos por variable:")
    print(resumen)

    # Filas con al menos un nulo en ese grupo
    df[f"nulos_{nombre_grupo}"] = df[variables].isna().any(axis=1)
    total_filas_nulas = df[f"nulos_{nombre_grupo}"].sum()
    porcentaje_filas_nulas = df[f"nulos_{nombre_grupo}"].mean() * 100

    print(f"\nFilas con al menos un nulo en {nombre_grupo}: {total_filas_nulas}")
    print(f"Proporción total: {porcentaje_filas_nulas:.2f}%")

print('-'*50)
print('Valores nulos')
resumen_nulos(df, cognitivas, "cognitivas")
resumen_nulos(df, volumen, "volumen")

--------------------------------------------------
Valores nulos
--------------------------------------------------
Variables consideradas (cognitivas): 
['CDRSB', 'MMSE', 'ADAS13', 'FAQ', 'RAVLT_immediate', 'RAVLT_learning', 'RAVLT_forgetting', 'DIGITSCOR', 'TRABSCOR']

Resumen de nulos por variable:
                  nulos  porcentaje
FAQ                  31       10.95
ADAS13               29       10.25
CDRSB                 0        0.00
MMSE                  0        0.00
RAVLT_immediate       0        0.00
RAVLT_learning        0        0.00
RAVLT_forgetting      0        0.00
DIGITSCOR             0        0.00
TRABSCOR              0        0.00

Filas con al menos un nulo en cognitivas: 32
Proporción total: 11.31%
--------------------------------------------------
Variables consideradas (volumen): 
['Ventricles', 'Hippocampus', 'WholeBrain', 'Entorhinal', 'Fusiform', 'MidTemp', 'ICV']

Resumen de nulos por variable:
             nulos  porcentaje
Ventricles       0         0.

In [81]:

def imputar_y_normalizar(df, variables, nombre_grupo, out_dir=None):
   
    print('-'*50)
    # Filtrar solo variables numéricas válidas
    variables_num = [v for v in variables if v in df.columns and df[v].dtype.kind in "iufc"]
    print(f"Variables numéricas para imputación ({nombre_grupo}):\n{variables_num}")

    # Subset de datos
    datos = df[variables_num].copy()

    # Imputación multivariada
    # Modelo bayesiano iterativo para predecir valores faltantes en función de las demás variables.
    imputer = IterativeImputer(random_state=42, max_iter=20, sample_posterior=True)
    datos_imputados = imputer.fit_transform(datos)

    # Convertir a DataFrame imputado
    df_imputado = pd.DataFrame(datos_imputados, columns=variables_num, index=df.index)

    # Reemplazar en el DataFrame original
    for v in variables_num:
        df[v] = df_imputado[v]

    print("✅ Imputación completada.")

    # Normalización z-score
    scaler = StandardScaler()
    df_std = pd.DataFrame(
        scaler.fit_transform(df[variables_num]),
        columns=[v + "_std" for v in variables_num],
        index=df.index
    )

    # Concatenar al DataFrame original
    df = pd.concat([df, df_std], axis=1)

    # Guardar salida si se especifica ruta
    if out_dir:
        nombre_archivo = f"manifest_{nombre_grupo}_imputadas.csv"
        ruta_out = out_dir / nombre_archivo
        df.to_csv(ruta_out, index=False)
        print(f"\n📁 Archivo guardado en: {ruta_out}")

    return df

print('Imputación')
df = imputar_y_normalizar(df, cognitivas, "cognitivas", OUT_DIR)
df = imputar_y_normalizar(df, volumen, "volumen", OUT_DIR)

Imputación
--------------------------------------------------
Variables numéricas para imputación (cognitivas):
['CDRSB', 'MMSE', 'ADAS13', 'FAQ', 'RAVLT_immediate', 'RAVLT_learning', 'RAVLT_forgetting', 'DIGITSCOR', 'TRABSCOR']
✅ Imputación completada.

📁 Archivo guardado en: C:\Users\Hp\MACHINE\MRI\datos\procesadas\manifest_cognitivas_imputadas.csv
--------------------------------------------------
Variables numéricas para imputación (volumen):
['Ventricles', 'Hippocampus', 'WholeBrain', 'Entorhinal', 'Fusiform', 'MidTemp', 'ICV']
✅ Imputación completada.

📁 Archivo guardado en: C:\Users\Hp\MACHINE\MRI\datos\procesadas\manifest_volumen_imputadas.csv


In [82]:
print("-" * 30)
print("📁 Valores nulos:")
print(f"Variables con valores nulos:")
nulos = df.isna().sum()
porcentaje = (nulos / len(df)) * 100
tabla_nulos = pd.DataFrame({
    "Variable": nulos.index,
    "Cantidad_nulos": nulos.values,
    "Porcentaje_nulos": porcentaje.round(2)
})
tabla_nulos = tabla_nulos[tabla_nulos["Cantidad_nulos"] > 0]
tabla_nulos = tabla_nulos.sort_values(by="Cantidad_nulos", ascending=False).reset_index(drop=True)
tabla_nulos

------------------------------
📁 Valores nulos:
Variables con valores nulos:


Unnamed: 0,Variable,Cantidad_nulos,Porcentaje_nulos
0,DX,28,9.89
1,is_dementia,28,9.89


In [78]:
df.columns.to_list()

['sujeto_id',
 'shape',
 'voxel_size',
 'datatype',
 'voxel_volume_mm3',
 'total_volume',
 'mean_intensity',
 'std_intensity',
 'orientation',
 'units',
 'archivo',
 'ruta',
 'VISCODE',
 'EXAMDATE',
 'DX',
 'AGE',
 'PTGENDER',
 'PTEDUCAT',
 'APOE4',
 'CDRSB',
 'MMSE',
 'ADAS13',
 'FAQ',
 'RAVLT_immediate',
 'RAVLT_learning',
 'RAVLT_forgetting',
 'DIGITSCOR',
 'TRABSCOR',
 'Ventricles',
 'Hippocampus',
 'WholeBrain',
 'Entorhinal',
 'Fusiform',
 'MidTemp',
 'ICV',
 'ruta_abs',
 'EXAMDATE_parsed',
 'id_visita',
 'fname_out',
 'ruta_npy',
 'vis_month',
 'is_dementia',
 'label_progresion',
 'nulos_cognitivas',
 'nulos_volumen',
 'CDRSB_std',
 'MMSE_std',
 'RAVLT_immediate_std',
 'RAVLT_learning_std',
 'RAVLT_forgetting_std',
 'DIGITSCOR_std',
 'TRABSCOR_std',
 'Ventricles_std',
 'Hippocampus_std',
 'WholeBrain_std',
 'Entorhinal_std',
 'Fusiform_std',
 'MidTemp_std',
 'ICV_std']