In [173]:
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency, kruskal, mannwhitneyu
#Cargar el excel.
df = pd.read_excel("dataset.xlsx")

In [174]:
#TRATAMIENTO DEL DATASET

In [175]:
# Crear columna de fecha unificada
df["FECHA"] = pd.to_datetime(
    dict(year=df["VISITYR"], month=df["VISITMO"], day=df["VISITDAY"]),
    errors='coerce'
)
# Eliminar las columnas originales de año, mes y día
df = df.drop(columns=["VISITYR", "VISITMO", "VISITDAY"])

In [176]:
#Cambia mi variable sex para que sean valores 0 y 1 como otras categóricas para no perder la coherencia
df["SEX"] = df["SEX"].replace({1: 1, 2: 0})

In [177]:
#Tratamiento de valores faltantes.

In [178]:
#Diccionario con variables que tienen datos distintos a Nan y tendremos que transformar a Nan
valores_faltantes = {
    'CDRSUM': [16.5, 17.5],
    'NACCGDS': [-4, 88],
    'HYPERTEN': [-4, 9, 2],
    'DIABETES': [-4, 9, 2],
    'PD': [-4, 9],
    'STROKE': [-4],
    'RACE': [50, 99],
    'EDUC': [99],
    'NACCAGE': ("range", 18, 120)
}
# Reemplazo esos valores por Nans
for columna, valores in valores_faltantes.items():
    df[columna] = df[columna].replace(valores, np.nan)

print("\nPorcentaje de NaNs por variable:")
porcentaje_nans = df.isna().mean().sort_values(ascending=False) * 100
print(porcentaje_nans)


Porcentaje de NaNs por variable:
STROKE      46.925568
HYPERTEN    40.067023
DIABETES    37.746339
PD          36.974656
NACCGDS     13.692495
NACCAGE      2.684492
RACE         1.632523
EDUC         0.503694
CDRSUM       0.196251
FECHA        0.002562
NACCID       0.001537
SEX          0.001537
dtype: float64


In [179]:
# Número de filas antes de eliminar
print(f"Filas antes de eliminar: {df.shape[0]}")

# Eliminar filas con al menos un NaN en cualquier columna
df = df.dropna()

# Número de filas después de eliminar
print(f"Filas después de eliminar: {df.shape[0]}")

# Variables a comprobar si aún tienen NaNs
variables_a_comprobar = [
    "STROKE", "HYPERTEN", "DIABETES", "PD", "NACCGDS",
    "NACCAGE", "RACE", "EDUC", "CDRSUM", "FECHA", "NACCID", "SEX"
]

# Comprobar y mostrar porcentaje de NaNs restantes en esas columnas
nans_restantes = df[variables_a_comprobar].isna().mean() * 100

if (nans_restantes > 0).any():
    print(nans_restantes[nans_restantes > 0].sort_values(ascending=False))
else:
    print("No quedan NaNs en las variables clave.")


Filas antes de eliminar: 195158
Filas después de eliminar: 83516
No quedan NaNs en las variables clave.


In [180]:
# Contar número de visitas por paciente
visitas_por_paciente = df["NACCID"].value_counts()
# Obtener los pacientes con 3 o más visitas
pacientes_validos = visitas_por_paciente[visitas_por_paciente >= 3].index
# Filtrar el DataFrame para quedarte solo con esos pacientes
df = df[df["NACCID"].isin(pacientes_validos)]
# Mostrar número de filas finales
print(f"Filas tras filtrar pacientes con 3 o más visitas: {df.shape[0]}")

Filas tras filtrar pacientes con 3 o más visitas: 61620


In [181]:
# Calcular número de visitas por paciente
# Agrupa por NACCID y cuenta cuántas visitas o filas tiene cada paciente
visitas_por_paciente = df.groupby("NACCID").size()

# Mezcla el orden de los pacientes para seleccionar un subconjunto aleatorio
pacientes_barajados = visitas_por_paciente.sample(frac=1, random_state=42)

# Inicializar lista de pacientes seleccionados y contador de visitas
pacientes_seleccionados = []
total_filas = 0

# Recorrer pacientes barajados y añadirlos hasta llegar a ~40.000 visitas
for paciente, visitas in pacientes_barajados.items():
    if total_filas + visitas > 40000:
        break  # Detener el bucle si superaríamos las 40.000 filas
    pacientes_seleccionados.append(paciente)  # Añadir paciente a la lista
    total_filas += visitas  # Sumar sus visitas al total acumulado

# Filtrar el DataFrame para conservar solo los pacientes seleccionados
df = df[df["NACCID"].isin(pacientes_seleccionados)]

# Mostrar resultado final
print(f"Filas finales tras recorte a 40.000: {df.shape[0]}")
print(f"Pacientes con ≥3 visitas incluidos: {len(pacientes_seleccionados)}")

Filas finales tras recorte a 40.000: 39998
Pacientes con ≥3 visitas incluidos: 8295


In [182]:
#OBJETIVO 1

In [183]:
#Clasica en 3 grupos la variable principal que es CDRSUM.
def clasificar_gravedad(CDRSUM):
    if CDRSUM <= 4.0:
        return "leve"
    elif CDRSUM <= 9.0:
        return "moderada"
    else:
        return "grave"

#Creo la variable que divide en estos 3 estadios
df["GRAVEDAD_CDRSUM"] = df["CDRSUM"].apply(clasificar_gravedad)

In [184]:
# Contar número de filas por grupo
conteo = df["GRAVEDAD_CDRSUM"].value_counts().sort_index()

print("Número de filas (visitas) por grupo de gravedad:")
print(conteo)

Número de filas (visitas) por grupo de gravedad:
GRAVEDAD_CDRSUM
grave        1682
leve        33521
moderada     4795
Name: count, dtype: int64


In [185]:
# Contar pacientes únicos por grupo de gravedad
pacientes_por_grupo = df.groupby("GRAVEDAD_CDRSUM")["NACCID"].nunique()

print("Número de pacientes únicos por grupo de gravedad:")
print(pacientes_por_grupo)


Número de pacientes únicos por grupo de gravedad:
GRAVEDAD_CDRSUM
grave       1000
leve        7410
moderada    2187
Name: NACCID, dtype: int64


In [186]:
#Como es normal en esta división, aunque no está balanceado, pero es normal porque hay muchos leves
#porque probablemente hayan dejado el seguimiento pronto.

In [187]:
variables_categoricas = ["HYPERTEN", "DIABETES", "PD", "SEX", "RACE", "STROKE", "EDUC"]
variables_numericas = ["NACCAGE", "NACCGDS"]

In [188]:
#La variable EDUC, aunque numérica, se ha tratado como categórica ordinal para el análisis, ya que representa años de educación completados, lo cual se interpreta como niveles discretos.

In [189]:
print("CONTRASTES DE HIPÓTESIS ENTRE GRUPOS DE GRAVEDAD (CDRSUM):\n")
# Contrastes de hipótesis para variables categóricas → Chi-cuadrado
for var in variables_categoricas:
    tabla = pd.crosstab(df["GRAVEDAD_CDRSUM"], df[var])
    if tabla.shape[1] > 1:
        stat, p, _, _ = chi2_contingency(tabla)
        print(f"{var} (Chi-cuadrado): p-valor = {p:.4f}")
    else:
        print(f"{var}: solo tiene una categoría válida tras limpieza, no se puede comparar.")

# Contrastes de hipótesis para variables numéricas → Kruskal-Wallis
for var in variables_numericas:
    grupos = [df[df["GRAVEDAD_CDRSUM"] == g][var] for g in ["leve", "moderada", "grave"]]
    stat, p = kruskal(*grupos)
    print(f"{var} (Kruskal-Wallis): p-valor = {p:.4f}")

CONTRASTES DE HIPÓTESIS ENTRE GRUPOS DE GRAVEDAD (CDRSUM):

HYPERTEN (Chi-cuadrado): p-valor = 0.1948
DIABETES (Chi-cuadrado): p-valor = 0.0326
PD (Chi-cuadrado): p-valor = 0.0077
SEX (Chi-cuadrado): p-valor = 0.0000
RACE (Chi-cuadrado): p-valor = 0.0000
STROKE (Chi-cuadrado): p-valor = 0.0000
EDUC (Chi-cuadrado): p-valor = 0.0000
NACCAGE (Kruskal-Wallis): p-valor = 0.0000
NACCGDS (Kruskal-Wallis): p-valor = 0.0000


In [190]:
#Se realizan contrastes de hipótesis para analizar si existenw diferencias significativas entre los tres grupos de gravedad (leve, moderada, grave) definidos a partir de la variable CDRSUM.
#Para las variables categóricas se empleó el test de Chi-cuadrado, y para las variables numéricas, el test no paramétrico de Kruskal-Wallis.
#Los resultados muestran que variables como DIABETES, SEX, RACE, STROKE, EDUC, NACCAGE y NACCGDS presentan diferencias estadísticamente significativas entre grupos (p < 0.05), lo que sugiere que podrían estar asociadas con el nivel de deterioro cognitivo. En cambio, HYPERTEN no mostró diferencias significativas.

In [191]:
#OBJETIVO 2

In [192]:
# Definimos los dos grupos a comparar
grupo1 = "leve"
grupo2 = "moderada"
grupo3 = "grave"

# Filtramos los datos de cada grupo
df1 = df[df["GRAVEDAD_CDRSUM"] == grupo1]
df2 = df[df["GRAVEDAD_CDRSUM"] == grupo2]
df3 = df[df["GRAVEDAD_CDRSUM"] == grupo3]

In [193]:
#Comparar leve vs moderada

In [194]:
print(f"\n Comparando los grupos {grupo1} vs {grupo2}:\n")

# Chi-cuadrado para variables categóricas
for var in variables_categoricas:
    sub_df = df[df["GRAVEDAD_CDRSUM"].isin([grupo1, grupo2])]
    tabla = pd.crosstab(sub_df["GRAVEDAD_CDRSUM"], sub_df[var])
    if tabla.shape[1] > 1:
        stat, p, _, _ = chi2_contingency(tabla)
        print(f" - {var}: p-valor (Chi-cuadrado) = {p:.4f}")
    else:
        print(f" - {var}: solo hay una categoría entre ambos grupos, no se puede comparar.")

# Mann-Whitney para variables numéricas
for var in variables_numericas:
    stat, p = mannwhitneyu(df1[var], df2[var], alternative='two-sided')
    print(f" - {var}: p-valor (Mann-Whitney) = {p:.4f}")



 Comparando los grupos leve vs moderada:

 - HYPERTEN: p-valor (Chi-cuadrado) = 0.4120
 - DIABETES: p-valor (Chi-cuadrado) = 0.9466
 - PD: p-valor (Chi-cuadrado) = 0.0309
 - SEX: p-valor (Chi-cuadrado) = 0.0000
 - RACE: p-valor (Chi-cuadrado) = 0.0000
 - STROKE: p-valor (Chi-cuadrado) = 0.0000
 - EDUC: p-valor (Chi-cuadrado) = 0.0000
 - NACCAGE: p-valor (Mann-Whitney) = 0.0000
 - NACCGDS: p-valor (Mann-Whitney) = 0.0000


In [None]:
#En la comparación entre los grupos leve y moderado, las variables SEX, RACE, STROKE, EDUC, NACCAGE, y NACCGDS muestran diferencias estadísticamente significativas (p < 0.05), lo que indica que podrían estar asociadas a la progresión temprana del Alzheimer.
#n cambio, variables como HYPERTEN y DIABETES no presentan diferencias entre estos dos grupos.

In [195]:
#Comparar leve vs grave

In [196]:
print(f"\nComparando los grupos {grupo1} vs {grupo3}:\n")

# Chi-cuadrado para variables categóricas
for var in variables_categoricas:
    sub_df = df[df["GRAVEDAD_CDRSUM"].isin([grupo1, grupo3])]
    tabla = pd.crosstab(sub_df["GRAVEDAD_CDRSUM"], sub_df[var])
    if tabla.shape[1] > 1:
        stat, p, _, _ = chi2_contingency(tabla)
        print(f" - {var}: p-valor (Chi-cuadrado) = {p:.4f}")
    else:
        print(f" - {var}: solo hay una categoría entre ambos grupos, no se puede comparar.")

# Mann-Whitney para variables numéricas
for var in variables_numericas:
    stat, p = mannwhitneyu(df1[var], df3[var], alternative='two-sided')
    print(f" - {var}: p-valor (Mann-Whitney) = {p:.4f}")



Comparando los grupos leve vs grave:

 - HYPERTEN: p-valor (Chi-cuadrado) = 0.1312
 - DIABETES: p-valor (Chi-cuadrado) = 0.0105
 - PD: p-valor (Chi-cuadrado) = 0.0203
 - SEX: p-valor (Chi-cuadrado) = 0.0000
 - RACE: p-valor (Chi-cuadrado) = 0.0000
 - STROKE: p-valor (Chi-cuadrado) = 0.0000
 - EDUC: p-valor (Chi-cuadrado) = 0.0000
 - NACCAGE: p-valor (Mann-Whitney) = 0.0000
 - NACCGDS: p-valor (Mann-Whitney) = 0.0000


In [None]:
#En la comparación entre los grupos leve y grave, se encuentran diferencias estadísticamente significativas (p < 0.05) en las variables DIABETES, PD, SEX, RACE, STROKE, EDUC, NACCAGE y NACCGDS, lo que sugiere que estas variables podrían estar fuertemente asociadas con el avance del Alzheimer en etapas más marcadas.
#Por el contrario, HYPERTEN no muestra diferencias relevantes entre estos grupos, indicando una posible ausencia de relación entre esta condición y el estadio avanzado de la enfermedad en esta muestra.

In [197]:
#Comparar moderada vs grave

In [198]:
print(f"\nComparando los grupos {grupo2} vs {grupo3}:\n")

# Chi-cuadrado para variables categóricas
for var in variables_categoricas:
    sub_df = df[df["GRAVEDAD_CDRSUM"].isin([grupo2, grupo3])]
    tabla = pd.crosstab(sub_df["GRAVEDAD_CDRSUM"], sub_df[var])
    if tabla.shape[1] > 1:
        stat, p, _, _ = chi2_contingency(tabla)
        print(f" - {var}: p-valor (Chi-cuadrado) = {p:.4f}")
    else:
        print(f" - {var}: solo hay una categoría entre ambos grupos, no se puede comparar.")

# Mann-Whitney para variables numéricas
for var in variables_numericas:
    stat, p = mannwhitneyu(df2[var], df3[var], alternative='two-sided')
    print(f" - {var}: p-valor (Mann-Whitney) = {p:.4f}")


Comparando los grupos moderada vs grave:

 - HYPERTEN: p-valor (Chi-cuadrado) = 0.0751
 - DIABETES: p-valor (Chi-cuadrado) = 0.0236
 - PD: p-valor (Chi-cuadrado) = 0.4708
 - SEX: p-valor (Chi-cuadrado) = 0.0000
 - RACE: p-valor (Chi-cuadrado) = 0.0031
 - STROKE: p-valor (Chi-cuadrado) = 0.0378
 - EDUC: p-valor (Chi-cuadrado) = 0.0000
 - NACCAGE: p-valor (Mann-Whitney) = 0.0000
 - NACCGDS: p-valor (Mann-Whitney) = 0.0000


In [None]:
#En la comparación entre los grupos moderado y grave, se encuentran diferencias estadísticamente significativas (p < 0.05) en las variables DIABETES, SEX, RACE, STROKE, EDUC, NACCAGE y NACCGDS, lo que sugiere que estas variables podrían estar asociadas con la progresión hacia fases más avanzadas de la enfermedad.
#En cambio, HYPERTEN y PD no muestran diferencias relevantes entre ambos grupos, lo que indica una posible falta de asociación con esta transición concreta.

In [199]:
# Exportar a un nuevo DataFrame

In [200]:
# Lista para almacenar resultados
resultados = []

# Comparaciones por pares (usando df1, df2, df3 ya definidos anteriormente)
comparaciones = [
    ("leve", "moderada", df1, df2),
    ("leve", "grave", df1, df3),
    ("moderada", "grave", df2, df3)
]

# Recorrer comparaciones
for g1, g2, dfa, dfb in comparaciones:

    # Chi-cuadrado para categóricas
    for var in variables_categoricas:
        sub_df = df[df["GRAVEDAD_CDRSUM"].isin([g1, g2])]
        tabla = pd.crosstab(sub_df["GRAVEDAD_CDRSUM"], sub_df[var])
        if tabla.shape[1] > 1:
            stat, p, _, _ = chi2_contingency(tabla)
            resultados.append({
                "Comparación": f"{g1} vs {g2}",
                "Variable": var,
                "Tipo de test": "Chi-cuadrado",
                "p-valor": round(p, 4),
                "Significativo": "Sí" if p < 0.05 else "No"
            })

    # Mann-Whitney para numéricas
    for var in variables_numericas:
        stat, p = mannwhitneyu(dfa[var], dfb[var], alternative='two-sided')
        resultados.append({
            "Comparación": f"{g1} vs {g2}",
            "Variable": var,
            "Tipo de test": "Mann-Whitney",
            "p-valor": round(p, 4),
            "Significativo": "Sí" if p < 0.05 else "No"
        })

# Crear DataFrame final con resultados
df_resultados = pd.DataFrame(resultados)

# Guardar como CSV
df_resultados.to_csv("resultados_comparaciones_por_pares.csv", index=False)

In [201]:
print(df["HYPERTEN"].value_counts(dropna=False))
pd.crosstab(df["GRAVEDAD_CDRSUM"], df["HYPERTEN"], normalize='index') * 100

HYPERTEN
1.0    22163
0.0    17835
Name: count, dtype: int64


HYPERTEN,0.0,1.0
GRAVEDAD_CDRSUM,Unnamed: 1_level_1,Unnamed: 2_level_1
grave,42.687277,57.312723
leve,44.592942,55.407058
moderada,45.234619,54.765381


In [202]:
#Como hipertensión parece no estar relacionado en ninguno de los 3 grupos con el aumento en la gravedad del Alzheimer, he creido oportuno comprobar si he preprocesado bien la variable y entender por qué no esta relacionado.

In [203]:
#Aunque la hipertensión está presente en más del 50% de los casos en cada grupo, su proporción se mantiene estable, sin variaciones relevantes entre leve (55.4%), moderada (54.8%) y grave (57.3%). Esto sugiere que, en esta muestra, la hipertensión no parece estar asociada al avance de la enfermedad.