# ReMePARK ‚Äî An√°lisis Longitudinal de MDS-UPDRS

Laboratorio Cl√≠nico de Enfermedades Neurodegenerativas (LCEN)  
Instituto Nacional de Neurolog√≠a y Neurocirug√≠a ‚ÄúManuel Velasco Su√°rez‚Äù (INNN)  
Ciudad de M√©xico, M√©xico


## Descripci√≥n General

Este cuaderno analiza datos longitudinales de la escala **MDS-UPDRS** (Movement Disorder Society ‚Äî Unified Parkinson‚Äôs Disease Rating Scale) de la cohorte **ReMePARK**.  
El objetivo es visualizar trayectorias individuales, estimar cambios a lo largo del tiempo y explorar asociaciones con variables cl√≠nicas y terap√©uticas.


## Objetivos del An√°lisis

1. Calcular el puntaje total de la MDS-UPDRS a partir de las subescalas I‚ÄìIV.  
2. Describir la evoluci√≥n temporal del puntaje total y de cada subescala.  
3. Comparar trayectorias entre grupos (por ejemplo, estado ON/OFF o cohorte intervenci√≥n/control).  
4. Modelar el cambio longitudinal mediante regresiones lineales o modelos mixtos simples.  
5. Generar visualizaciones reproducibles para informes y publicaciones.


## Dependencias y entorno

Requiere Python ‚â• 3.9 y los siguientes paquetes:

- `pandas`, `numpy`
- `matplotlib`, `seaborn`
- `statsmodels` (para an√°lisis estad√≠stico)

Instalaci√≥n r√°pida:
```bash
pip install -r requirements.txt


| Art√≠culo                                                                                                   | Objetivo y muestra                                               | M√©todos clave                                                         | Hallazgos principales                                                                                                                                                                            | Relevancia pr√°ctica                                                                                                       |
| ---------------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------- | --------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | ------------------------------------------------------------------------------------------------------------------------- |
| *Progression of MDS-UPDRS Scores Over Five Years in De Novo Parkinson Disease*                             | 362 pacientes PPMI sin tratamiento al inicio; seguimiento 5 a√±os | Modelos lineales mixtos (OFF)                                         | Progresi√≥n media anual: Total + 4.7; Parte I + 0.92; Parte II + 0.99; Parte III + 2.4 puntos                                                                                                     | Sirve de referencia para comparar eficacia de terapias modificadoras y para asesorar a pacientes reci√©n diagnosticados.   |
| *Modeling of PD Progression and Implications for Detection of Disease Modification in Treatment Trials*    | Datos PPMI; validaci√≥n con placebo de PASADENA                   | Modelizaci√≥n no lineal de efectos mixtos + simulaciones de ensayos    | Parte III progresa ‚âà3 pt/a√±o, tres veces m√°s r√°pido que Parte II/I (‚âà1 pt/a√±o). Un efecto DMT medible en Parte III puede detectarse en ‚â§2 a√±os; Parte II requiere ‚â•3‚Äì5 a√±os.                     | Ofrece una herramienta para dimensionar ensayos y seleccionar el sub-score m√°s sensible seg√∫n la duraci√≥n.                |
| *Estimation of and Clinical Consensus on the Meaningful Motor Progression Threshold on MDS-UPDRS Part III* | An√°lisis ancla-basado (PASADENA) + panel Delphi (13 expertos)    | Comparaci√≥n con CGI-I y consenso iterativo                            | Cambio de +5 puntos en Parte III (OFF) marca progresi√≥n motora cl√≠nicamente significativa.                                                                                                       | Establece un umbral √∫nico para eventos de progresi√≥n y desenlaces ‚Äútime-to-event‚Äù en ensayos precoces.                    |
| *Handling Missing Values in the MDS-UPDRS*                                                                 | 842 pacientes (validaci√≥n) + cohorte internacional               | Eliminaci√≥n secuencial de √≠tems; prorrateo; concordancia de Lin ‚â•0.95 | Se permite: Parte I ‚â§1 √≠tem, Parte II ‚â§2 (aleatorios) o 1 (fijos), Parte III ‚â§7 (aleatorios) o 3 (fijos), Parte IV ning√∫n √≠tem; por encima, descartar o imputar con m√©todos m√°s robustos.        | Proporciona reglas operativas para limpiar bases de datos o aplicar telemedicina sin comprometer la validez del puntaje.  |
| *MCID para MDS-UPDRS Partes I y II*                                                                        | 365 pacientes, 985 visitas; PGI-I como ancla                     | Tres t√©cnicas convergentes (regresi√≥n ordinal, ROC, medias)           | L√≠mite de importancia m√≠nima cl√≠nica (IMC): Parte I ¬±2.5‚Äì2.6 pts (mejor√≠a/empeoramiento); Parte II ¬±3.0‚Äì2.5 pts; Combinado I+II ¬±5.7‚Äì4.7 pts.                                                    | Permite interpretar cambios percibidos por el paciente en actividades de la vida diaria y planificar tama√±os muestrales.  |
| *MCID para MDS-UPDRS Parte III*                                                                            | 260 pacientes, 728 visitas; CGI-I como ancla                     | M√©todos ancla y distribuci√≥n                                          | IMC asim√©trica: ‚àí3.25 pts (mejor√≠a m√≠nima), +4.63 pts (empeoramiento m√≠nimo) en Parte III.                                                                                                       | √ötil para decidir significaci√≥n cl√≠nica de cambios motores en pr√°ctica y ensayos.                                         |
| *Systematic Review of MCID Thresholds in Movement Disorders*                                               | 32 estudios (11 sobre UPDRS/MDS-UPDRS)                           | Revisi√≥n PRISMA + evaluaci√≥n de sesgo                                 | Confirma rangos: Parte I ¬±2.5 pts; Parte II ¬±3 pts; Parte III ‚àí3 a ‚àí5 pts (mejor√≠a), +4‚Äì5 pts (empeoramiento); Parte IV ¬±0.9 pts. Resalta variabilidad metodol√≥gica y necesidad de estandarizar. | Ofrece marco comparativo y resalta la importancia de reportar MCID junto a significaci√≥n estad√≠stica.                     |


| Parte MDS-UPDRS                 | Leve ‚Üî Moderada | Moderada ‚Üî Grave |
| ------------------------------- | --------------- | ---------------- |
| **I** (no-motor EDV)            | **10/11**       | **21/22**        |
| **II** (motor EDV)              | **12/13**       | **29/30**        |
| **III** (exploraci√≥n)           | **32/33**       | **58/59**        |
| **IV** (complicaciones motoras) | **4/5**         | **12/13**        |


## üîó Montar Google Drive

Para acceder a los archivos del proyecto almacenados en **Google Drive**, monta tu unidad de forma segura.  
Esto permite leer y guardar datos directamente desde tu repositorio de Drive sin descargarlos manualmente.


In [None]:
from google.colab import drive
drive.mount('/content/drive')


## üß© Importar todas las librer√≠as

En esta secci√≥n se importan todas las librer√≠as necesarias para el procesamiento, an√°lisis y visualizaci√≥n de los datos del proyecto **ReMePARK ‚Äì MDS-UPDRS*



In [None]:
# Manejo de datos
import pandas as pd
import numpy as np

# Fechas y tiempo
from datetime import datetime

# Visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Manejo de archivos y rutas
import glob
import os
import re

# Configuraci√≥n general de las gr√°ficas
sns.set(style='whitegrid', context='notebook', font_scale=1.2)
plt.rcParams['figure.figsize'] = (8, 5)
plt.rcParams['axes.titlesize'] = 14
plt.rcParams['axes.labelsize'] = 12


### 5. **Carga de datos**
```markdown
## Carga y estructura de los datos

El archivo de entrada debe colocarse en la carpeta `data/` (no incluido en el repositorio por motivos de privacidad).

### Formato esperado (`rempark_mdsupdrs_long.csv`)
| Columna | Tipo | Descripci√≥n |
|----------|------|-------------|
| `SubjectID` | str/int | Identificador del participante |
| `Visit` | str/int | N√∫mero o etiqueta de visita |
| `VisitDate` | date | Fecha de la visita |
| `MDS_UPDRS_I` | float | No-motor experiences of daily living |
| `MDS_UPDRS_II` | float | Motor experiences of daily living |
| `MDS_UPDRS_III` | float | Exploraci√≥n motora |
| `MDS_UPDRS_IV` | float | Complicaciones motoras |
| `LEDD` | float (opcional) | Dosis equivalente de levodopa |
| `State` | str (opcional) | Estado ON/OFF |
| `Group` | str (opcional) | Cohorte o intervenci√≥n |


In [None]:
# Definir ruta
file_path = '/content/drive/MyDrive/LCEN/08_Bases de Datos y Herramientas/08.1_ReMePARK/08.1.6_Unified ReMePARK 2024/Remepark_MDS-UPDRS.xlsx'

# Cargar archivo Excel
df = pd.read_excel(file_path)

# Ver las primeras filas
df.head()

## üíæ Convertir a CSV

Una vez que los datos han sido limpiados o combinados, se pueden exportar a formato **CSV** para conservar una versi√≥n procesada o facilitar su an√°lisis posterior.

In [None]:
# Definir nombre y ruta del archivo de salida
csv_path = '/content/drive/MyDrive/LCEN/08_Bases de Datos y Herramientas/08.1_ReMePARK/08.1.6_Unified ReMePARK 2024/Remepark_mdsupdrs.csv'

# Exportar DataFrame a CSV
df.to_csv(csv_path, index=False)

print(f"Archivo guardado correctamente en: {output_path}")


In [None]:
df = pd.read_csv(csv_path)


## üßÆ Inicializar el marco de resultados de validaci√≥n

Antes de comenzar la validaci√≥n de los c√°lculos o comparaciones entre columnas, es √∫til crear un **marco de resultados** (DataFrame) que almacene los indicadores de validaci√≥n para cada fila o sujeto.  

Esto facilita centralizar los resultados de verificaci√≥n, m√©tricas o discrepancias detectadas en los c√°lculos del MDS-UPDRS.

In [None]:
# Crear marco de resultados vac√≠o
validation_results_updrs = pd.DataFrame()

# Copiar identificadores desde el DataFrame original
validation_results_updrs["fila_id"] = df["fila_id"]


## ‚úÖ Validaci√≥n `num.consec`

Esta secci√≥n verifica la **integridad y consistencia** de la columna `num.consec`, la cual representa un identificador o n√∫mero consecutivo √∫nico para cada registro.  
Las validaciones comprueban tres aspectos fundamentales:

1. **No nulos** ‚Üí garantiza que todos los registros tengan valor.  
2. **Tipo num√©rico** ‚Üí asegura que los valores sean enteros o flotantes.  
3. **Unicidad** ‚Üí valida que no existan duplicados en esta columna.

In [None]:
# Validaciones para num.consec
validation_results_updrs["num.consec.notnull"] = df["num.consec"].notnull()
validation_results_updrs["num.consec.int"] = df["num.consec"].apply(lambda x: isinstance(x, (int, float)) and float(x).is_integer())
validation_results_updrs["num.consec.unique"] = ~df.duplicated(subset=["num.consec"], keep=False)


In [None]:
(validation_results_updrs[["num.consec.notnull", "num.consec.int", "num.consec.unique"]] == False).sum()


In [None]:
# Mostrar filas que fallan al menos una validaci√≥n de num.consec
errores_num_consec = ~validation_results_updrs[["num.consec.notnull", "num.consec.int", "num.consec.unique"]].all(axis=1)

# Mostrar datos originales correspondientes
df[errores_num_consec]


## üß† Validaci√≥n de variables cl√≠nicas ‚Äî Subescalas MDS-UPDRS

En esta secci√≥n se validan las **subescalas cl√≠nicas** de la MDS-UPDRS (Partes I a IV) para garantizar la calidad y consistencia de los datos antes del an√°lisis estad√≠stico.

Las verificaciones contemplan:

1. **Presencia de datos** (`notnull`)  
2. **Tipo num√©rico v√°lido** (`isinstance`)  
3. **Valores dentro de los rangos esperados** (seg√∫n el dise√±o de la escala)

Notas:

Cada parte de la MDS-UPDRS tiene un rango m√°ximo distinto, pero en esta validaci√≥n inicial se aplica un rango general (0‚Äì132) como filtro de integridad.

Si se desea una validaci√≥n m√°s espec√≠fica, se pueden ajustar los l√≠mites:

Parte I: 0‚Äì52

Parte II: 0‚Äì52

Parte III: 0‚Äì132

Parte IV: 0‚Äì24

Los resultados (True/False) se almacenan por fila, permitiendo identificar r√°pidamente registros problem√°ticos.

## üß© Identificar columnas por parte del MDS-UPDRS

Antes de realizar validaciones o c√°lculos, es necesario **identificar las columnas** correspondientes a cada una de las partes de la escala **MDS-UPDRS (I, II, III, IV)**.  
Esto facilita aplicar operaciones agrupadas (por ejemplo, sumas o validaciones de rango) sin escribir manualmente cada nombre de √≠tem.


Notas:

Cada lista contiene las columnas correspondientes a los √≠tems de cada parte.

El prefijo ("UPDRS1.", "UPDRS2.", etc.) debe coincidir exactamente con los nombres de tus columnas.

Este enfoque automatiza la selecci√≥n, √∫til cuando se trabaja con bases de datos extensas o exportadas desde REDCap, Excel o SPSS.

In [None]:
updrs1_cols = [col for col in df.columns if col.startswith("UPDRS1.")]
updrs2_cols = [col for col in df.columns if col.startswith("UPDRS2.")]
updrs3_cols = [col for col in df.columns if col.startswith("UPDRS3.")]
updrs4_cols = [col for col in df.columns if col.startswith("UPDRS4.")]

## ‚úÖ Validaci√≥n de columnas con valores num√©ricos

Una vez identificadas las columnas, se valida que **todas las celdas contengan valores num√©ricos v√°lidos** en cada parte de la MDS-UPDRS.  
Esto previene errores en los c√°lculos de sumas o promedios en etapas posteriores.

Notas:

pd.to_numeric(..., errors="coerce") convierte valores no num√©ricos en NaN, evitando que se rompan las operaciones aritm√©ticas.

Es recomendable verificar despu√©s el n√∫mero de NaN generados para detectar errores de carga o formato.

In [None]:
df[updrs1_cols + updrs2_cols + updrs3_cols + updrs4_cols] = df[updrs1_cols + updrs2_cols + updrs3_cols + updrs4_cols].apply(pd.to_numeric, errors="coerce")

## üìö Agrupar y validar MDS-UPDRS por partes (I‚ÄìIV)

En esta secci√≥n se:
1) **Identifican** las columnas de cada parte de la MDS-UPDRS.  
2) **Convierten** a num√©rico con coerci√≥n (valores inv√°lidos ‚Üí `NaN`).  
3) **Validan rangos por fila** (√≠tems con valores entre 0 y 4).  
4) **Filtran** filas v√°lidas por parte para evitar sesgos en sumas y promedios.

> **Regla de validaci√≥n:** cada fila es v√°lida si **todos** los √≠tems no nulos de esa parte est√°n en \[0, 1, 2, 3, 4\].

Notas
- **Conversi√≥n a num√©rico:** asegura que valores como `"3 "` o `"2.0"` no provoquen errores (se convierten a `float`).  
- **Validaci√≥n 0‚Äì4:** sigue la escala de cada √≠tem MDS-UPDRS (0 = normal; 4 = severo).  
- **Filtrado incremental:** se filtra por parte de forma secuencial para conservar observaciones con datos v√°lidos en todas las partes consideradas.  
- **Suma por parte:** usa `min_count=1` para evitar que filas con todos `NaN` devuelvan 0 de forma enga√±osa.  
- **Ajusta las listas de columnas** si tus nombres no coinciden exactamente con los ejemplos (`UPDRS1.x`, `UPDRS2.x`, etc.).  

In [None]:
# ===============================
# MDS-UPDRS Part 1Ô∏è‚É£
# ===============================
updrs1_cols = [f"UPDRS1.{i}" for i in range(1, 14)]  # UPDRS1.1 to UPDRS1.13

df_updrs1 = df.copy()
df_updrs1[updrs1_cols] = df_updrs1[updrs1_cols].apply(pd.to_numeric, errors="coerce")

df_updrs1_filtered = df_updrs1[df_updrs1[updrs1_cols].apply(
    lambda row: row.dropna().isin([0, 1, 2, 3, 4]).all(), axis=1
)]

# ===============================
# MDS-UPDRS Part 2Ô∏è‚É£
# ===============================
updrs2_cols = [f"UPDRS2.{i}" for i in range(1, 14)]  # UPDRS2.1 to UPDRS2.13

df_updrs2 = df_updrs1_filtered.copy()
df_updrs2[updrs2_cols] = df_updrs2[updrs2_cols].apply(pd.to_numeric, errors="coerce")

df_updrs2_filtered = df_updrs2[df_updrs2[updrs2_cols].apply(
    lambda row: row.dropna().isin([0, 1, 2, 3, 4]).all(), axis=1
)]

# ===============================
# MDS-UPDRS Part 3Ô∏è‚É£
# ===============================
updrs3_cols = [
    "UPDRS3.1", "UPDRS3.2", "UPDRS3.3C", "UPDRS3.3MSD", "UPDRS3.3MSI", "UPDRS3.3MID", "UPDRS3.3MII",
    "UPDRS3.4MD", "UPDRS3.4MI", "UPDRS3.5MD", "UPDRS3.5MI", "UPDRS3.6MD", "UPDRS3.6MI",
    "UPDRS3.7PD", "UPDRS3.7PI", "UPDRS3.8PD", "UPDRS3.8PI", "UPDRS3.9", "UPDRS3.10",
    "UPDRS3.11", "UPDRS3.12", "UPDRS3.13", "UPDRS3.14", "UPDRS3.15MD", "UPDRS3.15MI",
    "UPDRS3.16MD", "UPDRS3.16MI", "UPDRS3.17MSD", "UPDRS3.17MSI", "UPDRS3.17MID",
    "UPDRS3.17MII", "UPDRS3.17LM", "UPDRS3.18"
]

df_updrs3 = df_updrs2_filtered.copy()
df_updrs3[updrs3_cols] = df_updrs3[updrs3_cols].apply(pd.to_numeric, errors="coerce")

df_updrs3_filtered = df_updrs3[df_updrs3[updrs3_cols].apply(
    lambda row: row.dropna().isin([0, 1, 2, 3, 4]).all(), axis=1
)]

# ===============================
# MDS-UPDRS Part 4Ô∏è‚É£
# ===============================
updrs4_cols = [f"UPDRS4.{i}" for i in range(1, 7)]  # UPDRS4.1 to UPDRS4.6

df_updrs4 = df_updrs3_filtered.copy()
df_updrs4[updrs4_cols] = df_updrs4[updrs4_cols].apply(pd.to_numeric, errors="coerce")

df_updrs4_filtered = df_updrs4[df_updrs4[updrs4_cols].apply(
    lambda row: row.dropna().isin([0, 1, 2, 3, 4]).all(), axis=1
)]


## Calcular las puntuaciones totales de cada parte

Se suma por fila cada conjunto de √≠tems pertenecientes a la parte I‚ÄìIV.  
`skipna=True` evita que valores faltantes rompan la suma; `min_count=1` impide que una fila con todos `NaN` devuelva 0.

Aseg√∫rate de que updrs1_cols, updrs2_cols, updrs3_cols y updrs4_cols contengan √∫nicamente los √≠tems v√°lidos de cada parte.

Si decides imputar valores faltantes antes de sumar, hazlo expl√≠cito (por ejemplo, fillna(0)), y documenta la decisi√≥n.

In [None]:
df["UPDRS1.TOTAL"] = df[updrs1_cols].sum(axis=1, skipna=True)
df["UPDRS2.TOTAL"] = df[updrs2_cols].sum(axis=1, skipna=True)
df["UPDRS3.TOTAL"] = df[updrs3_cols].sum(axis=1, skipna=True)
df["UPDRS4.TOTAL"] = df[updrs4_cols].sum(axis=1, skipna=True)


## Calcular la puntuaci√≥n total MDS-UPDRS

La puntuaci√≥n total se obtiene como la suma de las partes I‚ÄìIV.  
Se recomienda usar `min_count=1` en cada parcial (como arriba) para que la suma total refleje correctamente filas con datos faltantes.


Si tu base no incluye la parte IV, ajusta la suma en consecuencia.

Verifica rangos esperados post-suma para detectar valores at√≠picos por carga/transformaci√≥n err√≥nea.

In [None]:
df["UPDRS.TOTAL"] = (
    df["UPDRS1.TOTAL"] +
    df["UPDRS2.TOTAL"] +
    df["UPDRS3.TOTAL"] +
    df["UPDRS4.TOTAL"]
)

In [None]:
print(df[["UPDRS1.TOTAL", "UPDRS2.TOTAL", "UPDRS3.TOTAL", "UPDRS4.TOTAL", "UPDRS.TOTAL"]].head())

## ‚öôÔ∏è Reglas de integridad y prorrateo

**Referencia:**  
Goetz CG, Luo S, Wang L, Tilley BC, LaPelle NR, Stebbins GT. *Handling missing values in the MDS-UPDRS.*  
Mov Disord. 2015 Oct;30(12):1632-8. doi: [10.1002/mds.26153](https://doi.org/10.1002/mds.26153).  
PMID: 25649812; PMCID: PMC5072275.

---

### üßæ Criterios

Seg√∫n Goetz et al. (2015), se permite el c√°lculo prorrateado de la MDS-UPDRS **si no se supera el umbral m√°ximo de √≠tems faltantes** por parte:

| Parte | Umbral m√°ximo de √≠tems faltantes | Comentario |
|:------|:--------------------------------:|:------------|
| I     | ‚â§ 1 √≠tem                         | Aceptable |
| II    | ‚â§ 2 √≠tems (aleatorios) o 1 (fijo) | |
| III   | ‚â§ 7 √≠tems (aleatorios) o 3 (fijos) | |
| IV    | 0 √≠tems                           | Ninguno permitido |

*Se permite: Parte I ‚â§1 √≠tem, Parte II ‚â§2 (aleatorios) o 1 (fijos), Parte III ‚â§7 (aleatorios) o 3 (fijos), Parte IV ning√∫n √≠tem; por encima, descartar o imputar con m√©todos m√°s robustos.*

In [None]:
# --- 1.1 Umbrales m√°ximos de √≠tems faltantes (Goetz 2015)
MISSING_RULES = {"I": 1, "II": 2, "III": 7, "IV": 0}

# --- 1.2 Diccionario de √≠tems por parte (ya los definiste antes)
parte_items = {
    "I": updrs1_cols,
    "II": updrs2_cols,
    "III": updrs3_cols,
    "IV": updrs4_cols,
}

# --- 1.3 Funciones utilitarias
def es_valido_fila(row, parte):
    max_missing = MISSING_RULES[parte]
    n_missing = row[parte_items[parte]].isna().sum()
    return n_missing <= max_missing

def prorratear_fila(row, parte):
    items = parte_items[parte]
    miss = row[items].isna()
    if miss.any():
        factor = len(items) / (~miss).sum()
        row[items] = row[items].fillna(0) * factor
    return row


## üßÆ C√°lculo de totales con prorrateo (sin descartar filas)

Este bloque ejecuta las funciones anteriores para:
1. Validar el umbral de faltantes por parte.  
2. Aplicar prorrateo cuando corresponde.  
3. Calcular los totales por parte y el puntaje global.

Notas:

Este procedimiento no descarta filas, pero s√≥lo aplica el prorrateo cuando el n√∫mero de √≠tems faltantes est√° dentro del umbral permitido.

Los totales se recalculan despu√©s de imputar los valores proporcionalmente.

El resultado df_clean conserva la misma estructura del DataFrame original con nuevas columnas:

MDS_UPDRS_I, MDS_UPDRS_II, MDS_UPDRS_III, MDS_UPDRS_IV

MDS_UPDRS_TOTAL

In [None]:
def calcular_totales_con_prorrateo(df):
    df_out = df.copy()
    for parte in ["I", "II", "III", "IV"]:
        # 2.1 Validar umbral de missing
        df_out = df_out[df_out.apply(es_valido_fila, axis=1, args=(parte,))]
        # 2.2 Prorratear si procede
        df_out = df_out.apply(prorratear_fila, axis=1, args=(parte,))
        # 2.3 Sumar puntaje
        df_out[f"MDS_UPDRS_{parte}"] = df_out[parte_items[parte]].sum(axis=1)
    # 2.4 Puntaje total
    df_out["MDS_UPDRS_TOTAL"] = df_out[[f"MDS_UPDRS_{p}" for p in "I II III IV".split()]].sum(axis=1)
    return df_out

# === Ejecuta ===
df_clean = calcular_totales_con_prorrateo(df)


## üß© MDS-UPDRS Parte I

Esta secci√≥n valida los √≠tems correspondientes a la **Parte I** de la escala MDS-UPDRS (*Experiencias no motoras de la vida diaria*).  
El objetivo es garantizar que los datos sean num√©ricos, est√©n dentro del rango permitido (0‚Äì4) y que cada registro contenga el n√∫mero esperado de √≠tems v√°lidos (13 para esta parte).

---

### C√≥digo para validar MDS-UPDRS Parte I

Notas

Cada √≠tem de la Parte I debe tener un valor de 0 a 4 (0 = normal, 4 = muy severo).

Si alguna celda tiene valores fuera de rango o vac√≠os, se marca como no v√°lida.

La columna UPDRS1.completo confirma que la fila contiene los 13 √≠tems v√°lidos esperados.

UPDRS1.con_errores = True indica que la observaci√≥n no cumple con los criterios m√≠nimos de integridad.

Este mismo procedimiento puede adaptarse f√°cilmente a las Partes II‚ÄìIV modificando el prefijo (UPDRS2., UPDRS3., etc.).

In [None]:
# Identificar columnas de Parte I
updrs1_cols = [col for col in df.columns if col.startswith("UPDRS1.")]
updrs1_cols = sorted(updrs1_cols)  # Ordenar por si est√°n desordenadas

# Asegurar que las columnas sean num√©ricas
df[updrs1_cols] = df[updrs1_cols].apply(pd.to_numeric, errors="coerce")

# Validar valor individual entre 0 y 4
for col in updrs1_cols:
    validation_results_updrs[f"{col}.valido"] = df[col].isin([0, 1, 2, 3, 4])

# Validar que haya exactamente 13 √≠tems v√°lidos
validation_results_updrs["UPDRS1.completo"] = df[updrs1_cols].apply(
    lambda row: row.dropna().isin([0, 1, 2, 3, 4]).sum() == 13, axis=1
)

# Agregar columna de error general para la Parte I
validation_results_updrs["UPDRS1.con_errores"] = ~validation_results_updrs[
    [f"{col}.valido" for col in updrs1_cols] + ["UPDRS1.completo"]
].all(axis=1)

# Mostrar filas con errores
errores_updrs1 = validation_results_updrs[validation_results_updrs["UPDRS1.con_errores"]]

# Visualizar errores
print("Errores detectados en UPDRS Parte I:")
display(errores_updrs1.head(10))  # O usa .to_excel si deseas exportar


## Porcentaje de valores faltantes por √≠tem ‚Äî MDS-UPDRS Parte I

Este an√°lisis estima el porcentaje de celdas faltantes por √≠tem en la Parte I, √∫til para diagn√≥stico de calidad de datos y decisiones de imputaci√≥n.

In [None]:
# Identificar columnas de la Parte I
updrs1_cols = [col for col in df.columns if col.startswith("UPDRS1.")]
updrs1_cols = sorted(updrs1_cols)

# Calcular porcentaje de missing por √≠tem
missing_percent_updrs1 = df[updrs1_cols].isna().mean().round(3) * 100

# Convertir a DataFrame para visualizar o exportar
missing_percent_updrs1_df = missing_percent_updrs1.reset_index()
missing_percent_updrs1_df.columns = ["√çtem", "% Missing"]

# Mostrar
print(missing_percent_updrs1_df)



## üß™ Test de Little ‚Äî MCAR (Missing Completely at Random)

El **Test de Little MCAR** eval√∫a si los valores faltantes en los √≠tems ocurren de manera completamente aleatoria (*Missing Completely at Random*).  
Esto permite decidir si es apropiado aplicar imputaci√≥n simple o si los datos presentan sesgos sistem√°ticos.

### üìä Interpretaci√≥n de resultados
- Si **p-value < 0.05** ‚Üí Hay diferencia significativa ‚Üí **No MCAR** (faltantes no aleatorios).  
- Si **p-value ‚â• 0.05** ‚Üí No hay diferencia significativa ‚Üí **Posiblemente MCAR** (faltantes aleatorios).

In [None]:
from scipy.stats import ttest_ind
import pandas as pd

# Asegura que los √≠tems est√°n en formato num√©rico
updrs1_cols = sorted([col for col in df.columns if col.startswith("UPDRS1.") and col != "UPDRS1.TOTAL"])
df[updrs1_cols] = df[updrs1_cols].apply(pd.to_numeric, errors='coerce')

# Crear lista para resultados
ttest_results = []

# Comparar cada √≠tem con los dem√°s
for target_col in updrs1_cols:
    row_results = {"item": target_col}
    for other_col in updrs1_cols:
        if other_col != target_col:
            group1 = df[df[other_col].isnull()][target_col].dropna()
            group2 = df[df[other_col].notnull()][target_col].dropna()

            # Asegurar tama√±o m√≠nimo para aplicar prueba t
            if len(group1) >= 5 and len(group2) >= 5:
                stat, p = ttest_ind(group1, group2, equal_var=False, nan_policy='omit')
                row_results[f"p_vs_{other_col}"] = round(p, 4)
            else:
                row_results[f"p_vs_{other_col}"] = None
    ttest_results.append(row_results)

# Convertir a DataFrame y mostrar
ttest_df = pd.DataFrame(ttest_results)
ttest_df



## üßÆ Modelo predictivo del patr√≥n de *missing*

Este modelo eval√∫a si los valores faltantes pueden **predecirse a partir de otras variables**.  
Se basa en una regresi√≥n log√≠stica binaria para cada √≠tem, donde la variable dependiente es ‚Äúfaltante o no faltante‚Äù.


### üìä Interpretaci√≥n de resultados
- **Pseudo R¬≤ bajo (< 0.05)** ‚Üí la variable objetivo (missing o no) **no se predice bien** ‚Üí evidencia de **MCAR** (faltantes completamente aleatorios).  
- **Pseudo R¬≤ moderado o alto (> 0.10)** ‚Üí el patr√≥n de faltantes puede estar **relacionado con otras variables** ‚Üí indicio de **MAR** o **MNAR** (faltantes no completamente aleatorios).

In [None]:
import statsmodels.api as sm
import numpy as np
import pandas as pd

predictive_missing_results = []

for target_col in updrs1_cols:
    y = df[target_col].isnull().astype(int)  # variable objetivo: 1 si falta, 0 si no
    predictors = [col for col in updrs1_cols if col != target_col and col != "UPDRS1.VALIDO"]

    X = df[predictors].copy()
    X = X.apply(pd.to_numeric, errors='coerce')

    model_data = pd.concat([X, y], axis=1).dropna()

    if model_data.shape[0] >= 30:
        X_clean = model_data[predictors].astype(float)
        y_clean = model_data[target_col].astype(float)

        X_clean = sm.add_constant(X_clean)

        try:
            model = sm.Logit(y_clean, X_clean).fit(disp=0)
            pseudo_r2 = model.prsquared
            predictive_missing_results.append({
                "Item": target_col,
                "Pseudo R¬≤": round(pseudo_r2, 4),
                "n_obs": model_data.shape[0]
            })
        except Exception as e:
            predictive_missing_results.append({
                "Item": target_col,
                "Pseudo R¬≤": "Error",
                "n_obs": model_data.shape[0],
                "error": str(e)
            })

# Mostrar resultados
predictive_df = pd.DataFrame(predictive_missing_results)
display(predictive_df)


## Imputabilidad por √≠tem (criterios y reporte)

Se eval√∫a, para cada √≠tem de la Parte I, si cumple criterios m√≠nimos para ser imputado:

1) Es num√©rico.  
2) Sus valores observados est√°n en el rango 0‚Äì4.  
3) Porcentaje de valores faltantes por debajo de un umbral (por defecto, 20 %).

El resultado es una tabla con el estado de imputabilidad por √≠tem.

### Notas
- Ajusta `umbral_missing` seg√∫n el plan anal√≠tico (por ejemplo, 10 %, 15 %, 20 %).  
- Si `Num√©rico` es falso, convierte previamente con `pd.to_numeric(..., errors="coerce")`.  
- Revisa √≠tems con `% Missing` alto aunque sean imputables; podr√≠an requerir inspecci√≥n manual.

In [None]:
# Definir umbral de imputabilidad (porcentaje de missing aceptable)
umbral_missing = 20

# Revisar si cada √≠tem est√° en escala 0‚Äì4 y tiene % de missing < 20
imputabilidad = []
for col in updrs1_cols:
    es_numerico = pd.api.types.is_numeric_dtype(df[col])
    en_rango = df[col].dropna().isin([0, 1, 2, 3, 4]).all()
    missing_pct = df[col].isna().mean() * 100
    imputable = es_numerico and en_rango and (missing_pct < umbral_missing)
    imputabilidad.append({
        "√çtem": col,
        "Imputable": imputable,
        "% Missing": round(missing_pct, 2),
        "Num√©rico": es_numerico,
        "Rango 0‚Äì4": en_rango
    })

# Convertir a DataFrame y mostrar
imputabilidad_df = pd.DataFrame(imputabilidad)
print(imputabilidad_df)


## ü§ñ Criterios y c√≥digo para sugerencia de m√©todo de imputaci√≥n

Este bloque genera una **recomendaci√≥n autom√°tica del m√©todo de imputaci√≥n** m√°s adecuado para cada √≠tem seg√∫n su porcentaje de valores faltantes y el tipo de variable.

---

### üìä Criterios de decisi√≥n

| % Missing | Tipo / Escala | M√©todo sugerido |
|------------|----------------|-----------------|
| > 30 %     | ‚Äî | **No imputar** (demasiada p√©rdida de informaci√≥n) |
| < 5 %      | Ordinal (0‚Äì4) | **Moda** |
| 5‚Äì20 %     | Ordinal (0‚Äì4) | **Mediana por grupo** o **Regresi√≥n ordinal** |
| 20‚Äì30 %    | Ordinal (0‚Äì4) | **KNN Imputation** (para mantener estructura multivariada) |
| ‚Äî          | Otros tipos | **Evaluar manualmente** |

Notas

La l√≥gica est√° pensada para √≠tems ordinales con escala 0‚Äì4, como los de la MDS-UPDRS.

Para √≠tems continuos o binarios, puede adaptarse el bloque tipo dentro de la funci√≥n ("continuo", "binario").

Si un √≠tem tiene >30 % de valores faltantes, no debe imputarse: lo recomendable es excluirlo o analizar causas de ausencia.

Los m√©todos ‚ÄúMediana por grupo‚Äù o ‚ÄúRegresi√≥n ordinal‚Äù preservan la estructura ordinal del √≠tem y evitan sesgos sistem√°ticos.

El m√©todo KNN puede ser √∫til cuando hay correlaci√≥n fuerte entre √≠tems de la misma parte.

In [None]:
# Definir funci√≥n de recomendaci√≥n
def sugerir_metodo_imputacion(missing_pct, tipo="ordinal", escala=(0, 4)):
    if missing_pct > 30:
        return "No imputar (>30% missing)"
    elif tipo == "ordinal" and escala == (0, 4):
        if missing_pct < 5:
            return "Moda"
        elif missing_pct < 20:
            return "Mediana por grupo o regresi√≥n ordinal"
        else:
            return "KNN imputaci√≥n"
    else:
        return "Evaluar manualmente"

# Aplicar recomendaciones por √≠tem
sugerencias = []
for col in updrs1_cols:
    pct_missing = df[col].isna().mean() * 100
    metodo = sugerir_metodo_imputacion(pct_missing)
    sugerencias.append({"√çtem": col, "% Missing": round(pct_missing, 2), "M√©todo sugerido": metodo})

# Convertir a DataFrame y mostrar
sugerencias_df = pd.DataFrame(sugerencias)
print(sugerencias_df)


## üß© MDS-UPDRS Parte II

Esta secci√≥n replica el proceso de validaci√≥n aplicado a la Parte I, ahora sobre la **Parte II** (*Experiencias motoras de la vida diaria*).  
Se eval√∫a integridad, consistencia y completitud de los √≠tems correspondientes.


In [None]:
# Identificar columnas de Parte II
updrs2_cols = [col for col in df.columns if col.startswith("UPDRS2.")]
updrs2_cols = sorted(updrs2_cols)  # Ordenar por si est√°n desordenadas

# Asegurar que las columnas sean num√©ricas
df[updrs2_cols] = df[updrs2_cols].apply(pd.to_numeric, errors="coerce")

# Validar valor individual entre 0 y 4
for col in updrs2_cols:
    validation_results_updrs[f"{col}.valido"] = df[col].isin([0, 1, 2, 3, 4])

# Validar que haya exactamente 13 √≠tems v√°lidos
validation_results_updrs["UPDRS2.completo"] = df[updrs2_cols].apply(
    lambda row: row.dropna().isin([0, 1, 2, 3, 4]).sum() == 13, axis=1
)

# Agregar columna de error general para la Parte II
validation_results_updrs["UPDRS2.con_errores"] = ~validation_results_updrs[
    [f"{col}.valido" for col in updrs2_cols] + ["UPDRS2.completo"]
].all(axis=1)

# Mostrar filas con errores
errores_updrs2 = validation_results_updrs[validation_results_updrs["UPDRS2.con_errores"]]

# Visualizar errores
print("Errores detectados en UPDRS Parte II:")
display(errores_updrs2.head(10))  # O usa .to_excel si deseas exportar


## Porcentaje de valores faltantes por √≠tem ‚Äî MDS-UPDRS Parte II
Eval√∫a el porcentaje de valores ausentes por cada √≠tem, detectando posibles √°reas problem√°ticas antes de imputaci√≥n.


In [None]:
updrs2_cols = sorted([col for col in df.columns if col.startswith("UPDRS2.")])
missing_percent_updrs2 = df[updrs2_cols].isna().mean().round(3) * 100
missing_percent_updrs2_df = missing_percent_updrs2.reset_index()
missing_percent_updrs2_df.columns = ["√çtem", "% Missing"]
print("Parte II:")
print(missing_percent_updrs2_df)

## üß™ Test de Little ‚Äî MCAR (Parte II)
Verifica si los valores faltantes en la Parte II ocurren de forma completamente aleatoria.  
Si *p* ‚â• 0.05 ‚Üí posiblemente MCAR; si *p* < 0.05 ‚Üí evidencia de no MCAR.


In [None]:
from scipy.stats import ttest_ind
import pandas as pd

# Asegurar que todas las columnas relevantes est√©n en formato num√©rico
def run_ttests_for_part(df, prefix):
    cols = sorted([col for col in df.columns if col.startswith(prefix) and not col.endswith("TOTAL")])
    df[cols] = df[cols].apply(pd.to_numeric, errors='coerce')

    ttest_results = []

    for target_col in cols:
        row_results = {"item": target_col}
        for other_col in cols:
            if other_col != target_col:
                group1 = df[df[other_col].isnull()][target_col].dropna()
                group2 = df[df[other_col].notnull()][target_col].dropna()

                if len(group1) >= 5 and len(group2) >= 5:
                    stat, p = ttest_ind(group1, group2, equal_var=False, nan_policy='omit')
                    row_results[f"p_vs_{other_col}"] = round(p, 4)
                else:
                    row_results[f"p_vs_{other_col}"] = None
        ttest_results.append(row_results)

    return pd.DataFrame(ttest_results)

# Aplicar a cada parte
ttest_df_part2 = run_ttests_for_part(df, "UPDRS2.")

# Mostrar resultados
print("T-test resultados Parte II:")
display(ttest_df_part2)



## üßÆ Modelo predictivo del patr√≥n de missing ‚Äî MDS-UPDRS Parte II
Se utiliza regresi√≥n log√≠stica para estimar si la presencia de datos faltantes en un √≠tem puede predecirse por otros,  
identificando patrones MAR/MNAR (dependencia estructurada entre variables).


Interpretaci√≥n del output Pseudo R¬≤ bajo (< 0.05): la variable objetivo (missing o no) no se puede predecir bien ‚Üí evidencia de MCAR.

Pseudo R¬≤ moderado/alto (> 0.1): el patr√≥n de missing puede estar relacionado con otras variables ‚Üí MAR o MNAR.

In [None]:
import statsmodels.api as sm
import pandas as pd

def run_predictive_missingness(df, prefix):
    # Identificar columnas que comienzan con el prefijo y no son totales
    cols = sorted([col for col in df.columns if col.startswith(prefix) and not col.endswith("TOTAL")])

    # Asegurar que sean num√©ricos
    df[cols] = df[cols].apply(pd.to_numeric, errors='coerce')

    results = []

    for target_col in cols:
        y = df[target_col].isnull().astype(int)
        predictors = [col for col in cols if col != target_col]

        X = df[predictors].copy()
        X = X.apply(pd.to_numeric, errors='coerce')

        data = pd.concat([X, y], axis=1).dropna()

        if data.shape[0] >= 30:
            X_clean = data[predictors].astype(float)
            y_clean = data[target_col].astype(float)

            X_clean = sm.add_constant(X_clean)

            try:
                model = sm.Logit(y_clean, X_clean).fit(disp=0)
                pseudo_r2 = model.prsquared
                results.append({
                    "Item": target_col,
                    "Pseudo R¬≤": round(pseudo_r2, 4),
                    "n_obs": data.shape[0]
                })
            except Exception as e:
                results.append({
                    "Item": target_col,
                    "Pseudo R¬≤": "Error",
                    "n_obs": data.shape[0],
                    "error": str(e)
                })

    return pd.DataFrame(results)

# Ejecutar para cada parte
predictive_df_part2 = run_predictive_missingness(df, "UPDRS2.")


# Visualizar
print("Parte II:")
print(predictive_df_part2)



## ‚öôÔ∏è Imputabilidad de √≠tems ‚Äî Parte II
Eval√∫a si cada √≠tem cumple criterios m√≠nimos de imputabilidad (tipo num√©rico, rango 0-4, < 20 % missing).  
El resultado clasifica cada variable como *imputable* o *no imputable*.


In [None]:
# Umbral de % de missing aceptable
umbral_missing = 20

def evaluar_imputabilidad(df, prefix):
    cols = sorted([col for col in df.columns if col.startswith(prefix) and not col.endswith("TOTAL")])
    df[cols] = df[cols].apply(pd.to_numeric, errors='coerce')

    imputabilidad = []
    for col in cols:
        es_numerico = pd.api.types.is_numeric_dtype(df[col])
        en_rango = df[col].dropna().isin([0, 1, 2, 3, 4]).all()
        missing_pct = df[col].isna().mean() * 100
        imputable = es_numerico and en_rango and (missing_pct < umbral_missing)
        imputabilidad.append({
            "√çtem": col,
            "Imputable": imputable,
            "% Missing": round(missing_pct, 2),
            "Num√©rico": es_numerico,
            "Rango 0‚Äì4": en_rango
        })

    return pd.DataFrame(imputabilidad)

# Ejecutar para cada parte
imputabilidad_part2 = evaluar_imputabilidad(df, "UPDRS2.")


# Mostrar
print("Parte II:")
print(imputabilidad_part2)




## ü§ñ Sugerencia de m√©todo de imputaci√≥n ‚Äî Parte II
Propone el m√©todo m√°s adecuado (Moda, Mediana por grupo, KNN, etc.) seg√∫n el porcentaje de celdas faltantes.  
Permite estandarizar el tratamiento de datos ausentes de la Parte II.


In [None]:
import pandas as pd

# Funci√≥n de recomendaci√≥n de imputaci√≥n
def sugerir_metodo_imputacion(missing_pct, tipo="ordinal", escala=(0, 4)):
    if missing_pct > 30:
        return "No imputar (>30% missing)"
    elif tipo == "ordinal" and escala == (0, 4):
        if missing_pct < 5:
            return "Moda"
        elif missing_pct < 20:
            return "Mediana por grupo o regresi√≥n ordinal"
        else:
            return "KNN imputaci√≥n"
    else:
        return "Evaluar manualmente"

# Funci√≥n para aplicar a cada parte
def generar_sugerencias(df, prefix):
    cols = sorted([col for col in df.columns if col.startswith(prefix) and not col.endswith("TOTAL")])
    sugerencias = []
    for col in cols:
        pct_missing = df[col].isna().mean() * 100
        metodo = sugerir_metodo_imputacion(pct_missing)
        sugerencias.append({
            "√çtem": col,
            "% Missing": round(pct_missing, 2),
            "M√©todo sugerido": metodo
        })
    return pd.DataFrame(sugerencias)

# Aplicar y mostrar resultados
sugerencias_updrs2 = generar_sugerencias(df, "UPDRS2.")

print("Sugerencias Parte II:")
print(sugerencias_updrs2.to_string(index=False))



## üî¢ MDS-UPDRS Parte III

Esta secci√≥n aborda la **Parte III (Exploraci√≥n motora)**, con m√°s √≠tems y mayor riesgo de valores ausentes.  
Se aplican los mismos procedimientos: validaci√≥n, an√°lisis de faltantes, MCAR test, modelo predictivo, imputabilidad y sugerencia de m√©todo.


In [None]:
# Identificar columnas de Parte III
updrs3_cols = [col for col in df.columns if col.startswith("UPDRS3.")]
updrs3_cols = sorted(updrs3_cols)  # Ordenar por si est√°n desordenadas

# Asegurar que las columnas sean num√©ricas
df[updrs3_cols] = df[updrs3_cols].apply(pd.to_numeric, errors="coerce")

# Validar valor individual entre 0 y 4
for col in updrs3_cols:
    validation_results_updrs[f"{col}.valido"] = df[col].isin([0, 1, 2, 3, 4])

# Validar que haya exactamente 33 √≠tems v√°lidos
validation_results_updrs["UPDRS3.completo"] = df[updrs3_cols].apply(
    lambda row: row.dropna().isin([0, 1, 2, 3, 4]).sum() == 33, axis=1
)

# Agregar columna de error general para la Parte III
validation_results_updrs["UPDRS3.con_errores"] = ~validation_results_updrs[
    [f"{col}.valido" for col in updrs3_cols] + ["UPDRS3.completo"]
].all(axis=1)

# Mostrar filas con errores
errores_updrs3 = validation_results_updrs[validation_results_updrs["UPDRS3.con_errores"]]

# Visualizar errores
print("Errores detectados en UPDRS Parte III:")
display(errores_updrs3.head(10))  # O usa .to_excel si deseas exportar


## Porcentaje de valores faltantes por √≠tem ‚Äî MDS-UPDRS Parte III
Eval√∫a el porcentaje de valores ausentes por cada √≠tem, detectando posibles √°reas problem√°ticas antes de imputaci√≥n.


In [None]:
updrs3_cols = sorted([col for col in df.columns if col.startswith("UPDRS3.")])
missing_percent_updrs3 = df[updrs3_cols].isna().mean().round(3) * 100
missing_percent_updrs3_df = missing_percent_updrs3.reset_index()
missing_percent_updrs3_df.columns = ["√çtem", "% Missing"]
print("\nParte III:")
print(missing_percent_updrs3_df)

## üß™ Test de Little ‚Äî MCAR (Parte III)
Verifica si los valores faltantes en la Parte II ocurren de forma completamente aleatoria.  
Si *p* ‚â• 0.05 ‚Üí posiblemente MCAR; si *p* < 0.05 ‚Üí evidencia de no MCAR.



In [None]:
from scipy.stats import ttest_ind
import pandas as pd

# Asegurar que todas las columnas relevantes est√©n en formato num√©rico
def run_ttests_for_part(df, prefix):
    cols = sorted([col for col in df.columns if col.startswith(prefix) and not col.endswith("TOTAL")])
    df[cols] = df[cols].apply(pd.to_numeric, errors='coerce')

    ttest_results = []

    for target_col in cols:
        row_results = {"item": target_col}
        for other_col in cols:
            if other_col != target_col:
                group1 = df[df[other_col].isnull()][target_col].dropna()
                group2 = df[df[other_col].notnull()][target_col].dropna()

                if len(group1) >= 5 and len(group2) >= 5:
                    stat, p = ttest_ind(group1, group2, equal_var=False, nan_policy='omit')
                    row_results[f"p_vs_{other_col}"] = round(p, 4)
                else:
                    row_results[f"p_vs_{other_col}"] = None
        ttest_results.append(row_results)

    return pd.DataFrame(ttest_results)

# Aplicar a cada parte

ttest_df_part3 = run_ttests_for_part(df, "UPDRS3.")

# Mostrar resultados

print("T-test resultados Parte III:")
display(ttest_df_part3)




## üßÆ Modelo predictivo del patr√≥n de missing ‚Äî MDS-UPDRS Parte III
Se utiliza regresi√≥n log√≠stica para estimar si la presencia de datos faltantes en un √≠tem puede predecirse por otros,  
identificando patrones MAR/MNAR (dependencia estructurada entre variables).


Interpretaci√≥n del output Pseudo R¬≤ bajo (< 0.05): la variable objetivo (missing o no) no se puede predecir bien ‚Üí evidencia de MCAR.

Pseudo R¬≤ moderado/alto (> 0.1): el patr√≥n de missing puede estar relacionado con otras variables ‚Üí MAR o MNAR.

In [None]:
import statsmodels.api as sm
import pandas as pd

def run_predictive_missingness(df, prefix):
    # Identificar columnas que comienzan con el prefijo y no son totales
    cols = sorted([col for col in df.columns if col.startswith(prefix) and not col.endswith("TOTAL")])

    # Asegurar que sean num√©ricos
    df[cols] = df[cols].apply(pd.to_numeric, errors='coerce')

    results = []

    for target_col in cols:
        y = df[target_col].isnull().astype(int)
        predictors = [col for col in cols if col != target_col]

        X = df[predictors].copy()
        X = X.apply(pd.to_numeric, errors='coerce')

        data = pd.concat([X, y], axis=1).dropna()

        if data.shape[0] >= 30:
            X_clean = data[predictors].astype(float)
            y_clean = data[target_col].astype(float)

            X_clean = sm.add_constant(X_clean)

            try:
                model = sm.Logit(y_clean, X_clean).fit(disp=0)
                pseudo_r2 = model.prsquared
                results.append({
                    "Item": target_col,
                    "Pseudo R¬≤": round(pseudo_r2, 4),
                    "n_obs": data.shape[0]
                })
            except Exception as e:
                results.append({
                    "Item": target_col,
                    "Pseudo R¬≤": "Error",
                    "n_obs": data.shape[0],
                    "error": str(e)
                })

    return pd.DataFrame(results)

# Ejecutar para cada parte

predictive_df_part3 = run_predictive_missingness(df, "UPDRS3.")


# Visualizar

print("\nParte III:")
print(predictive_df_part3)



## ‚öôÔ∏è Imputabilidad de √≠tems ‚Äî Parte III
Eval√∫a si cada √≠tem cumple criterios m√≠nimos de imputabilidad (tipo num√©rico, rango 0-4, < 20 % missing).  
El resultado clasifica cada variable como *imputable* o *no imputable*.


In [None]:
# Umbral de % de missing aceptable
umbral_missing = 20

def evaluar_imputabilidad(df, prefix):
    cols = sorted([col for col in df.columns if col.startswith(prefix) and not col.endswith("TOTAL")])
    df[cols] = df[cols].apply(pd.to_numeric, errors='coerce')

    imputabilidad = []
    for col in cols:
        es_numerico = pd.api.types.is_numeric_dtype(df[col])
        en_rango = df[col].dropna().isin([0, 1, 2, 3, 4]).all()
        missing_pct = df[col].isna().mean() * 100
        imputable = es_numerico and en_rango and (missing_pct < umbral_missing)
        imputabilidad.append({
            "√çtem": col,
            "Imputable": imputable,
            "% Missing": round(missing_pct, 2),
            "Num√©rico": es_numerico,
            "Rango 0‚Äì4": en_rango
        })

    return pd.DataFrame(imputabilidad)

# Ejecutar para cada parte

imputabilidad_part3 = evaluar_imputabilidad(df, "UPDRS3.")


# Mostrar

print("\nParte III:")
print(imputabilidad_part3)



## ü§ñ Sugerencia de m√©todo de imputaci√≥n ‚Äî Parte III
Propone el m√©todo m√°s adecuado (Moda, Mediana por grupo, KNN, etc.) seg√∫n el porcentaje de celdas faltantes.  
Permite estandarizar el tratamiento de datos ausentes de la Parte II.


In [None]:
import pandas as pd

# Funci√≥n de recomendaci√≥n de imputaci√≥n
def sugerir_metodo_imputacion(missing_pct, tipo="ordinal", escala=(0, 4)):
    if missing_pct > 30:
        return "No imputar (>30% missing)"
    elif tipo == "ordinal" and escala == (0, 4):
        if missing_pct < 5:
            return "Moda"
        elif missing_pct < 20:
            return "Mediana por grupo o regresi√≥n ordinal"
        else:
            return "KNN imputaci√≥n"
    else:
        return "Evaluar manualmente"

# Funci√≥n para aplicar a cada parte
def generar_sugerencias(df, prefix):
    cols = sorted([col for col in df.columns if col.startswith(prefix) and not col.endswith("TOTAL")])
    sugerencias = []
    for col in cols:
        pct_missing = df[col].isna().mean() * 100
        metodo = sugerir_metodo_imputacion(pct_missing)
        sugerencias.append({
            "√çtem": col,
            "% Missing": round(pct_missing, 2),
            "M√©todo sugerido": metodo
        })
    return pd.DataFrame(sugerencias)

# Aplicar y mostrar resultados
sugerencias_updrs3 = generar_sugerencias(df, "UPDRS3.")


print("\nSugerencias Parte III:")
print(sugerencias_updrs3.to_string(index=False))



## ‚öñÔ∏è MDS-UPDRS Parte IV

La **Parte IV (Complicaciones motoras)** tiene menos √≠tems, por lo que se espera menor proporci√≥n de valores faltantes.  
Se aplican los mismos pasos de verificaci√≥n e imputaci√≥n utilizados en las Partes I‚ÄìIII para garantizar consistencia del dataset completo.


In [None]:
# Identificar columnas de Parte IV
updrs4_cols = [col for col in df.columns if col.startswith("UPDRS4.")]
updrs4_cols = sorted(updrs4_cols)  # Ordenar por si est√°n desordenadas

# Asegurar que las columnas sean num√©ricas
df[updrs4_cols] = df[updrs4_cols].apply(pd.to_numeric, errors="coerce")

# Validar valor individual entre 0 y 4
for col in updrs4_cols:
    validation_results_updrs[f"{col}.valido"] = df[col].isin([0, 1, 2, 3, 4])

# Validar que haya exactamente 6 √≠tems v√°lidos
validation_results_updrs["UPDRS4.completo"] = df[updrs4_cols].apply(
    lambda row: row.dropna().isin([0, 1, 2, 3, 4]).sum() == 6, axis=1
)

# Agregar columna de error general para la Parte IV
validation_results_updrs["UPDRS4.con_errores"] = ~validation_results_updrs[
    [f"{col}.valido" for col in updrs4_cols] + ["UPDRS4.completo"]
].all(axis=1)

# Mostrar filas con errores
errores_updrs4 = validation_results_updrs[validation_results_updrs["UPDRS4.con_errores"]]

# Visualizar errores
print("Errores detectados en UPDRS Parte IV:")
display(errores_updrs4.head(10))  # O usa .to_excel si deseas exportar


## Porcentaje de valores faltantes por √≠tem ‚Äî MDS-UPDRS Parte IV
Eval√∫a el porcentaje de valores ausentes por cada √≠tem, detectando posibles √°reas problem√°ticas antes de imputaci√≥n.


In [None]:
updrs4_cols = sorted([col for col in df.columns if col.startswith("UPDRS4.")])
missing_percent_updrs4 = df[updrs4_cols].isna().mean().round(3) * 100
missing_percent_updrs4_df = missing_percent_updrs4.reset_index()
missing_percent_updrs4_df.columns = ["√çtem", "% Missing"]
print("\nParte IV:")
print(missing_percent_updrs4_df)

## üß™ Test de Little ‚Äî MCAR (Parte IV)
Verifica si los valores faltantes en la Parte II ocurren de forma completamente aleatoria.  
Si *p* ‚â• 0.05 ‚Üí posiblemente MCAR; si *p* < 0.05 ‚Üí evidencia de no MCAR.

Si el p-value < 0.05, hay diferencia significativa ‚Üí No MCAR

Si el p-value ‚â• 0.05, no hay diferencia ‚Üí Posiblemente MCAR

In [None]:
from scipy.stats import ttest_ind
import pandas as pd

# Asegurar que todas las columnas relevantes est√©n en formato num√©rico
def run_ttests_for_part(df, prefix):
    cols = sorted([col for col in df.columns if col.startswith(prefix) and not col.endswith("TOTAL")])
    df[cols] = df[cols].apply(pd.to_numeric, errors='coerce')

    ttest_results = []

    for target_col in cols:
        row_results = {"item": target_col}
        for other_col in cols:
            if other_col != target_col:
                group1 = df[df[other_col].isnull()][target_col].dropna()
                group2 = df[df[other_col].notnull()][target_col].dropna()

                if len(group1) >= 5 and len(group2) >= 5:
                    stat, p = ttest_ind(group1, group2, equal_var=False, nan_policy='omit')
                    row_results[f"p_vs_{other_col}"] = round(p, 4)
                else:
                    row_results[f"p_vs_{other_col}"] = None
        ttest_results.append(row_results)

    return pd.DataFrame(ttest_results)

# Aplicar a cada parte

ttest_df_part4 = run_ttests_for_part(df, "UPDRS4.")

# Mostrar resultados


print("T-test resultados Parte IV:")
display(ttest_df_part4)


## üßÆ Modelo predictivo del patr√≥n de missing ‚Äî MDS-UPDRS Parte IV
Se utiliza regresi√≥n log√≠stica para estimar si la presencia de datos faltantes en un √≠tem puede predecirse por otros,  
identificando patrones MAR/MNAR (dependencia estructurada entre variables).


Interpretaci√≥n del output Pseudo R¬≤ bajo (< 0.05): la variable objetivo (missing o no) no se puede predecir bien ‚Üí evidencia de MCAR.

Pseudo R¬≤ moderado/alto (> 0.1): el patr√≥n de missing puede estar relacionado con otras variables ‚Üí MAR o MNAR.

In [None]:
import statsmodels.api as sm
import pandas as pd

def run_predictive_missingness(df, prefix):
    # Identificar columnas que comienzan con el prefijo y no son totales
    cols = sorted([col for col in df.columns if col.startswith(prefix) and not col.endswith("TOTAL")])

    # Asegurar que sean num√©ricos
    df[cols] = df[cols].apply(pd.to_numeric, errors='coerce')

    results = []

    for target_col in cols:
        y = df[target_col].isnull().astype(int)
        predictors = [col for col in cols if col != target_col]

        X = df[predictors].copy()
        X = X.apply(pd.to_numeric, errors='coerce')

        data = pd.concat([X, y], axis=1).dropna()

        if data.shape[0] >= 30:
            X_clean = data[predictors].astype(float)
            y_clean = data[target_col].astype(float)

            X_clean = sm.add_constant(X_clean)

            try:
                model = sm.Logit(y_clean, X_clean).fit(disp=0)
                pseudo_r2 = model.prsquared
                results.append({
                    "Item": target_col,
                    "Pseudo R¬≤": round(pseudo_r2, 4),
                    "n_obs": data.shape[0]
                })
            except Exception as e:
                results.append({
                    "Item": target_col,
                    "Pseudo R¬≤": "Error",
                    "n_obs": data.shape[0],
                    "error": str(e)
                })

    return pd.DataFrame(results)

# Ejecutar para cada parte
predictive_df_part4 = run_predictive_missingness(df, "UPDRS4.")

# Visualizar

print("\nParte IV:")
print(predictive_df_part4)


## ‚öôÔ∏è Imputabilidad de √≠tems ‚Äî Parte IV
Eval√∫a si cada √≠tem cumple criterios m√≠nimos de imputabilidad (tipo num√©rico, rango 0-4, < 20 % missing).  
El resultado clasifica cada variable como *imputable* o *no imputable*.


In [None]:
# Umbral de % de missing aceptable
umbral_missing = 20

def evaluar_imputabilidad(df, prefix):
    cols = sorted([col for col in df.columns if col.startswith(prefix) and not col.endswith("TOTAL")])
    df[cols] = df[cols].apply(pd.to_numeric, errors='coerce')

    imputabilidad = []
    for col in cols:
        es_numerico = pd.api.types.is_numeric_dtype(df[col])
        en_rango = df[col].dropna().isin([0, 1, 2, 3, 4]).all()
        missing_pct = df[col].isna().mean() * 100
        imputable = es_numerico and en_rango and (missing_pct < umbral_missing)
        imputabilidad.append({
            "√çtem": col,
            "Imputable": imputable,
            "% Missing": round(missing_pct, 2),
            "Num√©rico": es_numerico,
            "Rango 0‚Äì4": en_rango
        })

    return pd.DataFrame(imputabilidad)

# Ejecutar para cada parte

imputabilidad_part4 = evaluar_imputabilidad(df, "UPDRS4.")

# Mostrar

print("\nParte IV:")
print(imputabilidad_part4)


## ü§ñ Sugerencia de m√©todo de imputaci√≥n ‚Äî Parte IV
Propone el m√©todo m√°s adecuado (Moda, Mediana por grupo, KNN, etc.) seg√∫n el porcentaje de celdas faltantes.  
Permite estandarizar el tratamiento de datos ausentes de la Parte IV


In [None]:
import pandas as pd

# Funci√≥n de recomendaci√≥n de imputaci√≥n
def sugerir_metodo_imputacion(missing_pct, tipo="ordinal", escala=(0, 4)):
    if missing_pct > 30:
        return "No imputar (>30% missing)"
    elif tipo == "ordinal" and escala == (0, 4):
        if missing_pct < 5:
            return "Moda"
        elif missing_pct < 20:
            return "Mediana por grupo o regresi√≥n ordinal"
        else:
            return "KNN imputaci√≥n"
    else:
        return "Evaluar manualmente"

# Funci√≥n para aplicar a cada parte
def generar_sugerencias(df, prefix):
    cols = sorted([col for col in df.columns if col.startswith(prefix) and not col.endswith("TOTAL")])
    sugerencias = []
    for col in cols:
        pct_missing = df[col].isna().mean() * 100
        metodo = sugerir_metodo_imputacion(pct_missing)
        sugerencias.append({
            "√çtem": col,
            "% Missing": round(pct_missing, 2),
            "M√©todo sugerido": metodo
        })
    return pd.DataFrame(sugerencias)

# Aplicar y mostrar resultados

sugerencias_updrs4 = generar_sugerencias(df, "UPDRS4.")


print("\nSugerencias Parte IV:")
print(sugerencias_updrs4.to_string(index=False))



## üìã Resumen de sugerencias de imputaci√≥n

En esta secci√≥n se consolidan las recomendaciones de imputaci√≥n para **todas las partes de la MDS-UPDRS (I‚ÄìIV)**.  
El objetivo es automatizar la selecci√≥n de estrategias seg√∫n el tipo de √≠tem, su rango (0‚Äì4) y el porcentaje de datos faltantes.

Cada parte genera su propio resumen con los siguientes campos:

- **√çtem:** nombre de la variable.  
- **% Missing:** proporci√≥n de valores faltantes.  
- **M√©todo sugerido:** t√©cnica recomendada para imputar (o no imputar) seg√∫n criterios definidos.

---


In [None]:
import pandas as pd

# Funci√≥n de recomendaci√≥n
def sugerir_metodo_imputacion(missing_pct, tipo="ordinal", escala=(0, 4)):
    if missing_pct > 30:
        return "No imputar (>30% missing)"
    elif tipo == "ordinal" and escala == (0, 4):
        if missing_pct < 5:
            return "Moda"
        elif missing_pct < 20:
            return "Mediana por grupo o regresi√≥n ordinal"
        else:
            return "KNN imputaci√≥n"
    else:
        return "Evaluar manualmente"

# Funci√≥n para generar recomendaciones
def generar_sugerencias(df, prefix):
    cols = sorted([col for col in df.columns if col.startswith(prefix) and not col.endswith("TOTAL")])
    sugerencias = []
    for col in cols:
        df[col] = pd.to_numeric(df[col], errors='coerce')  # asegurar tipo num√©rico
        pct_missing = df[col].isna().mean() * 100
        metodo = sugerir_metodo_imputacion(pct_missing)
        sugerencias.append({
            "√çtem": col,
            "% Missing": round(pct_missing, 2),
            "M√©todo sugerido": metodo
        })
    return pd.DataFrame(sugerencias)

# Aplicar a todas las partes
sugerencias1 = generar_sugerencias(df, "UPDRS1.")
sugerencias2 = generar_sugerencias(df, "UPDRS2.")
sugerencias3 = generar_sugerencias(df, "UPDRS3.")
sugerencias4 = generar_sugerencias(df, "UPDRS4.")

# Funci√≥n para colorear bonito
def estilo_color(df):
    def highlight_method(val):
        if "No imputar" in val:
            return 'background-color: #ffcccc'
        elif "KNN" in val:
            return 'background-color: #fff2cc'
        elif "Mediana" in val:
            return 'background-color: #ccffcc'
        elif "Moda" in val:
            return 'background-color: #cce5ff'
        else:
            return ''
    return df.style.applymap(highlight_method, subset=["M√©todo sugerido"]).format({"% Missing": "{:.2f}"})

# Mostrar
print("Parte I")
display(estilo_color(sugerencias1))

print("Parte II")
display(estilo_color(sugerencias2))

print("Parte III")
display(estilo_color(sugerencias3))

print("Parte IV")
display(estilo_color(sugerencias4))



## Clasificaci√≥n de severidad por puntos de corte (triangulaci√≥n)

Este bloque clasifica la severidad por **parte** de la MDS-UPDRS y una **severidad global** basada en la categor√≠a m√°s alta entre I‚ÄìIV.  
Los puntos de corte provienen de una triangulaci√≥n (literatura + distribuci√≥n emp√≠rica). Ajusta los umbrales a tu cohorte si es necesario.

### Puntos de corte propuestos
| Parte | Leve (‚â§) | Moderada (‚â§) | Grave (> moderada) |
|------:|---------:|-------------:|--------------------:|
| I     | 10       | 21           |                     |
| II    | 12       | 29           |                     |
| III   | 32       | 58           |                     |
| IV    | 4        | 12           |                     |

> Regla: si el puntaje de la parte ‚â§ *mild_max* ‚Üí **leve**; si ‚â§ *mod_max* ‚Üí **moderada**; si > *mod_max* ‚Üí **grave**.


In [None]:
# --- 1. Definir puntos de corte (triangulaci√≥n del art√≠culo) ---------------
CUTS = {
    "I":   {"mild_max": 10, "mod_max": 21},
    "II":  {"mild_max": 12, "mod_max": 29},
    "III": {"mild_max": 32, "mod_max": 58},
    "IV":  {"mild_max":  4, "mod_max": 12},
}

def clasificar_parte(score, cut):
    if score <= cut["mild_max"]:
        return "leve"
    elif score <= cut["mod_max"]:
        return "moderada"
    else:
        return "grave"

# --- 2. Etiquetar severidad por parte ---------------------------------------
for parte in ["I", "II", "III", "IV"]:
    col_score = f"MDS_UPDRS_{parte}"
    col_sev   = f"sev_{parte}"
    df_clean[col_sev] = df_clean[col_score].apply(lambda x: clasificar_parte(x, CUTS[parte]))

# --- 3. Severidad global (opcional) -----------------------------------------
# Regla pr√°ctica: la categor√≠a m√°s alta entre las cuatro partes
niveles = {"leve": 1, "moderada": 2, "grave": 3}

def severidad_global(row):
    nivel_max = max(row[[f"sev_{p}" for p in ["I","II","III","IV"]]],
                    key=lambda x: niveles[x])
    return nivel_max

df_clean["sev_global"] = df_clean.apply(severidad_global, axis=1)

# --- 4. Vista r√°pida ---------------------------------------------------------
display(df_clean[["num.consec", "fecha.eval",
                  "MDS_UPDRS_I", "MDS_UPDRS_II", "MDS_UPDRS_III", "MDS_UPDRS_IV",
                  "sev_I", "sev_II", "sev_III", "sev_IV", "sev_global"]].head())


## üìà M√©tricas longitudinales: deltas y pendiente anual

Este bloque calcula **variaciones intraindividuales (Œî)** y la **pendiente anualizada** de las puntuaciones MDS-UPDRS  
para evaluar progresi√≥n cl√≠nica en seguimientos longitudinales.

---

### üîß Preprocesamiento
1. **Conversi√≥n de fechas:** se transforma `fecha.eval` a formato `datetime`.  
2. **Normalizaci√≥n de columnas num√©ricas:** todas las columnas `MDS_UPDRS_*` se convierten a tipo num√©rico (`float`).  
3. **Verificaci√≥n del total:** si la columna `MDS_UPDRS_TOTAL` no existe, se genera autom√°ticamente como la suma de las partes I‚ÄìIV.

---

### ‚è≥ Orden cronol√≥gico y c√°lculo temporal
- Se ordenan las observaciones por sujeto (`num.consec`) y fecha.  
- Se calcula el **tiempo transcurrido en a√±os** desde la primera visita individual mediante:
  \[
  \text{tiempo\_a√±os} = \frac{(\text{fecha.eval} - \text{fecha.inicial})}{365.25}
  \]

---

### üîÅ Deltas intraindividuales
- Se calcula la **variaci√≥n respecto a la l√≠nea base** (primera visita) para cada parte y para el total:  
  \[
  \Delta_{\text{parte}} = \text{UPDRS}_{\text{parte}}(t) - \text{UPDRS}_{\text{parte}}(t_0)
  \]
- Estas m√©tricas permiten estimar la progresi√≥n sintom√°tica a lo largo del tiempo.

---

### üßÆ Variables resultantes
| Variable | Descripci√≥n |
|-----------|-------------|
| `tiempo_a√±os` | Tiempo desde la primera evaluaci√≥n (a√±os) |
| `Œî_I`, `Œî_II`, `Œî_III`, `Œî_TOTAL` | Cambios absolutos por parte y global |
| `MDS_UPDRS_TOTAL` | Puntaje total sumado autom√°ticamente si no exist√≠a |

---

> **Interpretaci√≥n:**  
> - Un Œî positivo indica **empeoramiento** en la puntuaci√≥n.  
> - La pendiente anual puede estimarse aplicando regresi√≥n lineal (`Œî / tiempo_a√±os`) o modelos mixtos seg√∫n la estructura del seguimiento.  
> - Este bloque es fundamental para construir m√©tricas de progresi√≥n y modelado longitudinal.



In [None]:
from datetime import timedelta
import pandas as pd

# --- 0. Asegura tipos --------------------------------------------------------
# 0.1 Fechas
df_clean["fecha.eval"] = pd.to_datetime(df_clean["fecha.eval"], errors="coerce")

# 0.2 Puntajes UPDRS: fuerza a num√©rico; lo que no sea n√∫mero se vuelve NaN
score_cols = [c for c in df_clean.columns if c.startswith("MDS_UPDRS_")]
df_clean[score_cols] = df_clean[score_cols].apply(pd.to_numeric, errors="coerce")

# 0.3 Si a√∫n no existe el total, cr√©alo r√°pido
if "MDS_UPDRS_TOTAL" not in df_clean.columns:
    df_clean["MDS_UPDRS_TOTAL"] = df_clean[[f"MDS_UPDRS_{p}"
                                            for p in ["I", "II", "III", "IV"]]].sum(axis=1)

# --- 1. Orden cronol√≥gico ----------------------------------------------------
df_clean = df_clean.sort_values(["num.consec", "fecha.eval"])

# --- 2. Tiempo (a√±os) desde la primera visita individual ---------------------
df_clean["tiempo_a√±os"] = (
    df_clean.groupby("num.consec")["fecha.eval"]
            .transform(lambda x: (x - x.min()).dt.total_seconds() / (365.25 * 24 * 3600))
)

# --- 3. Œî vs. l√≠nea base -----------------------------------------------------
for parte in ["I", "II", "III", "TOTAL"]:
    base = df_clean.groupby("num.consec")[f"MDS_UPDRS_{parte}"].transform("first")
    df_clean[f"Œî_{parte}"] = df_clean[f"MDS_UPDRS_{parte}"] - base


## üìä Visualizaci√≥n r√°pida de los resultados (`df_clean`)

Este bloque permite revisar de forma inmediata la coherencia general de los datos procesados,  
la distribuci√≥n de severidad global en la √∫ltima visita de cada paciente y la tendencia media del puntaje total de MDS-UPDRS en el tiempo.

---

### 1Ô∏è‚É£ Vista r√°pida de registros procesados
Se inspeccionan las primeras filas relevantes de la base limpia (`df_clean`), mostrando:
- **Identificador del paciente (`num.consec`)**
- **Fecha de evaluaci√≥n (`fecha.eval`)**
- **Puntaje total (`MDS_UPDRS_TOTAL`)**
- **Delta total respecto a la l√≠nea base (`Œî_TOTAL`)**
- **Clasificaci√≥n de severidad global (`sev_global`)**

> Esta vista sirve para verificar que la estructura de columnas y los c√°lculos previos se realizaron correctamente.

---

### 2Ô∏è‚É£ Distribuci√≥n de la severidad global (√∫ltima visita)
Se obtiene la categor√≠a de **severidad global** de la √∫ltima visita de cada paciente y se calcula la distribuci√≥n de frecuencias:
- Permite identificar cu√°ntos casos est√°n en fases **leves**, **moderadas** o **graves**.
- Es √∫til como control de coherencia y para visualizar el **estado cl√≠nico final de la cohorte**.

```python
print("Distribuci√≥n de severidad global (√∫ltima visita):")
print(ultima_visita["sev_global"].value_counts())


In [None]:
# ---------------------------------------------------------------
# VISUALIZACI√ìN R√ÅPIDA DE LOS RESULTADOS EN df_clean
# ---------------------------------------------------------------
import pandas as pd
import matplotlib.pyplot as plt

# 1) Vista r√°pida de las primeras visitas procesadas
cols_vista = ["num.consec", "fecha.eval",
              "MDS_UPDRS_TOTAL", "Œî_TOTAL", "sev_global"]

if 'df_clean' not in globals():
    raise NameError("No se encontr√≥ la variable `df_clean`. "
                    "Ejecuta primero el script de procesamiento.")

display(df_clean[cols_vista].head(10))

# 2) Distribuci√≥n de la severidad global (√∫ltima visita por paciente)
ultima_visita = (
    df_clean.sort_values(["num.consec", "fecha.eval"])
            .groupby("num.consec")
            .tail(1)
)
print("\nDistribuci√≥n de severidad global (√∫ltima visita):")
print(ultima_visita["sev_global"].value_counts())

# 3) Progresi√≥n media del puntaje total a lo largo del tiempo
mean_prog = (
    df_clean.groupby("tiempo_a√±os")["Œî_TOTAL"]
            .mean()
            .sort_index()
)

plt.figure()
plt.plot(mean_prog.index, mean_prog.values, marker='o')
plt.xlabel("Tiempo (a√±os)")
plt.ylabel("Œî MDS-UPDRS Total")
plt.title("Progresi√≥n media del MDS-UPDRS Total")
plt.grid(True)
plt.show()


## üéØ Etiquetas de cambio cl√≠nicamente importante (MCID + evento de progresi√≥n)

Esta secci√≥n implementa las **banderas de cambio cl√≠nicamente significativo (MCID)** para identificar  
mejoras o empeoramientos relevantes en las puntuaciones MDS-UPDRS a nivel individual, as√≠ como un  
evento de progresi√≥n motora (+5 puntos en Parte III, estado OFF).

---

### üîπ 4.1 Umbrales MCID publicados

| Parte | MCID (puntos) | Interpretaci√≥n |
|:------|:--------------|:---------------|
| I     | ¬±2.5          | Cambio cl√≠nicamente relevante en s√≠ntomas no motores |
| II    | ¬±3.0          | Cambio cl√≠nicamente relevante en actividades de la vida diaria |
| III (mejora) | ‚Äì3.25 | Mejora significativa del desempe√±o motor |
| III (empeora) | +4.63 | Empeoramiento cl√≠nicamente importante del desempe√±o motor |

> **Referencia:**  
> Horvath et al., *Movement Disorders Clinical Practice*, 2020.  
> Li et al., *Parkinsonism & Related Disorders*, 2021.

---

### üî∏ 4.2 Creaci√≥n de indicadores (flags) MCID

Cada variable de delta (`Œî_I`, `Œî_II`, `Œî_III`) se eval√∫a contra los umbrales definidos:  
- Si el cambio absoluto excede el MCID ‚Üí **cambio cl√≠nicamente importante**.  
- En la Parte III se generan dos indicadores separados:
  - `mcid_III_mej`: mejora significativa (‚â§ ‚Äì3.25).  
  - `mcid_III_emp`: empeoramiento significativo (‚â• +4.63).

Ejemplo de c√°lculo:

```python
df_clean["mcid_I"]        = df_clean["Œî_I"].abs()   >= MCID["I"]
df_clean["mcid_II"]       = df_clean["Œî_II"].abs()  >= MCID["II"]
df_clean["mcid_III_mej"]  = df_clean["Œî_III"] <= -MCID["III_mej"]
df_clean["mcid_III_emp"]  = df_clean["Œî_III"] >=  MCID["III_emp"]


In [None]:
# 4.1 Umbrales publicados
MCID = {
    "I":  2.5,   # ¬±2.5 pts
    "II": 3.0,   # ¬±3.0 pts
    "III_mej": 3.25,
    "III_emp": 4.63
}

# 4.2 Flags MCID
df_clean["mcid_I"]        = df_clean["Œî_I"].abs()  >= MCID["I"]
df_clean["mcid_II"]       = df_clean["Œî_II"].abs() >= MCID["II"]
df_clean["mcid_III_mej"]  = df_clean["Œî_III"] <= -MCID["III_mej"]
df_clean["mcid_III_emp"]  = df_clean["Œî_III"] >=  MCID["III_emp"]

# 4.3 Evento de progresi√≥n motora (+5 pts Parte III OFF)
df_clean["event_progIII"] = df_clean["Œî_III"] >= 5


## ‚è±Ô∏è Pendiente individual y an√°lisis ‚Äútime-to-event‚Äù

Esta secci√≥n prepara el entorno para el c√°lculo de **pendientes de progresi√≥n individual** y el an√°lisis de **tiempo hasta evento cl√≠nico (time-to-event)**, t√≠picamente mediante modelos de supervivencia de Cox.

---

### üîß Instalaci√≥n de dependencias
Se instala la librer√≠a `lifelines`, ampliamente utilizada en an√°lisis de supervivencia (Kaplan-Meier, CoxPH, etc.):



In [None]:
!pip install -q lifelines


In [None]:
import statsmodels.formula.api as smf
from lifelines import CoxPHFitter


## üìà Modelo Mixto Robusto: Pendiente Individual (MDS-UPDRS III)

Esta secci√≥n estima la **pendiente individual de progresi√≥n motora** (Parte III de la MDS-UPDRS) mediante un **modelo lineal mixto (Mixed-Effects Model)**, que permite capturar tanto la tendencia general como la variabilidad entre pacientes.

---

### ‚öôÔ∏è 0. Preparaci√≥n de los datos
1. Se genera una **copia de trabajo** (`df_mlm`) a partir del dataframe limpio (`df_clean`).  
2. Se seleccionan las variables necesarias:
   - `num.consec` ‚Üí identificador del paciente.  
   - `MDS_UPDRS_III` ‚Üí puntuaci√≥n motora.  
   - `tiempo_a√±os` ‚Üí tiempo desde la l√≠nea base.  
3. Se convierten los tipos de datos y se eliminan valores faltantes.

> **Criterio de inclusi√≥n:** solo se conservan pacientes con **‚â• 2 visitas** y **‚â• 2 puntos de tiempo distintos**.

---

### üßÆ 1. Especificaci√≥n del modelo

El modelo lineal mixto ajusta la relaci√≥n:
\[
\text{MDS\_UPDRS\_III}_{ij} = \beta_0 + \beta_1 \times \text{tiempo\_a√±os}_{ij} + u_{0i} + u_{1i} \times \text{tiempo\_a√±os}_{ij} + \varepsilon_{ij}
\]

Donde:
- \( \beta_0, \beta_1 \) ‚Üí efectos fijos (intercepto y pendiente media poblacional).  
- \( u_{0i}, u_{1i} \) ‚Üí efectos aleatorios por paciente (variaci√≥n interindividual).  
- \( \varepsilon_{ij} \) ‚Üí error residual intraindividual.

El modelo se implementa as√≠:

```python
modelo = smf.mixedlm(
    formula="MDS_UPDRS_III ~ tiempo_a√±os",
    data=df_mlm,
    groups=df_mlm["num.consec"],
    re_formula="~tiempo_a√±os"  # pendiente aleatoria por paciente
).fit(reml=False, method="lbfgs")


In [None]:
# --------------------------------------------------------------
#  MIXED-LM ROBUSTO: PENDIENTE INDIVIDUAL (MDS-UPDRS III)
# --------------------------------------------------------------
import pandas as pd
import statsmodels.formula.api as smf
import numpy as np

# 0. Copia de trabajo
df_mlm = df_clean.copy()

# 1. Conversi√≥n de tipos y descarte de NaN
cols_req = ["num.consec", "MDS_UPDRS_III", "tiempo_a√±os"]
df_mlm = df_mlm[cols_req].dropna()

df_mlm["num.consec"]      = df_mlm["num.consec"].astype("category")
df_mlm["MDS_UPDRS_III"]   = pd.to_numeric(df_mlm["MDS_UPDRS_III"], errors="coerce")
df_mlm["tiempo_a√±os"]     = pd.to_numeric(df_mlm["tiempo_a√±os"],  errors="coerce")
df_mlm = df_mlm.dropna()

# 2. Mantener solo pacientes con ‚â•2 visitas *y* ‚â•2 tiempos distintos
def good_group(x):
    return (len(x) >= 2) and (x["tiempo_a√±os"].nunique() >= 2)

df_mlm = df_mlm.groupby("num.consec").filter(good_group)

# 3. Resetear √≠ndice para evitar huecos
df_mlm = df_mlm.reset_index(drop=True)

print("Observaciones:", len(df_mlm),
      "| Pacientes:", df_mlm["num.consec"].nunique())

# 4. Modelo lineal mixto (intercepto + pendiente aleatoria)
modelo = smf.mixedlm(
    formula="MDS_UPDRS_III ~ tiempo_a√±os",
    data=df_mlm,
    groups=df_mlm["num.consec"],
    re_formula="~tiempo_a√±os"        #  ‚Üê incluye random-slope
).fit(reml=False, method="lbfgs")     # LBFGS: m√°s estable que default Newton

print(modelo.summary())

# 5. Extraer pendientes individuales (coef. de tiempo_a√±os)
pend_slopes = {
    k: v["tiempo_a√±os"] for k, v in modelo.random_effects.items()
}

df_slopes = (pd.Series(pend_slopes, name="pendiente_III")
               .reset_index()
               .rename(columns={"index": "num.consec"}))

display(df_slopes.head())


## Cr√©ditos

Desarrollado por:  
**Laboratorio Cl√≠nico de Enfermedades Neurodegenerativas (LCEN)**  
Instituto Nacional de Neurolog√≠a y Neurocirug√≠a ‚ÄúManuel Velasco Su√°rez‚Äù (INNN)  
Ciudad de M√©xico, M√©xico  

Colaboradores:  
- Dr. Amin Cervantes-Arriaga  
- Dra. Mayela Rodr√≠guez-Violante  
- Equipo ReMePARK ‚Äì LCEN-INNN


## Licencia

Este trabajo se distribuye bajo la licencia [MIT](./LICENSE).  
Puedes usarlo, modificarlo y compartirlo citando la fuente original.
