___


# <font color= #8A0829> Proyecto Taller de Modelado de Datos </font>

<Strong> Alumnos: </Strong>
- Marcela Quintero Pérez
- Santiago Ayon Sanchez
- Gael Rendon Mendoza

<Strong> Año </Strong>: 2025

<Strong> Email: </Strong>  
- <font color="blue"> is717644@iteso.mx </font>
- <font color="blue"> santiago.ayon@iteso.mx </font>
- <font color="blue"> gael.rendon@iteso.mx </font>

___

## Librerías

In [1]:
# Librerías
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import plotly.colors as pc
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import seaborn as sns
from sklearn.discriminant_analysis import StandardScaler
from sklearn.feature_selection import RFE
from sklearn.linear_model import LassoCV, LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.model_selection import KFold, cross_val_score, learning_curve, train_test_split
from statsmodels.stats.outliers_influence import variance_inflation_factor
from ucimlrepo import fetch_ucirepo 
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Ignorar warnings
import warnings
warnings.filterwarnings("ignore")

colors = pc.qualitative.Plotly + pc.qualitative.D3

sns.set_theme(style="whitegrid")

seed = 123

In [2]:
# pip install ucimlrepo

## Regresión

###  <font color= #ffffffff> SUPPORT2 </font>
url: https://archive.ics.uci.edu/dataset/880/support2

Este dataset contiene información de 9105 pacientes críticamente enfermos de cinco centros médicos en Estados Unidos, recopilada entre 1989-1991 y 1992-1994, cuenta con un total de 42 variables. Cada registro corresponde a un paciente hospitalizado que cumplió los criterios de inclusión y exclusión para nueve categorías de enfermedades, incluyendo insuficiencia respiratoria aguda, enfermedad pulmonar obstructiva crónica, insuficiencia cardíaca congestiva, enfermedades hepáticas, coma, cáncer de colon, cáncer de pulmón, fallo multiorgánico con malignidad y fallo multiorgánico con sepsis.
El problema se abordará como una tarea de regresión, ya que el objetivo es predecir la probabilidad de supervivencia de los pacientes a los 2 y 6 meses a partir de variables fisiológicas, demográficas y relacionadas con la severidad de la enfermedad.

### Descripción de las variables del dataset

- **id**: Identificador único del paciente.
- **age**: Edad del paciente en años.
- **death**: Fallecimiento hasta la fecha del National Death Index (NDI). Valores: `0` (No), `1` (Sí).
- **sex**: Género del paciente. Valores: `male` o `female`.
- **hospdead**: Fallecimiento durante la hospitalización. Valores: `0` (No), `1` (Sí).
- **d.time**: Días de seguimiento del paciente.
- **dzgroup**: Subcategoría de la enfermedad del paciente, por ejemplo: ARF/MOSF w/Sepsis, CHF, COPD, Cirrhosis, Colon Cancer, Coma, Lung Cancer, MOSF w/Malig.
- **dzclass**: Categoría general de la enfermedad: ARF/MOSF, COPD/CHF/Cirrhosis, Cancer, Coma.
- **num.co**: Número de comorbilidades simultáneas.
- **edu**: Nivel educativo del paciente.
- **income**: Ingreso anual del paciente.
- **scoma**: Puntuación de coma del paciente en el tercer día del estudio, basada en la escala de Glasgow.
- **charges**: Cargos hospitalarios asociados al paciente durante su estancia.
- **totcst**: Ratio total de costos a cargos, utilizado para evaluar la eficiencia de los servicios médicos proporcionados al paciente. Un valor más bajo puede indicar una mayor eficiencia en el uso de recursos.
- **totmcst**: Costo total microeconómico asociado al paciente, que incluye todos los costos directos relacionados con su atención médica.
- **avtisst**: Puntuación promedio del Sistema de Puntuación de Intervenciones Terapéuticas (TISS) durante los días 3 a 25 del estudio. El TISS es una herramienta utilizada para medir la intensidad de la atención en unidades de cuidados intensivos.
- **race**: Raza del paciente (asian, black, hispanic, missing, other, white).
- **sps**: Puntuación de la respuesta pupilar del paciente en el tercer día del estudio, utilizada para evaluar el nivel de conciencia y la función neurológica del paciente.
- **aps**: Puntuación que refleja la gravedad de la enfermedad del paciente en función de parámetros fisiológicos como la presión arterial, frecuencia cardíaca, temperatura, entre otros.
- **surv2m**: Indicador binario que indica si el paciente sobrevivió durante los dos meses posteriores a la hospitalización. Valores: `0` (No), `1` (Sí).
- **surv6m**: Indicador binario que indica si el paciente sobrevivió durante los seis meses posteriores a la hospitalización. Valores: `0` (No), `1` (Sí).
- **hday**: Día de la hospitalización en que el paciente ingresó al estudio.
- **diabetes**: Indicador binario que señala si el paciente tiene diabetes mellitus como comorbilidad. Valores: `0` (No), `1` (Sí).
- **dementia**: Indicador binario que señala si el paciente tiene demencia como comorbilidad. Valores: `0` (No), `1` (Sí).
- **ca**:  Indicador binario que indica si el paciente tiene cáncer como comorbilidad. Valores: `0` (No), `1` (Sí).
- **prg2m**: Indicador de progreso o empeoramiento de la enfermedad a los 2 meses de seguimiento. Valores: `0` (No), `1` (Sí).
- **prg6m**:  Indicador de progreso o empeoramiento de la enfermedad a los 6 meses de seguimiento. Valores: `0` (No), `1` (Sí).
- **dnr**: Indica si existe una orden de “No Reanimar” para el paciente. Valores: `0` (No), `1` (Sí).
- **dnrday**: Día en que se emitió la orden de “No Reanimar” durante la hospitalización.
- **meanbp**: Presión arterial media del paciente en mmHg, calculada a partir de presiones sistólica y diastólica.
- **wblc**: Recuento de glóbulos blancos (miles/mm³).
- **hrt**: Frecuencia cardíaca del paciente en latidos por minuto.
- **resp**: Frecuencia respiratoria (respiraciones por minuto).
- **pafi**: Relación PaO2/FiO2 (oxigenación).
- **alb**: Nivel de albúmina sérica.
- **bili**: Nivel de bilirrubina en sangre.
- **crea**: Creatinina sérica.
- **sod**: Nivel de sodio sérico del paciente (mEq/L). Se utiliza para evaluar el equilibrio electrolítico y la función renal.
- **ph**: pH sanguíneo del paciente, indicador del equilibrio ácido-base y la homeostasis.
- **glucose**: Nivel de glucosa en sangre del paciente (mg/dL). Permite evaluar el control metabólico y detectar hiperglucemia o hipoglucemia.
- **bun**: Nitrógeno ureico en sangre.
- **urine**: Volumen de orina diario (ml).
- **adlp**: Puntuación de actividades de la vida diaria (ADL).
- **adls**: Puntuación de las actividades de la vida diaria (ADL), que refleja la capacidad funcional del paciente para realizar tareas básicas de autocuidado.
- **adlsc**: Puntuación actual de las actividades de la vida diaria (ADL) del paciente, que indica su capacidad funcional en el momento del registro. Esta variable complementa a `adls` y permite evaluar cambios en la autonomía y funcionalidad del paciente.
- **sfdm2 (target)**: Discapacidad funcional del paciente a 2 meses, medida en escala de 1 a 5.

In [3]:
# fetch dataset 
support2 = fetch_ucirepo(id=880) 
  
# data (as pandas dataframes) 
X = support2.data.features 
y = support2.data.targets 
  
# metadata 
# print(support2.metadata) 
  
# variables 
# print(support2.variables) 

### EDA

Dado que el conjunto de datos contiene más de 40 variables clínicas, demográficas y administrativas, se realizó una selección preliminar de características con el objetivo de optimizar el análisis exploratorio y reducir la carga computacional. Esta selección se fundamentó en la relevancia teórica y clínica de cada variable respecto al objetivo del estudio: predecir el nivel de discapacidad funcional del paciente a los dos meses (`sfdm2`), una variable ordinal en escala de 1 a 5.

Se conservaron únicamente aquellas variables que presentan una relación directa o potencialmente explicativa del estado funcional del paciente, agrupadas en las siguientes categorías:

- **Características demográficas y socioeconómicas (age, sex, race, edu, income):**
Estas variables permiten identificar posibles patrones asociados al estado funcional por edad, género o condiciones socioeconómicas.

- **Características clínicas generales (dzclass, num.co, diabetes, dementia, ca, dnr):** 
Representan el tipo de enfermedad principal  y factores clínicos o éticos (como la orden de "No Reanimar") que pueden influir en la evolución funcional del paciente.

- **Indicadores de gravedad fisiológica y neurológica (aps, scoma, avtisst, sps):**
Estas métricas resumen la severidad de la condición del paciente, evaluando funciones vitales, nivel de conciencia e intensidad del tratamiento recibido.

- **Parámetros fisiológicos y bioquímicos (meanbp, hrt, resp, pafi, alb, crea, sod, ph, glucose, bun, urine):**
Variables que reflejan el estado fisiológico general y el funcionamiento de órganos críticos, los cuales se relacionan con la capacidad de recuperación y autonomía.

- **Indicadores de funcionalidad (adlp, adls, adlsc):**
Estas variables son mediciones complementarias del desempeño en actividades de la vida diaria y guardan una relación conceptual directa con el tagret `sfdm2`.

Se excluyeron variables redundantes, derivadas o poco informativas para el objetivo del modelo, tales como identificadores (id), variables de desenlace (death, surv2m, surv6m, prg2m, prg6m), descripciones excesivamente detalladas de enfermedades (dzgroup), y métricas administrativas o financieras (charges, totcst, totmcst, slos, hday, dnrday).

Esta reducción deja un subconjunto de aproximadamente 30 variables que mantiene la información más relevante para explicar la discapacidad funcional, permitiendo realizar un EDA más ágil y focalizado, sin comprometer la integridad analítica del estudio.

In [4]:
# Combinar en un solo DataFrame
df_regresion = pd.concat([X, y], axis=1)
df_regresion_copy = df_regresion.copy()

# df_regresion.head()

In [5]:
cols_interes = [
    'age', 'sex', 'race', 'dzclass',
    'edu', 'income',
    'num.co', 'diabetes', 'dementia', 'ca', 'dnr',
    'aps', 'scoma', 'avtisst', 'sps',
    'meanbp', 'hrt', 'resp', 'pafi', 'alb',
    'crea', 'sod', 'ph', 'glucose', 'bun', 'urine',
    'adlp', 'adls', 'adlsc',
    'sfdm2'
]

In [6]:
print(df_regresion.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9105 entries, 0 to 9104
Data columns (total 45 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       9105 non-null   float64
 1   sex       9105 non-null   object 
 2   dzgroup   9105 non-null   object 
 3   dzclass   9105 non-null   object 
 4   num.co    9105 non-null   int64  
 5   edu       7471 non-null   float64
 6   income    6123 non-null   object 
 7   scoma     9104 non-null   float64
 8   charges   8933 non-null   float64
 9   totcst    8217 non-null   float64
 10  totmcst   5630 non-null   float64
 11  avtisst   9023 non-null   float64
 12  race      9063 non-null   object 
 13  sps       9104 non-null   float64
 14  aps       9104 non-null   float64
 15  surv2m    9104 non-null   float64
 16  surv6m    9104 non-null   float64
 17  hday      9105 non-null   int64  
 18  diabetes  9105 non-null   int64  
 19  dementia  9105 non-null   int64  
 20  ca        9105 non-null   obje

In [7]:
df_regresion = df_regresion[cols_interes]

df_regresion.head()

Unnamed: 0,age,sex,race,dzclass,edu,income,num.co,diabetes,dementia,ca,...,crea,sod,ph,glucose,bun,urine,adlp,adls,adlsc,sfdm2
0,62.84998,male,other,Cancer,11.0,$11-$25k,0,0,0,metastatic,...,1.199951,141.0,7.459961,,,,7.0,7.0,7.0,
1,60.33899,female,white,COPD/CHF/Cirrhosis,12.0,$11-$25k,2,0,0,no,...,5.5,132.0,7.25,,,,,1.0,1.0,<2 mo. follow-up
2,52.74698,female,white,COPD/CHF/Cirrhosis,12.0,under $11k,2,0,0,no,...,2.0,134.0,7.459961,,,,1.0,0.0,0.0,<2 mo. follow-up
3,42.38498,female,white,Cancer,11.0,under $11k,2,0,0,metastatic,...,0.799927,139.0,,,,,0.0,0.0,0.0,no(M2 and SIP pres)
4,79.88495,female,white,ARF/MOSF,,,1,0,0,no,...,0.799927,143.0,7.509766,,,,,2.0,2.0,no(M2 and SIP pres)


In [8]:
# pd.set_option('display.max_columns', None)
# display(df_regresion.head(10))

El conjunto de datos por analizar cuenta con 30 variables y 9105 observaciones.

In [9]:
# Exploración inicial del dataset
print("Dimensiones del dataset:", df_regresion.shape)

print("\nInfo del dataset:")
print(df_regresion.info())

Dimensiones del dataset: (9105, 30)

Info del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9105 entries, 0 to 9104
Data columns (total 30 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       9105 non-null   float64
 1   sex       9105 non-null   object 
 2   race      9063 non-null   object 
 3   dzclass   9105 non-null   object 
 4   edu       7471 non-null   float64
 5   income    6123 non-null   object 
 6   num.co    9105 non-null   int64  
 7   diabetes  9105 non-null   int64  
 8   dementia  9105 non-null   int64  
 9   ca        9105 non-null   object 
 10  dnr       9075 non-null   object 
 11  aps       9104 non-null   float64
 12  scoma     9104 non-null   float64
 13  avtisst   9023 non-null   float64
 14  sps       9104 non-null   float64
 15  meanbp    9104 non-null   float64
 16  hrt       9104 non-null   float64
 17  resp      9104 non-null   float64
 18  pafi      6780 non-null   float64
 19  alb       5733

El dataset presenta un patrón heterogéneo de valores faltantes entre las distintas variables. La mayoría de las columnas muestran una completitud alta, sin embargo, existen algunas variables clínicas y funcionales con proporciones considerables de datos ausentes. En términos generales, las variables con valores nulos se distribuyen de la siguiente manera:

- **Variables con datos prácticamente completos (<1% de nulos):**
`race`, `dnr`, `aps`, `scoma`, `avtisst`, `sps`, `meanbp`, `hrt`, `resp`, `sod`, `crea`.
Las ausencias en estas columnas son mínimas y no deberían afectar los análisis posteriores.

- **Variables con un nivel moderado de ausencia (20–35% de nulos):**
`edu`, `income`, `pafi`, `ph`, `adls`.
En este grupo se encuentran variables demográficas y de estado fisiológico. Su ausencia puede deberse a la falta de registro durante la hospitalización o a información no reportada por el paciente o su familia.

- **Variables con alta proporción de nulos (>40%):**
`alb`, `glucose`, `bun`, `urine`, `adlp`.
Estas variables bioquímicas y funcionales son las que presentan mayor cantidad de valores perdidos. En estos casos, la imputación podría introducir un sesgo considerable, por lo que su inclusión en modelos posteriores debe evaluarse cuidadosamente según su relevancia clínica o correlación con el target.

In [10]:
# Revisar valores nulos y duplicados
print("\nValores nulos por columna:")
print(df_regresion.isnull().sum())

print("\nNúmero de registros duplicados:", df_regresion.duplicated().sum())
df = df_regresion.drop_duplicates()


Valores nulos por columna:
age            0
sex            0
race          42
dzclass        0
edu         1634
income      2982
num.co         0
diabetes       0
dementia       0
ca             0
dnr           30
aps            1
scoma          1
avtisst       82
sps            1
meanbp         1
hrt            1
resp           1
pafi        2325
alb         3372
crea          67
sod            1
ph          2284
glucose     4500
bun         4352
urine       4862
adlp        5641
adls        2867
adlsc          0
sfdm2       1400
dtype: int64

Número de registros duplicados: 0


In [11]:
print("\nEstadísticas descriptivas:")
print(df_regresion.describe().T)


Estadísticas descriptivas:
           count         mean          std         min          25%  \
age       9105.0    62.650823    15.593710   18.041990    52.797000   
edu       7471.0    11.747691     3.447743    0.000000    10.000000   
num.co    9105.0     1.868644     1.344409    0.000000     1.000000   
diabetes  9105.0     0.195277     0.396436    0.000000     0.000000   
dementia  9105.0     0.032510     0.177359    0.000000     0.000000   
aps       9104.0    37.597979    19.903852    0.000000    23.000000   
scoma     9104.0    12.058546    24.636694    0.000000     0.000000   
avtisst   9023.0    22.610928    13.233248    1.000000    12.000000   
sps       9104.0    25.525872     9.899377    0.199982    19.000000   
meanbp    9104.0    84.546408    27.687692    0.000000    63.000000   
hrt       9104.0    97.156711    31.559292    0.000000    72.000000   
resp      9104.0    23.330294     9.573801    0.000000    18.000000   
pafi      6780.0   239.529070   109.665593   12.0

Antes de realizar cualquier análisis exploratorio más profundo o modelado, es importante asegurar que las variables tengan formatos consistentes y tipos de datos correctos, así como preparar la variable objetivo para que sea numérica y utilizable por los modelos.

In [12]:
df_regresion['ca'] = df_regresion['ca'].map({'no': 0, 'metastatic': 1}).astype('Int64')
df_regresion['dnr'] = df_regresion['dnr'].apply(lambda x: 0 if x in ['no', 'no dnr'] else 1 if pd.notnull(x) else np.nan).astype('Int64')
df_regresion['sex'] = df_regresion['sex'].map({'male': 1, 'female': 0}).astype('Int64')
df_regresion['race'] = df_regresion['race'].fillna('missing')
df_regresion['income'] = df_regresion['income'].fillna('missing')

# Convertir texto de target a escala numérica 1-5
sfdm2_map = {
    "no(M2 and SIP pres)": 1,
    "adl>=4 (>=5 if sur)": 2,
    "SIP>=30": 3,
    "Coma or Intub": 4,
    "<2 mo. follow-up": 5
}

df_regresion['sfdm2'] = df_regresion['sfdm2'].map(sfdm2_map).astype('Float64')

int_cols = ['num.co', 'diabetes', 'dementia']
df_regresion[int_cols] = df_regresion[int_cols].astype('Int64')

float_cols = ['age', 'edu', 'aps', 'scoma', 'avtisst', 'sps', 'meanbp', 'hrt',
              'resp', 'pafi', 'alb', 'crea', 'sod', 'ph', 'glucose', 'bun', 
              'urine', 'adlp', 'adls', 'adlsc']
df_regresion[float_cols] = df_regresion[float_cols].astype('Float64')

df_regresion = df_regresion.dropna(subset=['sfdm2'])

In [13]:
# Revisar valores nulos y duplicados después de la limpieza inicial
print("\nValores nulos por columna:")
print(df_regresion.isnull().sum())

print("\nNúmero de registros duplicados:", df_regresion.duplicated().sum())
df = df_regresion.drop_duplicates()


Valores nulos por columna:
age            0
sex            0
race           0
dzclass        0
edu         1045
income         0
num.co         0
diabetes       0
dementia       0
ca          1110
dnr           30
aps            1
scoma          1
avtisst       67
sps            1
meanbp         1
hrt            1
resp           1
pafi        1888
alb         2779
crea          50
sod            1
ph          1852
glucose     3747
bun         3647
urine       4087
adlp        4683
adls        2023
adlsc          0
sfdm2          0
dtype: int64

Número de registros duplicados: 0


In [14]:
df_regresion.head()

Unnamed: 0,age,sex,race,dzclass,edu,income,num.co,diabetes,dementia,ca,...,crea,sod,ph,glucose,bun,urine,adlp,adls,adlsc,sfdm2
1,60.33899,0,white,COPD/CHF/Cirrhosis,12.0,$11-$25k,2,0,0,0,...,5.5,132.0,7.25,,,,,1.0,1.0,5.0
2,52.74698,0,white,COPD/CHF/Cirrhosis,12.0,under $11k,2,0,0,0,...,2.0,134.0,7.459961,,,,1.0,0.0,0.0,5.0
3,42.38498,0,white,Cancer,11.0,under $11k,2,0,0,1,...,0.799927,139.0,,,,,0.0,0.0,0.0,1.0
4,79.88495,0,white,ARF/MOSF,,missing,1,0,0,0,...,0.799927,143.0,7.509766,,,,,2.0,2.0,1.0
5,93.01599,1,white,Coma,14.0,missing,1,0,0,0,...,0.699951,140.0,7.65918,,,,,1.0,1.0,5.0


In [15]:
# Exploración inicial del dataset
print("Dimensiones del dataset:", df_regresion.shape)

print("\nInfo del dataset:")
print(df_regresion.info())

Dimensiones del dataset: (7705, 30)

Info del dataset:
<class 'pandas.core.frame.DataFrame'>
Index: 7705 entries, 1 to 9104
Data columns (total 30 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       7705 non-null   Float64
 1   sex       7705 non-null   Int64  
 2   race      7705 non-null   object 
 3   dzclass   7705 non-null   object 
 4   edu       6660 non-null   Float64
 5   income    7705 non-null   object 
 6   num.co    7705 non-null   Int64  
 7   diabetes  7705 non-null   Int64  
 8   dementia  7705 non-null   Int64  
 9   ca        6595 non-null   Int64  
 10  dnr       7675 non-null   Int64  
 11  aps       7704 non-null   Float64
 12  scoma     7704 non-null   Float64
 13  avtisst   7638 non-null   Float64
 14  sps       7704 non-null   Float64
 15  meanbp    7704 non-null   Float64
 16  hrt       7704 non-null   Float64
 17  resp      7704 non-null   Float64
 18  pafi      5817 non-null   Float64
 19  alb       4926 non-

In [16]:
train_df_reg, test_df_reg = train_test_split(df_regresion, test_size=0.2, random_state=42)

print("Train shape:", train_df_reg.shape)
print("Test shape:", test_df_reg.shape)

Train shape: (6164, 30)
Test shape: (1541, 30)


In [17]:
categorical_cols = df_regresion.select_dtypes(include=['object']).columns.tolist()
numerical_cols = df_regresion.select_dtypes(include=['float64', 'int64']).columns.tolist()

numerical_cols.remove('sfdm2')

Para las variables numéricas, se procede a analizar su comportamiento respecto al target `sfdm2`:

In [18]:
for i, var in enumerate(numerical_cols):
    color = colors[i % len(colors)]

    fig = make_subplots(rows=1, cols=2, subplot_titles=(f"{var} vs sfdm2", f"Distribución de {var}"))

    scatter = go.Scatter(x=train_df_reg[var], y=train_df_reg["sfdm2"], mode="markers", marker=dict(color=color, opacity=0.6), name=f"{var} vs sfdm2")
    fig.add_trace(scatter, row=1, col=1)

    hist = go.Histogram(x=train_df_reg[var], marker_color=color, name=f"Distribución de {var}")
    fig.add_trace(hist, row=1, col=2)

    fig.update_layout(title_text=f"Análisis de {var}", title_font=dict(size=20, family="Arial", color="black"), title_x=0.5, showlegend=False)

    fig.show()

En los gráficos anteriores se pudo observar lo siguiente:

- **Age:**
    - La edad varía entre 18 y 100 años, con una mediana de 65 años y una media de 62.8, indicando que la mayoría de los pacientes son adultos mayores.
    - El 50% central de los datos se encuentra entre aproximadamente 53 y 74 años.
<!-- `Insight: La distribución está concentrada en adultos mayores; podría ser útil analizar subgrupos por rangos de edad para modelado.` -->

- **Sex:**
    - Variable binaria (0–1), con una media de 0.56, indicando ligera mayoría de hombres.
<!-- `Insight: Puede considerarse como variable categórica; ligera desbalance, pero probablemente no problemático para modelado.` -->

- **Edu (años de educación):**
    - Varía de 0 a 31 años, con una mediana de 12 y un rango intercuartílico entre 10 y 14 años.
<!-- `Insight: Variable continua discreta; imputación recomendable para los missing.` -->

- **Num.co:**
    - La mediana es 2, con rango de 0 a 9.
    - La mayoría de los pacientes tiene entre 1 y 3 comorbilidades.

- **Diabetes, Dementia, CA, DNR:**
    - Variables binarias. La presencia de diabetes y cáncer es del 20–22%, demencia solo 3%, DNR 38%.
<!-- `Insight: Diabetes y cáncer aportan información, demencia muy poco frecuente.` -->

- **APS (Acute Physiology Score), Scoma, Avtisst, SPS:**
    - Amplio rango de valores, con media superior a la mediana en varias, indicando sesgo positivo y presencia de outliers.
<!-- `Insight: Podría ser recomendable normalizar.` -->

- **MeanBP, HRT, Resp:**
    - Variables fisiológicas con algunos valores extremos (ej. HRT hasta 300 bpm).
    - La mayoría de los pacientes se encuentra en rangos normales, pero existen outliers que podrían ser errores de medición.
<!-- `Insight: Revisar outliers y considerar transformación/log.` -->

- **Pafi, Alb, Crea, Sod, Ph, Glucose, Bun, Urine:**
    - Muestran distribuciones muy sesgadas, algunas con valores extremos (p. ej., glucose hasta 1051, urine hasta 9000).

- **ADLP, ADLS, ADLSC:**
    - Variables ordinales discretas (0–7) con concentración en valores bajos, indicando que la mayoría de pacientes tiene dependencia baja.

El dataset contiene variables con suficiente información para construir modelos predictivos clínicos, destacando `Age`, `Num.co`, `APS`, `HRT` y `MeanBP` como las más relevantes por su variabilidad y capacidad de reflejar el estado de los pacientes. Variables binarias como `Diabetes`, `CA`, `DNR` y `Dementia` aportan información complementaria, aunque algunas están desbalanceadas y requieren manejo antes de modelado. Las variables de laboratorio (`Glucose`, `BUN`, `Urine`, `Crea`, `Alb`) y las ordinales de dependencia funcional (`ADLP`, `ADLS`, `ADLSC`) pueden ser útiles para enriquecer predicciones, pero presentan outliers y valores faltantes que deben ser preprocesados.

Ahora se procede a analizar el comportamiento de las variables categóricas respecto al target `sfdm2`:

In [19]:
for i, col in enumerate(categorical_cols):
    color = colors[i % len(colors)]

    counts = train_df_reg[col].value_counts().reset_index()
    counts.columns = [col, "count"]

    fig = make_subplots(rows=1, cols=2, subplot_titles=(f"{col} vs sfdm2", f"Frecuencia de {col}"))

    fig_box = px.box(train_df_reg, x=col, y="sfdm2", points="all", color_discrete_sequence=[color])
    for trace in fig_box.data: fig.add_trace(trace, row=1, col=1)

    fig_count = px.bar(counts, x=col, y="count", text="count", color_discrete_sequence=[color])
    for trace in fig_count.data:
        fig.add_trace(trace, row=1, col=2)

    fig.update_layout(title_text=f"Análisis de {col}", title_font=dict(size=20, family="Arial", color="black"), title_x=0.5, showlegend=False)

    fig.show()

En los gráficos anteriores se pudo observar lo siguiente:

- **Race:** 
    - La mayoría de los registros corresponde a pacientes `white` (79%), mostrando un desbalance importante entre categorías. Los valores promedio de `sfdm2` varían entre 2.77 y 4.05, siendo más altos en `missing` y `asian`. Esto sugiere que la variable puede aportar información sobre la variable objetivo, pero el desbalance y las categorías poco frecuentes podrían requerir agrupación o ponderación en modelos predictivos.

- **Dzclass:** 
    - La categoría más frecuente es `ARF/MOSF` (47.8%), seguida por COPD/CHF/Cirrhosis, Cancer y Coma. Los valores promedio de `sfdm2` muestran diferencias notables entre categorías, siendo más altos en `Coma` (4.19), lo que indica que esta variable es relevante para diferenciar la severidad de los pacientes.

- **Income:** 
    - La mayoría de los registros se encuentra en `under $11k`  (33.5%). Los valores promedio de `sfdm2` son ligeramente más altos en `missing` (3.36) y `under $11k` (2.81), mostrando cierta tendencia, aunque las diferencias entre categorías son menores que en race o dzclass. Podría considerarse como variable complementaria en predicción.

Se pudo observar que de este grupo de variables categóricas, `dzclass` es la más informativa, mostrando diferencias claras en los valores de `sfdm2` entre sus categorías, mientras que race presenta desbalance importante hacia la categoría white, por lo que podría requerir ponderación o agrupación de las menos frecuentes. Income y otras variables categóricas son complementarias, aportando información adicional aunque con menor impacto. En general, estas variables aportan contexto sobre características y condiciones de los pacientes, que complementan a las variables numéricas.

### Preprocesamiento

La variable `sfdm2`, contiene 1,400 valores faltantes, correspondientes a pacientes que sobrevivieron al menos dos meses pero no contaban con entrevistas del paciente o su representante. Dado que estos valores faltantes no se deben al azar sino a la ausencia de entrevista, la imputación de esta variable podría introducir sesgos en el modelo. Por tanto, la decisión metodológicamente más sólida es excluir estos registros del modelado predictivo.

In [20]:
def _default_mappings(df: pd.DataFrame) -> pd.DataFrame:
    """
    Aplica mapeos de variables categoricas/binaries similares a los realizados en
    el notebook original. No elimina nulos; solo normaliza tipos y mapea etiquetas.
    """
    df = df.copy()
    # 'ca' : 'no' -> 0, 'metastatic' -> 1
    if 'ca' in df.columns:
        df['ca'] = df['ca'].map({'no': 0, 'metastatic': 1}).astype('Int64')

    # 'dnr' : mapear algunos textos a 0/1, mantener NA cuando no hay info
    if 'dnr' in df.columns:
        df['dnr'] = df['dnr'].apply(lambda x: 0 if x in ['no', 'no dnr'] else 1 if pd.notnull(x) else np.nan).astype('Int64')

    # 'sex' : male->1, female->0
    if 'sex' in df.columns:
        df['sex'] = df['sex'].map({'male': 1, 'female': 0}).astype('Int64')

    # rellenar 'race' e 'income' faltantes con categoría 'missing' (se manejará luego en pipeline)
    if 'race' in df.columns:
        df['race'] = df['race'].fillna('missing')
    if 'income' in df.columns:
        df['income'] = df['income'].fillna('missing')

    # Mapear target 'sfdm2' a numérico si aún no lo está
    if 'sfdm2' in df.columns and df['sfdm2'].dtype == object:
        sfdm2_map = {
            "no(M2 and SIP pres)": 1,
            "adl>=4 (>=5 if sur)": 2,
            "SIP>=30": 3,
            "Coma or Intub": 4,
            "<2 mo. follow-up": 5
        }
        df['sfdm2'] = df['sfdm2'].map(sfdm2_map).astype('Float64')

    df = df.dropna(subset=['sfdm2'])

    # Asegurar tipos numéricos
    int_cols = [c for c in ['num.co', 'diabetes', 'dementia'] if c in df.columns]
    for c in int_cols:
        df[c] = df[c].astype('Int64')

    float_cols = [c for c in ['age', 'edu', 'aps', 'scoma', 'avtisst', 'sps', 'meanbp', 'hrt',
                 'resp', 'pafi', 'alb', 'crea', 'sod', 'ph', 'glucose', 'bun',
                 'urine', 'adlp', 'adls', 'adlsc'] if c in df.columns]
    for c in float_cols:
        df[c] = df[c].astype('Float64')

    return df


def build_preprocessor(
    df: pd.DataFrame,
    drop_cols: list[str] = None
) -> tuple[ColumnTransformer, list[str], list[str]]:
    """
    Construye y retorna un ColumnTransformer configurable.

    Parámetros:
      - df: DataFrame original (se usa para inferir columnas)
      - drop_cols: lista de columnas que se habrán eliminado previamente (si aplica)

    Retorna:
      - preprocessor (ColumnTransformer ajustable)
      - numeric_cols list
      - categorical_cols list
    """
    # Detectar columnas objetivo y columnas a usar
    X_cols = [c for c in df.columns if c != 'sfdm2']
    if drop_cols:
        X_cols = [c for c in X_cols if c not in drop_cols]

    # inferir tipos
    categorical_cols = [c for c in X_cols if df[c].dtype.name in ('object', 'category')]
    # incluir booleanos y Int64 con pocos valores como numéricos (se tratarán con imputer numérico)
    numeric_cols = [c for c in X_cols if c not in categorical_cols]

    # Transformaciones
    numeric_transformer = Pipeline(steps=[
        ('imputer', SimpleImputer(strategy='median')),
        ('scaler', StandardScaler())
    ])

    categorical_transformer = Pipeline(steps=[
        ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
        ('onehot', OneHotEncoder(handle_unknown='ignore', sparse=False))
    ])

    preprocessor = ColumnTransformer(transformers=[
        ('num', numeric_transformer, numeric_cols),
        ('cat', categorical_transformer, categorical_cols)
    ], remainder='drop')

    return preprocessor, numeric_cols, categorical_cols


def compute_vif(df_numeric: pd.DataFrame) -> pd.DataFrame:
    """
    Calcula el Variance Inflation Factor (VIF) para un DataFrame con solo columnas numéricas.
    Devuelve DataFrame con columnas ['feature', 'vif'].
    """
    # Eliminar columnas constantes o con var 0 (VIF no puede calcular)
    df_num = df_numeric.copy()
    const_cols = [c for c in df_num.columns if df_num[c].std() == 0 or df_num[c].isna().all()]
    df_num = df_num.drop(columns=const_cols, errors='ignore')
    vif_data = []
    if df_num.shape[1] == 0:
        return pd.DataFrame(columns=['feature', 'vif'])

    # statsmodels requiere numpy array sin NA
    df_num = df_num.fillna(df_num.median()).astype(float)
    for i, col in enumerate(df_num.columns):
        try:
            vif = variance_inflation_factor(df_num.values, i)
        except Exception:
            vif = np.nan
        vif_data.append({'feature': col, 'vif': float(vif)})
    return pd.DataFrame(vif_data).sort_values('vif', ascending=False).reset_index(drop=True)


def preprocess_dataframe(
    df: pd.DataFrame,
    dropna_threshold: float = 0.40,
    test_size: float = 0.20,
    random_state: int = seed,
    save_preprocessor_path: list[str] = None
) -> tuple[pd.DataFrame, pd.DataFrame, pd.Series, pd.Series, ColumnTransformer, list[str]]:
    """
    Ejecuta el pipeline completo de preprocesamiento:
    1) Aplica mapeos básicos (mapeos de variables categóricas que ya estaban en el notebook).
    2) Elimina columnas con > dropna_threshold proporción de NA.
    3) Construye ColumnTransformer (imputación, OHE, escalado).
    4) Ajusta y transforma los datos.
    5) Devuelve X_train, X_test, y_train, y_test, preprocessor (ajustado) y la lista de columnas eliminadas.

    Retorna:
      X_train_df, X_test_df, y_train, y_test, preprocessor, dropped_columns_list
    """
    df = df.copy()

    if 'sfdm2' not in df.columns:
        raise ValueError("El DataFrame debe contener la columna 'sfdm2' como target.")

    # 1) Aplicar mapeos básicos
    df = _default_mappings(df)

    # 2) Drop columnas con muchos nulos (por defecto > 40%)
    missing_frac = df.isnull().mean()
    dropped_cols = missing_frac[missing_frac > dropna_threshold].index.tolist()
    if len(dropped_cols) > 0:
        df = df.drop(columns=dropped_cols)

    # 3) Separar X, y (el target ya se espera numérico)
    y = df['sfdm2'].astype(float)
    X = df.drop(columns=['sfdm2'])

    # 4) Build preprocessor
    preprocessor, numeric_cols, categorical_cols = build_preprocessor(pd.concat([X, y], axis=1), drop_cols=dropped_cols)

    # 5) Ajustar preprocessor y transformar
    X_trans = preprocessor.fit_transform(X)

    # Obtener nombres de columnas del transformer
    try:
        feature_names = preprocessor.get_feature_names_out()
        # Normalizar los nombres para DataFrame columns
        feature_names = [f.replace('num__', '').replace('cat__', '') for f in feature_names]
    except Exception:
        # Fallback: crear nombres genéricos
        feature_names = [f'feature_{i}' for i in range(X_trans.shape[1])]

    X_df = pd.DataFrame(X_trans, columns=feature_names, index=X.index)

    # 6) División train-test
    X_train_df, X_test_df, y_train, y_test = train_test_split(
        X_df, y, test_size=test_size, random_state=random_state
    )

    # 7) Opcional: guardar preprocessor
    if save_preprocessor_path:
        joblib.dump(preprocessor, save_preprocessor_path)

    return X_train_df, X_test_df, y_train, y_test, preprocessor, dropped_cols

Para las variables con datos incompletos, el preprocesamiento definido en el código aplica distintas estrategias según su tipo:

- **Imputación simple integrada en el pipeline:**
    - Para variables numéricas (numeric_cols), los valores faltantes se reemplazan automáticamente por la mediana de la columna mediante SimpleImputer(strategy='median').
    - Para variables categóricas (categorical_cols), los valores faltantes se reemplazan por la categoría 'missing' mediante SimpleImputer(strategy='constant', fill_value='missing').

- **Categoría especial para valores faltantes:**
    - Algunas variables categóricas como race o income ya se rellenan explícitamente con 'missing' antes del pipeline para preservar la información de ausencia.

- **Eliminación de variables con muchos valores nulos:**
    - Columnas con más del 40% de datos faltantes (dropna_threshold=0.40) se eliminan antes de construir el pipeline, evitando incluir variables poco informativas o con gran proporción de missing.

En conjunto, estas estrategias aseguran que todos los datos estén completos al pasar por el ColumnTransformer, permitiendo escalado de variables numéricas y codificación de variables categóricas sin errores por valores faltantes.

### Selección del modelo de regresión

Dado el dataset disponible, los modelos de boosting basados en árboles **(LightGBM, XGBoost o CatBoost)** son la opción más recomendada para predecir `sfdm2`, porque ofrecen un balance óptimo entre rendimiento y robustez. Estos modelos manejan naturalmente la combinación de variables numéricas y categóricas, capturan relaciones no lineales e interacciones, toleran cierto grado de valores faltantes y suelen superar a modelos lineales o clásicos en problemas tabulares complejos. Su principal limitación es que requieren tuning de hiperparámetros (learning_rate, n_estimators, max_depth) y cuidado con overfitting, por lo que se recomienda usar cross-validation y early stopping.

Como línea base o para análisis interpretativo, los modelos lineales regulares **(Ridge, Lasso, ElasticNet)** son útiles: rápidos, simples y fáciles de interpretar, permitiendo ver directamente el efecto de cada variable. Son especialmente útiles para establecer una referencia de rendimiento y para selección de variables (Lasso/ElasticNet), aunque no capturan interacciones ni no linealidades sin ingeniería adicional.

**Random Forest o ExtraTrees** pueden servir como alternativa intermedia: robustos, fáciles de usar y capaces de capturar relaciones no lineales sin tanto tuning, ideales para validar señales antes de invertir en boosting.

Si la naturaleza ordinal de `sfdm2` es crítica para interpretación clínica, los modelos ordinales **(Ordinal Logistic / regresión ordinal)** pueden ser considerados, ya que modelan explícitamente la estructura ordenada del target, aunque su uso es menos común y requiere revisar supuestos de proporcionalidad de odds.

Finalmente, **stacking o ensembles combinando boosting y modelos lineales** pueden mejorar la generalización si se busca exprimir el máximo rendimiento, aunque esto se reserva para etapas finales del modelado.