# AlpesHearth

## Caso de estudio AlpesHearth. 

El jupyter notebook aqui presente se basa en el caso de estudio AlpesHearth, el cual tiene como objetivos:
- Aplicar técnicas de regresión para construir un modelo predictivo que permita estimar el riesgo cardiovascular de una persona siguiendo el ciclo de machine learning.
- Determinar los principales factores de riesgo cardiovascular con base en los datos.
- Aplicar y comprender un modelo de regresión lineal.
- Reconocer posibles sesgos del modelo de aprendizaje de máquina.
- Comunicar de forma clara y sintética los resultados obtenidos.

Se utilizaron las siguientes librerias de Python para el procesamiento y analisis de datos: 
- Pandas
- Scikit-Learn
- Matplotlib, Seaborn

#### Instalar las librerias necesarias

In [None]:
%pip install pandas numpy matplotlib seaborn ipython scikit-learn

#### Importar las librerias

In [33]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns 
from IPython.display import display
from sklearn.preprocessing import LabelEncoder, FunctionTransformer, StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn import set_config

In [3]:
from importlib.metadata import version
print(f"Versión de Pandas: {version('pandas')}")
print(f"Versión de Numpy: {version('numpy')}")
print(f"Versión de Matplotlib: {version('matplotlib')}")
print(f"Versión de Seaborn: {version('seaborn')}")

### Exploración de los datos

In [4]:
datos_model = pd.read_csv('./Datos/Datos Lab 1.csv')

In [5]:
data = datos_model.copy()

In [6]:
data.head()

Unnamed: 0,Patient ID,Date of Service,Sex,Age,Weight (kg),Height (m),BMI,Abdominal Circumference (cm),Blood Pressure (mmHg),Total Cholesterol (mg/dL),...,Physical Activity Level,Family History of CVD,Height (cm),Waist-to-Height Ratio,Systolic BP,Diastolic BP,Blood Pressure Category,Estimated LDL (mg/dL),CVD Risk Score,CVD Risk Level
0,isDx5313,"November 08, 2023",M,44.0,114.3,1.72,38.6,100.0,112/83,228.0,...,High,N,172.0,0.581,112.0,83.0,Hypertension Stage 1,121.0,19.88,HIGH
1,LHCK2961,20/03/2024,F,57.0,92.923,1.842,33.116,106.315,101/91,158.0,...,High,Y,184.172,0.577,101.0,91.0,Hypertension Stage 2,57.0,16.833,INTERMEDIARY
2,WjVn1699,2021-05-27,F,,73.4,1.65,27.0,78.1,90/74,135.0,...,High,N,165.0,0.473,90.0,74.0,Normal,45.0,12.6,LOW
3,dCDO1109,"April 18, 2022",F,35.0,113.3,1.78,35.8,79.6,92/89,158.0,...,Moderate,Y,178.0,0.447,92.0,89.0,Hypertension Stage 1,94.0,14.92,HIGH
4,pnpE1080,01/11/2024,F,48.0,102.2,1.75,33.4,106.7,121/68,207.0,...,Low,Y,175.0,0.61,121.0,68.0,Elevated,128.0,18.87,HIGH


Aqui podemos ver como hay columnas de datos repetidos y/o muy parecidos. Por ejemplo, Height (m) y Height (cm), Waist-to-Height Ratio Height y Abdominal Circumference, BMI Weight y Height etc.

A la hora de realizar el analisis estadistico, sera necesario ver cuales de estas variables son redundantes y no nos aportan al modelo. Asimismo, hay que revisar para casos tales como las dos estaturas, si coinciden. De no coincidir, habra que realizar un promedio o utilizar alguna otra tecnica.

In [7]:
display(data.sample(5))

Unnamed: 0,Patient ID,Date of Service,Sex,Age,Weight (kg),Height (m),BMI,Abdominal Circumference (cm),Blood Pressure (mmHg),Total Cholesterol (mg/dL),...,Physical Activity Level,Family History of CVD,Height (cm),Waist-to-Height Ratio,Systolic BP,Diastolic BP,Blood Pressure Category,Estimated LDL (mg/dL),CVD Risk Score,CVD Risk Level
171,fEcy0028,10 Aug 21,F,51.0,112.1,1.81,34.2,100.2,103/85,289.0,...,Moderate,N,181.0,0.554,103.0,85.0,Hypertension Stage 1,216.0,17.77,INTERMEDIARY
689,tPNk6298,10 Oct 25,M,59.0,69.2,1.87,19.8,96.8,93/78,218.0,...,Moderate,N,187.0,0.518,93.0,78.0,Normal,132.0,14.97,INTERMEDIARY
697,ijjx4631,"February 20, 2022",F,62.0,85.781,,19.833,108.559,154/114,210.0,...,Moderate,Y,182.974,0.593,154.0,114.0,Hypertension Stage 2,99.0,15.867,INTERMEDIARY
1148,cemC3205,2022-12-07,M,41.0,92.0,1.77,29.4,98.6,113/87,256.0,...,High,Y,177.0,0.557,51.148,87.0,Hypertension Stage 1,177.0,16.65,INTERMEDIARY
456,acRc6405,25 May 22,F,40.0,83.9,1.85,24.5,109.2,143/93,179.0,...,Low,N,185.0,0.59,143.0,93.0,Hypertension Stage 2,107.0,17.63,INTERMEDIARY


In [8]:
data.shape

(1639, 24)

Esto nos dice que el conjunto de datos esta compuesto por 1.639 registros (filas) y 24 variables (columnas). 

In [9]:
data.info() 

Arriba podemos ver el detalle de cada columna, como el nombre, el número de valores no nulos (en este caso al tener 1.639, indica que no se tienen valores faltantes) y el tipo de los datos de cada columna, al igual que el número de columnas con cada tipo.

Es interesante ver que las columnas que no son numéricas (int o float) son `Patient ID`, `Date of Service`, `Sex`, `Blood Pressure (mmHg)`, `Smoking Status`, `Diabetes Status`, `Physical Activity Level`, `Family History of CVD`, y `Blood Pressure Category`, las cuales están en formato object, esto es algo importante y que debemos tener en cuenta. 

Como sabemos que `Blood Pressure Category` = `Systolic BP` / `Diastolic BP`, habra que reemplazar los NULLs por los respectivos valores de `Blood Pressure Category`. Mas adelante se revisara si estos valores son redundantes y si sera necesario remover alguna de estas columnas.

Un insumo imprescindible para entender un conjunto de datos es el diccionario, ya que este nos permite conocer el significado de cada variable y sus rangos válidos.  

Al mismo tiempo, al revisar los valores non-null de cada una de las columnas, podemos ver que hay muchos datos NULL dentro de la base de datos. Por lo que se debera realizar algo al respecto.

In [10]:
cols_con_null = []

for col in data.columns:
    if data[col].count() != len(data):
        cols_con_null.append(col)

cols_con_null

['Age',
 'Weight (kg)',
 'Height (m)',
 'BMI',
 'Abdominal Circumference (cm)',
 'Total Cholesterol (mg/dL)',
 'HDL (mg/dL)',
 'Fasting Blood Sugar (mg/dL)',
 'Height (cm)',
 'Waist-to-Height Ratio',
 'Systolic BP',
 'Diastolic BP',
 'Estimated LDL (mg/dL)',
 'CVD Risk Score']

In [11]:
diccionario = pd.read_excel('./Datos/DiccPacientes.xlsx')
pd.set_option('display.max_colwidth', None)
diccionario

Unnamed: 0,Nombre Columna,Tipo de dato,Comentarios
0,Patient ID,String,Identificador del paciente
1,Date of Service,Date,Fecha de la atención
2,Sex,String,"Sexo (Femenino, Masculino)"
3,Age,Integer,Edad
4,Weight (kg),Float,Peso
5,Height (m),Float,Altura
6,BMI,Float,Índice de masa corporal
7,Abdominal Circumference (cm),Float,Circunferencia abdominal
8,Blood Pressure (mmHg),String,"Presión sanguínea, de la forma ""<Presión arterial sistólica>/<Presión arterial diastólica>"""
9,Total Cholesterol (mg/dL),Float,Colesterol total


Con el fin de enriquecer el modelo, se revisaran las siguientes variables mas adelante:

Derivadas de datos existentes
- Grupo etario
- Categoria de BMI
- Categoria de glucosa
- Ratio colesterol
- Pulse Pressure
- Mean Arterial Pressure

Fuentes externas
- Mes
- Dias de la semana
- Estacion del anio

Scores clinicos establecidos
- Framingham Risk Score
- ASCVD Risk Score

Interacciones
- Fumador + Diabetes
- BMI * Actividad Fisica
- Edad * Presion Arterial

In [12]:
data.describe()

Unnamed: 0,Age,Weight (kg),Height (m),BMI,Abdominal Circumference (cm),Total Cholesterol (mg/dL),HDL (mg/dL),Fasting Blood Sugar (mg/dL),Height (cm),Waist-to-Height Ratio,Systolic BP,Diastolic BP,Estimated LDL (mg/dL),CVD Risk Score
count,1571.0,1566.0,1578.0,1586.0,1578.0,1571.0,1557.0,1585.0,1571.0,1563.0,1578.0,1554.0,1582.0,1610.0
mean,46.803186,85.666006,1.757439,28.424744,91.538861,199.043673,56.183558,117.83686,175.770082,0.52244,125.632637,82.887536,113.235896,18.227281
std,13.039479,21.712504,0.118012,7.309275,13.427985,59.38867,16.721702,32.379634,11.69588,0.085692,22.577463,15.503625,61.435291,10.767666
min,6.134,13.261,1.371,4.317,49.542,-1.256,0.008,15.306,136.498,0.25,49.914,31.72,-92.055,-20.057
25%,37.0,67.1,1.6665,22.6,79.7,150.0,42.0,92.0,167.0,0.453,108.0,71.0,62.0,15.15
50%,46.0,86.314,1.76,28.0,91.2,199.0,56.0,115.0,176.0,0.519,125.0,82.0,112.0,16.967
75%,55.0,104.8015,1.85,33.963,102.26725,250.0,70.0,139.0,185.0,0.582,141.0,93.0,159.0,18.9
max,89.42,158.523,2.146,53.028,136.336,385.679,110.315,219.667,214.394,0.804,202.711,134.066,317.314,114.98


Para el peso seria prudente revisar si es posible? Es decir si se podria un individuo de 13kg con 20 anios? 

Un Estimated LDL de -92.05 es fisiologicamente imposible. Por lo que es posible que este valor no sea real. 

Un valor negativo de CVD Risk Score no es posible. Los valores posibles son entre 0 y 100. Por lo que hay errores en los minimos y maximos.

Aqui podemos realizar varias tecnicas de normalizacion con el fin de mejorar la habilidad predictiva del modelo.

In [13]:
# Revisar formatos, asegurarse que no hayan representaciones diferentes de los mismos datos...

objetos = ['Patient ID', 'Date of Service', 'Sex', 
           'Blood Pressure (mmHg)', 'Smoking Status', 
           'Diabetes Status', 'Physical Activity Level', 
           'Family History of CVD', 'Blood Pressure Category', 
           'CVD Risk Level'
] 

for i in objetos:
    display(data[i].value_counts())

Aqui podemos ver tanto que hay IDs repetidos, como que hay formatos diferentes para las fechas de servicio, por lo que sera necesario revisar si es que hay filas de datos duplicadas, y refactorizar las fechas a un formato estandar. 

In [14]:
display(data.duplicated().sum())

display(data[data.duplicated(keep=False)])

Aqui vemos las filas de datos que se encuentran completamente duplicadas. Estas se removeran en la siguiente fase del proyecto.

#### Gráficas de las variables

In [15]:
# Se incluyen unicamente variables numericas para los boxplots
numeric_cols = data.select_dtypes(include=['float64', 'int64']).columns

fig, axes = plt.subplots(4, 4, figsize=(16, 12))
axes = axes.flatten()

for i, col in enumerate(numeric_cols):
    if i < len(axes):
        data.boxplot(column=col, ax=axes[i])
        axes[i].set_title(col)

plt.tight_layout()
plt.show()

In [16]:
plt.figure(figsize=(14, 10))
sns.heatmap(data[numeric_cols].corr(), annot=True, cmap='coolwarm', center=0, fmt='.2f')
plt.title('Matriz de Correlación')
plt.tight_layout()
plt.show()

In [17]:
# Aqui se quitan los rubros 'Patient ID' y 'Date of Service'
categoricas = objetos[2:]

fig, axes = plt.subplots(3, 3, figsize=(14, 10))
axes = axes.flatten()

for i, col in enumerate(categoricas):
    if i < len(axes):
        data[col].value_counts().plot(kind='bar', ax=axes[i])
        axes[i].set_title(col)
        axes[i].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

In [18]:
data_encoded = data.copy()

le = LabelEncoder()
for col in categoricas:
    data_encoded[col] = le.fit_transform(data_encoded[col])

# Correlacion con CVD Risk Score
correlaciones = data_encoded[categoricas + ['CVD Risk Score']].corr()['CVD Risk Score'].drop('CVD Risk Score').sort_values(ascending=False)

print(correlaciones)

plt.figure(figsize=(10, 5))
correlaciones.plot(kind='bar', color=['green' if x > 0 else 'red' for x in correlaciones])
plt.title('Correlación de variables categóricas con CVD Risk Score')
plt.ylabel('Correlación')
plt.axhline(y=0, color='black', linestyle='-', linewidth=0.5)
plt.tight_layout()
plt.show()

#### Hallazgos de la exploración:

##### Valores imposibles detectados:
- Estimated LDL negativo (-92): fisiológicamente imposible
- CVD Risk Score negativo y >100: fuera de rango válido [0-100]
- Total Cholesterol ≈ 0: imposible
- HDL < 10: imposible
- BMI < 7: menor al mínimo registrado (~7.5)

##### Outliers extremos pero posibles:
- Age ~10: inusual para datos cardiovasculares
- BMI > 50: obesidad mórbida extrema
- CVD Risk Score > 60: pacientes de alto riesgo

##### Decisiones para preparación:
- Convertir valores imposibles a NaN
- Imputar con media del train después del split

##### Multicolinealidad
- Height (m) y Height (cm): 0.92 se debe eliminar una
- Total Cholesterol y Estimated LDL: 0.85 se deberia considerar eliminar una.
- Abdominal Circumference y Waist-to-Height ratio: 0.84 se deberia considerar eliminar una.
- Weight y BMI: 0.58 relacion a tener en cuenta.
- Blood Pressure = Systolic/Diastolic

##### Correlaciones con CVD Risk Score (Numericas)
- BMI: 0.13 la mas alta, pero debil.
- Systolic BP: 0.09
- El resto muy bajas ~0.

##### Correlaciones con CVD Risk Score (Categoricas)
- Diabetes Status: 0.15 es el mejor predictor
- Blood Pressure Category: -0.07
- Family History of CVD: -0.04
- CVD Risk Level: ~0 raro porque deberia derivarse del CVD Risk Score

### Preparación de datos

In [19]:
data = data.drop_duplicates()

Aqui se quitan las filas de datos duplicados.

In [20]:
data = data.copy()
data["Date of Service"] = pd.to_datetime(data["Date of Service"], format='mixed')
data
# TODO: Como se usa formato 'mixed', para datos como: 08-09-2022, se adivina cual es el mes y cual es el dia.

Unnamed: 0,Patient ID,Date of Service,Sex,Age,Weight (kg),Height (m),BMI,Abdominal Circumference (cm),Blood Pressure (mmHg),Total Cholesterol (mg/dL),...,Physical Activity Level,Family History of CVD,Height (cm),Waist-to-Height Ratio,Systolic BP,Diastolic BP,Blood Pressure Category,Estimated LDL (mg/dL),CVD Risk Score,CVD Risk Level
0,isDx5313,2023-11-08,M,44.0,114.300,1.720,38.600,100.000,112/83,228.0,...,High,N,172.000,0.581,112.0,83.0,Hypertension Stage 1,121.0,19.880,HIGH
1,LHCK2961,2024-03-20,F,57.0,92.923,1.842,33.116,106.315,101/91,158.0,...,High,Y,184.172,0.577,101.0,91.0,Hypertension Stage 2,57.0,16.833,INTERMEDIARY
2,WjVn1699,2021-05-27,F,,73.400,1.650,27.000,78.100,90/74,135.0,...,High,N,165.000,0.473,90.0,74.0,Normal,45.0,12.600,LOW
3,dCDO1109,2022-04-18,F,35.0,113.300,1.780,35.800,79.600,92/89,158.0,...,Moderate,Y,178.000,0.447,92.0,89.0,Hypertension Stage 1,94.0,14.920,HIGH
4,pnpE1080,2024-01-11,F,48.0,102.200,1.750,33.400,106.700,121/68,207.0,...,Low,Y,175.000,0.610,121.0,68.0,Elevated,128.0,18.870,HIGH
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1632,ioby2183,2024-08-13,M,40.0,120.000,,35.400,100.900,94/68,223.0,...,Moderate,Y,184.000,0.548,94.0,68.0,Normal,131.0,18.240,HIGH
1634,mrzf5858,2021-05-21,F,35.0,77.600,1.780,24.500,84.600,124/90,143.0,...,Low,N,178.000,0.475,124.0,90.0,Hypertension Stage 2,37.0,13.960,LOW
1635,nPnN5477,2022-12-04,F,35.0,92.005,1.726,,98.692,95/111,156.0,...,High,N,172.602,0.572,95.0,111.0,Hypertension Stage 2,46.0,14.316,LOW
1637,QSFT6794,2025-09-06,M,49.0,,1.630,23.100,93.800,144/91,191.0,...,Moderate,Y,163.000,0.575,144.0,,Hypertension Stage 2,82.0,17.640,HIGH


Aqui se realiza la respectiva refactorizacion de las fechas.

In [21]:
# Conversion a m
height_m = data['Height (cm)']
height_cm_to_m = data['Height (cm)'] / 100

# Promedio donde ambos existen, sino el que existe
data.loc[:,'Height (cm)'] = (height_m.fillna(height_cm_to_m) + height_cm_to_m.fillna(height_m)) / 2

data = data.drop(columns=['Height (cm)'])

Para el parametro height, se realizo: 
- Si existian tanto Height (m), como Height (cm), se calculo un promedio.
- Si solo existia uno de estos se dejo este.
- Si no existia se tomo como el promedio global de las estaturas.


In [28]:
target = 'CVD Risk Score'

X = data.drop(columns=[target])
Y = data[target]

exclude_cols = ['CVD Risk Score', 'CVD Risk Level', 'Patient ID', 
                'Blood Pressure (mmHg)', 'Height (cm)']

# Split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.25, random_state=42)

In [29]:
print("Train: ")
X_train.shape, y_train.shape

Train: 


((1116, 22), (1116,))

In [30]:
print("Test: ")
X_test.shape, y_test.shape

Test: 


((372, 22), (372,))

In [34]:
cols_to_drop = ['Patient ID', 'Date of Service', 'Blood Pressure (mmHg)', 'CVD Risk Level']

def drop_columns(df):
    return df.drop(columns=cols_to_drop, errors='ignore')

dropper = FunctionTransformer(drop_columns)

In [35]:
def infer_values(df):
    df = df.copy()
    
    # BMI desde Weight y Height
    bmi_calc = df['Weight (kg)'] / (df['Height (m)'] ** 2)
    df['BMI'] = df['BMI'].fillna(bmi_calc)
    
    # Weight desde BMI y Height
    weight_calc = df['BMI'] * (df['Height (m)'] ** 2)
    df['Weight (kg)'] = df['Weight (kg)'].fillna(weight_calc)
    
    # Waist-to-Height Ratio
    whtr_calc = df['Abdominal Circumference (cm)'] / (df['Height (m)'] * 100)
    df['Waist-to-Height Ratio'] = df['Waist-to-Height Ratio'].fillna(whtr_calc)
    
    # Estimated LDL
    ldl_calc = df['Total Cholesterol (mg/dL)'] - df['HDL (mg/dL)'] - 30
    df['Estimated LDL (mg/dL)'] = df['Estimated LDL (mg/dL)'].fillna(ldl_calc)
    
    # Total Cholesterol
    tc_calc = df['Estimated LDL (mg/dL)'] + df['HDL (mg/dL)'] + 30
    df['Total Cholesterol (mg/dL)'] = df['Total Cholesterol (mg/dL)'].fillna(tc_calc)
    
    # HDL
    hdl_calc = df['Total Cholesterol (mg/dL)'] - df['Estimated LDL (mg/dL)'] - 30
    df['HDL (mg/dL)'] = df['HDL (mg/dL)'].fillna(hdl_calc)
    
    return df

inferer = FunctionTransformer(infer_values)

In [36]:
def create_derived_features(df):
    df = df.copy()
    
    # Derivadas numéricas
    df['Pulse Pressure'] = df['Systolic BP'] - df['Diastolic BP']
    df['MAP'] = df['Diastolic BP'] + (df['Pulse Pressure'] / 3)
    df['Cholesterol Ratio'] = df['Total Cholesterol (mg/dL)'] / df['HDL (mg/dL)']
    
    # Activity Risk
    activity_risk = {'Low': 3, 'Moderate': 2, 'High': 1}
    df['Activity Risk'] = df['Physical Activity Level'].map(activity_risk)
    
    # Interacción
    df['Smoker_Diabetic'] = ((df['Smoking Status'] == 'Y') & (df['Diabetes Status'] == 'Y')).astype(int)
    df['BMI x Sedentarism'] = df['BMI'] * df['Activity Risk']
    
    return df

derived_features = FunctionTransformer(create_derived_features)


In [37]:
def create_categorical_features(df):
    df = df.copy()
    
    # Grupo etario
    df['Age Group'] = pd.cut(df['Age'], bins=[0, 30, 45, 60, 120], 
                              labels=['Joven', 'Adulto', 'Adulto Mayor', 'Senior'])
    
    # Categoría BMI
    df['BMI Category'] = pd.cut(df['BMI'], bins=[0, 18.5, 25, 30, 100],
                                 labels=['Bajo peso', 'Normal', 'Sobrepeso', 'Obesidad'])
    
    # Categoría glucosa
    df['Glucose Category'] = pd.cut(df['Fasting Blood Sugar (mg/dL)'], bins=[0, 100, 126, 500],
                                     labels=['Normal', 'Prediabetes', 'Diabetes'])
    
    return df

categorical_features_creator = FunctionTransformer(create_categorical_features)

In [38]:
def create_clinical_scores(df):
    df = df.copy()
    
    # Framingham simplificado
    df['Framingham Score'] = (
        (df['Age'] >= 55).astype(int) * 3 +
        ((df['Age'] >= 45) & (df['Age'] < 55)).astype(int) * 2 +
        ((df['Age'] >= 35) & (df['Age'] < 45)).astype(int) * 1 +
        (df['Sex'] == 'M').astype(int) * 1 +
        (df['Total Cholesterol (mg/dL)'] >= 280).astype(int) * 3 +
        ((df['Total Cholesterol (mg/dL)'] >= 240) & (df['Total Cholesterol (mg/dL)'] < 280)).astype(int) * 2 +
        (df['HDL (mg/dL)'] < 35).astype(int) * 2 +
        (df['Systolic BP'] >= 160).astype(int) * 3 +
        (df['Smoking Status'] == 'Y').astype(int) * 2 +
        (df['Diabetes Status'] == 'Y').astype(int) * 2
    )
    
    # ASCVD simplificado
    df['ASCVD Score'] = (
        df['Age'] * 0.5 +
        (df['Sex'] == 'M').astype(int) * 5 +
        df['Total Cholesterol (mg/dL)'] * 0.02 -
        df['HDL (mg/dL)'] * 0.05 +
        df['Systolic BP'] * 0.03 +
        (df['Smoking Status'] == 'Y').astype(int) * 7 +
        (df['Diabetes Status'] == 'Y').astype(int) * 5
    )
    
    return df

clinical_scores = FunctionTransformer(create_clinical_scores)

In [39]:
numeric_features = [
    'Age', 'Weight (kg)', 'Height (m)', 'BMI', 'Abdominal Circumference (cm)',
    'Total Cholesterol (mg/dL)', 'HDL (mg/dL)', 'Fasting Blood Sugar (mg/dL)',
    'Waist-to-Height Ratio', 'Systolic BP', 'Diastolic BP', 'Estimated LDL (mg/dL)',
    'Pulse Pressure', 'MAP', 'Cholesterol Ratio', 'Activity Risk',
    'BMI x Sedentarism', 'Framingham Score', 'ASCVD Score'
]

categorical_features = [
    'Sex', 'Smoking Status', 'Diabetes Status', 'Physical Activity Level',
    'Family History of CVD', 'Blood Pressure Category',
    'Age Group', 'BMI Category', 'Glucose Category'
]

numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler()),
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore', drop='if_binary')),
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features),
    ]
)

pipeline_cvd = Pipeline(steps=[
    ('dropper', dropper),
    ('inferer', inferer),
    ('derived_features', derived_features),
    ('categorical_features', categorical_features_creator),
    ('clinical_scores', clinical_scores),
    ('preprocessor', preprocessor),
])

set_config(display='diagram')

In [40]:
pipeline_cvd

0,1,2
,steps,"[('dropper', ...), ('inferer', ...), ...]"
,transform_input,
,memory,
,verbose,False

0,1,2
,func,<function dro...x7f8add8b7eb0>
,inverse_func,
,validate,False
,accept_sparse,False
,check_inverse,True
,feature_names_out,
,kw_args,
,inv_kw_args,

0,1,2
,func,<function inf...x7f8add8b5750>
,inverse_func,
,validate,False
,accept_sparse,False
,check_inverse,True
,feature_names_out,
,kw_args,
,inv_kw_args,

0,1,2
,func,<function cre...x7f8add8b4f70>
,inverse_func,
,validate,False
,accept_sparse,False
,check_inverse,True
,feature_names_out,
,kw_args,
,inv_kw_args,

0,1,2
,func,<function cre...x7f8add8b7ac0>
,inverse_func,
,validate,False
,accept_sparse,False
,check_inverse,True
,feature_names_out,
,kw_args,
,inv_kw_args,

0,1,2
,func,<function cre...x7f8add8b76d0>
,inverse_func,
,validate,False
,accept_sparse,False
,check_inverse,True
,feature_names_out,
,kw_args,
,inv_kw_args,

0,1,2
,transformers,"[('num', ...), ('cat', ...)]"
,remainder,'drop'
,sparse_threshold,0.3
,n_jobs,
,transformer_weights,
,verbose,False
,verbose_feature_names_out,True
,force_int_remainder_cols,'deprecated'

0,1,2
,missing_values,
,strategy,'mean'
,fill_value,
,copy,True
,add_indicator,False
,keep_empty_features,False

0,1,2
,copy,True
,with_mean,True
,with_std,True

0,1,2
,missing_values,
,strategy,'most_frequent'
,fill_value,
,copy,True
,add_indicator,False
,keep_empty_features,False

0,1,2
,categories,'auto'
,drop,'if_binary'
,sparse_output,True
,dtype,<class 'numpy.float64'>
,handle_unknown,'ignore'
,min_frequency,
,max_categories,
,feature_name_combiner,'concat'


In [41]:
# Aplicar
Xt_train = pipeline_cvd.fit_transform(X_train)
Xt_test = pipeline_cvd.transform(X_test)

# Obtener nombres de features
feature_names = pipeline_cvd.named_steps['preprocessor'].get_feature_names_out()
Xt_train_df = pd.DataFrame(
    Xt_train.toarray() if hasattr(Xt_train, 'toarray') else Xt_train,
    columns=feature_names,
    index=X_train.index
)

Para los datos que no tenian BMI, se utilizo la formula del BMI para agregarla.
BMI = weight (kg) / height (m) ^2

Asimismo, llenamos los datos restantes de `Systolic BP` y `Diastolic BP` con los respectivos datos que tienen en `Blood Pressure (mmHg)` y luego removimos este ultimo parametro.

In [None]:

# Verificar rangos
print(data['Waist-to-Height Ratio'].describe())

Si bien es cierto que waist circumference es diferente de abdominal circumference, sigue siendo una aproximacion valida y suelen estar linealmente correlacionadas. Por lo que, para las filas de datos en las que faltan valores para el waist to height ratio, se decidio utilizar el rubro `Abdominal Circumference (cm)` y dividirlo entre el rubro de `Height (m)` * 100.

Aqui, utilizamos los datos que ya tenemos para calcular algunos de los que faltan. Esto se pudo realizar para los rubros: 
- `Abdominal Circumference (cm)`
- `Weight (kg)`
- `Estimated LDL (mg/dL)`
- `Total Cholesterol (mg/dL)`
- `HDL (mg/dL)`

Sin embargo, siguen faltando algunos datos. 

#### Ingeniería de características

Continuando la fase de preparacion de datos, se va a realizar una agregacion de features que podrian ser importantes para revisar cuales de estas podrian enriquecer el modelo.

Las variables que se tomaran en cuenta para esta parte son: 
- Transformaciones de fila: Grupo etario, Categoria BMI, Categoria glucosa
- Formulas con datos de la misma fila: Ratio colesterol, Pulse Pressure, MAP
- Derivadas: Mes, Dia de semana, Estacion
- Interacciones: Fumador + Diabetes, BMI x Actividad
- Formulas Establecidas: Framingham, ASCVD

Estas variables podemos agregarlas a la base de datos antes de realizar el split entre training y testing. 

Sin embargo, algunas de las variables de interes que se quieren evaluar se realizaran despues del split.

#### Split
Ahora, realizamos el split de los datos con una semilla de 42 (random_state) y un porcentaje de 25% para el tamaño del conjunto de prueba (test_size=0.25).

#### Imputacion y Agregacion de 6 Features extras

### Construcción de un modelo de regresión lineal

In [None]:
datos_prueba = pd.read_csv(
    './Datos/Datos Test Lab 1.csv',
    sep=';'
)