# AlpesHearth

## Caso de estudio AlpesHearth. 

El jupyter notebook aqui presente se basa en el caso de estudio AlpesHearth, el cual tiene como objetivos:
- Aplicar técnicas de regresión para construir un modelo predictivo que permita estimar el riesgo cardiovascular de una persona siguiendo el ciclo de machine learning.
- Determinar los principales factores de riesgo cardiovascular con base en los datos.
- Aplicar y comprender un modelo de regresión lineal.
- Reconocer posibles sesgos del modelo de aprendizaje de máquina.
- Comunicar de forma clara y sintética los resultados obtenidos.

Se utilizaron las siguientes librerias de Python para el procesamiento y analisis de datos: 
- Pandas
- Scikit-Learn
- Matplotlib, Seaborn

#### Importar las librerias

In [41]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns 
from IPython.display import display

In [4]:
from importlib.metadata import version
print(f"Versión de Pandas: {version('pandas')}")
print(f"Versión de Numpy: {version('numpy')}")
print(f"Versión de Matplotlib: {version('matplotlib')}")
print(f"Versión de Seaborn: {version('seaborn')}")

Versión de Pandas: 2.3.3
Versión de Numpy: 2.2.6
Versión de Matplotlib: 3.10.8
Versión de Seaborn: 0.13.2


### Exploración de los datos

In [46]:
datos_entrenamiento = pd.read_csv('./Datos/Datos Lab 1.csv')

In [47]:
data = datos_entrenamiento.copy()

In [48]:
data.head()

Unnamed: 0,Patient ID,Date of Service,Sex,Age,Weight (kg),Height (m),BMI,Abdominal Circumference (cm),Blood Pressure (mmHg),Total Cholesterol (mg/dL),...,Physical Activity Level,Family History of CVD,Height (cm),Waist-to-Height Ratio,Systolic BP,Diastolic BP,Blood Pressure Category,Estimated LDL (mg/dL),CVD Risk Score,CVD Risk Level
0,isDx5313,"November 08, 2023",M,44.0,114.3,1.72,38.6,100.0,112/83,228.0,...,High,N,172.0,0.581,112.0,83.0,Hypertension Stage 1,121.0,19.88,HIGH
1,LHCK2961,20/03/2024,F,57.0,92.923,1.842,33.116,106.315,101/91,158.0,...,High,Y,184.172,0.577,101.0,91.0,Hypertension Stage 2,57.0,16.833,INTERMEDIARY
2,WjVn1699,2021-05-27,F,,73.4,1.65,27.0,78.1,90/74,135.0,...,High,N,165.0,0.473,90.0,74.0,Normal,45.0,12.6,LOW
3,dCDO1109,"April 18, 2022",F,35.0,113.3,1.78,35.8,79.6,92/89,158.0,...,Moderate,Y,178.0,0.447,92.0,89.0,Hypertension Stage 1,94.0,14.92,HIGH
4,pnpE1080,01/11/2024,F,48.0,102.2,1.75,33.4,106.7,121/68,207.0,...,Low,Y,175.0,0.61,121.0,68.0,Elevated,128.0,18.87,HIGH


Aqui podemos ver como hay columnas de datos repetidos y/o muy parecidos. Por ejemplo, Height (m) y Height (cm), CVD Risk Score y CVD Risk Level, Waist-to-Height Ratio Height y Abdominal Circumference, BMI Weight y Height etc.

A la hora de realizar el analisis estadistico, sera necesario ver cuales de estas variables son redundantes y no nos aportan al modelo. Asimismo, hay que revisar para casos tales como las dos estaturas, si coinciden. De no coincidir, habra que realizar un promedio o utilizar alguna otra tecnica.

In [49]:
display(data.sample(5))

Unnamed: 0,Patient ID,Date of Service,Sex,Age,Weight (kg),Height (m),BMI,Abdominal Circumference (cm),Blood Pressure (mmHg),Total Cholesterol (mg/dL),...,Physical Activity Level,Family History of CVD,Height (cm),Waist-to-Height Ratio,Systolic BP,Diastolic BP,Blood Pressure Category,Estimated LDL (mg/dL),CVD Risk Score,CVD Risk Level
1136,mxFg5746,16/11/2024,M,47.0,118.1,,35.7,93.4,130/87,151.0,...,Low,Y,182.0,0.513,130.0,87.0,Hypertension Stage 1,82.0,18.66,HIGH
942,vLaI6068,22/11/2021,F,72.0,96.579,1.864,35.783,93.996,114/91,282.0,...,Moderate,Y,186.374,0.504,114.0,91.0,Hypertension Stage 2,193.0,18.497,LOW
1045,DYFB4591,"February 16, 2025",M,,52.8,1.8,16.3,77.3,113/96,167.0,...,Low,N,180.0,0.429,113.0,96.0,Hypertension Stage 2,105.0,14.25,INTERMEDIARY
319,ZGGT4348,2021-03-13,F,58.0,97.126,1.72,,81.804,94/63,159.0,...,High,Y,172.019,0.476,94.0,63.0,Normal,40.0,13.047,INTERMEDIARY
134,viiE0140,2020-09-09,F,41.0,82.337,1.727,18.828,72.053,154/70,207.0,...,Moderate,Y,172.717,0.417,154.0,70.0,Hypertension Stage 2,124.0,27.267,HIGH


In [50]:
data.shape

(1639, 24)

Esto nos dice que el conjunto de datos esta compuesto por 1.639 registros (filas) y 24 variables (columnas). 

In [None]:
data.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1639 entries, 0 to 1638
Data columns (total 24 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Patient ID                    1639 non-null   object 
 1   Date of Service               1639 non-null   object 
 2   Sex                           1639 non-null   object 
 3   Age                           1571 non-null   float64
 4   Weight (kg)                   1566 non-null   float64
 5   Height (m)                    1578 non-null   float64
 6   BMI                           1586 non-null   float64
 7   Abdominal Circumference (cm)  1578 non-null   float64
 8   Blood Pressure (mmHg)         1639 non-null   object 
 9   Total Cholesterol (mg/dL)     1571 non-null   float64
 10  HDL (mg/dL)                   1557 non-null   float64
 11  Fasting Blood Sugar (mg/dL)   1585 non-null   float64
 12  Smoking Status                1639 non-null   object 
 13  Dia

Arriba podemos ver el detalle de cada columna, como el nombre, el número de valores no nulos (en este caso al tener 1.639, indica que no se tienen valores faltantes) y el tipo de los datos de cada columna, al igual que el número de columnas con cada tipo.

Es interesante ver que las columnas que no son numéricas (int o float) son `Patient ID`, `Date of Service`, `Sex`, `Blood Pressure (mmHg)`, `Smoking Status`, `Diabetes Status`, `Physical Activity Level`, `Family History of CVD`, `Blood Pressure Category`, y `CVD Risk Level`, las cuales están en formato object, esto es algo importante y que debemos tener en cuenta.

Un insumo imprescindible para entender un conjunto de datos es el diccionario, ya que este nos permite conocer el significado de cada variable y sus rangos válidos.  

Al mismo tiempo, al revisar los valores non-null de cada una de las columnas, podemos ver que hay muchos datos NULL dentro de la base de datos. Por lo que se debera realizar algo al respecto.

In [56]:
cols_con_null = []

for col in data.columns:
    if data[col].count() != len(data):
        cols_con_null.append(col)

cols_con_null

['Age',
 'Weight (kg)',
 'Height (m)',
 'BMI',
 'Abdominal Circumference (cm)',
 'Total Cholesterol (mg/dL)',
 'HDL (mg/dL)',
 'Fasting Blood Sugar (mg/dL)',
 'Height (cm)',
 'Waist-to-Height Ratio',
 'Systolic BP',
 'Diastolic BP',
 'Estimated LDL (mg/dL)',
 'CVD Risk Score']

In [52]:
diccionario = pd.read_excel('./Datos/DiccPacientes.xlsx')
pd.set_option('display.max_colwidth', None)
diccionario

Unnamed: 0,Nombre Columna,Tipo de dato,Comentarios
0,Patient ID,String,Identificador del paciente
1,Date of Service,Date,Fecha de la atención
2,Sex,String,"Sexo (Femenino, Masculino)"
3,Age,Integer,Edad
4,Weight (kg),Float,Peso
5,Height (m),Float,Altura
6,BMI,Float,Índice de masa corporal
7,Abdominal Circumference (cm),Float,Circunferencia abdominal
8,Blood Pressure (mmHg),String,"Presión sanguínea, de la forma ""<Presión arterial sistólica>/<Presión arterial diastólica>"""
9,Total Cholesterol (mg/dL),Float,Colesterol total


In [53]:
data.describe()

Unnamed: 0,Age,Weight (kg),Height (m),BMI,Abdominal Circumference (cm),Total Cholesterol (mg/dL),HDL (mg/dL),Fasting Blood Sugar (mg/dL),Height (cm),Waist-to-Height Ratio,Systolic BP,Diastolic BP,Estimated LDL (mg/dL),CVD Risk Score
count,1571.0,1566.0,1578.0,1586.0,1578.0,1571.0,1557.0,1585.0,1571.0,1563.0,1578.0,1554.0,1582.0,1610.0
mean,46.803186,85.666006,1.757439,28.424744,91.538861,199.043673,56.183558,117.83686,175.770082,0.52244,125.632637,82.887536,113.235896,18.227281
std,13.039479,21.712504,0.118012,7.309275,13.427985,59.38867,16.721702,32.379634,11.69588,0.085692,22.577463,15.503625,61.435291,10.767666
min,6.134,13.261,1.371,4.317,49.542,-1.256,0.008,15.306,136.498,0.25,49.914,31.72,-92.055,-20.057
25%,37.0,67.1,1.6665,22.6,79.7,150.0,42.0,92.0,167.0,0.453,108.0,71.0,62.0,15.15
50%,46.0,86.314,1.76,28.0,91.2,199.0,56.0,115.0,176.0,0.519,125.0,82.0,112.0,16.967
75%,55.0,104.8015,1.85,33.963,102.26725,250.0,70.0,139.0,185.0,0.582,141.0,93.0,159.0,18.9
max,89.42,158.523,2.146,53.028,136.336,385.679,110.315,219.667,214.394,0.804,202.711,134.066,317.314,114.98


Podemos ver como, para Height (m) y Height (cm), la estatura minima y maxima de ambos rubros no coinciden, por lo que habra que realizar algun tipo de operacion. 

Para el peso seria prudente revisar si es posible? Es decir si se podria un individuo de 13kg con 20 anios? 

Un valor de 0.085 de Waist to Height es extremadamente inusual y parece ser inventado. Es posible que no sea un valor correcto. Posiblemente un valor un poco inferior a 0.35 (aunque ya muy bajo) pordia ser posible. 

Un Systolic BP de 22.577 es sumamente improbable y muy posiblemente un error de medicion. 

Un Estimated LDL de -92.05 es fisiologicamente imposible. Por lo que es posible que este valor no sea real. 

Un valor negativo de CVD Risk Score no es posible. Los valores posibles son entre 0 y 100. Por lo que hay errores en los minimos y maximos.

In [None]:
# Revisar formatos, asegurarse que no hayan representaciones diferentes de los mismos datos...

objetos = ['Patient ID', 'Date of Service', 'Sex', 
           'Blood Pressure (mmHg)', 'Smoking Status', 
           'Diabetes Status', 'Physical Activity Level', 
           'Family History of CVD', 'Blood Pressure Category', 
           'CVD Risk Level'
] 

for i in objetos:
    display(data[i].value_counts())

Patient ID
AhYt1346    3
RlsB8509    3
RwGu5647    3
dJuC5084    3
YLCe2926    3
           ..
Srzz2840    1
nMHG7307    1
VpjT3887    1
CNBz8190    1
qgQI1151    1
Name: count, Length: 1376, dtype: int64

Date of Service
09-20-2023           6
December 05, 2025    5
December 02, 2020    4
01/12/2024           4
08-09-2022           4
                    ..
2025-02-16           1
April 14, 2021       1
07/09/2021           1
12-13-2024           1
22/10/2021           1
Name: count, Length: 1274, dtype: int64

Sex
M    821
F    818
Name: count, dtype: int64

Blood Pressure (mmHg)
124/72     6
127/84     6
121/68     5
129/61     5
119/88     4
          ..
121/66     1
112/117    1
129/86     1
143/100    1
106/83     1
Name: count, Length: 1152, dtype: int64

Smoking Status
Y    850
N    789
Name: count, dtype: int64

Diabetes Status
N    821
Y    818
Name: count, dtype: int64

Physical Activity Level
High        582
Moderate    537
Low         520
Name: count, dtype: int64

Family History of CVD
N    820
Y    819
Name: count, dtype: int64

Blood Pressure Category
Hypertension Stage 2    680
Hypertension Stage 1    527
Normal                  321
Elevated                111
Name: count, dtype: int64

CVD Risk Level
HIGH            793
INTERMEDIARY    616
LOW             230
Name: count, dtype: int64

Aqui podemos ver tanto que hay IDs repetidos, como que hay formatos diferentes para las fechas de servicio, por lo que sera necesario revisar los IDs, y refactorizar las fechas a un formato estandar.

In [55]:
datos_prueba = pd.read_csv(
    './Datos/Datos Test Lab 1.csv',
    sep=';'
)