#### <span style="color:gold">Paso 0 : Entender el contexto y la naturaleza de los datos</span>
La enfermedad cardiovascular (ECV) es un grupo de trastornos que afectan el corazón y los vasos sanguíneos. Se asocia con la acumulación de depósitos de grasa en las arterias, lo que se conoce como aterosclerosis. A menudo implica hipertensión, que puede ser causa y resultado de ECV. A menudo se puede prevenir con un estilo de vida saludable.

##### <span style="color:green">Algunas causas relacionadas</span>
1. Hipertensión <span style="color:gold"><--</span>
2. Fumar
3. Colesterol alto
4. Diabetes <span style="color:gold"><--</span>
5. Falta de ejercicio regular
6. Obesidad <span style="color:gold"><--</span>
7. Antecedentes familiares
8. Edad <span style="color:gold"><--</span>
9. Género <span style="color:gold"><--</span>
10. Dieta deficiente
11. Consumo de alcohol

El dataset usado contiene reportes de pacientes crónicos dentro del programa de Hipertensión Arterial y Diabetes Mellitus. La hipertensión a menudo afecta a las personas con diabetes mellitus tipo 2 y la combinación de diabetes mellitus e hipertensión está asociada con una alta morbilidad (enefermedades/trastornos) y mortalidad (muertes) porque conduce a enfermedades cardiovasculares y renales.

In [176]:
# Paso 1: Importamos librerías para análisis de datos, operaciones matriciales, visualización, etiquetado de datos, división de datos y modelos de clasificación.
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import (HistGradientBoostingClassifier)

In [177]:
# Se lee el archivo Reporte_cronicos_ESE_Ago_2016.xlsx.xlsx y se convierte en un DataFrame. Se omiten las primeras 4 filas y se elimina la primera columna, ya que esta no cuenta con información relevante.
df = pd.read_excel('Reporte_cronicos_ESE_Ago_2016.xlsx', sheet_name = 'BASE', skiprows=4)
df.drop(df.columns[0], axis=1, inplace=True)
df

  for idx, row in parser.parse():


Unnamed: 0,Consecutivo,1,2,Fehca de Inscripcion,AÑO,Fecha Ultima Atención,IPS,1_PrimerNombre,2_SegundoNombre,3_PrimerApellido,...,35_TFG,36_RcbeIECA,37_RcbeARA2,38_DxERC,40_FechaDxERC,41_ProgramAteERC (NEFROPROTECCION),ENDOSALUD,79_Novedad,80_CausaMuerte,81_FechaMuerte
0,1,,NaT,NaT,2014.0,2014-01-02,PS COMUNEROS I,AQUILINO,NONE,MONDRAGON,...,44.839956,NO,NO,,,,NO,,,
1,2,,NaT,NaT,2014.0,2014-01-02,PS CALIPSO,LUIS,EDUARDO,DUQUE,...,,NO,NO,,,,SI,,,
2,3,,NaT,NaT,2014.0,2014-01-02,PS CALIPSO,ZORAIDA,DE JESUS,DELGADO,...,,NO,NO,,,,NO,,,
3,4,,NaT,NaT,2014.0,2014-01-07,CS VALLADO,JULIA,ALICIA,MIRANDA,...,,NO,NO,,,,NO,,,
4,5,,NaT,NaT,2014.0,2014-01-07,PS CALIPSO,MARIA,DEL SOCORRO,GIRALDO,...,,NO,NO,,,,NO,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25845,25850,,NaT,NaT,,NaT,,,,,...,,,,,,,,,,
25846,25851,,NaT,NaT,,NaT,,,,,...,,,,,,,,,,
25847,25852,,NaT,NaT,,NaT,,,,,...,,,,,,,,,,
25848,25853,,NaT,NaT,,NaT,,,,,...,,,,,,,,,,


In [178]:
# Revisamos la dimensión de nuestro DataFrame consultando su atributo 'shape'. Podemos ver que el número máximo del campo 'Consecutivo' es de 25,854. Sin embargo, por la dimensión podemos ver que en realidad hay 25,850 registros (no necesariamente todos con información de pacientes).
df.shape

(25850, 70)

In [179]:
# Eliminamos los registros de la fila 24,055 en adelante y nos quedamos con los 24,054 registros que contienen información de pacientes.
df.drop(range(24054, 25850), inplace=True)
df

Unnamed: 0,Consecutivo,1,2,Fehca de Inscripcion,AÑO,Fecha Ultima Atención,IPS,1_PrimerNombre,2_SegundoNombre,3_PrimerApellido,...,35_TFG,36_RcbeIECA,37_RcbeARA2,38_DxERC,40_FechaDxERC,41_ProgramAteERC (NEFROPROTECCION),ENDOSALUD,79_Novedad,80_CausaMuerte,81_FechaMuerte
0,1,,NaT,NaT,2014.0,2014-01-02,PS COMUNEROS I,AQUILINO,NONE,MONDRAGON,...,44.839956,NO,NO,,,,NO,,,
1,2,,NaT,NaT,2014.0,2014-01-02,PS CALIPSO,LUIS,EDUARDO,DUQUE,...,,NO,NO,,,,SI,,,
2,3,,NaT,NaT,2014.0,2014-01-02,PS CALIPSO,ZORAIDA,DE JESUS,DELGADO,...,,NO,NO,,,,NO,,,
3,4,,NaT,NaT,2014.0,2014-01-07,CS VALLADO,JULIA,ALICIA,MIRANDA,...,,NO,NO,,,,NO,,,
4,5,,NaT,NaT,2014.0,2014-01-07,PS CALIPSO,MARIA,DEL SOCORRO,GIRALDO,...,,NO,NO,,,,NO,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24049,24054,NO,2016-08-22,2016-08-22,2016.0,2016-08-22,CS MANUELA,LUZ,DARI,TOVAR,...,,NO,NO,,,,,,,
24050,24055,NO,2016-08-09,2016-08-09,2016.0,2016-08-09,HOSPITAL,JOSE,BERNARDO,PAZ,...,119.863014,SI,NO,,,,,,,
24051,24056,NO,2016-08-31,2016-08-31,2016.0,2016-08-31,HOSPITAL,FRAY,FERNANDO,VIRGEN,...,84.183007,NO,NO,,,,,,,
24052,24057,NO,2016-08-23,2016-08-23,2016.0,2016-08-23,CS VALLADO,LUIS,HERNANDO,VASQUEZ,...,128.963415,NO,NO,,,,,,,


In [180]:
# Obtenemos información de los campos que trae el DataFrame tal como: nombre del campo, número de registros no nulos, tipo de dato y uso de memoria.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24054 entries, 0 to 24053
Data columns (total 70 columns):
 #   Column                                             Non-Null Count  Dtype         
---  ------                                             --------------  -----         
 0   Consecutivo                                        24054 non-null  int64         
 1   1                                                  2195 non-null   object        
 2   2                                                  2790 non-null   datetime64[ns]
 3   Fehca de Inscripcion                               6999 non-null   datetime64[ns]
 4   AÑO                                                24054 non-null  float64       
 5   Fecha Ultima Atención                              24054 non-null  datetime64[ns]
 6   IPS                                                24054 non-null  object        
 7   1_PrimerNombre                                     24054 non-null  object        
 8   2_SegundoNombre 

In [181]:
# Para este ejercicio de ejemplo, voy intentar predecir si un paciente tiene una 'CLASIFICACION FINAL DEL RIESGO' igual a 'MUY ALTO'. Para esto, primero voy a eliminar las columnas que no aportan información relevante para la predicción.
df = df[['EDAD (Años cumplidos)','8_Sexo','22_EtiologiaERC','Indice Masa Corporal = Peso/talla Al Cuadrado','25_TenArtSis','26_TenArtDitlica','CLASIFICACION FINAL DEL RIESGO']]
df

Unnamed: 0,EDAD (Años cumplidos),8_Sexo,22_EtiologiaERC,Indice Masa Corporal = Peso/talla Al Cuadrado,25_TenArtSis,26_TenArtDitlica,CLASIFICACION FINAL DEL RIESGO
0,75.0,M,HTA,26.892323,131,89,MUY ALTO
1,49.0,M,HTA,34.894399,120,70,BAJO
2,59.0,F,HTA,22.948116,125,80,BAJO
3,72.0,F,HTA-DM,30.864198,120,80,MUY ALTO
4,49.0,F,HTA,23.437500,120,80,BAJO
...,...,...,...,...,...,...,...
24049,42.0,F,DM,0.000000,90/,60,BAJO
24050,50.0,M,DM,27.343750,,,BAJO
24051,48.0,M,DM,21.338211,,,BAJO
24052,46.0,M,DM,26.448980,120,85,BAJO


In [182]:
# Renombramos los campos seleccionados para mejorar la lecturabilidad.
df.rename(columns={'EDAD (Años cumplidos)':'Edad', '8_Sexo':'Sexo', '22_EtiologiaERC':'Etiologia', 'Indice Masa Corporal = Peso/talla Al Cuadrado':'IMC', '25_TenArtSis':'TenArtSis', '26_TenArtDitlica':'TenArtDit', 'CLASIFICACION FINAL DEL RIESGO':'Clasificacion'}, inplace=True)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.rename(columns={'EDAD (Años cumplidos)':'Edad', '8_Sexo':'Sexo', '22_EtiologiaERC':'Etiologia', 'Indice Masa Corporal = Peso/talla Al Cuadrado':'IMC', '25_TenArtSis':'TenArtSis', '26_TenArtDitlica':'TenArtDit', 'CLASIFICACION FINAL DEL RIESGO':'Clasificacion'}, inplace=True)


Unnamed: 0,Edad,Sexo,Etiologia,IMC,TenArtSis,TenArtDit,Clasificacion
0,75.0,M,HTA,26.892323,131,89,MUY ALTO
1,49.0,M,HTA,34.894399,120,70,BAJO
2,59.0,F,HTA,22.948116,125,80,BAJO
3,72.0,F,HTA-DM,30.864198,120,80,MUY ALTO
4,49.0,F,HTA,23.437500,120,80,BAJO
...,...,...,...,...,...,...,...
24049,42.0,F,DM,0.000000,90/,60,BAJO
24050,50.0,M,DM,27.343750,,,BAJO
24051,48.0,M,DM,21.338211,,,BAJO
24052,46.0,M,DM,26.448980,120,85,BAJO


In [183]:
# A partir de los campos seleccionados, revisamos si existen valores nulos. Vemos que el 'IMC', 'TenArtSis' y 'TenArtDit' tienen valores nulos.
print(df.isnull().sum())
print('---------------------------------------------')
print('La dimensión del Data Frame es de:',df.shape)


Edad                0
Sexo                0
Etiologia           0
IMC               817
TenArtSis        1098
TenArtDit        1099
Clasificacion       0
dtype: int64
---------------------------------------------
La dimensión del Data Frame es de: (24054, 7)


In [184]:
# Por practicidad del ejercicio, eliminaré los registros con valores nulos, teniendo en cuenta que no siempre es la práctica recomendada. Sin embargo, contamos con suficientes registros para hacerlo. Además, se reestablece el índice del DataFrame.
# Vemos que de los 24,054 registros iniciales, se eliminaron 1,269 registros con valores nulos.
df.dropna(subset=['IMC','TenArtSis','TenArtDit'], axis=0, inplace=True)
df.reset_index(drop=True, inplace=True)
print(df.isnull().sum())
print('---------------------------------------------')
print('La dimensión del Data Frame es de:',df.shape)

Edad             0
Sexo             0
Etiologia        0
IMC              0
TenArtSis        0
TenArtDit        0
Clasificacion    0
dtype: int64
---------------------------------------------
La dimensión del Data Frame es de: (22785, 7)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.dropna(subset=['IMC','TenArtSis','TenArtDit'], axis=0, inplace=True)


In [185]:
# Ahora, revisaré los tipos de datos de los campos seleccionados. Python reconoció correctamente los campos 'Edad' e 'IMC' como datos numéricos (float64). Sin embargo, a 'TenArtSis' y 'TenArtDit' los reconoció como objetos (string). Seguramente deben contener caracteres no numéricos.
df.dtypes

Edad             float64
Sexo              object
Etiologia         object
IMC              float64
TenArtSis         object
TenArtDit         object
Clasificacion     object
dtype: object

In [186]:
# Identificamos los valores que están causando que 'TenArtSis' y 'TenArtDit' no sean reconocidos como series numéricas.
print('Valores no numéricos dentro de la serie "TenArtSis":',df[pd.to_numeric(df['TenArtSis'], errors='coerce').isnull()]['TenArtSis'].unique())
print('Valores no numéricos dentro de la serie "TenArtDit":',df[pd.to_numeric(df['TenArtDit'], errors='coerce').isnull()]['TenArtDit'].unique())

Valores no numéricos dentro de la serie "TenArtSis": ['0/0' '90/']
Valores no numéricos dentro de la serie "TenArtDit": ['/0']


In [187]:
# Eliminamos los registros que contienen los valores no numéricos identificados en las series 'TenArtSis' y 'TenArtDit'.
df = df[~df['TenArtSis'].isin(['0/0', '90/'])]
df = df[~df['TenArtDit'].isin(['/0'])]
print('Valores no numéricos dentro de la serie "TenArtSis":',df[pd.to_numeric(df['TenArtSis'], errors='coerce').isnull()]['TenArtSis'].unique())
print('Valores no numéricos dentro de la serie "TenArtDit":',df[pd.to_numeric(df['TenArtDit'], errors='coerce').isnull()]['TenArtDit'].unique())

Valores no numéricos dentro de la serie "TenArtSis": []
Valores no numéricos dentro de la serie "TenArtDit": []


In [188]:
# Defino los tipos de variables que considero adecuados para cada campo.
df = df.astype({'Edad': int, 'Sexo': str, 'Etiologia': str, 'TenArtSis': float, 'TenArtDit': float, 'Clasificacion': str})
df.dtypes

Edad               int32
Sexo              object
Etiologia         object
IMC              float64
TenArtSis        float64
TenArtDit        float64
Clasificacion     object
dtype: object

In [189]:
# Reviso la distribución y características de los datos categoricos como numéricos. Identificamos que incluso después de la limpieza de datos inicial, las series 'IMC', 'TenArtSis' y 'TenArtDit' tienen valores en cero, lo cual no tiene ninguna lógica. Procedemos a eliminarlos.
# También notamos que los pacientes atendidos son en su mayoría mujeres (72.54%) y que la etiología más común es la 'Hipertensión Arterial' (71.16%).
print(df['Sexo'].value_counts(normalize=True))
print('---------------------------------------------')
print(df['Etiologia'].value_counts(normalize=True))
print('---------------------------------------------')
print(df.describe())


Sexo
F    0.725429
M    0.274571
Name: proportion, dtype: float64
---------------------------------------------
Etiologia
HTA       0.711690
HTA-DM    0.215267
DM        0.072999
OTRA      0.000044
Name: proportion, dtype: float64
---------------------------------------------
               Edad           IMC     TenArtSis     TenArtDit
count  22781.000000  22781.000000  22781.000000  22781.000000
mean      63.198191     27.916361    124.631052     77.841227
std       13.671221      5.953992     15.441504      9.450455
min        7.000000      0.000000     70.000000      0.000000
25%       54.000000     24.242424    120.000000     70.000000
50%       63.000000     27.343750    120.000000     80.000000
75%       73.000000     31.111111    130.000000     80.000000
max      109.000000     77.343750    250.000000    152.000000


In [190]:
# Eliminamos los registros que contienen los valores iguales a 0 para las series 'IMC', 'TenArtSis' y 'TenArtDit'. Vemos que se eliminaron 151 registros.
df = df[df['IMC'] != 0]
df = df[df['TenArtSis'] != 0]
df = df[df['TenArtDit'] != 0]
print(df.describe())

               Edad           IMC     TenArtSis     TenArtDit
count  22630.000000  22630.000000  22630.000000  22630.000000
mean      63.226779     28.101340    124.562042     77.900044
std       13.651933      5.521449     15.407523      9.170728
min        7.000000     10.136999     70.000000     30.000000
25%       54.000000     24.341758    120.000000     70.000000
50%       63.000000     27.398464    120.000000     80.000000
75%       73.000000     31.141869    130.000000     80.000000
max      109.000000     77.343750    250.000000    152.000000


In [191]:
# Podemos notar que la edad promedio de los pacientes es de 63 años, cuentan con un IMC promedio de 28.1 (sobrepeso: preobesidad), en promedio tienen una tensión arterial sistólica de 124.56 mmHg (elevada a partir de 120-129 mmHg) y una tensión arterial diastólica de 77.9 mmHg 
# (elevada a partir de 80-89 mmHg)

In [192]:
# Creamos el label encoder para la columna 'Sexo' y eliminamos esta última.
labelencoder = LabelEncoder()
df['label_sexo'] = labelencoder.fit_transform(df['Sexo'])
df.drop('Sexo', axis=1, inplace=True)
df['label_sexo'].head(5)

0    1
1    1
2    0
3    0
4    0
Name: label_sexo, dtype: int32

In [193]:
# Creamos las variables dummies para el campo 'Clasificacion '.
df = pd.get_dummies(df, columns=['Clasificacion'], prefix=['Clasificacion_es'])
df.dtypes

Edad                           int32
Etiologia                     object
IMC                          float64
TenArtSis                    float64
TenArtDit                    float64
label_sexo                     int32
Clasificacion_es_ALTO           bool
Clasificacion_es_BAJO           bool
Clasificacion_es_MODERADO       bool
Clasificacion_es_MUY ALTO       bool
dtype: object

In [194]:
# Creamos las variables dummies para el campo 'Etiologia'.
df = pd.get_dummies(df, columns=['Etiologia'], prefix=['Etiologia_es'])
df.dtypes

Edad                           int32
IMC                          float64
TenArtSis                    float64
TenArtDit                    float64
label_sexo                     int32
Clasificacion_es_ALTO           bool
Clasificacion_es_BAJO           bool
Clasificacion_es_MODERADO       bool
Clasificacion_es_MUY ALTO       bool
Etiologia_es_DM                 bool
Etiologia_es_HTA                bool
Etiologia_es_HTA-DM             bool
Etiologia_es_OTRA               bool
dtype: object

In [195]:
# Revisamos los primeros 5 y últimos registros del DataFrame para entender la nueva estructura después de la creación de las variables dummies para los campos 'Clasificacion' y 'Etiologia' y de convertir la variable 'Sexo' en numérica.
df.head(5)

Unnamed: 0,Edad,IMC,TenArtSis,TenArtDit,label_sexo,Clasificacion_es_ALTO,Clasificacion_es_BAJO,Clasificacion_es_MODERADO,Clasificacion_es_MUY ALTO,Etiologia_es_DM,Etiologia_es_HTA,Etiologia_es_HTA-DM,Etiologia_es_OTRA
0,75,26.892323,131.0,89.0,1,False,False,False,True,False,True,False,False
1,49,34.894399,120.0,70.0,1,False,True,False,False,False,True,False,False
2,59,22.948116,125.0,80.0,0,False,True,False,False,False,True,False,False
3,72,30.864198,120.0,80.0,0,False,False,False,True,False,False,True,False
4,49,23.4375,120.0,80.0,0,False,True,False,False,False,True,False,False


In [196]:
# Debido a que la variable 'Clasificacion_es_MUY ALTO' es la que queremos predecir, eliminaré el resto de varibles dummies creadas a partir del campo 'Clasificacion'.
df.drop(['Clasificacion_es_ALTO', 'Clasificacion_es_BAJO', 'Clasificacion_es_MODERADO'], axis=1, inplace=True)
df.head(5)

Unnamed: 0,Edad,IMC,TenArtSis,TenArtDit,label_sexo,Clasificacion_es_MUY ALTO,Etiologia_es_DM,Etiologia_es_HTA,Etiologia_es_HTA-DM,Etiologia_es_OTRA
0,75,26.892323,131.0,89.0,1,True,False,True,False,False
1,49,34.894399,120.0,70.0,1,False,False,True,False,False
2,59,22.948116,125.0,80.0,0,False,False,True,False,False
3,72,30.864198,120.0,80.0,0,True,False,False,True,False
4,49,23.4375,120.0,80.0,0,False,False,True,False,False


In [197]:
# Revisamos la correlación entre las variables. Notamos que la correlación entra la variable a predecir y las que se utilizarán como predictoras es muy baja. Para efectos del ejercicio omitiremos este hecho, y seguiremos con la construcción de los modelos.
# Notemos que la variable 'TenArtSis' (tensión arterial sistólica) tiene la correlación más alta con la variable a predecir.
df.corr()['Clasificacion_es_MUY ALTO']

Edad                         0.037830
IMC                          0.032988
TenArtSis                    0.070654
TenArtDit                    0.041491
label_sexo                   0.029439
Clasificacion_es_MUY ALTO    1.000000
Etiologia_es_DM             -0.007411
Etiologia_es_HTA            -0.039468
Etiologia_es_HTA-DM          0.047524
Etiologia_es_OTRA            0.036910
Name: Clasificacion_es_MUY ALTO, dtype: float64

In [198]:
# Escogemos las variables predictoras
predictores = ['Edad','IMC','TenArtSis','TenArtDit','label_sexo','Etiologia_es_HTA-DM']
# Definimos la variable a predecir
objetivo= 'Clasificacion_es_MUY ALTO'

# En nuestra variable 'y' va lo que queremos predecir.
# En la variable 'X' van las variables que usaremos para encontrar a Y.
y = df[objetivo].values
X = df[predictores].values

In [199]:
# Se crean los conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(18104, 6)
(4526, 6)
(18104,)
(4526,)


In [200]:
# Se crea el modelo utilizando la regresión logística
log_reg = LogisticRegression(solver='lbfgs',max_iter=1000)
# Se entrena el modelo y obtenemos el score
log_reg.fit(X_train, y_train)
log_reg.score(X_test, y_test)

0.968625718073354

In [201]:
# Se crea el modelo utilizando el Gradient Boosting Classifier
hgbm = HistGradientBoostingClassifier(random_state=42)
# Se entrena el modelo y obtenemos el score
hgbm.fit(X_train, y_train)
hgbm.score(X_test, y_test)

0.968625718073354