# Preparación de Datos

En esta sección se muestra el proceso de adquisición de los datos (importados desde un archivo excel), la creación de las variables objetivo que se necesitan para generar los modelos y la preparación de los datos para generar el ABT necesario para la construcción de los modelos predictivos.

### Librerías utilizadas

In [1]:
import pandas as pd
import numpy as np

# Para poder visualizar todas las columnas:
pd.set_option('display.max_columns',100)

# Para ver unicamente 3 decimales:
pd.set_option('display.float_format', lambda x: '%.3f' % x)

### Acceso a los datos

Se importan los datos desde un archivo csv y se visializan los primeros registros para corroborar que se importaron correctamente:

In [2]:
data_inicial = pd.read_csv('C:/Users/gusta/OneDrive/Documentos/Tesis/Datos/Datos.csv') 
print(data_inicial.head())

   ID_EVENTO SEXO  EDAD  SMet    PAD     PAS  GLU  HDL  TRI     CC   PESO  \
0     623823    F    20     0 80.000 130.000   88   51   64 95.000 75.300   
1     623827    M    19     1 80.000 140.000   89   47  207 94.000 77.800   
2     623848    F    22     0 80.000 110.000   84   68   90 67.000 50.500   
3     623899    F    20     0 70.000 110.000   80   71   87 74.000 59.000   
4     623908    M    19     0 74.000 124.000  113   44  101 95.000 91.500   

    TALLA    IMC  C_TOTAL  HOMA    INS  CC_AGUA  CC_GRAS  CC_HUES  CC_MUSC  \
0 156.000 30.942      144 1.304  6.000   30.600   32.400    2.740    8.200   
1 166.500 28.064      161 3.428 15.600   39.700   26.100    3.550   10.700   
2 158.000 20.229      201 0.830  4.000   28.100   13.600    2.810    7.600   
3 157.000 23.936      183 0.751  3.800   32.000   11.800    2.810    8.300   
4 174.000 30.222      152 3.683 13.200   50.700   23.400    3.890   14.000   

   P_AGUA  P_GRAS  P_HUES  P_MUSC     VFA  
0  41.385  43.819   3.70

### Selección de variables 

Se seleccionan unicamente las medidas (variables) que no provienen de la química sanguínea, excepto las variables TRI y HDL, dado que la premisa es construir los modelos predictivos usando los valores de las medidas no invasivas.

In [3]:
data = data_inicial[[x for x in data_inicial.columns if x not in ['C_TOTAL','HOMA','INS']]]

### Perfilamiento de los datos

La cantidad de pacientes que presentan síndrome metabólico (SMet=1) vs aquellos que no lo tienen (SMet=0):

In [4]:
conteos = data['SMet'].value_counts()
porcentaje = data['SMet'].value_counts(normalize=True).mul(100).round(2).astype(str) + '%'
pd.DataFrame({'Conteo': conteos, 'Porcentaje': porcentaje})

Unnamed: 0,Conteo,Porcentaje
0,1550,87.82%
1,215,12.18%


Se calculan los principales estadísticos a cada una de las variables analizadas a través de un método incluido en la librería de Pandas:

In [5]:
data.describe()

Unnamed: 0,ID_EVENTO,EDAD,SMet,PAD,PAS,GLU,HDL,TRI,CC,PESO,TALLA,IMC,CC_AGUA,CC_GRAS,CC_HUES,CC_MUSC,P_AGUA,P_GRAS,P_HUES,P_MUSC,VFA
count,1765.0,1765.0,1765.0,1758.0,1758.0,1765.0,1765.0,1765.0,1758.0,1753.0,1759.0,1751.0,1765.0,1765.0,1765.0,1765.0,1765.0,1765.0,1765.0,1765.0,1765.0
mean,1902077.852,18.999,0.122,71.776,106.935,90.569,48.965,106.573,81.359,63.417,162.374,23.974,32.203,18.755,3.035,8.712,46.856,26.523,4.422,12.663,60.007
std,600394.926,1.438,0.327,8.729,11.74,8.177,10.31,56.874,11.191,13.609,8.261,4.343,7.021,8.684,0.686,1.952,16.63,12.604,1.626,4.507,34.36
min,623823.0,18.0,0.0,40.0,64.0,60.0,17.0,22.0,42.5,38.8,137.0,14.226,17.3,1.5,-7.06,4.8,0.338,0.03,-11.623,0.092,5.0
25%,1793376.0,18.0,0.0,66.0,100.0,86.0,42.0,71.0,73.5,53.4,156.0,20.838,26.9,12.6,2.59,7.2,44.778,19.317,4.312,12.1,38.2
50%,2095692.0,18.0,0.0,70.0,110.0,90.0,48.0,91.0,80.0,61.0,162.0,23.203,30.3,17.4,2.91,8.2,50.086,28.767,4.847,13.532,56.8
75%,2120448.0,19.0,0.0,80.0,112.0,95.0,55.0,126.0,87.5,71.0,168.0,26.505,36.9,23.8,3.42,10.0,56.049,35.793,5.311,15.164,78.3
max,5642826.0,24.0,1.0,120.0,160.0,220.0,113.0,698.0,126.0,129.8,188.0,44.139,67.8,65.3,6.22,19.1,86.763,53.038,7.619,21.891,479.6


Del procedimiento anterior se identifica que hay registros en los que se tienen missing values en alguna de las variables. A continuación, se filtraran esos registros para que sean analizados:

In [6]:
nulos = data.isnull().values.any(axis=1)
data_nulos = data[nulos]
data_nulos

Unnamed: 0,ID_EVENTO,SEXO,EDAD,SMet,PAD,PAS,GLU,HDL,TRI,CC,PESO,TALLA,IMC,CC_AGUA,CC_GRAS,CC_HUES,CC_MUSC,P_AGUA,P_GRAS,P_HUES,P_MUSC,VFA
169,911364,F,18,0,,,87,43,175,,80.7,,,31.3,37.9,2.91,8.6,38.781,46.958,3.606,10.655,71.6
216,1159105,F,19,0,,,91,47,188,,51.9,,,24.8,18.0,2.35,6.8,47.738,34.649,4.524,13.09,62.3
509,1793514,F,23,0,,,93,56,82,,,,,29.0,34.1,2.99,7.7,39.301,46.212,4.052,10.435,96.4
631,1794686,M,18,0,,,99,65,80,81.0,,171.0,,39.8,12.6,3.73,11.0,59.288,18.77,5.556,16.386,36.2
822,1794992,F,19,0,62.0,88.0,99,68,123,79.0,,164.0,,33.5,26.5,3.29,9.1,46.277,36.607,4.545,12.571,71.6
900,2119942,F,18,0,60.0,100.0,81,51,63,71.0,,164.0,,28.4,11.5,2.7,7.6,56.574,22.908,5.378,15.139,39.0
940,2119988,F,18,0,60.0,104.0,95,38,82,80.0,,153.0,,27.4,26.4,2.61,7.4,42.94,41.373,4.09,11.597,78.3
943,2119992,F,18,0,72.0,110.0,92,69,69,74.0,,164.0,,32.3,19.8,3.2,8.9,50.312,30.841,4.984,13.863,82.7
1075,2120144,M,18,0,78.0,114.0,97,51,89,74.0,,177.0,,41.8,7.2,3.85,11.5,64.957,11.189,5.983,17.871,5.8
1520,2120717,F,18,0,,,82,43,58,,,,,29.8,19.0,2.96,7.8,50.034,31.901,4.97,13.096,53.9


Se identifica que todos los pacientes en los que se tienen missing values no tienen síndrome metabólico y que este subconjunto de pacientes representa el 1% de la población total, por lo que eliminar aquellos registros con missing values no representará una pérdida significativa de información y de esta forma no se provoca un sesgo en el análisis al utilizar algún método de imputación de valores:

In [7]:
data = data.dropna()
conteos = data['SMet'].value_counts()
porcentaje = data['SMet'].value_counts(normalize=True).mul(100).round(2).astype(str) + '%'
pd.DataFrame({'Conteo': conteos, 'Porcentaje': porcentaje})

Unnamed: 0,Conteo,Porcentaje
0,1535,87.71%
1,215,12.29%


Se calculan nuevamente los principales estadísticos a cada una de las variables consideradas:

In [8]:
data.describe()

Unnamed: 0,ID_EVENTO,EDAD,SMet,PAD,PAS,GLU,HDL,TRI,CC,PESO,TALLA,IMC,CC_AGUA,CC_GRAS,CC_HUES,CC_MUSC,P_AGUA,P_GRAS,P_HUES,P_MUSC,VFA
count,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0,1750.0
mean,1902005.26,19.002,0.123,71.82,106.962,90.576,48.946,106.636,81.379,63.416,162.361,23.974,32.211,18.734,3.035,8.714,46.835,26.471,4.419,12.658,60.013
std,601993.568,1.438,0.328,8.706,11.742,8.184,10.301,56.976,11.208,13.612,8.266,4.344,7.038,8.684,0.688,1.956,16.687,12.615,1.632,4.523,34.437
min,623823.0,18.0,0.0,40.0,64.0,60.0,17.0,22.0,42.5,38.8,137.0,14.226,17.3,1.5,-7.06,4.8,0.338,0.03,-11.623,0.092,5.0
25%,1793371.0,18.0,0.0,66.0,100.0,86.0,42.0,71.0,73.5,53.4,156.0,20.836,26.9,12.6,2.59,7.2,44.761,19.209,4.311,12.098,38.125
50%,2095687.5,18.0,0.0,70.0,110.0,90.0,48.0,91.0,80.0,61.0,162.0,23.202,30.3,17.35,2.91,8.2,50.101,28.646,4.85,13.534,56.8
75%,2120445.75,19.0,0.0,80.0,112.0,95.0,55.0,126.0,87.5,71.0,168.0,26.505,36.9,23.7,3.42,10.0,56.068,35.748,5.311,15.165,78.3
max,5642826.0,24.0,1.0,120.0,160.0,220.0,113.0,698.0,126.0,129.8,188.0,44.139,67.8,65.3,6.22,19.1,86.763,53.038,7.619,21.891,479.6


### Construcción de variables objetivo

Uno de los criterios para diagnosticar síndrome metabólico es que los triglicéridos estén por arriba de 150 mg/dL:

In [9]:
data['TARGET_TRI'] = np.where(data['TRI']>150,1,0)
conteos_tri = data['TARGET_TRI'].value_counts()
porcentaje_tri = data['TARGET_TRI'].value_counts(normalize=True).mul(100).round(2).astype(str) + '%'
pd.DataFrame({'Conteo': conteos_tri, 'Porcentaje': porcentaje_tri})

Unnamed: 0,Conteo,Porcentaje
0,1472,84.11%
1,278,15.89%


Otro de los criterios para diagnosticar síndrome metabólico es que el colesterol HDL esté por debajo de 40 mg/dL en hombres y de 50 mg/dL en mujeres. Como no se cuenta con suficientes datos para hacer un modelo para cada segmento, se tomará como punto de corte para ambos sexos que el colesterol HDL esté por debajo de 50 mg/dL.

In [10]:
data['TARGET_HDL'] = np.where(data['HDL']<40 ,1,0)
conteos_hdl = data['TARGET_HDL'].value_counts()
porcentaje_hdl = data['TARGET_HDL'].value_counts(normalize=True).mul(100).round(2).astype(str) + '%'
pd.DataFrame({'Conteo': conteos_hdl, 'Porcentaje': porcentaje_hdl})

Unnamed: 0,Conteo,Porcentaje
0,1443,82.46%
1,307,17.54%
