In [180]:
# Paso 1: Importamos librerías para análisis de datos y visualización
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import (HistGradientBoostingClassifier)

In [155]:
# Se lee el archivo .xlsx y se convierte en un DataFrame. Se omiten las primeras 4 filas.
df = pd.read_excel('Reporte_cronicos_ESE_Ago_2016.xlsx', sheet_name = 'BASE', skiprows=4)
df

  for idx, row in parser.parse():


Unnamed: 0.1,Unnamed: 0,Consecutivo,1,2,Fehca de Inscripcion,AÑO,Fecha Ultima Atención,IPS,1_PrimerNombre,2_SegundoNombre,...,35_TFG,36_RcbeIECA,37_RcbeARA2,38_DxERC,40_FechaDxERC,41_ProgramAteERC (NEFROPROTECCION),ENDOSALUD,79_Novedad,80_CausaMuerte,81_FechaMuerte
0,,1,,NaT,NaT,2014.0,2014-01-02,PS COMUNEROS I,AQUILINO,NONE,...,44.839956,NO,NO,,,,NO,,,
1,,2,,NaT,NaT,2014.0,2014-01-02,PS CALIPSO,LUIS,EDUARDO,...,,NO,NO,,,,SI,,,
2,,3,,NaT,NaT,2014.0,2014-01-02,PS CALIPSO,ZORAIDA,DE JESUS,...,,NO,NO,,,,NO,,,
3,,4,,NaT,NaT,2014.0,2014-01-07,CS VALLADO,JULIA,ALICIA,...,,NO,NO,,,,NO,,,
4,,5,,NaT,NaT,2014.0,2014-01-07,PS CALIPSO,MARIA,DEL SOCORRO,...,,NO,NO,,,,NO,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25845,,25850,,NaT,NaT,,NaT,,,,...,,,,,,,,,,
25846,,25851,,NaT,NaT,,NaT,,,,...,,,,,,,,,,
25847,,25852,,NaT,NaT,,NaT,,,,...,,,,,,,,,,
25848,,25853,,NaT,NaT,,NaT,,,,...,,,,,,,,,,


In [156]:
# Revisamos la forma de nuestro DataFrame. Podemos ver que el número máximo del consecutivo es de 25,854. Sin embargo, por el 'shape' podemos ver que hay en realidad 25,850 registros (no necesariamente todos con información de pacientes).
df.shape

(25850, 71)

In [157]:
# Notamos que la primera columna del archivo se usa como un margen y no contiene datos, por lo que se elimina la primera columna del DataFrame.
df.drop(df.columns[0], axis=1, inplace=True)
df

Unnamed: 0,Consecutivo,1,2,Fehca de Inscripcion,AÑO,Fecha Ultima Atención,IPS,1_PrimerNombre,2_SegundoNombre,3_PrimerApellido,...,35_TFG,36_RcbeIECA,37_RcbeARA2,38_DxERC,40_FechaDxERC,41_ProgramAteERC (NEFROPROTECCION),ENDOSALUD,79_Novedad,80_CausaMuerte,81_FechaMuerte
0,1,,NaT,NaT,2014.0,2014-01-02,PS COMUNEROS I,AQUILINO,NONE,MONDRAGON,...,44.839956,NO,NO,,,,NO,,,
1,2,,NaT,NaT,2014.0,2014-01-02,PS CALIPSO,LUIS,EDUARDO,DUQUE,...,,NO,NO,,,,SI,,,
2,3,,NaT,NaT,2014.0,2014-01-02,PS CALIPSO,ZORAIDA,DE JESUS,DELGADO,...,,NO,NO,,,,NO,,,
3,4,,NaT,NaT,2014.0,2014-01-07,CS VALLADO,JULIA,ALICIA,MIRANDA,...,,NO,NO,,,,NO,,,
4,5,,NaT,NaT,2014.0,2014-01-07,PS CALIPSO,MARIA,DEL SOCORRO,GIRALDO,...,,NO,NO,,,,NO,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25845,25850,,NaT,NaT,,NaT,,,,,...,,,,,,,,,,
25846,25851,,NaT,NaT,,NaT,,,,,...,,,,,,,,,,
25847,25852,,NaT,NaT,,NaT,,,,,...,,,,,,,,,,
25848,25853,,NaT,NaT,,NaT,,,,,...,,,,,,,,,,


In [158]:
# Revisamos nuevamente la forma de nuestro DataFrame.
df.shape

(25850, 70)

In [159]:
# Eliminamos los registros de la fila 24,055 en adelante y quedamos con las 24,054 que contienen información de pacientes.
df.drop(range(24054, 25850), inplace=True)
df

Unnamed: 0,Consecutivo,1,2,Fehca de Inscripcion,AÑO,Fecha Ultima Atención,IPS,1_PrimerNombre,2_SegundoNombre,3_PrimerApellido,...,35_TFG,36_RcbeIECA,37_RcbeARA2,38_DxERC,40_FechaDxERC,41_ProgramAteERC (NEFROPROTECCION),ENDOSALUD,79_Novedad,80_CausaMuerte,81_FechaMuerte
0,1,,NaT,NaT,2014.0,2014-01-02,PS COMUNEROS I,AQUILINO,NONE,MONDRAGON,...,44.839956,NO,NO,,,,NO,,,
1,2,,NaT,NaT,2014.0,2014-01-02,PS CALIPSO,LUIS,EDUARDO,DUQUE,...,,NO,NO,,,,SI,,,
2,3,,NaT,NaT,2014.0,2014-01-02,PS CALIPSO,ZORAIDA,DE JESUS,DELGADO,...,,NO,NO,,,,NO,,,
3,4,,NaT,NaT,2014.0,2014-01-07,CS VALLADO,JULIA,ALICIA,MIRANDA,...,,NO,NO,,,,NO,,,
4,5,,NaT,NaT,2014.0,2014-01-07,PS CALIPSO,MARIA,DEL SOCORRO,GIRALDO,...,,NO,NO,,,,NO,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24049,24054,NO,2016-08-22,2016-08-22,2016.0,2016-08-22,CS MANUELA,LUZ,DARI,TOVAR,...,,NO,NO,,,,,,,
24050,24055,NO,2016-08-09,2016-08-09,2016.0,2016-08-09,HOSPITAL,JOSE,BERNARDO,PAZ,...,119.863014,SI,NO,,,,,,,
24051,24056,NO,2016-08-31,2016-08-31,2016.0,2016-08-31,HOSPITAL,FRAY,FERNANDO,VIRGEN,...,84.183007,NO,NO,,,,,,,
24052,24057,NO,2016-08-23,2016-08-23,2016.0,2016-08-23,CS VALLADO,LUIS,HERNANDO,VASQUEZ,...,128.963415,NO,NO,,,,,,,


In [160]:
# Obtenemos información de los campos que trae el DataFrame.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24054 entries, 0 to 24053
Data columns (total 70 columns):
 #   Column                                             Non-Null Count  Dtype         
---  ------                                             --------------  -----         
 0   Consecutivo                                        24054 non-null  int64         
 1   1                                                  2195 non-null   object        
 2   2                                                  2790 non-null   datetime64[ns]
 3   Fehca de Inscripcion                               6999 non-null   datetime64[ns]
 4   AÑO                                                24054 non-null  float64       
 5   Fecha Ultima Atención                              24054 non-null  datetime64[ns]
 6   IPS                                                24054 non-null  object        
 7   1_PrimerNombre                                     24054 non-null  object        
 8   2_SegundoNombre 

In [161]:
df['8_Sexo'].value_counts()

8_Sexo
F    17431
M     6623
Name: count, dtype: int64

In [162]:
df['8_Sexo'].value_counts(normalize=True)

8_Sexo
F    0.724661
M    0.275339
Name: proportion, dtype: float64

In [163]:
# Creamos el label encoder para la columna '8_Sexo' y lo aplicamos al DataFrame.
labelencoder = LabelEncoder()
df['etiqueta_sexo'] = labelencoder.fit_transform(df['8_Sexo'])

In [164]:
# Revisamos la asignación de las etiquetas
print(df['8_Sexo'].head(5))
print(df['etiqueta_sexo'].head(5))


0    M
1    M
2    F
3    F
4    F
Name: 8_Sexo, dtype: object
0    1
1    1
2    0
3    0
4    0
Name: etiqueta_sexo, dtype: int32


In [165]:
df.rename(columns={'Indice Masa Corporal = Peso/talla Al Cuadrado': 'IMC', 'CLASIFICACION FINAL DEL RIESGO': 'CFR', 'EDAD (Años cumplidos)': 'EDAD'}, inplace=True)

In [166]:
# Revisamos variable de IMC
df['IMC'].tail(10)

24044     0.000000
24045     0.000000
24046          NaN
24047     0.000000
24048     0.000000
24049     0.000000
24050    27.343750
24051    21.338211
24052    26.448980
24053    33.746533
Name: IMC, dtype: float64

In [167]:
# Se imputa la media a registros con valores NaN
df['IMC'].fillna(df['IMC'].mean(), inplace=True)
df['IMC'].tail(10)

24044     0.000000
24045     0.000000
24046    27.835867
24047     0.000000
24048     0.000000
24049     0.000000
24050    27.343750
24051    21.338211
24052    26.448980
24053    33.746533
Name: IMC, dtype: float64

In [168]:
df.drop(df[df.IMC == 0].index, inplace=True)
df['IMC'].tail(10)

24030    27.835867
24038    27.835867
24039    27.835867
24041    27.835867
24042    27.835867
24046    27.835867
24050    27.343750
24051    21.338211
24052    26.448980
24053    33.746533
Name: IMC, dtype: float64

In [169]:
df_dum = pd.get_dummies(df, columns=['CFR'], prefix=['CFR_es'])
df_dum.dtypes

Consecutivo                      int64
1                               object
2                       datetime64[ns]
Fehca de Inscripcion    datetime64[ns]
AÑO                            float64
                             ...      
etiqueta_sexo                    int32
CFR_es_ALTO                       bool
CFR_es_BAJO                       bool
CFR_es_MODERADO                   bool
CFR_es_MUY ALTO                   bool
Length: 74, dtype: object

In [170]:
# Revisamos datos nulos del DataFrame
# print(df.isnull().sum())
# print('------------------------------------')
# print(df['27_Creatinina'].isnull().sum())

In [171]:
# Utilizamos el método .describe() para obtener un resumen de la columna '27_Creatinina'. Vemos que tenemos 16,841 registros con datos, mientras que 7,213 registros no tienen datos (nulos).
# df['27_Creatinina'].describe()

In [172]:
# df['27_Creatinina'].fillna(df['27_Creatinina'].mean(), inplace=True)

In [173]:
# df['27_Creatinina']

In [174]:
# Variables predictoras
predictores = ['etiqueta_sexo','EDAD','IMC']
# Variable objetivo
objetivo= 'CFR_es_MUY ALTO'

#Recordemos que en nuestra variable Y va lo que queremos encontrar/predecir.
#Mientras en la vairable X van las variables que usaremos para encontrar a Y
y = df_dum[objetivo].values
X = df_dum[predictores].values

In [175]:
# Se crean los conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(19074, 3)
(4769, 3)
(19074,)
(4769,)


In [178]:
# Se crea el modelo utilizando la regresión logística
log_reg = LogisticRegression(solver='lbfgs',max_iter=1000)
# Se entrena el modelo y obtenemos el score
log_reg.fit(X_train, y_train)
log_reg.score(X_test, y_test)

0.9641434262948207