## Diabetes Challenge

In [1]:
import pandas as pd
pd.set_option('display.max_columns', 60)
import warnings
warnings.filterwarnings('ignore')

Install the repo package and import the data

In [2]:
!pip install ucimlrepo



In [3]:
from ucimlrepo import fetch_ucirepo
diabetes = fetch_ucirepo(id=296)
diabetes.data.original.head(5)

Unnamed: 0,encounter_id,patient_nbr,race,gender,age,weight,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,payer_code,medical_specialty,num_lab_procedures,num_procedures,num_medications,number_outpatient,number_emergency,number_inpatient,diag_1,diag_2,diag_3,number_diagnoses,max_glu_serum,A1Cresult,metformin,repaglinide,nateglinide,chlorpropamide,glimepiride,acetohexamide,glipizide,glyburide,tolbutamide,pioglitazone,rosiglitazone,acarbose,miglitol,troglitazone,tolazamide,examide,citoglipton,insulin,glyburide-metformin,glipizide-metformin,glimepiride-pioglitazone,metformin-rosiglitazone,metformin-pioglitazone,change,diabetesMed,readmitted
0,2278392,8222157,Caucasian,Female,[0-10),,6,25,1,1,,Pediatrics-Endocrinology,41,0,1,0,0,0,250.83,,,1,,,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,NO
1,149190,55629189,Caucasian,Female,[10-20),,1,1,7,3,,,59,0,18,0,0,0,276.0,250.01,255,9,,,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Up,No,No,No,No,No,Ch,Yes,>30
2,64410,86047875,AfricanAmerican,Female,[20-30),,1,1,7,2,,,11,5,13,2,0,1,648.0,250.0,V27,6,,,No,No,No,No,No,No,Steady,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Yes,NO
3,500364,82442376,Caucasian,Male,[30-40),,1,1,7,2,,,44,1,16,0,0,0,8.0,250.43,403,7,,,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Up,No,No,No,No,No,Ch,Yes,NO
4,16680,42519267,Caucasian,Male,[40-50),,1,1,7,1,,,51,0,8,0,0,0,197.0,157.0,250,5,,,No,No,No,No,No,No,Steady,No,No,No,No,No,No,No,No,No,No,Steady,No,No,No,No,No,Ch,Yes,NO


The source of the data is found in: https://archive.ics.uci.edu/dataset/296/diabetes+130-us+hospitals+for+years+1999-2008.

A paper was published in 2014 at the BioMed Research International from the Wiley editorial. En este paper se evalua este mismo dataset y usando una regresión logistica multivariable se encuentra una relación entre las readmisiones y la medición del HbA1c. El articulo concluye que las tasas de reingreso para los pacientes con diabetes parecen estar más asociadas a la decisión de hacer la medición del HbA1c, más que con los resultados.



En la fuente de la data se encuentra un resumen de cada variable, su tipo de dato y si tiene faltantes. Adicionalmente, en el paper encontramos la misma información aclarando la cantidad de data faltante y la interpretación de cada variable.

Inicialmente, vamos a validar nuestra información y contrastarla con los datos presentados en el paper

In [4]:
#Tamaño de la muestra
len(diabetes.data.original)

101766

Al igual que el paper se tienen 101766 encuentros

In [5]:
#Tipos de variables
diabetes.variables

Unnamed: 0,name,role,type,demographic,description,units,missing_values
0,encounter_id,ID,,,Unique identifier of an encounter,,no
1,patient_nbr,ID,,,Unique identifier of a patient,,no
2,race,Feature,Categorical,Race,"Values: Caucasian, Asian, African American, Hi...",,yes
3,gender,Feature,Categorical,Gender,"Values: male, female, and unknown/invalid",,no
4,age,Feature,Categorical,Age,"Grouped in 10-year intervals: [0, 10), [10, 20...",,no
5,weight,Feature,Categorical,,Weight in pounds.,,yes
6,admission_type_id,Feature,Categorical,,Integer identifier corresponding to 9 distinct...,,no
7,discharge_disposition_id,Feature,Categorical,,Integer identifier corresponding to 29 distinc...,,no
8,admission_source_id,Feature,Categorical,,Integer identifier corresponding to 21 distinc...,,no
9,time_in_hospital,Feature,Integer,,Integer number of days between admission and d...,,no


In [6]:
#Data faltante
diabetes.data.original.isna().sum()/len(diabetes.data.original) *100

Unnamed: 0,0
encounter_id,0.0
patient_nbr,0.0
race,2.233555
gender,0.0
age,0.0
weight,96.858479
admission_type_id,0.0
discharge_disposition_id,0.0
admission_source_id,0.0
time_in_hospital,0.0


Al comparar con la data faltante que reporta el paper encontramos los mismos valores

Con la información vista hasta ahora y la del paper vamos a realizar un proceso de limpieza: Inicialmente sacamos las columnas de **weight** y **payer_code**. En busca de una comparación futura mantenemos la columna **medical_specialty** y realizamos la misma transformación. Adicionalmente, vamos a cambiar rellenar la información con none en los casos donde falte.

In [7]:
diabetes.data.original = diabetes.data.original.drop(columns=['weight', 'payer_code']) #Eliminamos columnas
diabetes.data.original["medical_specialty"].fillna("missing", inplace = True) #Transformamos columna
diabetes.data.original.fillna("none", inplace = True)

En el articulo utilizan solo la primera visita del paciente para garantizar independencia estadistica, lo cual es necesario para la regresión logistica usada por Strack, et al.

En este punto podemos tener dos acercamientos. En el primero vamos a garantarizar la independencia estadistica que propone Strack. En el segundo vamos a tomar todos los casos (incluyendo revisitas) con la salvedad de que se utilizaran modelos donde no importe la dependencia entre ejemplos como lo serían como lo son:
* Algoritmos de ensamble
* Redes neuronales
* K-means (Clusterización)

entre otros.

### Data con independencia estadistica (Strack's data)

En este punto se hará un proceso de recrear la limpieza llevada a cabo por Strack.

Inicialmente nos quedamos solo con las primeras visitas de cada paciente.

In [8]:
Strack_Diabetes = diabetes.data.original
Strack_Diabetes = Strack_Diabetes.sort_values(by=['patient_nbr', 'encounter_id' ])
Strack_Diabetes = Strack_Diabetes.drop_duplicates(subset=['patient_nbr'], keep='first')
len(Strack_Diabetes)

71518

Ahora quitamos los pacientes que murieron o fueron trasladados a cuidados paleativos. Estos dos casos corresponden a los ids 11 y 13, 14 (respectivamente). Esta información se extrae del archivo de IDS_mapping donde explican el significado de cada ID

In [9]:
Strack_Diabetes = Strack_Diabetes[~Strack_Diabetes['discharge_disposition_id'].isin([11, 13, 14])]
len(Strack_Diabetes)

69980

En este punto ya tenemos la data tal cual se presenta en el articulo de Strack. Esta data la vamos a guardar

In [10]:
Strack_Diabetes.to_csv('Strack_Diabetes.csv')

### Data con dependencia estadistica

In [14]:
Hernandez_Diabetes = diabetes.data.original
Hernandez_Diabetes = Hernandez_Diabetes.sort_values(by=['patient_nbr', 'encounter_id' ])
Hernandez_Diabetes.head(10)

Unnamed: 0,encounter_id,patient_nbr,race,gender,age,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,medical_specialty,num_lab_procedures,num_procedures,num_medications,number_outpatient,number_emergency,number_inpatient,diag_1,diag_2,diag_3,number_diagnoses,max_glu_serum,A1Cresult,metformin,repaglinide,nateglinide,chlorpropamide,glimepiride,acetohexamide,glipizide,glyburide,tolbutamide,pioglitazone,rosiglitazone,acarbose,miglitol,troglitazone,tolazamide,examide,citoglipton,insulin,glyburide-metformin,glipizide-metformin,glimepiride-pioglitazone,metformin-rosiglitazone,metformin-pioglitazone,change,diabetesMed,readmitted
4267,24437208,135,Caucasian,Female,[50-60),2,1,1,8,Cardiology,77,6,33,0,0,0,401,997.0,560,8,none,none,Steady,No,No,No,No,No,No,Down,No,No,No,No,No,No,No,No,No,Steady,No,No,No,No,No,Ch,Yes,<30
4780,26264286,135,Caucasian,Female,[50-60),1,1,7,3,Surgery-Cardiovascular/Thoracic,31,1,14,0,0,1,998,41.0,250,5,none,none,Steady,No,No,No,No,No,No,Steady,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Ch,Yes,>30
5827,29758806,378,Caucasian,Female,[50-60),3,1,1,2,Surgery-Neuro,49,1,11,0,0,0,722,305.0,250,3,none,none,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,NO
67608,189899286,729,Caucasian,Female,[80-90),1,3,7,4,InternalMedicine,68,2,23,0,0,0,820,493.0,E880,9,none,>7,Steady,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Yes,NO
17494,64331490,774,Caucasian,Female,[80-90),1,1,7,3,InternalMedicine,46,0,20,0,0,0,274,427.0,416,9,none,>8,Steady,No,No,No,No,No,No,Steady,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Ch,Yes,NO
2270,14824206,927,AfricanAmerican,Female,[30-40),1,1,7,5,InternalMedicine,49,0,5,0,0,0,590,220.0,250,3,none,none,No,No,No,No,Steady,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Yes,NO
1164,8380170,1152,AfricanAmerican,Female,[50-60),1,1,7,6,Hematology/Oncology,43,2,13,0,0,1,282,250.01,none,2,none,none,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Steady,No,No,No,No,No,No,Yes,>30
5953,30180318,1152,AfricanAmerican,Female,[50-60),1,1,7,6,Hematology/Oncology,45,4,15,0,0,2,282,794.0,250,6,none,none,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Down,No,No,No,No,No,Ch,Yes,>30
14180,55533660,1152,AfricanAmerican,Female,[60-70),1,1,7,10,Hematology/Oncology,54,2,19,0,0,1,282,276.0,428,9,none,none,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Steady,No,No,No,No,No,No,Yes,>30
23623,80742510,1152,AfricanAmerican,Female,[60-70),1,1,7,8,missing,30,1,16,0,0,1,282,250.0,none,2,none,none,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Steady,No,No,No,No,No,No,Yes,>30


La gran diferencia es que no vamos a quitar las revisitas. Por el contrario vamos a crear una nueva columna que nos indique cual visita es de cada paciente, la primera, segunda, etc. Esta columna a pesar de ser parecida a number_inpatient se diferencia en el tiempo en que se cuenta una revisita.

In [16]:
Hernandez_Diabetes['all_time_number_inpatient'] = Hernandez_Diabetes.groupby('patient_nbr').cumcount() + 1

Ahora vamos a revisar la otra limpieza que se hizo para el dataset de Strack donde quitamos muertos y traslados a cuidados paleativos

In [25]:
Death = Hernandez_Diabetes[Hernandez_Diabetes['discharge_disposition_id'] == 11]
Death.head(2)

Unnamed: 0,encounter_id,patient_nbr,race,gender,age,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,medical_specialty,num_lab_procedures,num_procedures,num_medications,number_outpatient,number_emergency,number_inpatient,diag_1,diag_2,diag_3,number_diagnoses,max_glu_serum,A1Cresult,metformin,repaglinide,nateglinide,chlorpropamide,glimepiride,acetohexamide,glipizide,glyburide,tolbutamide,pioglitazone,rosiglitazone,acarbose,miglitol,troglitazone,tolazamide,examide,citoglipton,insulin,glyburide-metformin,glipizide-metformin,glimepiride-pioglitazone,metformin-rosiglitazone,metformin-pioglitazone,change,diabetesMed,readmitted,all_time_number_inpatient
8102,37264596,61011,Caucasian,Female,[40-50),1,11,7,3,missing,53,0,17,0,0,0,599,452,305,5,none,none,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,NO,1
9869,42430920,80046,Caucasian,Male,[80-90),1,11,7,10,InternalMedicine,70,1,22,0,0,0,428,427,425,9,none,none,No,No,No,No,Up,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Ch,Yes,NO,1


In [29]:
Death['patient_nbr'].value_counts()

Unnamed: 0_level_0,count
patient_nbr,Unnamed: 1_level_1
61011,1
74462598,1
75551022,1
75489480,1
75196629,1
...,...
25900407,1
25848126,1
25731189,1
25729560,1


In [28]:
Death['readmitted'].value_counts()

Unnamed: 0_level_0,count
readmitted,Unnamed: 1_level_1
NO,1642


Como se esperaba todas las personas muertas tienen el label de NO en readmitidos. Esta prueba sencilla es una muestra de que la data se encuentra bien catalogada.

Esta base puede servir para identificar un patrón entre las personas fallecidas. El NO en el readmitted puede significar que las personas se curan o mueren. En este sentido tiene sentido sacarlos de la data Hernandez_Diabetes. Pero dejarlos en otra base para posterior estudio. Otro posible resultado es crear una nueva categoria para los muertos.

Vamos a remover muertos y dejarlos en una base independiente para posterior análisis

In [31]:
Death.to_csv('Death.csv')
Hernandez_Diabetes = Hernandez_Diabetes[Hernandez_Diabetes['discharge_disposition_id'] != 11]
Hernandez_Diabetes.head(2)

Unnamed: 0,encounter_id,patient_nbr,race,gender,age,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,medical_specialty,num_lab_procedures,num_procedures,num_medications,number_outpatient,number_emergency,number_inpatient,diag_1,diag_2,diag_3,number_diagnoses,max_glu_serum,A1Cresult,metformin,repaglinide,nateglinide,chlorpropamide,glimepiride,acetohexamide,glipizide,glyburide,tolbutamide,pioglitazone,rosiglitazone,acarbose,miglitol,troglitazone,tolazamide,examide,citoglipton,insulin,glyburide-metformin,glipizide-metformin,glimepiride-pioglitazone,metformin-rosiglitazone,metformin-pioglitazone,change,diabetesMed,readmitted,all_time_number_inpatient
4267,24437208,135,Caucasian,Female,[50-60),2,1,1,8,Cardiology,77,6,33,0,0,0,401,997,560,8,none,none,Steady,No,No,No,No,No,No,Down,No,No,No,No,No,No,No,No,No,Steady,No,No,No,No,No,Ch,Yes,<30,1
4780,26264286,135,Caucasian,Female,[50-60),1,1,7,3,Surgery-Cardiovascular/Thoracic,31,1,14,0,0,1,998,41,250,5,none,none,Steady,No,No,No,No,No,No,Steady,No,No,No,No,No,No,No,No,No,No,No,No,No,No,No,Ch,Yes,>30,2


A pesar de que el target es **readmitted**, este resultado tiene más importancia al sacar a los casos muertos. Adicionalmente, se debe realizar un análisis cuidadoso de la columna **discharge_disposition_id**.

In [32]:
import plotly.express as px
#vamos a graficar en el eje x readmitted y en el eje y el numero de data que se tiene para cada discharge_dispotition_id
fig = px.histogram(Hernandez_Diabetes,
                   x='readmitted',
                   color='discharge_disposition_id',
                   barmode='stack',
                   title='Cantidad de readmitted para discharge_disposition_id',
                   labels={'readmitted': 'readmitted', 'count': 'discharge_disposition_id count'})

# Mostrar el gráfico
fig.show()

Al observar cada discharge_disposition_id observamos que los id 19 y 20 tiene todos sus valores de **readmitted** en NO. Ambos ID corresponden a muerte en casa o en medical facility. Entre ambos Ids tenemos 10 casos. Por su significado y la poca cantidad de data que representan se omitiran de la data Hernandez_Diabetes

In [34]:
Hernandez_Diabetes = Hernandez_Diabetes[~Hernandez_Diabetes['discharge_disposition_id'].isin([19, 20])]

Con esto concluiriamos la limpieza de la data y tendriamos una segunda base con mayor cantidad de data

In [36]:
len(Hernandez_Diabetes)

100114

In [35]:
Hernandez_Diabetes.to_csv('Hernandez_Diabetes.csv')

### Palabras finales

En este notebook se crearon 3 datasets diferentes.

El primero corresponde al dataset usado por Strack en su articulo *http://dx.doi.org/10.1155/2014/781670*. En este dataset se garantiza la independencia estadistica al quedarnos solo con la primera visita de cada paciente. Adicionalmente se eliminan pacientes muertos y que entran en cuidados paleativos

La segunda base corresponde al dataset creado por el autor. En este dataset se tienen en cuenta las multiples visitas que puede tener un paciente y se enumeran. Despues de analizar el target se extraen del dataset los muertos.

La tercera base corresponde a los muertos que fueron excluidos en el dataset Hernandez_Diabetes. Este dataset se utilizará para buscar información relevante y patrones de las personas fallecidas.