`EDA`

![Imagen1](imagen1.jpg)


ICD International Classification of Diseases - Clasificación internacional de enfermedades

ICD-9-CM es el sistema oficial de asignación de códigos para diagnosticar y procedimientos asociados con los usos del hospital en los Estados Unidos. Cuyo fin es clasificar las enfermedades, afecciones y causas externas de enfermedades y traumatismos, con objeto de recopilar información sanitaria útil relacionada con defunciones, enfermedades y traumatismos (mortalidad y morbilidad)


In [45]:
import pandas as pd

In [46]:
df = pd.read_csv('D_ICD_DIAGNOSES.csv')


In [47]:
# Muestra las primeras 5 filas del dataframe
df.head(10)

Unnamed: 0,row_id,icd9_code,short_title,long_title
0,1,1716,Erythem nod tb-oth test,Erythema nodosum with hypersensitivity reactio...
1,2,1720,TB periph lymph-unspec,"Tuberculosis of peripheral lymph nodes, unspec..."
2,3,1721,TB periph lymph-no exam,"Tuberculosis of peripheral lymph nodes, bacter..."
3,4,1722,TB periph lymph-exam unk,"Tuberculosis of peripheral lymph nodes, bacter..."
4,5,1723,TB periph lymph-micro dx,"Tuberculosis of peripheral lymph nodes, tuberc..."
5,6,1724,TB periph lymph-cult dx,"Tuberculosis of peripheral lymph nodes, tuberc..."
6,7,1725,TB periph lymph-histo dx,"Tuberculosis of peripheral lymph nodes, tuberc..."
7,8,1726,TB periph lymph-oth test,"Tuberculosis of peripheral lymph nodes, tuberc..."
8,9,1730,TB of eye-unspec,"Tuberculosis of eye, unspecified"
9,10,1731,TB of eye-no exam,"Tuberculosis of eye, bacteriological or histol..."


`Se comprueba que estan todos los códigos en el df y que se encuentran como valores unicos.`

In [48]:
df.shape

(14567, 4)

In [49]:
#Cuento cantidad de valores nulos por columnas
df.isnull().sum()

row_id         0
icd9_code      0
short_title    0
long_title     0
dtype: int64

In [50]:
#Cuento cantidad total de valores nulos en todo el dataframe
df.isnull().sum().sum()

0

In [51]:
df.dtypes

row_id          int64
icd9_code      object
short_title    object
long_title     object
dtype: object

In [52]:
if df["icd9_code"].nunique() == len(df["icd9_code"]):
    print("Todos los valores son únicos")
else:
    print("Hay valores duplicados")


Todos los valores son únicos


Se podria analizar:

La frecuencia con la que aparecen ciertos códigos ICD-9 en el DataFrame. Esto te puede ayudar a identificar las condiciones médicas más comunes o importantes registradas en tus datos.

Buscar patrones de diagnóstico o procedimientos quirúrgicos utilizando los códigos ICD-9. Puedes agrupar los códigos por categorías o subcategorías relevantes para tu análisis y ver qué patrones emergen.

Comparar los códigos ICD-9 con otras variables en el DataFrame, como la edad, el género o los resultados de laboratorio. Esto puede ayudarte a identificar asociaciones entre las condiciones médicas y otros factores.

Realizar análisis de tendencias a lo largo del tiempo, evaluando cómo cambia la frecuencia de ciertos códigos ICD-9 a lo largo de los años. Esto puede ayudarte a identificar tendencias en la salud y la atención médica.

In [53]:
df2 = pd.read_csv('D_ICD_PROCEDURES.csv')

In [54]:
df2.head(10)

Unnamed: 0,row_id,icd9_code,short_title,long_title
0,1,1423,Chorioret les xenon coag,Destruction of chorioretinal lesion by xenon a...
1,2,1424,Chorioret les laser coag,Destruction of chorioretinal lesion by laser p...
2,3,1425,Chorioret les p/coag NOS,Destruction of chorioretinal lesion by photoco...
3,4,1426,Chorioret les radiother,Destruction of chorioretinal lesion by radiati...
4,5,1427,Chorioret les rad implan,Destruction of chorioretinal lesion by implant...
5,6,1429,Chorioret les destr NEC,Other destruction of chorioretinal lesion
6,7,1431,Retinal tear diathermy,Repair of retinal tear by diathermy
7,8,1432,Retinal tear cryotherapy,Repair of retinal tear by cryotherapy
8,9,1433,Retinal tear xenon coag,Repair of retinal tear by xenon arc photocoagu...
9,10,1434,Retinal tear laser coag,Repair of retinal tear by laser photocoagulation


`Trae las cantidades totales 3882. El 10 trae el doble 8000`

In [55]:
df2.shape

(3882, 4)

In [56]:
#Cuento cantidad de valores nulos por columnas
df2.isnull().sum()

row_id         0
icd9_code      0
short_title    0
long_title     0
dtype: int64

In [57]:
#Cuento cantidad total de valores nulos en todo el dataframe
df2.isnull().sum().sum()

0

In [58]:
df2.dtypes

row_id          int64
icd9_code       int64
short_title    object
long_title     object
dtype: object

In [88]:
#Verifico duplicados en el codigo

# Utilizamos el método duplicated() para identificar los registros duplicados en la columna 'icd9_code'
duplicados = df2.duplicated(subset=['icd9_code'], keep=False)

# Obtenemos el número total de registros duplicados
cantidad_duplicados = duplicados.sum()

print(f"La cantidad de registros duplicados en la columna 'icd9_code' es: {cantidad_duplicados}")


La cantidad de registros duplicados en la columna 'icd9_code' es: 146


In [92]:
import plotly.express as px

# Identificamos las filas que están duplicadas en la columna 'icd9_code'
duplicados = df2.duplicated(subset=['icd9_code'], keep=False)

# Filtramos las filas duplicadas usando el método loc()
filas_duplicadas = df2.loc[duplicados]

# Contamos la cantidad de veces que aparece cada valor duplicado
conteo = filas_duplicadas.groupby('icd9_code').size().reset_index(name='cantidad')

# Creamos un diagrama de barras horizontales agrupados con Plotly
fig = px.bar(conteo, x='cantidad', y='icd9_code', orientation='h', 
             color='cantidad', text='cantidad')

# Personalizamos el diseño del gráfico
fig.update_layout(title='Cantidad de registros duplicados en la columna icd9_code',
                  xaxis_title='Cantidad de registros duplicados',
                  yaxis_title='Valor de icd9_code',
                  legend_title='Cantidad',
                  height=600)

# Mostramos el gráfico
fig.show()



In [63]:
df3 = pd.read_csv('D_ITEMS.csv')

In [64]:
df3.head(10)

Unnamed: 0,row_id,itemid,label,abbreviation,dbsource,linksto,category,unitname,param_type,conceptid
0,1,1435,Sustained Nystamus,,carevue,chartevents,,,,
1,2,1436,Tactile Disturbances,,carevue,chartevents,,,,
2,3,1437,Tremor,,carevue,chartevents,,,,
3,4,1438,Ulnar Pulse [Right],,carevue,chartevents,,,,
4,5,1439,Visual Disturbances,,carevue,chartevents,,,,
5,6,1447,Transpulmonary Pres,,carevue,chartevents,,,,
6,7,1448,Vd/Vt:,,carevue,chartevents,,,,
7,8,1449,Arterial BP(Rad),,carevue,chartevents,,,,
8,9,1450,level one,,carevue,chartevents,,,,
9,10,1451,L girth size,,carevue,chartevents,,,,


In [65]:
df3.shape

(12487, 10)

In [66]:
#Cuento cantidad de valores nulos por columnas
df3.isnull().sum()

row_id              0
itemid              0
label               4
abbreviation     9495
dbsource            0
linksto             0
category         6438
unitname        11253
param_type       9495
conceptid       12487
dtype: int64

In [67]:
#Cuento cantidad total de valores nulos en todo el dataframe
df3.isnull().sum().sum()

49172

In [68]:
df3.dtypes

row_id            int64
itemid            int64
label            object
abbreviation     object
dbsource         object
linksto          object
category         object
unitname         object
param_type       object
conceptid       float64
dtype: object

In [93]:
#verifico duplicados en la columna itemid
duplicados = df3['itemid'].duplicated()


In [96]:
if df3["itemid"].nunique() == len(df3["itemid"]):
    print("Todos los valores son únicos")
else:
    print("Hay valores duplicados")

Todos los valores son únicos


In [69]:
df4 = pd.read_csv('D_LABITEMS.csv')

In [70]:
df4.head(10)

Unnamed: 0,row_id,itemid,label,fluid,category,loinc_code
0,1,50800,SPECIMEN TYPE,BLOOD,BLOOD GAS,
1,2,50801,Alveolar-arterial Gradient,Blood,Blood Gas,19991-9
2,3,50802,Base Excess,Blood,Blood Gas,11555-0
3,4,50803,"Calculated Bicarbonate, Whole Blood",Blood,Blood Gas,1959-6
4,5,50804,Calculated Total CO2,Blood,Blood Gas,34728-6
5,6,50805,Carboxyhemoglobin,Blood,Blood Gas,20563-3
6,7,50806,"Chloride, Whole Blood",Blood,Blood Gas,2069-3
7,8,50807,Comments,Blood,Blood Gas,
8,9,50808,Free Calcium,Blood,Blood Gas,1994-3
9,10,50809,Glucose,Blood,Blood Gas,2339-0


In [71]:
df4.shape

(753, 6)

In [72]:
#Cuento cantidad de valores nulos por columnas
df4.isnull().sum()

row_id          0
itemid          0
label           0
fluid           0
category        0
loinc_code    168
dtype: int64

In [73]:
#Cuento cantidad total de valores nulos en todo el dataframe
df4.isnull().sum().sum()

168

In [74]:
df4.dtypes

row_id         int64
itemid         int64
label         object
fluid         object
category      object
loinc_code    object
dtype: object

In [97]:
#duplicados en itemid
if df4["itemid"].nunique() == len(df4["itemid"]):
    print("Todos los valores son únicos")
else:
    print("Hay valores duplicados")

Todos los valores son únicos


In [75]:
df5 = pd.read_csv('DATETIMEEVENTS.csv')

In [76]:
df5.head(10)

Unnamed: 0,row_id,subject_id,hadm_id,icustay_id,itemid,charttime,storetime,cgid,value,valueuom,warning,error,resultstatus,stopped
0,208474,10076,198503,201006.0,5684,2107-03-25 04:00:00,2107-03-25 04:34:00,20482,2107-03-24 00:00:00,Date,,,,NotStopd
1,208475,10076,198503,201006.0,5684,2107-03-25 07:00:00,2107-03-25 07:06:00,15004,2107-03-24 00:00:00,Date,,,,NotStopd
2,208836,10076,198503,201006.0,5684,2107-03-26 04:00:00,2107-03-26 05:31:00,20834,2107-03-24 00:00:00,Date,,,,NotStopd
3,208837,10076,198503,201006.0,5684,2107-03-26 08:00:00,2107-03-26 08:33:00,17480,2107-03-24 00:00:00,Date,,,,NotStopd
4,208838,10076,198503,201006.0,5684,2107-03-26 16:00:00,2107-03-26 16:08:00,17480,2107-03-24 00:00:00,Date,,,,NotStopd
5,208839,10076,198503,201006.0,5684,2107-03-27 00:00:00,2107-03-27 00:48:00,19085,2107-03-24 00:00:00,Date,,,,NotStopd
6,209230,10036,189483,227834.0,5684,2185-03-26 04:00:00,2185-03-26 04:36:00,14204,2185-03-24 00:00:00,Date,,,,NotStopd
7,209468,10076,198503,201006.0,5684,2107-03-24 18:00:00,2107-03-24 18:26:00,20053,2107-03-24 00:00:00,Date,,,,NotStopd
8,209469,10076,198503,201006.0,5684,2107-03-24 21:00:00,2107-03-24 20:49:00,20482,2107-03-24 00:00:00,Date,,,,NotStopd
9,209470,10076,198503,201006.0,5684,2107-03-25 00:00:00,2107-03-25 00:16:00,20482,2107-03-24 00:00:00,Date,,,,NotStopd


In [77]:
df5.shape

(15551, 14)

In [78]:
#Cuento cantidad de valores nulos por columnas
df5.isnull().sum()

row_id              0
subject_id          0
hadm_id             0
icustay_id         12
itemid              0
charttime           0
storetime           0
cgid                0
value              84
valueuom            0
error            4637
resultstatus    15551
stopped         10914
dtype: int64

In [79]:
#Cuento cantidad total de valores nulos en todo el dataframe
df5.isnull().sum().sum()

35835

In [80]:
df5.dtypes

row_id            int64
subject_id        int64
hadm_id           int64
icustay_id      float64
itemid            int64
charttime        object
storetime        object
cgid              int64
value            object
valueuom         object
error           float64
resultstatus    float64
stopped          object
dtype: object

In [100]:
#duplicados en row_id
if df5["row_id"].nunique() == len(df5["row_id"]):
    print("Todos los valores son únicos")
else:
    print("Hay valores duplicados")

Todos los valores son únicos


In [81]:
df6 = pd.read_csv('DIAGNOSES_ICD.csv')

In [82]:
df6.head(10)

Unnamed: 0,row_id,subject_id,hadm_id,seq_num,icd9_code
0,112344,10006,142345,1,99591
1,112345,10006,142345,2,99662
2,112346,10006,142345,3,5672
3,112347,10006,142345,4,40391
4,112348,10006,142345,5,42731
5,112349,10006,142345,6,4280
6,112350,10006,142345,7,4241
7,112351,10006,142345,8,4240
8,112352,10006,142345,9,2874
9,112353,10006,142345,10,3819


In [83]:
df6.shape

(1761, 5)

In [84]:
#Cuento cantidad de valores nulos por columnas
df6.isnull().sum()

row_id        0
subject_id    0
hadm_id       0
seq_num       0
icd9_code     0
dtype: int64

In [85]:
#Cuento cantidad total de valores nulos en todo el dataframe
df6.isnull().sum().sum()

0

In [86]:
df6.dtypes

row_id         int64
subject_id     int64
hadm_id        int64
seq_num        int64
icd9_code     object
dtype: object

In [99]:
#duplicados en row_id
if df6["row_id"].nunique() == len(df6["row_id"]):
    print("Todos los valores son únicos")
else:
    print("Hay valores duplicados")

Todos los valores son únicos
