# PROYECTO: INDICADORES DE SALUD - GRAFICAS

## Importar librerías

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Cargar bases de datos

In [4]:
#Cargar base de datos egresos
file = '../../Registros/Bases de datos/2010_2022/Cambio claves/egresos.csv'
egresos = pd.read_csv(file, on_bad_lines='skip')
egresos.head()

Unnamed: 0,ID,CLUES,INGRE,EGRESO,DIAS_ESTA,CVEEDAD,EDAD,NACIOEN,SEXO,PESO,...,MUNIC,LOC,TIPSERV,PROCED,DIAG_INI,AFECPRIN,VEZ,CAUSAEXT,INFEC,MOTEGRE
0,1,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,MESES,2,NO,M,999.0,...,AGUASCALIENTES,1,NORMAL,CONSULTA EXTERNA,TUMOR MALIGNO DE OTROS TEJIDOS CONJUNTIVOS Y D...,TUMOR MALIGNO DE OTROS TEJIDOS CONJUNTIVOS Y D...,SUBSECUENTE,,NO,MEJORIA
1,3,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-06,2010-01-06,1,AÑOS,6,,H,999.0,...,ASIENTOS,3,NORMAL,CONSULTA EXTERNA,LEUCEMIA LINFOIDE,LEUCEMIA LINFOIDE,SUBSECUENTE,,NO,MEJORIA
2,4,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-05,2010-01-05,1,AÑOS,5,,H,999.0,...,EL LLANO,3,NORMAL,CONSULTA EXTERNA,LEUCEMIA LINFOIDE,LEUCEMIA LINFOIDE,SUBSECUENTE,,NO,MEJORIA
3,5,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,AÑOS,18,,H,999.0,...,AGUASCALIENTES,1,NORMAL,CONSULTA EXTERNA,ENFERMEDAD RENAL CRÓNICA,ENFERMEDAD RENAL CRÓNICA,SUBSECUENTE,,NO,MEJORIA
4,8,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,AÑOS,17,,M,999.0,...,JESUS MARIA,1,NORMAL,CONSULTA EXTERNA,ENFERMEDAD RENAL CRÓNICA,ENFERMEDAD RENAL CRÓNICA,SUBSECUENTE,,NO,MEJORIA


In [5]:
# Asignar tipo de dato en formato fecha para ingreso y egreso hospitalario
egresos['EGRESO'] = pd.to_datetime(egresos['EGRESO'])
egresos['INGRE'] = pd.to_datetime(egresos['INGRE'])

In [6]:
#Cargar base de datos afecciones
file = '../../Registros/Bases de datos/2010_2022/Cambio claves/afecciones.csv'
afecciones = pd.read_csv(file, on_bad_lines='skip')
afecciones.head()

Unnamed: 0,ID,NUMAFEC,AFEC
0,399,2,FRACTURA DE HUESOS DEL CRÁNEO Y DE LA CARA
1,399,3,FRACTURA DEL ANTEBRAZO
2,399,1,HIPERTENSIÓN ESENCIAL (PRIMARIA)
3,25245,1,ATENCIÓN PARA LA ANTICONCEPCIÓN
4,25569,1,ATENCIÓN PARA LA ANTICONCEPCIÓN


In [7]:
#Cargar base de datos procedimientos
file = '../../Registros/Bases de datos/2010_2022/Cambio claves/procedimientos.csv'
procedimientos = pd.read_csv(file, on_bad_lines='skip')
procedimientos.head()

Unnamed: 0,ID,NUMPROMED,TIPO,PROMED,ANEST,QUIROF,QH,QM
0,10952,1,QUIRURGICO,LAPAROTOMÍA,REGIONAL,EN,99.0,99.0
1,23436,1,QUIRURGICO,LAPAROTOMÍA,REGIONAL,EN,1.0,0.0
2,23659,1,QUIRURGICO,LAPAROTOMÍA,REGIONAL,EN,1.0,0.0
3,23789,1,QUIRURGICO,LAPAROTOMÍA,GENERAL,EN,99.0,99.0
4,24367,1,QUIRURGICO,LAPAROTOMÍA,REGIONAL,EN,1.0,0.0


## Agregar columnas

### Número de procedimientos por paciente

Para no crear una nueva columna por cada procedimiento que tenga un paciente (77 máximo), tomamos el número total de procedimientos por cada ID.

In [8]:
# Obtener el valor máximo de número de procedimiento para cada ID
conteo = procedimientos.groupby(['ID'])['NUMPROMED'].max().sort_values(ascending = False).to_frame().reset_index()
conteo.NUMPROMED.value_counts()

1     179303
2      69416
3      30987
4      12477
5       5189
6       2342
7       1087
8        877
9        104
11        45
10        43
12        19
13        17
16        14
15         8
21         6
18         6
14         5
17         4
29         4
24         3
25         3
26         3
19         2
20         2
22         2
33         2
46         1
23         1
27         1
31         1
36         1
39         1
77         1
Name: NUMPROMED, dtype: int64

In [9]:
#Combinar egresos con el conteo de número de procedimientos
egresos = egresos.merge(conteo, how = 'left', on = 'ID')
#Los IDS sin procedimientos rellenarlos con un 0
egresos['NUMPROMED'] = egresos['NUMPROMED'].fillna(0)
egresos.head()

Unnamed: 0,ID,CLUES,INGRE,EGRESO,DIAS_ESTA,CVEEDAD,EDAD,NACIOEN,SEXO,PESO,...,LOC,TIPSERV,PROCED,DIAG_INI,AFECPRIN,VEZ,CAUSAEXT,INFEC,MOTEGRE,NUMPROMED
0,1,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,MESES,2,NO,M,999.0,...,1,NORMAL,CONSULTA EXTERNA,TUMOR MALIGNO DE OTROS TEJIDOS CONJUNTIVOS Y D...,TUMOR MALIGNO DE OTROS TEJIDOS CONJUNTIVOS Y D...,SUBSECUENTE,,NO,MEJORIA,1.0
1,3,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-06,2010-01-06,1,AÑOS,6,,H,999.0,...,3,NORMAL,CONSULTA EXTERNA,LEUCEMIA LINFOIDE,LEUCEMIA LINFOIDE,SUBSECUENTE,,NO,MEJORIA,1.0
2,4,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-05,2010-01-05,1,AÑOS,5,,H,999.0,...,3,NORMAL,CONSULTA EXTERNA,LEUCEMIA LINFOIDE,LEUCEMIA LINFOIDE,SUBSECUENTE,,NO,MEJORIA,1.0
3,5,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,AÑOS,18,,H,999.0,...,1,NORMAL,CONSULTA EXTERNA,ENFERMEDAD RENAL CRÓNICA,ENFERMEDAD RENAL CRÓNICA,SUBSECUENTE,,NO,MEJORIA,1.0
4,8,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,AÑOS,17,,M,999.0,...,1,NORMAL,CONSULTA EXTERNA,ENFERMEDAD RENAL CRÓNICA,ENFERMEDAD RENAL CRÓNICA,SUBSECUENTE,,NO,MEJORIA,1.0


### Número de afecciones por paciente

Para no crear una nueva columna por cada comorbilidad que tenga un paciente (10 máximo), tomamos el número total de comorbilidades por cada ID.

In [10]:
#Obtener el conteo de número de afecciones por paciente
conteo = afecciones.groupby(['ID'])['NUMAFEC'].max().sort_values(ascending = False).to_frame().reset_index()
conteo.NUMAFEC.value_counts()

1     155107
2      32138
3      16219
4       8367
5       3997
6       1935
7        636
8         55
9          8
10         3
Name: NUMAFEC, dtype: int64

In [11]:
#Agregar a la tabla egresos una columna con el número de afecciones por paciente
egresos = egresos.merge(conteo, how = 'left', on = 'ID')
egresos.head()

Unnamed: 0,ID,CLUES,INGRE,EGRESO,DIAS_ESTA,CVEEDAD,EDAD,NACIOEN,SEXO,PESO,...,TIPSERV,PROCED,DIAG_INI,AFECPRIN,VEZ,CAUSAEXT,INFEC,MOTEGRE,NUMPROMED,NUMAFEC
0,1,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,MESES,2,NO,M,999.0,...,NORMAL,CONSULTA EXTERNA,TUMOR MALIGNO DE OTROS TEJIDOS CONJUNTIVOS Y D...,TUMOR MALIGNO DE OTROS TEJIDOS CONJUNTIVOS Y D...,SUBSECUENTE,,NO,MEJORIA,1.0,
1,3,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-06,2010-01-06,1,AÑOS,6,,H,999.0,...,NORMAL,CONSULTA EXTERNA,LEUCEMIA LINFOIDE,LEUCEMIA LINFOIDE,SUBSECUENTE,,NO,MEJORIA,1.0,
2,4,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-05,2010-01-05,1,AÑOS,5,,H,999.0,...,NORMAL,CONSULTA EXTERNA,LEUCEMIA LINFOIDE,LEUCEMIA LINFOIDE,SUBSECUENTE,,NO,MEJORIA,1.0,
3,5,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,AÑOS,18,,H,999.0,...,NORMAL,CONSULTA EXTERNA,ENFERMEDAD RENAL CRÓNICA,ENFERMEDAD RENAL CRÓNICA,SUBSECUENTE,,NO,MEJORIA,1.0,
4,8,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,AÑOS,17,,M,999.0,...,NORMAL,CONSULTA EXTERNA,ENFERMEDAD RENAL CRÓNICA,ENFERMEDAD RENAL CRÓNICA,SUBSECUENTE,,NO,MEJORIA,1.0,


In [12]:
#Todos los IDS sin afección llenarlos con un cero
egresos['NUMAFEC'] = egresos['NUMAFEC'].fillna(0)
egresos['NUMAFEC'].value_counts()

1.0     155025
0.0     102568
2.0      32105
3.0      16202
4.0       8363
5.0       3997
6.0       1935
7.0        636
8.0         55
9.0          8
10.0         3
Name: NUMAFEC, dtype: int64

## Corrección de número de afecciones

Con el código anterior se cuenta el número de comorbilidades de la tabla afecciones, el problema es que hay comorbilidades que son la misma que la afección principal, lo cual por definición no es posible.
En el siguiente código solo contaremos el número de comorbilidades del paciente que no están especificados como afección principal.

In [13]:
# Crear el diccionario vacío
diccionario = {}

# Iterar sobre cada fila del dataframe
for index, row in afecciones.iterrows():
    paciente_id = row['ID']
    comorbilidad = row['AFEC']

    # Verificar si el ID del paciente ya existe en el diccionario
    if paciente_id in diccionario:
        # Agregar la comorbilidad a la lista existente
        diccionario[paciente_id].append(comorbilidad)
    else:
        # Crear una nueva lista de comorbilidades para el ID del paciente
        diccionario[paciente_id] = [comorbilidad]

In [14]:
# Variable de contador
contador = 0

# Recorrer cada fila del dataframe 'egresos'
for index, row in egresos.iterrows():
    paciente_id = row['ID']
    afec_principal = row['AFECPRIN']

    # Verificar si el paciente tiene una comorbilidad principal en el diccionario
    if paciente_id in diccionario and afec_principal in diccionario[paciente_id]:
        # Eliminar la comorbilidad principal del diccionario
        diccionario[paciente_id].remove(afec_principal)
        # Incrementar el contador
        contador += 1

In [15]:
#Este es el número de registros en los que la afección principal está considerada también como comorbilidad
contador

134018

In [16]:
#Ahora sí obtenemos el número real de comorbilidades
egresos['NUMAFEC'] = egresos['ID'].apply(lambda x: len(diccionario.get(x, [])))

In [17]:
egresos['NUMAFEC'].value_counts()

0     192552
1      87863
2      21223
3      10771
4       5040
5       2350
6        986
7         96
8         13
9          2
10         1
Name: NUMAFEC, dtype: int64

### Grupo de edad al que pertenece el paciente

Crear una nueva columna en donde se puedan agrupar los pacientes por rango de edad

In [18]:
# Crear una lista con las condiciones
conditions = [
     (egresos['EDAD'] <= 4),
     (egresos['EDAD'] > 4) & (egresos['EDAD'] <= 14),
     (egresos['EDAD'] > 14) & (egresos['EDAD'] <= 29),
     (egresos['EDAD'] > 29) & (egresos['EDAD'] <= 44),
     (egresos['EDAD'] > 44) & (egresos['EDAD'] <= 59),
     (egresos['EDAD'] > 59)]

# Crear una lista con los valores que le queremos asignar a cada condición
values = ['0 a 4', '5 a 14', '15 a 29', '30 a 44', '45 a 59', '60 o más']

# Crear una nueva columna y usar np.select para asignar los valores especificados
egresos['CAT_EDAD'] = np.select(conditions, values)

egresos.head()

Unnamed: 0,ID,CLUES,INGRE,EGRESO,DIAS_ESTA,CVEEDAD,EDAD,NACIOEN,SEXO,PESO,...,PROCED,DIAG_INI,AFECPRIN,VEZ,CAUSAEXT,INFEC,MOTEGRE,NUMPROMED,NUMAFEC,CAT_EDAD
0,1,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,MESES,2,NO,M,999.0,...,CONSULTA EXTERNA,TUMOR MALIGNO DE OTROS TEJIDOS CONJUNTIVOS Y D...,TUMOR MALIGNO DE OTROS TEJIDOS CONJUNTIVOS Y D...,SUBSECUENTE,,NO,MEJORIA,1.0,0,0 a 4
1,3,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-06,2010-01-06,1,AÑOS,6,,H,999.0,...,CONSULTA EXTERNA,LEUCEMIA LINFOIDE,LEUCEMIA LINFOIDE,SUBSECUENTE,,NO,MEJORIA,1.0,0,5 a 14
2,4,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-05,2010-01-05,1,AÑOS,5,,H,999.0,...,CONSULTA EXTERNA,LEUCEMIA LINFOIDE,LEUCEMIA LINFOIDE,SUBSECUENTE,,NO,MEJORIA,1.0,0,5 a 14
3,5,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,AÑOS,18,,H,999.0,...,CONSULTA EXTERNA,ENFERMEDAD RENAL CRÓNICA,ENFERMEDAD RENAL CRÓNICA,SUBSECUENTE,,NO,MEJORIA,1.0,0,15 a 29
4,8,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,AÑOS,17,,M,999.0,...,CONSULTA EXTERNA,ENFERMEDAD RENAL CRÓNICA,ENFERMEDAD RENAL CRÓNICA,SUBSECUENTE,,NO,MEJORIA,1.0,0,15 a 29


### Grupo de estancia a la que pertenece el paciente

Crear una nueva columna en donde se puedan agrupar los pacientes por rango de estancia

In [19]:
# Crear una lista con las condiciones
conditions = [
     (egresos['DIAS_ESTA'] <= 1),
     (egresos['DIAS_ESTA'] > 1) & (egresos['DIAS_ESTA'] <= 3),
     (egresos['DIAS_ESTA'] > 3) & (egresos['DIAS_ESTA'] <= 7),
     (egresos['DIAS_ESTA'] > 7) & (egresos['DIAS_ESTA'] <= 30),
    (egresos['DIAS_ESTA'] > 30)]

# Crear una lista con los valores que le queremos asignar a cada condición
values = ['1 o menos', '2 a 3', '4 a 7', '8 a 30', 'Más de 30']

# Crear una nueva columna y usar np.select para asignar los valores especificados
egresos['CAT_DIASESTA'] = np.select(conditions, values)

egresos.head()

Unnamed: 0,ID,CLUES,INGRE,EGRESO,DIAS_ESTA,CVEEDAD,EDAD,NACIOEN,SEXO,PESO,...,DIAG_INI,AFECPRIN,VEZ,CAUSAEXT,INFEC,MOTEGRE,NUMPROMED,NUMAFEC,CAT_EDAD,CAT_DIASESTA
0,1,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,MESES,2,NO,M,999.0,...,TUMOR MALIGNO DE OTROS TEJIDOS CONJUNTIVOS Y D...,TUMOR MALIGNO DE OTROS TEJIDOS CONJUNTIVOS Y D...,SUBSECUENTE,,NO,MEJORIA,1.0,0,0 a 4,1 o menos
1,3,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-06,2010-01-06,1,AÑOS,6,,H,999.0,...,LEUCEMIA LINFOIDE,LEUCEMIA LINFOIDE,SUBSECUENTE,,NO,MEJORIA,1.0,0,5 a 14,1 o menos
2,4,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-05,2010-01-05,1,AÑOS,5,,H,999.0,...,LEUCEMIA LINFOIDE,LEUCEMIA LINFOIDE,SUBSECUENTE,,NO,MEJORIA,1.0,0,5 a 14,1 o menos
3,5,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,AÑOS,18,,H,999.0,...,ENFERMEDAD RENAL CRÓNICA,ENFERMEDAD RENAL CRÓNICA,SUBSECUENTE,,NO,MEJORIA,1.0,0,15 a 29,1 o menos
4,8,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,AÑOS,17,,M,999.0,...,ENFERMEDAD RENAL CRÓNICA,ENFERMEDAD RENAL CRÓNICA,SUBSECUENTE,,NO,MEJORIA,1.0,0,15 a 29,1 o menos


### Presencia de diabetes, hipertensión y obesidad

Crear 3 columnas distintas para Diabetes, Hipertensión y Obesidad, asignar el valor 'SI' en caso que el paciente padezca la enfermedad y 'NO' en caso contrario

In [20]:
# Crear la columna 'DIABETES', 'HIPERTENSION' y 'OBESIDAD' en 'egresos' a partir de la tabla 'afecciones'
egresos['DIABETES'] = egresos['ID'].isin(afecciones.loc[afecciones['AFEC'] == 'DIABETES MELLITUS TIPO 2', 'ID']).map({True: 'SI', False: 'NO'})
egresos['HIPERTENSION'] = egresos['ID'].isin(afecciones.loc[afecciones['AFEC'] == 'HIPERTENSIÓN ESENCIAL (PRIMARIA)', 'ID']).map({True: 'SI', False: 'NO'})
egresos['OBESIDAD'] = egresos['ID'].isin(afecciones.loc[afecciones['AFEC'] == 'OBESIDAD', 'ID']).map({True: 'SI', False: 'NO'})

In [21]:
egresos.columns

Index(['ID', 'CLUES', 'INGRE', 'EGRESO', 'DIAS_ESTA', 'CVEEDAD', 'EDAD',
       'NACIOEN', 'SEXO', 'PESO', 'TALLA', 'DERHAB', 'MUNIC', 'LOC', 'TIPSERV',
       'PROCED', 'DIAG_INI', 'AFECPRIN', 'VEZ', 'CAUSAEXT', 'INFEC', 'MOTEGRE',
       'NUMPROMED', 'NUMAFEC', 'CAT_EDAD', 'CAT_DIASESTA', 'DIABETES',
       'HIPERTENSION', 'OBESIDAD'],
      dtype='object')

In [22]:
# Cambiar el valor asignado a las columnas en caso que la afección principal o el diagnóstico contengan estas enfermedades
egresos.loc[(egresos['AFECPRIN'] == 'DIABETES MELLITUS TIPO 2') & (egresos['DIABETES'] == 'NO'), 'DIABETES'] = 'SI'
egresos.loc[(egresos['AFECPRIN'] == 'HIPERTENSIÓN ESENCIAL (PRIMARIA)') & (egresos['HIPERTENSION'] == 'NO'), 'HIPERTENSION'] = 'SI'
egresos.loc[(egresos['AFECPRIN'] == 'OBESIDAD') & (egresos['OBESIDAD'] == 'NO'), 'OBESIDAD'] = 'SI'
egresos.loc[(egresos['DIAG_INI'] == 'DIABETES MELLITUS TIPO 2') & (egresos['DIABETES'] == 'NO'), 'DIABETES'] = 'SI'
egresos.loc[(egresos['DIAG_INI'] == 'HIPERTENSIÓN ESENCIAL (PRIMARIA)') & (egresos['HIPERTENSION'] == 'NO'), 'HIPERTENSION'] = 'SI'
egresos.loc[(egresos['DIAG_INI'] == 'OBESIDAD') & (egresos['OBESIDAD'] == 'NO'), 'OBESIDAD'] = 'SI'

## Filtrar registros

In [23]:
# Número total de registros 2010-2022
len(egresos)

320897

In [24]:
# Revisar rangos de las edades que están expresadas en horas
egresos[egresos['CVEEDAD']=='HORAS'].describe()

Unnamed: 0,ID,DIAS_ESTA,EDAD,PESO,TALLA,LOC,NUMPROMED,NUMAFEC
count,3147.0,3147.0,3147.0,3147.0,3147.0,3147.0,3147.0,3147.0
mean,156265.399746,8.955513,2.674929,632.688755,643.44455,549.00858,1.623451,1.152844
std,92949.096944,13.208121,3.780216,480.484521,460.394712,2245.904554,1.608226,1.275905
min,1411.0,0.0,1.0,0.71,20.0,1.0,0.0,0.0
25%,69918.5,2.0,1.0,3.0,50.0,1.0,0.0,0.0
50%,157785.0,4.0,1.0,999.0,999.0,1.0,2.0,1.0
75%,232837.5,9.5,2.0,999.0,999.0,3.0,3.0,2.0
max,321111.0,129.0,23.0,999.0,999.0,9999.0,15.0,10.0


In [25]:
# Revisar rangos de las edades que están expresadas en días
egresos[egresos['CVEEDAD']=='DIAS'].describe()

Unnamed: 0,ID,DIAS_ESTA,EDAD,PESO,TALLA,LOC,NUMPROMED,NUMAFEC
count,8193.0,8193.0,8193.0,8193.0,8193.0,8193.0,8193.0,8193.0
mean,159071.583791,8.85805,7.778103,671.002231,690.50238,245.220066,2.207128,1.121811
std,88134.492693,17.39346,7.614351,468.125451,444.851218,1512.634596,1.366518,1.178752
min,353.0,0.0,1.0,0.58,20.0,1.0,0.0,0.0
25%,81755.0,3.0,2.0,3.3,51.0,1.0,1.0,0.0
50%,157342.0,5.0,5.0,999.0,999.0,1.0,2.0,1.0
75%,233098.0,10.0,11.0,999.0,999.0,1.0,3.0,2.0
max,321131.0,1110.0,29.0,999.0,999.0,9999.0,11.0,7.0


In [26]:
# Revisar rangos de las edades que están expresadas en meses
egresos[egresos['CVEEDAD']=='MESES'].describe()

Unnamed: 0,ID,DIAS_ESTA,EDAD,PESO,TALLA,LOC,NUMPROMED,NUMAFEC
count,11000.0,11000.0,11000.0,11000.0,11000.0,11000.0,11000.0,11000.0
mean,144123.231455,6.663,4.851273,876.565978,891.758364,116.732909,1.973455,0.930455
std,86950.9857,12.387564,3.150333,326.529734,298.614782,988.018192,1.273573,1.175321
min,1.0,0.0,1.0,0.84,21.0,1.0,0.0,0.0
25%,73796.5,1.0,2.0,999.0,999.0,1.0,1.0,0.0
50%,143374.5,4.0,4.0,999.0,999.0,1.0,2.0,1.0
75%,214232.0,7.0,7.0,999.0,999.0,1.0,3.0,1.0
max,321198.0,448.0,11.0,999.0,999.0,9999.0,16.0,9.0


In [28]:
# Cambiar edades de pacientes menores a 1 año por edad 0
egresos['EDAD'] = np.where(egresos['CVEEDAD'] != 'AÑOS', 0, egresos['EDAD'])
egresos.head(20)

Unnamed: 0,ID,CLUES,INGRE,EGRESO,DIAS_ESTA,CVEEDAD,EDAD,NACIOEN,SEXO,PESO,...,CAUSAEXT,INFEC,MOTEGRE,NUMPROMED,NUMAFEC,CAT_EDAD,CAT_DIASESTA,DIABETES,HIPERTENSION,OBESIDAD
0,1,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,MESES,0,NO,M,999.0,...,,NO,MEJORIA,1.0,0,0 a 4,1 o menos,NO,NO,NO
1,3,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-06,2010-01-06,1,AÑOS,6,,H,999.0,...,,NO,MEJORIA,1.0,0,5 a 14,1 o menos,NO,NO,NO
2,4,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-05,2010-01-05,1,AÑOS,5,,H,999.0,...,,NO,MEJORIA,1.0,0,5 a 14,1 o menos,NO,NO,NO
3,5,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,AÑOS,18,,H,999.0,...,,NO,MEJORIA,1.0,0,15 a 29,1 o menos,NO,NO,NO
4,8,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,AÑOS,17,,M,999.0,...,,NO,MEJORIA,1.0,0,15 a 29,1 o menos,NO,NO,NO
5,10,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-06,2010-01-06,1,AÑOS,4,,M,999.0,...,,NO,MEJORIA,1.0,0,0 a 4,1 o menos,NO,NO,NO
6,12,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-05,2010-01-05,1,AÑOS,12,,H,999.0,...,,NO,MEJORIA,1.0,0,5 a 14,1 o menos,NO,NO,NO
7,14,CENTENARIO HOSPITAL MIGUEL HIDALGO,2009-12-28,2010-01-01,4,AÑOS,4,,H,999.0,...,,NO,MEJORIA,3.0,0,0 a 4,4 a 7,NO,NO,NO
8,19,CENTENARIO HOSPITAL MIGUEL HIDALGO,2009-12-06,2010-01-05,30,MESES,0,,M,999.0,...,,NO,MEJORIA,2.0,0,5 a 14,8 a 30,NO,NO,NO
9,21,CENTENARIO HOSPITAL MIGUEL HIDALGO,2010-01-04,2010-01-04,1,AÑOS,5,,H,999.0,...,,NO,MEJORIA,1.0,0,5 a 14,1 o menos,NO,NO,NO


In [29]:
egresos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 320897 entries, 0 to 320896
Data columns (total 29 columns):
 #   Column        Non-Null Count   Dtype         
---  ------        --------------   -----         
 0   ID            320897 non-null  int64         
 1   CLUES         320897 non-null  object        
 2   INGRE         320897 non-null  datetime64[ns]
 3   EGRESO        320897 non-null  datetime64[ns]
 4   DIAS_ESTA     320897 non-null  int64         
 5   CVEEDAD       320896 non-null  object        
 6   EDAD          320897 non-null  int64         
 7   NACIOEN       15960 non-null   object        
 8   SEXO          320897 non-null  object        
 9   PESO          320897 non-null  float64       
 10  TALLA         320897 non-null  float64       
 11  DERHAB        320897 non-null  object        
 12  MUNIC         320897 non-null  object        
 13  LOC           320897 non-null  int64         
 14  TIPSERV       320894 non-null  object        
 15  PROCED        320

In [39]:
#Cambiar tipo de dato de NUMPROMED a entero
egresos['NUMPROMED'] = egresos['NUMPROMED'].astype('int64')
egresos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 320894 entries, 0 to 320896
Data columns (total 26 columns):
 #   Column        Non-Null Count   Dtype         
---  ------        --------------   -----         
 0   ID            320894 non-null  int64         
 1   CLUES         320894 non-null  object        
 2   INGRE         320894 non-null  datetime64[ns]
 3   EGRESO        320894 non-null  datetime64[ns]
 4   DIAS_ESTA     320894 non-null  int64         
 5   EDAD          320894 non-null  int64         
 6   SEXO          320894 non-null  object        
 7   PESO          320894 non-null  float64       
 8   TALLA         320894 non-null  float64       
 9   DERHAB        320894 non-null  object        
 10  MUNIC         320894 non-null  object        
 11  TIPSERV       320894 non-null  object        
 12  PROCED        320894 non-null  object        
 13  DIAG_INI      320894 non-null  object        
 14  AFECPRIN      320894 non-null  object        
 15  VEZ           320

In [30]:
#Eliminar nulos de columnas de egresos
egresos.dropna(subset=['CVEEDAD', 'TIPSERV', 'PROCED', 'DIAG_INI', 'AFECPRIN',
                       'VEZ', 'INFEC', 'MOTEGRE'], inplace=True)

In [31]:
#Solo se eliminan 3 registros, por lo que no se pierde mucha información
len(egresos)

320894

In [32]:
#Eliminar columnas que no nos sirven
#NACIOEN sólo indica si, en caso de ser recién nacido, nació en el hospital o no, por lo que tiene muchos nulos
#LOC es la localidad en la que reside el paciente, pero son demasiadas, por lo que solo nos quedamos con el Municipio
#CVEEDAD ya no nos da información porque ya todas las edades están expresadas en años
egresos = egresos.drop(['NACIOEN', 'LOC','CVEEDAD'], axis = 1)

In [34]:
# Llenar los valores nulos en la columna CAUSAEXT con 'NO APLICA' ya que son pacientes que no tienen lesión
egresos['CAUSAEXT'] = egresos['CAUSAEXT'].fillna('NO APLICA')

In [36]:
#Comprobamos que ya no tenemos valores nulos
egresos.isnull().sum()

ID              0
CLUES           0
INGRE           0
EGRESO          0
DIAS_ESTA       0
EDAD            0
SEXO            0
PESO            0
TALLA           0
DERHAB          0
MUNIC           0
TIPSERV         0
PROCED          0
DIAG_INI        0
AFECPRIN        0
VEZ             0
CAUSAEXT        0
INFEC           0
MOTEGRE         0
NUMPROMED       0
NUMAFEC         0
CAT_EDAD        0
CAT_DIASESTA    0
DIABETES        0
HIPERTENSION    0
OBESIDAD        0
dtype: int64

## Exploración inicial

### Egresos

In [None]:
egresos.info()

In [37]:
egresos.describe()

Unnamed: 0,ID,DIAS_ESTA,EDAD,PESO,TALLA,NUMPROMED,NUMAFEC
count,320894.0,320894.0,320894.0,320894.0,320894.0,320894.0,320894.0
mean,160803.790005,3.102897,30.945957,852.253243,871.36709,1.61717,0.627151
std,92653.293244,8.125905,23.264736,340.954951,304.843539,1.22473,1.005071
min,1.0,0.0,0.0,0.58,15.0,0.0,0.0
25%,80592.25,1.0,14.0,999.0,999.0,1.0,0.0
50%,160815.5,1.0,26.0,999.0,999.0,1.0,0.0
75%,241038.75,3.0,46.0,999.0,999.0,2.0,1.0
max,321262.0,1838.0,130.0,999.0,999.0,77.0,10.0


### Afecciones

In [None]:
afecciones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 305047 entries, 0 to 305046
Data columns (total 3 columns):
 #   Column   Non-Null Count   Dtype 
---  ------   --------------   ----- 
 0   ID       305047 non-null  int64 
 1   NUMAFEC  305047 non-null  int64 
 2   AFEC     305047 non-null  object
dtypes: int64(2), object(1)
memory usage: 7.0+ MB


In [40]:
afecciones.describe()

Unnamed: 0,ID,NUMAFEC
count,335485.0,335485.0
mean,186890.00826,1.636854
std,86740.347783,1.071359
min,6.0,1.0
25%,125992.0,1.0
50%,197172.0,1.0
75%,259366.0,2.0
max,321262.0,10.0


### Procedimientos

In [55]:
procedimientos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 519460 entries, 0 to 519459
Data columns (total 8 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   ID         519460 non-null  int64  
 1   NUMPROMED  519460 non-null  int64  
 2   TIPO       519460 non-null  object 
 3   PROMED     519460 non-null  object 
 4   ANEST      519460 non-null  object 
 5   QUIROF     519460 non-null  object 
 6   QH         238223 non-null  float64
 7   QM         238182 non-null  float64
dtypes: float64(2), int64(2), object(4)
memory usage: 31.7+ MB


In [56]:
procedimientos.isnull().sum()

ID                0
NUMPROMED         0
TIPO              0
PROMED            0
ANEST             0
QUIROF            0
QH           281237
QM           281278
dtype: int64

In [57]:
#Revisar si hay registros nulos para el tiempo de quirófano cuando efectivamente se haya usado el quirófano
df = procedimientos[procedimientos['QUIROF']=='EN']
df.isnull().sum()

ID            0
NUMPROMED     0
TIPO          0
PROMED        0
ANEST         0
QUIROF        0
QH            1
QM           42
dtype: int64

In [64]:
#Asignar un valor de 0 a los registros nulos en donde no se usó quirófano
procedimientos.loc[(procedimientos['QUIROF'] != 'EN') & 
                   ((procedimientos['QH'].isnull()) | (procedimientos['QM'].isnull())), ['QH', 'QM']] = 0
#Comprobamos que los únicos valores que quedan nulos corresponden a pacientes que ingresaron al quirófano
procedimientos.isnull().sum()

ID            0
NUMPROMED     0
TIPO          0
PROMED        0
ANEST         0
QUIROF        0
QH            1
QM           42
dtype: int64

In [58]:
df[df['QH'].isnull()]

Unnamed: 0,ID,NUMPROMED,TIPO,PROMED,ANEST,QUIROF,QH,QM
423205,275551,4,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,GENERAL,EN,,


In [49]:
#En general para este procedimiento no tenemos valores de tiempo en quirófano (99 es NE, 0 no es un valor real)
df[df['PROMED']=='PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCICA, PLEURA, MEDIASTINO Y DIAFRAGMA']

Unnamed: 0,ID,NUMPROMED,TIPO,PROMED,ANEST,QUIROF,QH,QM
3088,2879,5,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,GENERAL,EN,99.0,99.0
36048,2724,1,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,GENERAL,EN,99.0,99.0
36055,2803,6,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,GENERAL,EN,99.0,99.0
56566,36661,1,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,REGIONAL,EN,99.0,99.0
61846,32139,2,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,REGIONAL,EN,99.0,99.0
...,...,...,...,...,...,...,...,...
465497,287581,2,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,GENERAL,EN,0.0,0.0
465498,287581,3,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,GENERAL,EN,0.0,0.0
465587,287439,1,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,GENERAL,EN,0.0,0.0
465653,298023,3,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,GENERAL,EN,0.0,0.0


In [62]:
#Vemos que hay un registro de solo 1 minuto, probablemente se equivocaron y era 1 hora
df[(df['PROMED']=='PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCICA, PLEURA, MEDIASTINO Y DIAFRAGMA')
  & (((df['QH']>0) & (df['QH']<99)) | ((df['QM']>0) & (df['QM']<99)))]

Unnamed: 0,ID,NUMPROMED,TIPO,PROMED,ANEST,QUIROF,QH,QM
141434,98683,5,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,REGIONAL,EN,0.0,30.0
142498,99226,3,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,LOCAL,EN,0.0,30.0
182256,114856,3,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,REGIONAL,EN,1.0,0.0
216453,148268,4,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,REGIONAL,EN,0.0,30.0
284844,196031,1,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,GENERAL,EN,1.0,0.0
317014,220453,3,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,GENERAL,EN,2.0,30.0
320502,215717,2,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,COMBINADA,EN,1.0,0.0
327710,223666,1,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,REGIONAL,EN,1.0,0.0
328583,226027,2,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,REGIONAL,EN,1.0,0.0
331276,223086,2,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE PARED TORÁCI...,GENERAL,EN,1.0,0.0


In [51]:
#También hay muchas cirugías donde no se pone tiempo
df[(df['QH']==0)&(df['QM']==0)]

Unnamed: 0,ID,NUMPROMED,TIPO,PROMED,ANEST,QUIROF,QH,QM
313601,218285,1,QUIRURGICO,SUSTITUCIÓN DE LAS ARTICULACIONES DE LAS EXTRE...,REGIONAL,EN,0.0,0.0
313602,220519,1,QUIRURGICO,REDUCCIÓN ABIERTA DE FRACTURA CON FIJACIÓN INT...,GENERAL,EN,0.0,0.0
313603,214528,1,QUIRURGICO,TIROIDECTOMÍA TOTAL,GENERAL,EN,0.0,0.0
313604,217543,1,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE RIÑÓN,LOCAL,EN,0.0,0.0
313605,219754,1,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE ESÓFAGO,GENERAL,EN,0.0,0.0
...,...,...,...,...,...,...,...,...
469502,291325,1,QUIRURGICO,HIPOFISECTOMÍA,GENERAL,EN,0.0,0.0
469504,291323,1,DIAGNOSTICO,PROCEDIMIENTOS DIAGNÓSTICOS SOBRE MAMA,SEDACION,EN,0.0,0.0
469505,291323,2,QUIRURGICO,EXTIRPACIÓN O DESTRUCCIÓN DE TEJIDO DE LA MAMA,SEDACION,EN,0.0,0.0
469506,291323,3,QUIRURGICO,SUTURA U OTRO CIERRE DE PIEL Y TEJIDO SUBCUTÁNEO,SEDACION,EN,0.0,0.0


In [54]:
#También hay procedimientos que duran muy pocos minutos, algunos es posible, pero otros no
df[(df['QH']==0)&(df['QM']<10)&(df['QM']>0)]

Unnamed: 0,ID,NUMPROMED,TIPO,PROMED,ANEST,QUIROF,QH,QM
313944,221333,1,QUIRURGICO,LOBECTOMÍA TIROIDEA UNILATERAL,GENERAL,EN,0.0,5.0
316778,217460,1,QUIRURGICO,APENDICECTOMÍA,REGIONAL,EN,0.0,1.0
318697,220345,1,QUIRURGICO,EXTRACCIÓN EXTRACAPSULAR DE CRISTALINO MEDIANT...,SEDACION,EN,0.0,4.0
320201,217679,1,QUIRURGICO,EXTRACCIÓN QUIRÚRGICA DE DIENTE,GENERAL,EN,0.0,5.0
320202,217679,2,QUIRURGICO,EXTRACCIÓN QUIRÚRGICA DE DIENTE,GENERAL,EN,0.0,2.0
...,...,...,...,...,...,...,...,...
519180,321202,3,TERAPEUTICO,INYECCIÓN O INFUSIÓN DE OTRA SUSTANCIA TERAPÉU...,NO USO,EN,0.0,1.0
519310,321230,2,QUIRURGICO,"EXPLORACIÓN MANUAL DE LA CAVIDAD UTERINA, DESP...",NO USO,EN,0.0,5.0
519328,321235,1,QUIRURGICO,"EXPLORACIÓN MANUAL DE LA CAVIDAD UTERINA, DESP...",NO USO,EN,0.0,1.0
519403,321251,5,TERAPEUTICO,PROCEDIMIENTOS QUE REDUCEN LA MORBILIDAD Y LA ...,LOCAL,EN,0.0,1.0


In [65]:
#Hay muchos valores erróneos, no es posible checar cada procedimiento para ver si tiene un valor lógico o no
#Eliminamos las columnas para no tener problemas
procedimientos = procedimientos.drop(['QH', 'QM'], axis = 1)
procedimientos.head()

Unnamed: 0,ID,NUMPROMED,TIPO,PROMED,ANEST,QUIROF
0,10952,1,QUIRURGICO,LAPAROTOMÍA,REGIONAL,EN
1,23436,1,QUIRURGICO,LAPAROTOMÍA,REGIONAL,EN
2,23659,1,QUIRURGICO,LAPAROTOMÍA,REGIONAL,EN
3,23789,1,QUIRURGICO,LAPAROTOMÍA,GENERAL,EN
4,24367,1,QUIRURGICO,LAPAROTOMÍA,REGIONAL,EN


## Exportar csv

In [66]:
from pathlib import Path 
#Egresos
filepath = Path('../../Registros/Bases de datos/2010_2022/Cambio claves/Antes de graficar/egresos.csv')  
filepath.parent.mkdir(parents=True, exist_ok=True)  
egresos.to_csv(filepath, index = False)

In [67]:
#Procedimientos
filepath = Path('../../Registros/Bases de datos/2010_2022/Cambio claves/Antes de graficar/procedimientos.csv')  
filepath.parent.mkdir(parents=True, exist_ok=True)  
procedimientos.to_csv(filepath, index = False)

In [68]:
#Afecciones
filepath = Path('../../Registros/Bases de datos/2010_2022/Cambio claves/Antes de graficar/afecciones.csv')  
filepath.parent.mkdir(parents=True, exist_ok=True)  
afecciones.to_csv(filepath, index = False)