In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme()
plt.rcParams['figure.figsize'] = (12, 6)

# Analisis de Integridad de Datos

En este apartado se quiere saber si los datos de los resumenes de Egresos DEIS, son iguales a
las bases de datos en formato largo (paciente por paciente). Se quieren verificar los siguientes
indicadores:

- Las bases de datos presentan la misma cantidad de datos para cada año
- La distribución de enfermedades por gran causa son iguales entre bases de datos para cada año

In [2]:
RUTA_2013 = 'egresos/Egresos_Hospitalarios_2013/Egresos_Hospitalarios_2013.csv'
RUTA_2014 = 'egresos/Egresos_Hospitalarios_2014-20230216T134804Z-001/Egresos_Hospitalarios_2014/Egresos_Hospitalarios_2014.csv'
RUTA_2015 = 'egresos/Egresos_Hospitalarios_2015-20230216T124219Z-001/Egresos_Hospitalarios_2015/Egresos_Hospitalarios_2015.csv'
RUTA_2016 = 'egresos/Egresos_Hospitalarios_2016-20230216T124117Z-001/Egresos_Hospitalarios_2016/Egresos_Hospitalarios_2016.csv'
RUTA_2017 = 'egresos/Egresos_Hospitalarios_2017-20230216T123902Z-001/Egresos_Hospitalarios_2017/Egresos_Hospitalarios_2017.csv'
RUTA_2018 = 'egresos/Egresos_Hospitalarios_2018-20230216T123758Z-001/Egresos_Hospitalarios_2018/Egresos_Hospitalarios_2018.csv'
RUTA_2019 = 'egresos/Egresos_Hospitalarios_2019-20230216T123639Z-001/Egresos_Hospitalarios_2019/Egresos_Hospitalarios_2019.csv'

RUTAS_ARCHIVOS = [RUTA_2013, RUTA_2014, RUTA_2015, RUTA_2016, RUTA_2017, RUTA_2018, RUTA_2019]


In [3]:
df = pd.read_csv(RUTA_2013, delimiter=';', encoding='latin-1')

  df = pd.read_csv(RUTA_2013, delimiter=';', encoding='latin-1')


# Trata de valores de columnas

La columna 16 (Región de residencia) contiene valores mixtos (ints y strings). Por lo tanto, se
unificarán en valores strings

In [4]:
def convertir_ints_a_strs(valor):
    if isinstance(valor, int):
        if len(str(valor)) == 1:
            return f'0{valor}'
        else:
            return str(valor)
    
    return valor

In [5]:
df['REGION_RESIDENCIA'] = df['REGION_RESIDENCIA'].apply(convertir_ints_a_strs)

In [6]:
df.isna().sum()

ID_PACIENTE                            37026
ESTABLECIMIENTO_SALUD                      0
GLOSA_ESTABLECIMIENTO_SALUD                0
PERTENENCIA_ESTABLECIMIENTO_SALUD          0
SEREMI                               1084018
SERVICIO_DE_SALUD                     592918
SEXO                                       0
FECHA_NACIMIENTO                         156
EDAD_CANT                                  0
TIPO_EDAD                                  0
EDAD_A_OS                                  0
PUEBLO_ORIGINARIO                          0
PAIS_ORIGEN                                0
GLOSA_PAIS_ORIGEN                      10906
COMUNA_RESIDENCIA                          0
GLOSA_COMUNA_RESIDENCIA                    0
REGION_RESIDENCIA                          0
GLOSA_REGION_RESIDENCIA                    0
PREVISION                                  0
BENEFICIARIO                          468495
MODALIDAD                             481561
PROCEDENCIA                              731
ANO_EGRESO

## Análisis de Cantidad de Datos

Según el resumen DEIS de 2013 - 2018, cada año tiene la siguiente cantidad de datos:

Año|Cantidad de datos|
---|-----------------|
2013|1.676.937|
2014|1.660.150|
2015|1.671.054|
2016|1.673.265|
2017|1.637.150|
2018|1.669.602|

Según el resumen DEIS de 2018 - 2021, los años tienen la siguiente cantidad de datos:

Año|Cantidad de datos|
---|-----------------|
2018|1.669.602|
2019|1.667.180|
2020|1.330.477|
2021|1.467.062|
