In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme()
plt.rcParams['figure.figsize'] = (12, 6)

# Analisis de Integridad de Datos

En este apartado se quiere saber si los datos de los resumenes de Egresos DEIS, son iguales a
las bases de datos en formato largo (paciente por paciente). Se quieren verificar los siguientes
indicadores:

- Las bases de datos presentan la misma cantidad de datos para cada año
- La distribución de enfermedades por gran causa son iguales entre bases de datos para cada año

In [37]:
RUTA_2013 = 'egresos/Egresos_Hospitalarios_2013/Egresos_Hospitalarios_2013.csv'
RUTA_2014 = 'egresos/Egresos_Hospitalarios_2014-20230216T134804Z-001/Egresos_Hospitalarios_2014/Egresos_Hospitalarios_2014.csv'
RUTA_2015 = 'egresos/Egresos_Hospitalarios_2015-20230216T124219Z-001/Egresos_Hospitalarios_2015/Egresos_Hospitalarios_2015.csv'
RUTA_2016 = 'egresos/Egresos_Hospitalarios_2016-20230216T124117Z-001/Egresos_Hospitalarios_2016/Egresos_Hospitalarios_2016.csv'
RUTA_2017 = 'egresos/Egresos_Hospitalarios_2017-20230216T123902Z-001/Egresos_Hospitalarios_2017/Egresos_Hospitalarios_2017.csv'
RUTA_2018 = 'egresos/Egresos_Hospitalarios_2018-20230216T123758Z-001/Egresos_Hospitalarios_2018/Egresos_Hospitalarios_2018.csv'
RUTA_2019 = 'egresos/Egresos_Hospitalarios_2019-20230216T123639Z-001/Egresos_Hospitalarios_2019/Egresos_Hospitalarios_2019.csv'

ARCHIVOS = {'2013': RUTA_2013, 
            '2014': RUTA_2014, 
            '2015': RUTA_2015, 
            '2016': RUTA_2016, 
            '2017': RUTA_2017, 
            '2018': RUTA_2018, 
            '2019': RUTA_2019}


# Trata de valores de columnas

La columna 16 (Región de residencia) contiene valores mixtos (ints y strings). Por lo tanto, se
unificarán en valores strings

In [39]:
def convertir_ints_a_strs(valor):
    if isinstance(valor, int):
        if len(str(valor)) == 1:
            return f'0{valor}'
        else:
            return str(valor)
    
    return valor

## Análisis de Cantidad de Datos

Según el resumen DEIS de 2013 - 2018, cada año tiene la siguiente cantidad de datos:

Año|Cantidad de datos|
---|-----------------|
2013|1.676.937|
2014|1.660.150|
2015|1.671.054|
2016|1.637.265|
2017|1.637.150|
2018|1.669.602|

Según el resumen DEIS de 2018 - 2021, los años tienen la siguiente cantidad de datos:

Año|Cantidad de datos|
---|-----------------|
2018|1.669.602|
2019|1.667.180|
2020|1.330.477|
2021|1.467.062|

Ahora, se analizará la cantidad de datos de cada base de datos en formato largo:


# Lectura de Archivos

Todos los archivos son separados por ';', y estan en encoding 'latin-1'. Además, el archivo de
2014 tiene 1 línea que está mal imputada (genera error de lectura). Debido a lo anterior,
la línea fue droppeada. Todos los demás archivos fueron leídos correctamente, sin necesidad de
droppear algún valor.

In [41]:
def leer_anios_egresos():
    dfs = {}
    for anio, ruta in ARCHIVOS.items():
        dfs[anio] = pd.read_csv(ruta, delimiter=';', encoding='latin-1', on_bad_lines='skip')
        dfs[anio]['REGION_RESIDENCIA'] = dfs[anio]['REGION_RESIDENCIA'].apply(
            convertir_ints_a_strs)

    return dfs

In [42]:
dfs = leer_anios_egresos()

  dfs[anio] = pd.read_csv(ruta, delimiter=';', encoding='latin-1', on_bad_lines='skip')
  dfs[anio] = pd.read_csv(ruta, delimiter=';', encoding='latin-1', on_bad_lines='skip')
  dfs[anio] = pd.read_csv(ruta, delimiter=';', encoding='latin-1', on_bad_lines='skip')
  dfs[anio] = pd.read_csv(ruta, delimiter=';', encoding='latin-1', on_bad_lines='skip')
  dfs[anio] = pd.read_csv(ruta, delimiter=';', encoding='latin-1', on_bad_lines='skip')
  dfs[anio] = pd.read_csv(ruta, delimiter=';', encoding='latin-1', on_bad_lines='skip')


In [43]:
for anio, df in dfs.items():
    print(f'El DataFrame de {anio} tiene {df.shape[0]} datos')

El DataFrame de 2013 tiene 1676936 datos
El DataFrame de 2014 tiene 1660150 datos
El DataFrame de 2015 tiene 1671054 datos
El DataFrame de 2016 tiene 1637265 datos
El DataFrame de 2017 tiene 1637150 datos
El DataFrame de 2018 tiene 1669602 datos
El DataFrame de 2019 tiene 1636508 datos


Por lo tanto, la comparacion de datos es:

Año|Cantidad de datos|Base de Datos|
---|-----------------|-------------|
2013|1.676.937|1.676.936|
2014|1.660.150|1.660.150|
2015|1.671.054|1.671.054|
2016|1.637.265|1.637.265|
2017|1.637.150|1.637.150|
2018|1.669.602|1.669.602|
2019|1.667.180|1.636.508|