In [1]:
import sys
import os

project_root = os.path.abspath('..')
if project_root not in sys.path:
    sys.path.append(project_root)

%load_ext autoreload
%autoreload 2

In [21]:
import pandas as pd
import numpy as np
import polars as pl

import matplotlib.pyplot as plt
import seaborn as sns

import warnings

from functools import reduce

from src.data import make_dataset
from src.features import build_features

warnings.filterwarnings("ignore")
sns.set_style()
plt.rcParams["figure.figsize"] = (12, 6)

HOSPITAL_A_ANLIZAR = 112103 # Este es el Torax

## Obtencion de Métricas de Egresos Hospitalarios

En este apartado se quieren calculcar diversas métricas relevantes para el análisis de los
egresos hospitalarios en Chile. Las métricas a calcular son las siguientes:

1. Cantidad de Egresos Hospitalarios
2. Dias de Estada Totales
3. Cantidad de Intervenciones Quirúrgicas
4. Cantidad de Muertos

Todas estas métricas serán calculadas para cada Año, Establecimiento de Salud y Diagnóstico
distinto que exista en la base de datos. Por ejemplo:

"En el año 2019, el Hospital San José (código XXXXXX) tuvo XX egresos, con XX dias estada promedio,
con XX intervenciones quirúrgicas y XX muertos para el diagnóstico A24.4"s

In [3]:
df_nacional = pl.scan_csv(
    "../data/processed/egresos_procesados.csv", infer_schema_length=10000, null_values="Extranjero"
)

In [4]:
AGRUPACION = [
    "ANO_EGRESO",
    "ESTABLECIMIENTO_SALUD",
    "GLOSA_ESTABLECIMIENTO_SALUD",
    "DIAG1",
]

metricas = build_features.obtener_metricas_egresos(df_nacional, AGRUPACION).collect()

In [5]:
display(metricas.sample(10))

ANO_EGRESO,ESTABLECIMIENTO_SALUD,GLOSA_ESTABLECIMIENTO_SALUD,DIAG1,n_egresos,dias_estada_totales,n_int_q,n_muertos
i64,i64,str,str,u32,i64,i64,i64
2014,113180,"""Hospital El Pi…","""N840""",10,14,10,0
2017,110100,"""Hospital San J…","""C851""",3,31,0,1
2006,129100,"""Hospital Dr. M…","""I848""",2,8,2,0
2015,111200,"""Hospital Clíni…","""K640""",3,11,1,0
2010,106214,"""Clínica Valpar…","""T024""",1,6,1,0
2006,118202,"""Clínica de la …","""K610""",10,15,10,0
2014,125100,"""Hospital Regio…","""D390""",1,1,1,0
2014,115107,"""Hospital San J…","""B018""",2,12,0,0
2015,111200,"""Hospital Clíni…","""M130""",3,28,0,0
2011,107101,"""Hospital San M…","""G825""",1,9,0,0


- Al ver una muestra del calculo realizado, se puede observar la cantidad de egresos, dias de
estada, numero de intervenciones quirurgicas y cantidad de muertos para 10 duplas de
hospitales - diagnosticos distintos.

Si bien se tienen las metricas calculadas, ahora se quiere responder a las siguientes preguntas:

- En qué diagnósticos se destaca cada hospital productivamente? Esto significa, en qué diagnósticos
cada hospital tiene una mayor cantidad de egresos que otros hospitales?

- El hospital tiene un desempeño similar dentro de distintos grupos/estratos de hospitales?
El hospital se desempeñara de la misma forma nacionalmente, dentro del estrato público, privado,
etc...?

Para responder a la pregunta se realizará un ranking de todos los hospitales para cada
diagnóstico y cada año observado. Este ranking se realizará para distintos grupos/estratos de
hospitales (Nacional, Hospitales Públicos, Hospitales Privados, Hospitales GRD)

## Análisis de Estratos

In [6]:
dict_estratos = build_features.obtener_diccionario_estratos(df_nacional, HOSPITAL_DEL_TORAX)

In [22]:
variables_a_rankear = ["n_egresos"]
subgrupo_del_ranking = ["ANO_EGRESO", "DIAG1"]

rankings_nacionales = build_features.agregar_ranking_estratos(
    metricas, dict_estratos, variables_a_rankear, subgrupo_del_ranking
)

rankings_hospital_analizado = rankings_nacionales.filter(
    pl.col("ESTABLECIMIENTO_SALUD") == HOSPITAL_A_ANLIZAR
)

Para hacer un contorl de lo que se calculo, se observará una muestra de 10 hospitales - diagnósticos
distintos

In [28]:
display(rankings_nacionales.sample(10))

ANO_EGRESO,ESTABLECIMIENTO_SALUD,GLOSA_ESTABLECIMIENTO_SALUD,Capítulo,Sección,Categoría,Descripción,DIAG1,n_egresos,dias_estada_totales,n_int_q,n_muertos,ranking_nacionales_n_egresos,total_nacionales_n_egresos,%_nacionales_n_egresos,ranking_publicos_n_egresos,total_publicos_n_egresos,%_publicos_n_egresos,ranking_privados_n_egresos,total_privados_n_egresos,%_privados_n_egresos,ranking_grd_n_egresos,total_grd_n_egresos,%_grd_n_egresos,ranking_interno_n_egresos,total_interno_n_egresos,%_interno_n_egresos
i64,i64,str,str,str,str,str,str,u32,i64,i64,i64,u32,u32,f64,u32,u32,f64,u32,u32,f64,u32,u32,f64,u32,u32,f64
2015,118214,"""Centro Peniten…","""Cap.11 ENFERM…","""K55-K64 OTRAS…","""K57 ENFERMEDAD…","""Enfermedad div…","""K570""",1,7,0,0,13,76,0.013158,,,,9.0,47.0,0.021277,,,,,,
2009,112212,"""Clínica Las Co…","""Cap.11 ENFERM…","""K40-K46 HERNI…","""K46 HERNIA NO …","""Hernia abdomin…","""K469""",1,3,1,0,135,783,0.001277,,,,54.0,436.0,0.002294,,,,,,
2011,122104,"""Hospital Juan …","""Cap.13 ENFERM…","""M15-M19 ARTRO…","""M17 GONARTROSI…","""Gonartrosis, n…","""M179""",1,8,0,0,117,1623,0.000616,73.0,888.0,0.001126,,,,,,,,,
2010,112249,"""Clínica Santa …","""Cap.07 ENFERM…","""H40-H42 GLAUC…","""H40 GLAUCOMA""","""Sospecha de gl…","""H400""",1,1,0,0,9,51,0.019608,,,,3.0,18.0,0.055556,,,,,,
2010,109100,"""Complejo Hospi…","""Cap.19 LESION…","""T51-T65 EFECT…","""T63 EFECTO TÓX…","""Veneno de arañ…","""T633""",6,25,0,0,25,473,0.012685,21.0,355.0,0.016901,,,,19.0,273.0,0.021978,,,
2006,118100,"""Hospital Clíni…","""Cap.02 NEOPLA…","""D10-D36 TUMOR…","""D16 TUMOR BENI…","""Tumor benigno …","""D161""",4,6,0,0,5,67,0.059701,3.0,38.0,0.105263,,,,3.0,33.0,0.121212,,,
2002,102100,"""Hospital Dr. E…","""Cap.21 FACTOR…","""Z30-Z39 PERSO…","""Z35 SUPERVISIÓ…","""Supervisión de…","""Z353""",3,11,0,0,2,24,0.125,2.0,24.0,0.125,,,,2.0,13.0,0.230769,,,
2014,124130,"""Hospital de Ca…","""Cap.01 CIERTA…","""B90-B94 SECUE…","""B90 SECUELAS D…","""Secuelas de tu…","""B909""",1,14,0,0,21,68,0.014706,20.0,65.0,0.015385,,,,,,,,,
2002,112254,"""Clínica Oncoló…","""Cap.02 NEOPLA…","""C64-C68 NEOPL…","""C67 TUMOR MALI…","""Tumor maligno …","""C679""",47,219,13,0,5,1301,0.036126,,,,3.0,569.0,0.082601,,,,,,
2016,104103,"""Hospital Provi…","""Cap.11 ENFERM…","""K20-K31 ENFER…","""K31 OTRAS ENFE…","""Otras enfermed…","""K318""",1,2,1,0,49,149,0.006711,29.0,70.0,0.014286,,,,26.0,56.0,0.017857,,,


En la muestra anterior se puede observar las métricas previamente calculada, y el ranking
respectivo que tiene cada hospital para diagnósticos en cada año específico.

In [32]:
rankings_nacionales.to_pandas().to_csv(
    "../data/interim/ranking_nacional_egresos.csv",
    sep=";",
    decimal=".",
    encoding="latin-1",
    index=False
)

rankings_hospital_analizado.to_pandas().to_csv(
    "../data/interim/ranking_torax_egresos.csv",
    sep=";",
    decimal=".",
    encoding="latin-1",
    index=False
)

## Metricas para personas sobre 14 años

En este análisis se quiere ver el ranking de egresos pero solamente tomando en cuenta a personas
mayores a 14 años. Esto, para dilucidar si el hospital del tórax es altamente relevante para tratar
patologías congénitas de adultos.

In [45]:
df_nacional_mayores_a_14 = df_nacional.filter(
    pl.col("EDAD_A_OS") > 14
)

In [46]:
metricas_sobre_14 = build_features.obtener_metricas_egresos(
    df_nacional_mayores_a_14, AGRUPACION
).collect()

In [59]:
variables_a_rankear = ["n_egresos"]
subgrupo_del_ranking = ["ANO_EGRESO", "DIAG1"]

rankings_nacionales_sobre_14 = build_features.agregar_ranking_estratos(
    metricas_sobre_14, dict_estratos, variables_a_rankear, subgrupo_del_ranking
)

diags_congenitos_relevantes = rankings_nacionales_sobre_14.filter(
    (pl.col("DIAG1").is_in(["Q230", "Q211", "Q231"])) & (pl.col("ANO_EGRESO") == 2019)
)

In [60]:
diags_congenitos_relevantes.to_pandas().to_csv(
    "../data/interim/diags_congenitas_sobre_14_egresos.csv",
    sep=";",
    decimal=".",
    encoding="latin-1",
    index=False
)