In [88]:
import sys
import os

project_root = os.path.abspath('..')
if project_root not in sys.path:
    sys.path.append(project_root)
 
%load_ext autoreload
%autoreload 2

In [89]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_style()
plt.rcParams["figure.figsize"] = (12, 6)
pd.set_option("display.max_columns", None)

from src.features import build_features

# Define dictionaries for column names and types
PROCEDURE_COLUMNS = {f"PROCEDIMIENTO{i}": str for i in range(1, 31)}
SERVICE_COLUMNS = {
    "SERVICIOINGRESO": 0,
    "SERVICIOTRASLADO1": 1,
    "SERVICIOTRASLADO2": 2,
    "SERVICIOTRASLADO3": 3,
    "SERVICIOTRASLADO4": 4,
    "SERVICIOTRASLADO5": 5,
    "SERVICIOTRASLADO6": 6,
    "SERVICIOTRASLADO7": 7,
    "SERVICIOTRASLADO8": 8,
    "SERVICIOTRASLADO9": 9,
    "SERVICIOALTA": 10,
}
DATE_COLUMNS = {
    "FECHA_INGRESO": 0,
    "FECHATRASLADO1": 1,
    "FECHATRASLADO2": 2,
    "FECHATRASLADO3": 3,
    "FECHATRASLADO4": 4,
    "FECHATRASLADO5": 5,
    "FECHATRASLADO6": 6,
    "FECHATRASLADO7": 7,
    "FECHATRASLADO8": 8,
    "FECHATRASLADO9": 9,
    "FECHAALTA": 10,
}

CAMBIO_CAMAS = {
    "AREA MEDICA ADULTO CUIDADOS BASICOS": "Basicos",
    "AREA MEDICA ADULTO CUIDADOS MEDIOS": "Medias",
    "AREA MEDICO-QUIRURGICO CUIDADOS MEDIOS": "Medias",
    "AREA MÉDICA": "Medias",
    "AREA QUIRÚRGICA": "Medias",
    "CIRUGÍA CARDIOVASCULAR": "Medias",
    "UNIDAD DE CUIDADOS INTENSIVOS (UCI) (INDIFERENCIADO)": "UCI",
    "UNIDAD DE CUIDADOS INTENSIVOS ADULTO": "UCI",
    "UNIDAD DE CUIDADOS INTENSIVOS CARDIOLOGÍA": "UCI",
    "UNIDAD DE RECUPERACIÓN DE PABELLONES (CENTRAL Y CMA)": "AMBULATORIO",
    "UNIDAD DE TRATAMIENTO INTERMEDIO (UTI) (INDIFERENCIADO) ADULTO": "UTI",
    "UNIDAD DE TRATAMIENTO INTERMEDIO CARDIOVASCULAR": "UTI",
    "UNIDAD DE TRATAMIENTO INTERMEDIO CIRUGÍA ADULTO": "UTI",
    "UNIDAD DE TRATAMIENTO INTERMEDIO MEDICINA ADULTO": "UTI",
    "UNIDAD DE TRATAMIENTOS INTERMEDIOS MEDICINA": "UTI",
}

# Define relevant diagnoses
RELEVANT_DIAGNOSES = [
    "I35.0",
    "C34.1",
    "C34.2",
    "C34.3",
    "C78.0",
    "C78.2",
    "D38.1",
    "I71.2",
    "I71.0",
    "I35.1",
    "Q20.1",
    "Q20.2",
    "Q20.3",
    "Q20.4",
    "Q20.5",
    "Q20.6",
    "Q20.8",
    "Q20.9",
    "Q21.0",
    "Q21.1",
    "Q21.2",
    "Q21.3",
    "Q21.4",
    "Q21.8",
    "Q22.0",
    "Q22.1",
    "Q22.2",
    "Q22.3",
    "Q22.4",
    "Q22.5",
    "Q22.8",
    "Q23.0",
    "Q23.1",
    "Q23.3",
    "Q24.0",
    "Q24.1",
    "Q24.4",
    "Q24.5",
    "Q24.6",
    "Q24.8",
    "Q24.9",
    "Q25.0",
    "Q25.1",
    "Q25.3",
    "Q25.4",
    "Q25.5",
    "Q25.6",
    "Q25.7",
    "Q25.8",
    "Q25.9",
    "Q26.4",
    "Q26.8",
    "Q27.2",
    "Q27.3",
    "Q28.8",
    "Q28.9",
    "Q31.1",
    "Q32.0",
    "Q32.1",
    "Q33.0",
    "Q33.1",
    "Q33.2",
    "Q33.4",
    "Q33.8",
    "Q34.1",
    "Q34.8",
    "Q67.8",
    "Q76.5",
    "Q76.6",
    "Q76.7",
    "Q76.8",
    "Q76.9",
    "Q78.0",
    "Q79.0",
    "Q79.8",
    "Q83.9",
    "Q85.0",
    "Q85.8",
    "Q85.9",
    "Q87.4",
    "Q89.3",
    "I36.1",
]

In [90]:
# Lee la base de datos GRD del INT
df_torax = pd.read_csv("../data/processed/df_procesada_112103.csv", sep=";")
df_torax = df_torax.reset_index(drop=True).reset_index(names="id_egreso")

  df_torax = pd.read_csv("../data/processed/df_procesada_112103.csv", sep=";")


In [91]:
# Convierte los traslados y sus fechas a formato long
viaje_paciente = build_features.crear_viaje_paciente(df_torax, SERVICE_COLUMNS, DATE_COLUMNS)

In [92]:
viaje_paciente.dropna()

Unnamed: 0,id_egreso,tipo_fecha,fecha,id_egreso_y,DIAGNOSTICO1,ANIO_EGRESO,IR_29301_SEVERIDAD,CIP_ENCRIPTADO,tipo_servicio,servicio
0,0,FECHA_INGRESO,2019-01-01,0,Z51.8,2019,2,755134,SERVICIOINGRESO,UNIDAD DE TRATAMIENTO INTERMEDIO CARDIOVASCULAR
1,1,FECHA_INGRESO,2018-12-31,1,J93.1,2019,1,458930,SERVICIOINGRESO,AREA MÉDICA
2,2,FECHA_INGRESO,2018-12-18,2,E84.8,2019,1,388402,SERVICIOINGRESO,AREA MÉDICA
3,3,FECHA_INGRESO,2018-12-22,3,I25.1,2019,1,577512,SERVICIOINGRESO,CIRUGÍA CARDIOVASCULAR
4,4,FECHA_INGRESO,2018-12-17,4,T82.1,2019,2,276796,SERVICIOINGRESO,UNIDAD DE TRATAMIENTO INTERMEDIO CARDIOVASCULAR
...,...,...,...,...,...,...,...,...,...,...
223042,20272,FECHAALTA,30-12-2023,20272,C78.2,2023,1,73669213,SERVICIOALTA,AREA MEDICA ADULTO CUIDADOS MEDIOS
223043,20273,FECHAALTA,30-12-2023,20273,C34.3,2023,1,73469690,SERVICIOALTA,AREA MEDICA ADULTO CUIDADOS MEDIOS
223044,20274,FECHAALTA,30-12-2023,20274,C34.1,2023,1,70839454,SERVICIOALTA,UNIDAD DE TRATAMIENTO INTERMEDIO (UTI) (INDIFE...
223045,20275,FECHAALTA,30-12-2023,20275,E84.8,2023,3,71004150,SERVICIOALTA,AREA MEDICA ADULTO CUIDADOS MEDIOS


In [93]:


# # Convert service type to categorical
# patient_journey["service_type"] = pd.Categorical(
#     patient_journey["service_type"], categories=SERVICE_COLUMNS.keys(), ordered=True
# )

# # Sort and clean data
# patient_journey = (
#     patient_journey.sort_values(["index", "service_type"]).dropna().reset_index(drop=True)
# )
# patient_journey["date"] = pd.to_datetime(patient_journey["date"], format="mixed")

# # Calculate length of stay
# patient_journey["length_of_stay"] = patient_journey.groupby("index")["date"].diff().shift(-1)

# # Fix negative and zero length of stay
# negative_indices = patient_journey[patient_journey["length_of_stay"] < pd.Timedelta(0)].index + 1
# patient_journey.loc[negative_indices, "date"] += pd.offsets.DateOffset(years=1)
# patient_journey["length_of_stay"] = patient_journey.groupby("index")["date"].diff().shift(-1)

# zero_indices = patient_journey[patient_journey["length_of_stay"] == pd.Timedelta(0)].index
# patient_journey.loc[zero_indices, "length_of_stay"] += pd.Timedelta(days=1)

# # Map bed types
# patient_journey["service"] = patient_journey["service"].replace(CAMBIO_CAMAS)

# # Summarize length of stay by diagnosis, bed type, and year
# summary = (
#     patient_journey.groupby(["ANIO_EGRESO", "DIAGNOSTICO1", "IR_29301_SEVERIDAD", "service"]).agg(
#         dias_estada_totales=("length_of_stay", "sum"),
#         n_pacientes=("CIP_ENCRIPTADO", "nunique"),
#         n_egresos=("index", "nunique"),
#     )
# ).reset_index()

# # Calculates the percentage of occupancy per bed type
# summary["porcentaje_ocupacion"] = summary["dias_estada_totales"] / summary.groupby(
#     ["ANIO_EGRESO", "DIAGNOSTICO1"]
# )["dias_estada_totales"].transform("sum")

# # Calculates length of stay per pacient
# summary["dias_estada_por_paciente"] = summary["dias_estada_totales"] / summary["n_pacientes"]

# # Filter for relevant diagnoses
# summary_relevant = summary.query("DIAGNOSTICO1.isin(@RELEVANT_DIAGNOSES)")

In [94]:
patient_journey.query("index == 20273")

Unnamed: 0,index,date_type,date,index_y,DIAGNOSTICO1,ANIO_EGRESO,IR_29301_SEVERIDAD,CIP_ENCRIPTADO,service_type,service
20273,20273,FECHA_INGRESO,02-12-2023,20273,T82.7,2023,3,71012895,SERVICIOINGRESO,AREA MEDICA ADULTO CUIDADOS MEDIOS
40550,20273,FECHATRASLADO1,05-12-2023,20273,T82.7,2023,3,71012895,SERVICIOTRASLADO1,AREA MEDICO-QUIRURGICO CUIDADOS MEDIOS
60827,20273,FECHATRASLADO2,12-12-2023,20273,T82.7,2023,3,71012895,SERVICIOTRASLADO2,UNIDAD DE TRATAMIENTO INTERMEDIO CARDIOVASCULAR
81104,20273,FECHATRASLADO3,13-12-2023,20273,T82.7,2023,3,71012895,SERVICIOTRASLADO3,AREA MEDICO-QUIRURGICO CUIDADOS MEDIOS
101381,20273,FECHATRASLADO4,,20273,T82.7,2023,3,71012895,SERVICIOTRASLADO4,
121658,20273,FECHATRASLADO5,,20273,T82.7,2023,3,71012895,SERVICIOTRASLADO5,
141935,20273,FECHATRASLADO6,,20273,T82.7,2023,3,71012895,SERVICIOTRASLADO6,
162212,20273,FECHATRASLADO7,,20273,T82.7,2023,3,71012895,SERVICIOTRASLADO7,
182489,20273,FECHATRASLADO8,,20273,T82.7,2023,3,71012895,SERVICIOTRASLADO8,
202766,20273,FECHATRASLADO9,,20273,T82.7,2023,3,71012895,SERVICIOTRASLADO9,


In [95]:
# Obtiene el resumen de dias de estada totales por diagnostico
resumen_dias_de_estada = (
    patient_journey.groupby(["ANIO_EGRESO", "DIAGNOSTICO1", "service"])["length_of_stay"]
    .sum()
    .unstack(fill_value=pd.Timedelta(0))
)

# Total dias de estada por anio y diag
total_dias_de_estada = resumen_dias_de_estada.sum(axis=1)

# Agrega el total de dias ocupados al DataFrame original
resumen_dias_de_estada["total_dias"] = total_dias_de_estada

# Obtiene el porcentaje de ocupacion por cama
porcentaje_de_ocupacion = resumen_dias_de_estada.div(total_dias_de_estada, axis=0)
porcentaje_de_ocupacion = (
    porcentaje_de_ocupacion.stack()
    .to_frame("porcentaje_de_ocupacion")
    .query("porcentaje_de_ocupacion > 0")
)

# Convierte los dias totales a formato long
resumen_dias_de_estada = resumen_dias_de_estada.stack().to_frame("dias_estada_totales")

# Filtra todos los tipos de camas que carezcan de dias
resumen_dias_de_estada = resumen_dias_de_estada[
    resumen_dias_de_estada["dias_estada_totales"] > pd.Timedelta(0)
]

# Une el porcentaje de ocupacion
resumen_dias_de_estada = resumen_dias_de_estada.merge(
    porcentaje_de_ocupacion, how="inner", left_index=True, right_index=True
).reset_index()

# Obtiene el resumen en formato wide
resumen_dias_de_estada_wide = (
    resumen_dias_de_estada.set_index(["ANIO_EGRESO", "DIAGNOSTICO1", "service"])
    .unstack()
    .reset_index(level=1)
)

KeyError: 'Column not found: length_of_stay'

In [None]:
resumen_dias_de_estada_wide_relevantes = resumen_dias_de_estada_wide[
    resumen_dias_de_estada_wide[("DIAGNOSTICO1", "")].isin(RELEVANT_DIAGNOSES)
]

In [None]:
with pd.ExcelWriter("../data/interim/resumen_ocupacion_por_diagnostico_DE.xlsx") as file:
    resumen_dias_de_estada.to_excel(file, sheet_name="long")
    resumen_dias_de_estada_wide.to_excel(file, sheet_name="wide")
    resumen_dias_de_estada_wide_relevantes.to_excel(file, sheet_name="wide_relevantes")