In [1]:
import sys
import os

project_root = os.path.abspath('..')
if project_root not in sys.path:
    sys.path.append(project_root)

%load_ext autoreload
%autoreload 2

In [37]:
import pandas as pd
import numpy as np

from src.features import build_features

import glob

ANIO_INICIO = 2017
ANIO_TERMINO = 2035

COLUMNAS_POBLACION_INE = [f"{i}" for i in range(ANIO_INICIO, ANIO_TERMINO + 1)]
COLUMNAS_POBLACION_FONASA = ["2018", "2019", "2020", "2021", "2022"]

COMUNAS_SSMO = [
    "Peñalolén",
    "Macul",
    "Ñuñoa",
    "La Reina",
    "Providencia",
    "Las Condes",
    "Vitacura",
    "Lo Barnechea",
    "Isla de Pascua",
]

COMUNAS_SSMC = ["Santiago", "Maipú", "Estación Central", "Cerrillos"]
COMUNAS_SSMS = [
    "San Bernardo",
    "Pedro Aguirre Cerda",
    "La Cisterna",
    "San Joaquín",
    "Lo Espejo",
    "San Miguel",
    "Paine",
    "Calera de Tango",
    "Buin",
    "El Bosque",
]

TRANSFORMACION_ESTRATOS_FONASA = {
    "DE ANTOFAGASTA": "Antofagasta",
    "DE ARICA Y PARINACOTA": "Arica y Parinacota",
    "DE ATACAMA": "Atacama",
    "DE AYSÉN DEL GRAL. C. IBÁÑEZ DEL CAMPO": "Aysén del General Carlos Ibáñez del Campo",
    "DE COQUIMBO": "Coquimbo",
    "DE LA ARAUCANÍA": "La Araucanía",
    "DE LOS LAGOS": "Los Lagos",
    "DE LOS RÍOS": "Los Ríos",
    "DE MAGALLANES Y DE LA ANTÁRTICA CHILENA": "Magallanes y de la Antártica Chilena",
    "DE TARAPACÁ": "Tarapacá",
    "DE VALPARAÍSO": "Valparaíso",
    "DE ÑUBLE": "Ñuble",
    "DEL BÍOBÍO": "Biobío",
    "DEL LIBERTADOR GENERAL BERNARDO O'HIGGINS": "Libertador General Bernardo O'Higgins",
    "DEL MAULE": "Maule",
    "METROPOLITANA DE SANTIAGO": "Metropolitana de Santiago"
}

## Obtener poblacion INE

In [38]:
ruta_base_de_datos = (
    "../data/raw/3.0-planilla_poblacion_total/estimaciones-y-proyecciones-2002-2035-comunas.xlsx"
)

# Lee la base de datos
df = pd.read_excel(ruta_base_de_datos).iloc[:-2]

# Elimina el sufijo 'Poblacion' de las columnas
df.columns = df.columns.str.replace("Poblacion ", "")

# Renombra columna de hombres o mujeres
df = df.rename(columns={"Sexo\n1=Hombre\n2=Mujer": "hombre_mujer"})

# Indica si es adulto o infantil
df["grupo_etario_poblacion"] = np.where(df["Edad"] >= 15, "Adulto", "Infantil")

## Obtener poblacion FONASA

In [39]:
archivos = glob.glob("../data/raw/5.0-poblacion-fonasa/*.csv")
df_fonasa = pd.concat(pd.read_csv(archivo, encoding="latin-1") for archivo in archivos)

df_fonasa["ANO_INFORMACION"] = df_fonasa.MES_INFORMACION.astype(str).str[:4]

df_fonasa["REGION"] = df_fonasa["REGION"].str.upper().str.strip()
df_fonasa["REGION"] = df_fonasa["REGION"].replace(
    {
        "ÑUBLE": "DE ÑUBLE",
        "DEL LIBERTADOR B. O'HIGGINS": "DEL LIBERTADOR GENERAL BERNARDO O'HIGGINS",
    }
)
df_fonasa["REGION"] = df_fonasa["REGION"].replace(TRANSFORMACION_ESTRATOS_FONASA)

df_fonasa["SEXO"] = df_fonasa["SEXO"].str.upper().str.strip()
df_fonasa["SERVICIO_SALUD"] = df_fonasa["SERVICIO_SALUD"].str.upper().str.strip()
df_fonasa["COMUNA"] = df_fonasa["COMUNA"].str.upper().str.strip()

df_fonasa["EDAD_TRAMO"] = df_fonasa["EDAD_TRAMO"].replace(
    {"Más de 99 años": "99 años", "S.I.": "-1"}
)
df_fonasa["EDAD_TRAMO"] = df_fonasa["EDAD_TRAMO"].str.split().str[0].astype(int)

## Definición de Estratos a Calcular

En este cuadernillo se quiere calcular la población para distintos Estratos y Grupos Etarios del País. Para esto, se utilizará la base de datos de la estimación de la población del Instituto Nacional de Estadísticas (INE) entre 2017 y 2035.

En primer lugar, se definirán los siguientes estratos a calcular:

1. País
2. Regiones del País
3. SSMO
4. SSMC
5. SSMS

### INE

In [54]:
ESTRATOS_A_CALCULAR_INE = {}

# Obtiene estratos a calcular
df_pais = df.copy()
ESTRATOS_A_CALCULAR_INE["Pais"] = df_pais

for region in sorted(df_pais["M"].unique()):
    df_region = df_pais.query("M == @region").copy()
    ESTRATOS_A_CALCULAR_INE[region] = df_region

df_ssmo = df_pais[df_pais["Nombre Comuna"].isin(COMUNAS_SSMO)]
ESTRATOS_A_CALCULAR_INE["SSMO"] = df_ssmo

df_ssmc = df_pais[df_pais["Nombre Comuna"].isin(COMUNAS_SSMC)]
ESTRATOS_A_CALCULAR_INE["SSMC"] = df_ssmc

df_ssms = df_pais[df_pais["Nombre Comuna"].isin(COMUNAS_SSMS)]
ESTRATOS_A_CALCULAR_INE["SSMS"] = df_ssms

### FONASA

In [63]:
# Obtiene estratos a calcular FONASA
ESTRATOS_A_CALCULAR_FONASA = {}

# Estrato pais
df_pais_fonasa = df_fonasa.copy()
ESTRATOS_A_CALCULAR_FONASA["Pais"] = df_pais_fonasa

# Por region
for region in sorted(df_pais_fonasa["REGION"].fillna("").unique()):
    if region:
        df_region_fonasa = df_pais_fonasa.query("REGION == @region").copy()
        ESTRATOS_A_CALCULAR_FONASA[region] = df_region_fonasa

# Obtiene SSMO y SSMC
df_ssmo_fonasa = df_pais_fonasa.query("SERVICIO_SALUD == 'SERVICIO DE SALUD METROPOLITANO ORIENTE'")
df_ssmc_fonasa = df_pais_fonasa.query("SERVICIO_SALUD == 'SERVICIO DE SALUD METROPOLITANO CENTRAL'")
df_ssms_fonasa = df_pais_fonasa.query("SERVICIO_SALUD == 'SERVICIO DE SALUD METROPOLITANO SUR'")

ESTRATOS_A_CALCULAR_FONASA["SSMO"] = df_ssmo_fonasa
ESTRATOS_A_CALCULAR_FONASA["SSMC"] = df_ssmc_fonasa
ESTRATOS_A_CALCULAR_FONASA["SSMS"] = df_ssms_fonasa

## Definición de grupos etarios a calcular

En el próximo diccionario se definirán todos los grupos etarios que se quieren calcular para cada estrato previamente definidos.

### INE

In [64]:
# Define todos los grupos etarios a calcular.
query_strings = {
    "todos": "",  # Todo el pais
    "hombres": "hombre_mujer == 1",  # Hombres
    "mujeres": "hombre_mujer == 2",  # Mujeres
    "recien_nacidos_vivos": "Edad == 0",  # Recien Nacidos Vivos
    "sobre_15": "Edad > 15",  # Sobre 15 anios
    "sobre_20": "Edad > 20",  # Sobre 20 anios
    "sobre_45": "Edad > 45",  # Sobre 45 anios
    "sobre_60": "Edad > 60",  # Sobre 60 anios
    "sobre_65": "Edad > 65",  # Sobre 65 anios
    "sobre_75": "Edad > 75",  # Sobre 75 anios
    "entre_15_a_24_anios": "Edad >= 15 and Edad <= 24",  # Entre 15 y 24 anios
    "entre_25_a_44_anios": "Edad >= 25 and Edad <= 44",  # Entre 25 y 44 anios
    "entre_45_a_59_anios": "Edad >= 45 and Edad <= 59",  # Entre 45 y 59 anios
    "entre_60_y_70": "Edad >= 60 and Edad <= 70",  # Entre 60 y 70 anios
    "entre_60_a_74_anios": "Edad >= 60 and Edad <= 74",  # Entre 60 a 74 anios
    "mayores_a_75_anios": "Edad >= 75",  # Mayores a 75 anios
}

Finalmente, se calculará la cantidad de población para distintos estratos y grupos etarios.

In [65]:
# Obtiene resultados por estratos y grupos etarios
poblaciones_estratos_calculados_ine = build_features.iterate_queries(
    ESTRATOS_A_CALCULAR_INE, query_strings, COLUMNAS_POBLACION_INE
)
# Une todos los resultados en un unico DataFrame
poblaciones_estratos_calculados_ine = pd.concat(poblaciones_estratos_calculados_ine)
poblaciones_estratos_calculados_ine = poblaciones_estratos_calculados_ine.reset_index(
    names=["Edad Incidencia", "Estrato"]
)

### FONASA

In [66]:
# Define todos los grupos etarios a calcular.
query_strings = {
    "todos": "",  # Todo el pais
    "hombres": "SEXO == 'HOMBRE'",  # Hombres
    "mujeres": "SEXO == 'MUJER'",  # Mujeres
    "recien_nacidos_vivos": "",  # Recien Nacidos Vivos
    "sobre_15": "EDAD_TRAMO >= 15",  # Sobre 15 anios
    "sobre_20": "EDAD_TRAMO >= 20",  # Sobre 20 anios
    "sobre_45": "EDAD_TRAMO >= 45",  # Sobre 45 anios
    "sobre_60": "EDAD_TRAMO >= 60",  # Sobre 60 anios
    "sobre_65": "EDAD_TRAMO >= 65",  # Sobre 65 anios
    "sobre_75": "EDAD_TRAMO >= 75",  # Sobre 75 anios
    "entre_15_a_24_anios": "EDAD_TRAMO >= 15 and EDAD_TRAMO < 25",  # Entre 15 y 24 anios
    "entre_25_a_44_anios": "EDAD_TRAMO >= 25 and EDAD_TRAMO < 45",  # Entre 25 y 44 anios
    "entre_45_a_59_anios": "EDAD_TRAMO >= 45 and EDAD_TRAMO < 60",  # Entre 45 y 59 anios
    "entre_60_y_70_anios": "EDAD_TRAMO >= 60 and EDAD_TRAMO <= 70",  # Entre 60 y 70 anios
    "entre_60_a_74_anios": "EDAD_TRAMO >= 60 and EDAD_TRAMO < 75",  # Entre 60 a 74 anios
    "mayores_a_75_anios": "EDAD_TRAMO >= 75",  # Mayores a 75 anios
}

In [67]:
# Obtiene resultados por estratos y grupos etarios
poblaciones_estratos_calculados_fonasa = build_features.iterate_queries(
    ESTRATOS_A_CALCULAR_FONASA, query_strings, "CUENTA_BENEFICIARIOS", "FONASA"
)

# Une todos los resultaods en un unico DataFrame
poblaciones_estratos_calculados_fonasa = pd.concat(poblaciones_estratos_calculados_fonasa)
poblaciones_estratos_calculados_fonasa = poblaciones_estratos_calculados_fonasa.reset_index(
    names=["Edad Incidencia", "Estrato"]
)

## Obtener porcentaje de población FONASA total

En este caso, se quiere saber el % de población FONASA a nivel Nacional. Esto se utilizará para obtener los casos FONASA al 2035.

In [68]:
# Obtiene poblacion INE entre 2018 y 2022
poblacion_INE_2018_y_2022 = poblaciones_estratos_calculados_ine.query(
    "`Edad Incidencia` == 'todos'"
).set_index("Estrato")[COLUMNAS_POBLACION_FONASA]

# Obtiene poblacion FONASA entre 2018 y 2022
poblacion_FONASA_2018_y_2022 = poblaciones_estratos_calculados_fonasa.query(
    "`Edad Incidencia` == 'todos'"
).set_index("Estrato")[COLUMNAS_POBLACION_FONASA]

# Obtiene porcentaje de la poblacion FONASA promedio a nivel nacional acumulado entre 2018 y 2022
PORCENTAJE_FONASA_NACIONAL = (
    poblacion_FONASA_nacional_2018_y_2022.sum(axis=1)
    / poblacion_INE_nacional_2018_y_2022.sum(axis=1)
)[0]

print(f"Entre 2018 y 2022, el {PORCENTAJE_FONASA_NACIONAL:.2%} de la poblacion Nacional fue FONASA")

Entre 2018 y 2022, el nan% de la poblacion Nacional fue FONASA


In [69]:
poblacion_INE_2018_y_2022

Unnamed: 0_level_0,2018,2019,2020,2021,2022
Estrato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Pais,18751405,19107216,19458310,19678363,19828563
Antofagasta,645022,668563,691854,703746,709637
Arica y Parinacota,241901,247036,252110,255380,257722
Atacama,307835,311307,314709,316737,318004
Aysén del General Carlos Ibáñez del Campo,106023,106680,107297,107737,108047
Biobío,1645460,1654744,1663696,1670590,1676269
Coquimbo,807213,821726,836096,848079,858769
La Araucanía,1001420,1007965,1014343,1019548,1024029
Libertador General Bernardo O'Higgins,966486,978868,991063,1000959,1009552
Los Lagos,877348,884464,891440,897303,902510


In [70]:
poblacion_FONASA_2018_y_2022

ANO_INFORMACION,2018,2019,2020,2021,2022
Estrato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Pais,14102709,14841577,15142528,15233814,15613584
Antofagasta,413731,442613,457944,469584,495329
Arica y Parinacota,189270,200890,205787,212774,223720
Atacama,240935,252071,257377,259928,268335
Aysén del General Carlos Ibáñez del Campo,75617,79501,81125,81345,82415
Biobío,1331561,1373900,1391166,1395484,1419996
Coquimbo,648137,683248,699935,707781,725960
DESCONOCIDA,202488,212817,228169,195187,165719
La Araucanía,844771,879389,899453,908737,930651
Libertador General Bernardo O'Higgins,773524,806650,826196,830260,857620


---

En este apartado se leerán las incidencias, junto a las poblaciones respectivas donde se tienen que aplicar tales incidencias. Posteriormente, se calcularán los casos teóricos para cada problema de salud, y para cada estrato definido.

## Lectura de Incidencias por problema de salud

In [12]:
RUTA_PLANILLA_INCIDENCIAS = "../data/external/incidencias_y_prevalencias.xlsx"
COLUMNAS_A_UTILIZAR = [
    "Diagnostico",
    "Estadística",
    "Casos (Cada 100.000)",
    "Edad Incidencia",
    "Área de Influencia",
]


# Lee planilla de incidencias
incidencias = pd.read_excel(RUTA_PLANILLA_INCIDENCIAS, usecols=COLUMNAS_A_UTILIZAR)
# Convierte las incidencia a numeros e imputa las faltantes como NaN
incidencias["Casos (Cada 100.000)"] = pd.to_numeric(
    incidencias["Casos (Cada 100.000)"], errors="coerce"
)

# Obtiene la fraccion de la incidencia, para multiplicar con la poblacion directamente
incidencias["rate_incidencia"] = incidencias["Casos (Cada 100.000)"] / 100000

## Estimacion de casos con INE

In [13]:
# Une las incidencias con las poblacion calculadas segun los estratos respectivos
union_poblaciones_e_incidencias_ine = incidencias.merge(
    poblaciones_estratos_calculados_ine, how="left", on="Edad Incidencia"
)

# Multiplica la incidencia por las poblaciones
union_poblaciones_e_incidencias_ine[COLUMNAS_POBLACION_INE] = union_poblaciones_e_incidencias_ine[
    COLUMNAS_POBLACION_INE
].multiply(union_poblaciones_e_incidencias_ine["rate_incidencia"], axis="index")

## Estimacion de casos con FONASA

In [14]:
# Une las incidencias con las poblacion calculadas segun los estratos respectivos
union_poblaciones_e_incidencias_fonasa = incidencias.merge(
    poblaciones_estratos_calculados_fonasa, how="left", on="Edad Incidencia"
)

# Multiplica la incidencia por las poblaciones
union_poblaciones_e_incidencias_fonasa[COLUMNAS_POBLACION_FONASA] = (
    union_poblaciones_e_incidencias_fonasa[COLUMNAS_POBLACION_FONASA].multiply(
        union_poblaciones_e_incidencias_fonasa["rate_incidencia"], axis="index"
    )
)

## Estimacion de casos FONASA, utilizando la poblacion INE y el % historico de la poblacion FONASA

In [15]:
# Copia los casos INE ya calculados
union_poblaciones_e_incidencias_fonasa_desde_ine = union_poblaciones_e_incidencias_ine.copy()

# Obtiene los casos FONASA, utilizando el % de poblacion FONASA historica del total
union_poblaciones_e_incidencias_fonasa_desde_ine[COLUMNAS_POBLACION_INE] = (
    union_poblaciones_e_incidencias_ine[COLUMNAS_POBLACION_INE] * PORCENTAJE_FONASA_NACIONAL
)

## Acotación de casos según área de influencia para el INT

Una vez obtenido los casos proyectados hasta el 2035, se procederá a acotar cada uno de los diagnósticos y sus casos según su área de influencia determinada.

In [16]:
area_de_infl_INT = union_poblaciones_e_incidencias_fonasa_desde_ine.copy()

# Separa las areas de influencia por comas, para dejarlas en una lista
area_de_infl_INT["Área de Influencia"] = area_de_infl_INT["Área de Influencia"].str.split(",")
area_de_infl_INT = area_de_infl_INT.explode("Área de Influencia")
area_de_infl_INT["Área de Influencia"] = area_de_infl_INT["Área de Influencia"].str.strip()

# Solamente deja las filas donde el Area de Influencia coincida con el Estrato
area_de_infl_INT = (
    area_de_infl_INT.query("`Área de Influencia` == `Estrato`")
    .groupby("Diagnostico")[COLUMNAS_POBLACION_INE]
    .sum()
)
# Une el resultado de casos por area de influencia a las incidencias iniciales
area_de_infl_INT = (
    incidencias.set_index("Diagnostico")
    .merge(area_de_infl_INT, how="left", left_index=True, right_index=True)
    .reset_index()
)

In [17]:
dfs_a_guardar = {
    "poblacion_INE": poblaciones_estratos_calculados_ine,
    "poblacion_FONASA": poblaciones_estratos_calculados_fonasa,
    "casos_teoricos_INE": union_poblaciones_e_incidencias_ine,
    "casos_teoricos_FONASA": union_poblaciones_e_incidencias_fonasa,
    "casos_teoricos_FONASA_desde_INE": union_poblaciones_e_incidencias_fonasa_desde_ine,
    "casos_area_de_influencia_INT": area_de_infl_INT,
}

with pd.ExcelWriter("../data/interim/casos_teoricos_diagnosticos.xlsx") as writer:
    for sheet_name, df_a_guardar in dfs_a_guardar.items():
        try:
            df_a_guardar = df_a_guardar.drop(columns="rate_incidencia")
        except KeyError:
            pass

        df_a_guardar.to_excel(writer, sheet_name=sheet_name, index=False)