In [1]:
import sys
import os

project_root = os.path.abspath('..')
if project_root not in sys.path:
    sys.path.append(project_root)

%load_ext autoreload
%autoreload 2

In [11]:
import pandas as pd
import numpy as np
import polars as pl

import matplotlib.pyplot as plt
import seaborn as sns

import warnings

from src.features import build_features

warnings.filterwarnings("ignore")
sns.set_style()
plt.rcParams["figure.figsize"] = (12, 6)


In [12]:
COLS_DIAGS = ["Capítulo", "Sección", "Categoría", "Descripción"]

In [16]:
df_procesada = pd.read_csv("../data/interim/datos_limpios.csv", encoding="latin-1", sep=";")
df_procesada["fecha_1_evaluacion"] = pd.to_datetime(
    df_procesada["fecha_1_evaluacion"], format="%Y-%m-%d"
)
df_procesada["f_nac"] = pd.to_datetime(df_procesada["f_nac"], yearfirst=True)

edad_primera_consulta = (
    df_procesada["fecha_1_evaluacion"] - df_procesada["f_nac"]
) / np.timedelta64(1, "Y")

df_procesada["edad_primera_consulta"] = edad_primera_consulta
df_procesada["rango_etario_primera_consulta"] = pd.cut(
    df_procesada["edad_primera_consulta"], [0, 15, 20, 25, 40, np.inf]
).astype(str)

df_procesada = df_procesada.fillna("so")


# Analisis para Congenitas

En este analisis se quieren responder obtener los siguientes insights:

- Frecuencia de diagnosticos por anio
- Frecuencia de edad de primera consulta por anio (grupo etario)
- Frecuencia de procedencia por anio
- Frecuencia de sexo por anio

In [18]:
df_procesada.columns

Index(['rut', 'diagnostico_principal', 'hospital', 'sexo', 'prevision',
       'centro_referencia_', 'region', 'clasificacion', 'procedimiento',
       'complejidad', 'validacion', 'validacion_region',
       'validacion_clasificacion', 'validacion_complejidad', 'f_nac',
       'fecha_1_evaluacion', 'anio_primera_evaluacion',
       'mes_primera_evaluacion', 'edad_primera_consulta',
       'rango_etario_primera_consulta'],
      dtype='object')

In [21]:
desglose_sociodemografico = ["anio_primera_evaluacion", "validacion_region"]

variables_a_analizar = ["validacion", "rango_etario_primera_consulta", "sexo"]

In [22]:
resultado_sociodemo = build_features.obtener_dfs_para_desglose_sociodemografico(
    df_procesada, desglose_sociodemografico, variables_a_analizar
)

In [23]:
print(df_procesada["validacion"].value_counts().sum())
print(resultado_sociodemo["rango_etario_primera_consulta"]["conteo"].sum())
print(resultado_sociodemo["sexo"]["conteo"].sum())
print(resultado_sociodemo["validacion"]["conteo"].sum())

3076
3076
3076
3076


- De los diccionarios obtenidos se puede ver que existen diferencias en las cantidades totales
de casos. Esto se debe a valores faltantes en cada una de las variables agregadas (ANIO_PRIMERA_EVALUACION,
Region, Rango Etario y Sexo)

- Esta diferencia solamente existe cuando se eliminan los valores faltantes. Si es que se convierten
a str tales valores, o se rellenan los Na (ej: con "SO"), entonces se obtiene la misma cantidad de registros.

In [24]:
with pd.ExcelWriter("../data/processed/tableros_powerbi/distribucion_sociodemografica.xlsx") as file:
    for nombre_hoja, df_a_guardar in resultado_sociodemo.items():
        df_a_guardar.to_excel(file, sheet_name=nombre_hoja, index=False)