# Elaboracion del modelo para el proyecto SENDA

In [None]:
import pandas as pd
from datetime import datetime
import pandas as pd
import numpy as np
import random
from xgboost import XGBRegressor
from sklearn.model_selection import TimeSeriesSplit, GridSearchCV, train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
from statsmodels.tsa.statespace.sarimax import SARIMAX
from statsmodels.tsa.arima.model import ARIMA

In [2]:
seremi_data = {
    "2014": pd.read_csv("raw_data/seremi_2014.csv"),
    "2015": pd.read_csv("raw_data/seremi_2015.csv"),
    "2016": pd.read_csv("raw_data/seremi_2016.csv"),
    "2017": pd.read_csv("raw_data/seremi_2017.csv"),
    "2018": pd.read_csv("raw_data/seremi_2018.csv"),
    "2019": pd.read_csv("raw_data/seremi_2019.csv"),
    "2020": pd.read_csv("raw_data/seremi_2020.csv"),
    "2021": pd.read_csv("raw_data/seremi_2021.csv"),
    "2022": pd.read_csv("raw_data/seremi_2022.csv"),
    "2023": pd.read_csv("raw_data/seremi_2023.csv"),
    "2024": pd.read_csv("raw_data/seremi_2024.csv"),
    "2025": pd.read_csv("raw_data/seremi_2025.csv"),
}

def procesar_datasets_climaticos(seremi_data_dict):
    def grados_a_cardinal(grados):
        if pd.isna(grados):
            return None
        direcciones = ['N', 'NE', 'E', 'SE', 'S', 'SW', 'W', 'NW']
        index = int((grados + 22.5) % 360 // 45)
        return direcciones[index]

    for a√±o, df in seremi_data_dict.items():
        if "Unnamed: 0" in df.columns:
            df = df.drop(columns=["Unnamed: 0"])

        if "winddirection_10m_dominant" in df.columns:
            df["wind_direction_cardinal"] = df["winddirection_10m_dominant"].apply(grados_a_cardinal)

        df = df.rename(columns={
            "temperature_2m_max": "Temperatura M√°xima",
            "temperature_2m_min": "Temperatura M√≠nima",
            "precipitation_sum": "Precipitaciones (suma)",
            "winddirection_10m_dominant": "Direcci√≥n Viento"
        })

        if "Direcci√≥n Viento" in df.columns:
            df = df.drop(columns=["Direcci√≥n Viento"])
        if "wind_direction_cardinal" in df.columns:
            df = df.rename(columns={"wind_direction_cardinal": "Direcci√≥n del Viento"})

        seremi_data_dict[a√±o] = df

    return seremi_data_dict

seremi_data = procesar_datasets_climaticos(seremi_data)


In [3]:
archivos_filtrados = {
    "2014": "raw_data/2014_filtrado.csv",
    "2015": "raw_data/2015_filtrado.csv",
    "2016": "raw_data/2016_filtrado.csv",
    "2017": "raw_data/2017_filtrado.csv",
    "2018": "raw_data/2018_filtrado.csv",
    "2019": "raw_data/2019_filtrado.csv",
    "2020": "raw_data/2020_filtrado.csv",
    "2021": "raw_data/2021_filtrado.csv",
    "2022": "raw_data/2022_filtrado.csv",
    "2023": "raw_data/2023_filtrado.csv",
    "2024": "raw_data/2024_filtrado.csv",
    "2025": "raw_data/2025_filtrado.csv"
}

filtrado_limpio = {}

meses_abreviados = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

columnas_a_eliminar = ["C√≥d. SS/SEREMI", "C√≥d. Estab.", "C√≥d. Nivel Cuidado", "Acum", "A√±o"]

for a√±o, archivo in archivos_filtrados.items():
    df = pd.read_csv(archivo)

    df = df[~df["Nombre Nivel Cuidado"].isin([
      "330 - Area Pensionado",
      "330 - √Årea Pensionado",
      "401 - √Årea M√©dica Adulto Cuidados B√°sicos",
      "402 - √Årea M√©dica Adulto Cuidados Medios",
      "403 - √Årea M√©dico-Quir√∫rgico Cuidados B√°sicos",
      "404 - √Årea M√©dico-Quir√∫rgico Cuidados Medios",
      "405 - √Årea Cuidados Intensivos Adultos",
      "406 - √Årea Cuidados Intermedios Adultos",
      "407 - √Årea M√©dica Pedi√°trica Cuidados B√°sicos",
      "408 - √Årea M√©dica Pedi√°trica Cuidados Medios",
      "409 - √Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados B√°sicos",
      "410 - √Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados Medios",
      "411 - √Årea Cuidados Intensivos Pedi√°tricos",
      "412 - √Årea Cuidados Intermedios Pedi√°tricos",
      "413 - √Årea Neonatolog√≠a Cuidados B√°sicos",
      "414 - √Årea Neonatolog√≠a Cuidados Intensivos",
      "415 - √Årea Neonatolog√≠a Cuidados Intermedios",
      "416 - √Årea Obstetricia",
      "418 - √Årea Psiquiatr√≠a Adulto Corta estad√≠a",
      "419 - √Årea Psiquiatr√≠a Adulto Mediana estad√≠a",
      "420 - √Årea Psiquiatr√≠a Adulto Larga estad√≠a",
      "421 - √Årea Psiquiatr√≠a Infanto-adolescente corta estad√≠a",
      "427 - √Årea Sociosanitaria Adulto",
      "428 - √Årea de Hospitalizaci√≥n de Cuidados Intensivos en Psiquiatr√≠a Adulto",
      "429 - √Årea de Hospitalizaci√≥n de Cuidados Intensivos en Psiquiatr√≠a Infanto Adolescente",
      "√Årea Cuidados Intensivos Adultos",
      "√Årea Cuidados Intensivos Pedi√°tricos",
      "√Årea Cuidados Intermedios Adultos",
      "√Årea Cuidados Intermedios Pedi√°tricos",
      "√Årea M√©dica Adulto Cuidados B√°sicos",
      "√Årea M√©dica Adulto Cuidados Medios",
      "√Årea M√©dica Pedi√°trica Cuidados B√°sicos",
      "√Årea M√©dica Pedi√°trica Cuidados Medios",
      "√Årea M√©dico-Quir√∫rgico Cuidados B√°sicos",
      "√Årea M√©dico-Quir√∫rgico Cuidados Medios",
      "√Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados B√°sicos",
      "√Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados Medios",
      "√Årea Neonatolog√≠a Cuidados B√°sicos",
      "√Årea Neonatolog√≠a Cuidados Intensivos",
      "√Årea Neonatolog√≠a Cuidados Intermedios",
      "√Årea Obstetricia",
      "√Årea Pensionado",
      "√Årea Psiquiatr√≠a Adulto Corta estad√≠a",
      "√Årea Psiquiatr√≠a Adulto Larga estad√≠a",
      "√Årea Psiquiatr√≠a Adulto Mediana estad√≠a",
      "√Årea Psiquiatr√≠a Infanto-adolescente corta estad√≠a"
    ]
    )].copy()

    df = df.drop(columns=columnas_a_eliminar, errors='ignore')

    df = df.rename(columns={
        "Nombre SS/SEREMI": "SEREMI",
        "Nombre Nivel Cuidado": "Area"
    })

    nuevo_nombre_columnas = {}
    a√±o_int = int(a√±o)

    for i, mes_abrev in enumerate(meses_abreviados, start=1):
        if mes_abrev in df.columns:
            fecha = datetime(a√±o_int, i, 1).strftime('%Y-%m-%d')
            nuevo_nombre_columnas[mes_abrev] = fecha

    df = df.rename(columns=nuevo_nombre_columnas)

    filtrado_limpio[a√±o] = df


In [4]:
def extraer_info_hospital_area_todo_el_a√±o(hospital_nombre):
    registros = []

    for a√±o, df in filtrado_limpio.items():
        df_seremi = seremi_data[a√±o].copy()
        df_seremi['Mes'] = pd.to_datetime(df_seremi['Mes'], errors='coerce')
        df_seremi.dropna(subset=['Mes'], inplace=True)
        df_seremi['Mes'] = df_seremi['Mes'].dt.to_period("M").dt.to_timestamp()

        columnas_mes = [col for col in df.columns if col.startswith("20")]
        for col in columnas_mes:
            df_tmp = df[
                (df["Nombre Establecimiento"] == hospital_nombre) &
                (df["Area"] == "Datos Establecimiento")
            ][["SEREMI", "Nombre Establecimiento", "Area", "Glosa", col]].copy()

            if df_tmp.empty:
                continue

            df_tmp = df_tmp.rename(columns={col: "Valor"})
            df_tmp["Fecha"] = pd.to_datetime(col)

            clima_mes = df_seremi[df_seremi["Mes"] == df_tmp["Fecha"].iloc[0]].copy()
            df_merge = df_tmp.merge(clima_mes, on=["SEREMI"], how="left")

            registros.append(df_merge)

    if registros:
        return pd.concat(registros, ignore_index=True).sort_values("Fecha")
    else:
        print("‚ö†Ô∏è No se encontraron datos para ese hospital y √°rea.")
        return pd.DataFrame()

In [5]:
def preparar_dataset_climatico_avanzado(df):
    if 'Area' in df.columns:
        df = df[df['Area'] == "Datos Establecimiento"].copy()

    df_pivot = df.pivot(index='Fecha', columns='Glosa', values='Valor').reset_index()

    columnas_necesarias = ['Dias Cama Disponibles', 'Dias Cama Ocupados',
                           'Promedio Cama Disponibles', 'Numero de Egresos']
    if not all(col in df_pivot.columns for col in columnas_necesarias):
        print("‚ùå Datos insuficientes para generar el modelo.")
        return None

    clima = df.drop_duplicates(subset='Fecha')[[
        'Fecha', 'Temperatura M√°xima', 'Temperatura M√≠nima',
        'Precipitaciones (suma)', 'Direcci√≥n del Viento'
    ]]

    df_pivot = pd.merge(df_pivot, clima, on='Fecha', how='left')

    df_pivot = pd.get_dummies(df_pivot, columns=['Direcci√≥n del Viento'], prefix='Viento')

    df_pivot = df_pivot.sort_values('Fecha')

    df_pivot['Mes'] = df_pivot['Fecha'].dt.month
    df_pivot['Trimestre'] = df_pivot['Fecha'].dt.quarter

    df_pivot['lag_1'] = df_pivot['Dias Cama Disponibles'].shift(1)
    df_pivot['lag_2'] = df_pivot['Dias Cama Disponibles'].shift(2)
    df_pivot['lag_3'] = df_pivot['Dias Cama Disponibles'].shift(3)

    df_pivot['media_movil_3'] = df_pivot['Dias Cama Disponibles'].rolling(window=3).mean()

    df_pivot['variacion_disponibles'] = df_pivot['Dias Cama Disponibles'].diff()
    df_pivot['porcentaje_ocupacion'] = df_pivot['Dias Cama Ocupados'] / df_pivot['Dias Cama Disponibles']
    df_pivot['ocupados_media_movil'] = df_pivot['Dias Cama Ocupados'].rolling(window=3).mean()
    df_pivot['promedio_media_movil'] = df_pivot['Promedio Cama Disponibles'].rolling(window=3).mean()
    df_pivot['egresos_media_movil'] = df_pivot['Numero de Egresos'].rolling(window=3).mean()

    df_pivot['Diferencia T√©rmica'] = df_pivot['Temperatura M√°xima'] - df_pivot['Temperatura M√≠nima']

    df_pivot['temp_max_movil'] = df_pivot['Temperatura M√°xima'].rolling(window=3).mean()
    df_pivot['precipitacion_movil'] = df_pivot['Precipitaciones (suma)'].rolling(window=3).mean()

    df_pivot['same_month_last_year'] = df_pivot['Dias Cama Disponibles'].shift(12)
    df_pivot['hist_avg_mes'] = df_pivot.groupby('Mes')['Dias Cama Disponibles'].transform('mean')

    df_pivot['interaccion_ocupacion_temp'] = df_pivot['porcentaje_ocupacion'] * df_pivot['Temperatura M√°xima']
    df_pivot['interaccion_precipitacion_disp'] = df_pivot['Precipitaciones (suma)'] * df_pivot['Dias Cama Disponibles']

    return df_pivot.dropna().copy()

In [6]:

def pipeline_final_mae_reducido_arima(hospital):
    print(f"üîç Extrayendo datos para: {hospital} | Datos Establecimiento")
    # Llamamos a la funci√≥n de extracci√≥n sin el par√°metro area, ya que ahora se filtra internamente
    df_base = extraer_info_hospital_area_todo_el_a√±o(hospital)

    if df_base.empty:
        print("‚ùå No se encontraron datos para el hospital o √°rea especificada.")
        return None

    print("üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...")
    df_modelo = preparar_dataset_climatico_avanzado(df_base)

    if df_modelo is None or df_modelo.empty:
        print("‚ùå No se pudo preparar el dataset.")
        return None

    # Selecci√≥n de features
    features = [
        'Dias Cama Ocupados', 'Promedio Cama Disponibles', 'Numero de Egresos',
        'Mes', 'Trimestre', 'lag_1', 'lag_2', 'lag_3', 'media_movil_3',
        'porcentaje_ocupacion', 'variacion_disponibles',
        'ocupados_media_movil', 'promedio_media_movil', 'egresos_media_movil',
        'Temperatura M√°xima', 'Temperatura M√≠nima', 'Precipitaciones (suma)',
        'Diferencia T√©rmica', 'temp_max_movil', 'precipitacion_movil',
        'same_month_last_year', 'hist_avg_mes',
        'interaccion_ocupacion_temp', 'interaccion_precipitacion_disp'
    ] + [col for col in df_modelo.columns if col.startswith('Viento_')]

    # Divisi√≥n temporal
    df_modelo = df_modelo.set_index('Fecha')  # Aseg√∫rate de que la fecha est√© como √≠ndice
    y = df_modelo['Dias Cama Disponibles']

    # Separar en entrenamiento y test
    train_size = int(len(df_modelo) * 0.8)
    y_train, y_test = y[:train_size], y[train_size:]

    print("üîß Ajustando modelo ARIMA...")

    # Ajustamos el modelo ARIMA
    model = ARIMA(y_train, order=(5, 1, 0))  # Puedes ajustar el orden (p, d, q)
    model_fit = model.fit()

    print("üìä Evaluando sobre el 20% final de los datos...")

    # Predicci√≥n
    y_pred = model_fit.forecast(steps=len(y_test))

    # C√°lculo de m√©tricas
    mae = mean_absolute_error(y_test, y_pred)
    rmse = mean_squared_error(y_test, y_pred) ** 0.5
    error_pct = np.mean(np.abs((y_test.values - y_pred) / y_test.values)) * 100

    # Resultado detallado con valores reales y predichos
    resultados = pd.DataFrame({
        'Fecha': y_test.index,
        'Real': y_test.values,                  # Valores reales observados
        'Predicho': y_pred,                     # Valores predichos por el modelo
        'Error Absoluto': np.abs(y_test.values - y_pred),
        'Error Porcentual (%)': np.abs((y_test.values - y_pred) / y_test.values) * 100
    })

    # Reporte resumen
    print(f"‚úÖ MAE (camas): {mae:.2f}")
    print(f"‚úÖ RMSE (camas): {rmse:.2f}")
    print(f"üìâ Error promedio porcentual: {error_pct:.2f}%")

    return resultados
