### Importaciones

In [22]:
import pandas as pd
from datetime import datetime
import pandas as pd
import numpy as np
import random
from xgboost import XGBRegressor
from sklearn.model_selection import TimeSeriesSplit, GridSearchCV, train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
from statsmodels.tsa.statespace.sarimax import SARIMAX

# 
Mes -> 	Fecha del mes en formato YYYY-MM-DD. Representa el mes al que corresponden los datos clim√°ticos.
temperature_2m_max	-> Temperatura m√°xima promedio del mes medida a 2 metros de altura, en grados Celsius (¬∞C).
temperature_2m_min -> Temperatura m√≠nima promedio del mes, tambi√©n a 2 metros de altura, en grados Celsius (¬∞C).
precipitation_sum -> Precipitaci√≥n total del mes en mil√≠metros (mm). Suma de toda el agua ca√≠da durante ese mes.
winddirection_10m_dominant -> Direcci√≥n dominante del viento a 10 metros de altura, en grados. Se mide en sentido azimutal desde el norte. (Ej.: 0¬∞ = norte, 90¬∞ = este, etc.).
SEREMI -> Nombre de la regi√≥n sanitaria (SEREMI) a la que corresponde esta fila.


### Creaci√≥n de DataSet's de clima mensual por a√±o y SEREMI:

In [23]:
# 1. Cargar todos los archivos seremi
seremi_data = {
    "2014": pd.read_csv("seremi_2014.csv"),
    "2015": pd.read_csv("seremi_2015.csv"),
    "2016": pd.read_csv("seremi_2016.csv"),
    "2017": pd.read_csv("seremi_2017.csv"),
    "2018": pd.read_csv("seremi_2018.csv"),
    "2019": pd.read_csv("seremi_2019.csv"),
    "2020": pd.read_csv("seremi_2020.csv"),
    "2021": pd.read_csv("seremi_2021.csv"),
    "2022": pd.read_csv("seremi_2022.csv"),
    "2023": pd.read_csv("seremi_2023.csv"),
    "2024": pd.read_csv("seremi_2024.csv"),
    "2025": pd.read_csv("seremi_2025.csv"),
}

# 2. Funci√≥n para procesar cada dataset clim√°tico
def procesar_datasets_climaticos(seremi_data_dict):
    def grados_a_cardinal(grados):
        if pd.isna(grados):
            return None
        direcciones = ['N', 'NE', 'E', 'SE', 'S', 'SW', 'W', 'NW']
        index = int((grados + 22.5) % 360 // 45)
        return direcciones[index]

    for a√±o, df in seremi_data_dict.items():
        # Eliminar columna innecesaria
        if "Unnamed: 0" in df.columns:
            df = df.drop(columns=["Unnamed: 0"])

        # Crear columna cardinal
        if "winddirection_10m_dominant" in df.columns:
            df["wind_direction_cardinal"] = df["winddirection_10m_dominant"].apply(grados_a_cardinal)

        # Renombrar columnas
        df = df.rename(columns={
            "temperature_2m_max": "Temperatura M√°xima",
            "temperature_2m_min": "Temperatura M√≠nima",
            "precipitation_sum": "Precipitaciones (suma)",
            "winddirection_10m_dominant": "Direcci√≥n Viento"
        })

        # Limpiar columna de grados si existe y renombrar cardinal
        if "Direcci√≥n Viento" in df.columns:
            df = df.drop(columns=["Direcci√≥n Viento"])
        if "wind_direction_cardinal" in df.columns:
            df = df.rename(columns={"wind_direction_cardinal": "Direcci√≥n del Viento"})

        # Guardar el dataframe procesado
        seremi_data_dict[a√±o] = df

    return seremi_data_dict

# 3. Aplicar la funci√≥n a todos los datasets clim√°ticos
seremi_data = procesar_datasets_climaticos(seremi_data)

# 4. Verificar que todo est√© correcto (opcional)
seremi_data["2015"].head(12)

Unnamed: 0,Mes,Temperatura M√°xima,Temperatura M√≠nima,Precipitaciones (suma),SEREMI,Direcci√≥n del Viento
0,2015-01-01,12.277419,6.867742,33.7,Magallanes,W
1,2015-02-01,12.142857,7.1,36.9,Magallanes,W
2,2015-03-01,11.56129,6.393548,92.1,Magallanes,W
3,2015-04-01,9.093333,4.446667,57.9,Magallanes,W
4,2015-05-01,5.935484,2.541935,100.0,Magallanes,S
5,2015-06-01,3.943333,1.15,92.8,Magallanes,SW
6,2015-07-01,3.032258,-0.13871,98.4,Magallanes,SW
7,2015-08-01,4.180645,0.509677,59.8,Magallanes,SW
8,2015-09-01,5.266667,1.12,46.0,Magallanes,SW
9,2015-10-01,8.925806,2.803226,24.2,Magallanes,SW


### Creaci√≥n de DataSet's sobre ocupaci√≥n de camas por mes y por a√±o seg√∫n hospital y √°rea:

In [24]:
# Archivos filtrados hospitalarios
archivos_filtrados = {
    "2014": "2014_filtrado.csv",
    "2015": "2015_filtrado.csv",
    "2016": "2016_filtrado.csv",
    "2017": "2017_filtrado.csv",
    "2018": "2018_filtrado.csv",
    "2019": "2019_filtrado.csv",
    "2020": "2020_filtrado.csv",
    "2021": "2021_filtrado.csv",
    "2022": "2022_filtrado.csv",
    "2023": "2023_filtrado.csv",
    "2024": "2024_filtrado.csv",
    "2025": "2025_filtrado.csv"
}

# Diccionario para guardar los dataframes ya limpios
filtrado_limpio = {}

# Abreviaturas de los meses
meses_abreviados = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun',
                    'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

# Columnas que se eliminar√°n si existen
columnas_a_eliminar = ["C√≥d. SS/SEREMI", "C√≥d. Estab.", "C√≥d. Nivel Cuidado", "Acum", "A√±o"]

# Procesamiento de los archivos
for a√±o, archivo in archivos_filtrados.items():
    # Cargar CSV
    df = pd.read_csv(archivo)

    # Eliminar filas irrelevantes
    df = df[~df["Nombre Nivel Cuidado"].isin([
      "330 - Area Pensionado",
      "330 - √Årea Pensionado",
      "401 - √Årea M√©dica Adulto Cuidados B√°sicos",
      "402 - √Årea M√©dica Adulto Cuidados Medios",
      "403 - √Årea M√©dico-Quir√∫rgico Cuidados B√°sicos",
      "404 - √Årea M√©dico-Quir√∫rgico Cuidados Medios",
      "405 - √Årea Cuidados Intensivos Adultos",
      "406 - √Årea Cuidados Intermedios Adultos",
      "407 - √Årea M√©dica Pedi√°trica Cuidados B√°sicos",
      "408 - √Årea M√©dica Pedi√°trica Cuidados Medios",
      "409 - √Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados B√°sicos",
      "410 - √Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados Medios",
      "411 - √Årea Cuidados Intensivos Pedi√°tricos",
      "412 - √Årea Cuidados Intermedios Pedi√°tricos",
      "413 - √Årea Neonatolog√≠a Cuidados B√°sicos",
      "414 - √Årea Neonatolog√≠a Cuidados Intensivos",
      "415 - √Årea Neonatolog√≠a Cuidados Intermedios",
      "416 - √Årea Obstetricia",
      "418 - √Årea Psiquiatr√≠a Adulto Corta estad√≠a",
      "419 - √Årea Psiquiatr√≠a Adulto Mediana estad√≠a",
      "420 - √Årea Psiquiatr√≠a Adulto Larga estad√≠a",
      "421 - √Årea Psiquiatr√≠a Infanto-adolescente corta estad√≠a",
      "427 - √Årea Sociosanitaria Adulto",
      "428 - √Årea de Hospitalizaci√≥n de Cuidados Intensivos en Psiquiatr√≠a Adulto",
      "429 - √Årea de Hospitalizaci√≥n de Cuidados Intensivos en Psiquiatr√≠a Infanto Adolescente",
      "√Årea Cuidados Intensivos Adultos",
      "√Årea Cuidados Intensivos Pedi√°tricos",
      "√Årea Cuidados Intermedios Adultos",
      "√Årea Cuidados Intermedios Pedi√°tricos",
      "√Årea M√©dica Adulto Cuidados B√°sicos",
      "√Årea M√©dica Adulto Cuidados Medios",
      "√Årea M√©dica Pedi√°trica Cuidados B√°sicos",
      "√Årea M√©dica Pedi√°trica Cuidados Medios",
      "√Årea M√©dico-Quir√∫rgico Cuidados B√°sicos",
      "√Årea M√©dico-Quir√∫rgico Cuidados Medios",
      "√Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados B√°sicos",
      "√Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados Medios",
      "√Årea Neonatolog√≠a Cuidados B√°sicos",
      "√Årea Neonatolog√≠a Cuidados Intensivos",
      "√Årea Neonatolog√≠a Cuidados Intermedios",
      "√Årea Obstetricia",
      "√Årea Pensionado",
      "√Årea Psiquiatr√≠a Adulto Corta estad√≠a",
      "√Årea Psiquiatr√≠a Adulto Larga estad√≠a",
      "√Årea Psiquiatr√≠a Adulto Mediana estad√≠a",
      "√Årea Psiquiatr√≠a Infanto-adolescente corta estad√≠a"
    ]
    )].copy()

    # Eliminar columnas innecesarias
    df = df.drop(columns=columnas_a_eliminar, errors='ignore')

    # Renombrar columnas clave
    df = df.rename(columns={
        "Nombre SS/SEREMI": "SEREMI",
        "Nombre Nivel Cuidado": "Area"
    })

    # Renombrar columnas de meses abreviados por fecha
    nuevo_nombre_columnas = {}
    a√±o_int = int(a√±o)

    for i, mes_abrev in enumerate(meses_abreviados, start=1):
        if mes_abrev in df.columns:
            fecha = datetime(a√±o_int, i, 1).strftime('%Y-%m-%d')
            nuevo_nombre_columnas[mes_abrev] = fecha

    df = df.rename(columns=nuevo_nombre_columnas)

    # Guardar DataFrame limpio
    filtrado_limpio[a√±o] = df

# Ejemplo: verificar que todo carg√≥ bien
filtrado_limpio["2020"].head(50)

Unnamed: 0,SEREMI,Nombre Establecimiento,Area,Glosa,2020-01-01,2020-02-01,2020-03-01,2020-04-01,2020-05-01,2020-06-01,2020-07-01,2020-08-01,2020-09-01,2020-10-01,2020-11-01,2020-12-01
0,Datos Pa√≠s,Datos Pa√≠s,Datos Pa√≠s,Dias Cama Disponibles,800179.0,745007.0,789700.0,745965.0,802598.0,795021.0,832573.0,827810.0,779335.0,805056.0,776759.0,793770.0
1,Datos Pa√≠s,Datos Pa√≠s,Datos Pa√≠s,Dias Cama Ocupados,627256.0,577307.0,540914.0,412450.0,477211.0,498858.0,545163.0,557324.0,540777.0,567446.0,559618.0,552408.0
2,Datos Pa√≠s,Datos Pa√≠s,Datos Pa√≠s,Dias de Estada,627876.0,557377.0,602302.0,406231.0,439175.0,503875.0,548854.0,515769.0,527973.0,554252.0,532859.0,589847.0
3,Datos Pa√≠s,Datos Pa√≠s,Datos Pa√≠s,Promedio Cama Disponibles,25812.23,25689.9,25474.19,24865.5,25890.26,26500.7,26857.19,26703.55,25977.83,25969.55,25891.97,25605.48
4,Datos Pa√≠s,Datos Pa√≠s,Datos Pa√≠s,Numero de Egresos,89177.0,80451.0,79438.0,54961.0,58717.0,59720.0,65544.0,66102.0,67836.0,71445.0,70530.0,72361.0
5,Datos Pa√≠s,Datos Pa√≠s,Datos Pa√≠s,Egresos Fallecidos,2605.0,2261.0,2383.0,2246.0,3222.0,4739.0,3864.0,3381.0,3026.0,2924.0,2565.0,2799.0
6,Arica,Datos Servicio Salud,Datos Servicio Salud,Dias Cama Disponibles,9697.0,9066.0,9608.0,9660.0,9688.0,10159.0,11000.0,11674.0,11427.0,11426.0,11395.0,11337.0
7,Arica,Datos Servicio Salud,Datos Servicio Salud,Dias Cama Ocupados,8977.0,8535.0,8042.0,5209.0,6357.0,6985.0,8342.0,8989.0,8223.0,8957.0,8602.0,8269.0
8,Arica,Datos Servicio Salud,Datos Servicio Salud,Dias de Estada,8196.0,7182.0,9624.0,4785.0,5341.0,5879.0,7435.0,8042.0,7151.0,8490.0,7162.0,8778.0
9,Arica,Datos Servicio Salud,Datos Servicio Salud,Promedio Cama Disponibles,312.81,312.62,309.94,322.0,312.52,338.63,354.84,376.58,380.9,368.58,379.83,365.71


### Funci√≥n para uni√≥n de datos:

In [26]:
def extraer_info_hospital_area_todo_el_a√±o(hospital_nombre):
    registros = []

    for a√±o, df in filtrado_limpio.items():
        df_seremi = seremi_data[a√±o].copy()

        # Aseguramos que 'Mes' est√© en formato datetime
        df_seremi['Mes'] = pd.to_datetime(df_seremi['Mes'], errors='coerce')
        df_seremi.dropna(subset=['Mes'], inplace=True)
        df_seremi['Mes'] = df_seremi['Mes'].dt.to_period("M").dt.to_timestamp()

        columnas_mes = [col for col in df.columns if col.startswith("20")]
        for col in columnas_mes:
            # Filtro hospitalario por hospital, √°rea ("Datos Establecimiento") y mes
            df_tmp = df[
                (df["Nombre Establecimiento"] == hospital_nombre) &
                (df["Area"] == "Datos Establecimiento")
            ][["SEREMI", "Nombre Establecimiento", "Area", "Glosa", col]].copy()

            if df_tmp.empty:
                continue

            df_tmp = df_tmp.rename(columns={col: "Valor"})
            df_tmp["Fecha"] = pd.to_datetime(col)

            # Filtro clim√°tico por seremi y mes
            clima_mes = df_seremi[df_seremi["Mes"] == df_tmp["Fecha"].iloc[0]].copy()
            df_merge = df_tmp.merge(clima_mes, on=["SEREMI"], how="left")

            registros.append(df_merge)

    if registros:
        return pd.concat(registros, ignore_index=True).sort_values("Fecha")
    else:
        print("‚ö†Ô∏è No se encontraron datos para ese hospital y √°rea.")
        return pd.DataFrame()


ejemplo_df = extraer_info_hospital_area_todo_el_a√±o(
    "Hospital Barros Luco Trudeau (Santiago, San Miguel)"
)

ejemplo_df.head()



Unnamed: 0,SEREMI,Nombre Establecimiento,Area,Glosa,Valor,Fecha,Mes,Temperatura M√°xima,Temperatura M√≠nima,Precipitaciones (suma),Direcci√≥n del Viento
0,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",Datos Establecimiento,Dias Cama Disponibles,21236.0,2014-01-01,2014-01-01,28.964516,15.748387,0.4,SW
1,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",Datos Establecimiento,Dias Cama Ocupados,20034.0,2014-01-01,2014-01-01,28.964516,15.748387,0.4,SW
2,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",Datos Establecimiento,Dias de Estada,19132.0,2014-01-01,2014-01-01,28.964516,15.748387,0.4,SW
3,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",Datos Establecimiento,Promedio Cama Disponibles,685.03,2014-01-01,2014-01-01,28.964516,15.748387,0.4,SW
4,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",Datos Establecimiento,Numero de Egresos,2311.0,2014-01-01,2014-01-01,28.964516,15.748387,0.4,SW


### Preparaci√≥n de datos pre modelaci√≥n:

In [27]:
def preparar_dataset_climatico_avanzado(df):
    # Filtrar para trabajar √∫nicamente con el √°rea "Datos Establecimiento"
    if 'Area' in df.columns:
        df = df[df['Area'] == "Datos Establecimiento"].copy()
    
    # Pivotear la tabla para tener una fila por fecha y cada glosa como columna
    df_pivot = df.pivot(index='Fecha', columns='Glosa', values='Valor').reset_index()

    # Comprobamos que est√©n todas las columnas hospitalarias necesarias
    columnas_necesarias = ['Dias Cama Disponibles', 'Dias Cama Ocupados',
                           'Promedio Cama Disponibles', 'Numero de Egresos']
    if not all(col in df_pivot.columns for col in columnas_necesarias):
        print("‚ùå Datos insuficientes para generar el modelo.")
        return None

    # Extraemos variables clim√°ticas (asumimos que son iguales por cada fecha para cada hospital)
    clima = df.drop_duplicates(subset='Fecha')[[
        'Fecha', 'Temperatura M√°xima', 'Temperatura M√≠nima',
        'Precipitaciones (suma)', 'Direcci√≥n del Viento'
    ]]

    # Merge de hospital + clima
    df_pivot = pd.merge(df_pivot, clima, on='Fecha', how='left')

    # Codificar direcci√≥n del viento
    df_pivot = pd.get_dummies(df_pivot, columns=['Direcci√≥n del Viento'], prefix='Viento')

    # Orden cronol√≥gico
    df_pivot = df_pivot.sort_values('Fecha')
    
    # Variables de tiempo
    df_pivot['Mes'] = df_pivot['Fecha'].dt.month
    df_pivot['Trimestre'] = df_pivot['Fecha'].dt.quarter

    # Lags
    df_pivot['lag_1'] = df_pivot['Dias Cama Disponibles'].shift(1)
    df_pivot['lag_2'] = df_pivot['Dias Cama Disponibles'].shift(2)
    df_pivot['lag_3'] = df_pivot['Dias Cama Disponibles'].shift(3)

    # Media m√≥vil
    df_pivot['media_movil_3'] = df_pivot['Dias Cama Disponibles'].rolling(window=3).mean()

    # Diferencias hospitalarias
    df_pivot['variacion_disponibles'] = df_pivot['Dias Cama Disponibles'].diff()
    df_pivot['porcentaje_ocupacion'] = df_pivot['Dias Cama Ocupados'] / df_pivot['Dias Cama Disponibles']
    df_pivot['ocupados_media_movil'] = df_pivot['Dias Cama Ocupados'].rolling(window=3).mean()
    df_pivot['promedio_media_movil'] = df_pivot['Promedio Cama Disponibles'].rolling(window=3).mean()
    df_pivot['egresos_media_movil'] = df_pivot['Numero de Egresos'].rolling(window=3).mean()

    # Diferencia t√©rmica
    df_pivot['Diferencia T√©rmica'] = df_pivot['Temperatura M√°xima'] - df_pivot['Temperatura M√≠nima']

    # Tendencias clim√°ticas
    df_pivot['temp_max_movil'] = df_pivot['Temperatura M√°xima'].rolling(window=3).mean()
    df_pivot['precipitacion_movil'] = df_pivot['Precipitaciones (suma)'].rolling(window=3).mean()

    # Estacionalidad
    df_pivot['same_month_last_year'] = df_pivot['Dias Cama Disponibles'].shift(12)
    df_pivot['hist_avg_mes'] = df_pivot.groupby('Mes')['Dias Cama Disponibles'].transform('mean')

    # Interacciones cruzadas
    df_pivot['interaccion_ocupacion_temp'] = df_pivot['porcentaje_ocupacion'] * df_pivot['Temperatura M√°xima']
    df_pivot['interaccion_precipitacion_disp'] = df_pivot['Precipitaciones (suma)'] * df_pivot['Dias Cama Disponibles']

    return df_pivot.dropna().copy()



### Automatizaci√≥n de extraci√≥n de datos y preparaci√≥n de dataset - MODELO XGBOOST:

Estamos prediciendo aproximadamente el 20% de los meses m√°s recientes del historial disponible para ese hospital y √°rea. Por ejemplo:

Si el hospital tiene datos desde 2014 hasta 2025, son 12 a√±os √ó 12 meses = 144 - 10 (meses faltantes del 2025) -> 134 meses totales.

El 20% de 134 son aprox 27 meses -> estamos prediciendo los √∫ltimos 27 meses, desde fines de 2022 hasta marzo de 2025 (en nuestro caso actual).

In [29]:
def pipeline_final_mae_reducido(hospital):
    print(f"üîç Extrayendo datos para: {hospital} | Datos Establecimiento")
    # Llamamos a la funci√≥n de extracci√≥n sin el par√°metro area, ya que ahora se filtra internamente
    df_base = extraer_info_hospital_area_todo_el_a√±o(hospital)

    if df_base.empty:
        print("‚ùå No se encontraron datos para el hospital o √°rea especificada.")
        return None

    print("üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...")
    df_modelo = preparar_dataset_climatico_avanzado(df_base)

    if df_modelo is None or df_modelo.empty:
        print("‚ùå No se pudo preparar el dataset.")
        return None

    # Selecci√≥n de features
    features = [
        'Dias Cama Ocupados', 'Promedio Cama Disponibles', 'Numero de Egresos',
        'Mes', 'Trimestre', 'lag_1', 'lag_2', 'lag_3', 'media_movil_3',
        'porcentaje_ocupacion', 'variacion_disponibles',
        'ocupados_media_movil', 'promedio_media_movil', 'egresos_media_movil',
        'Temperatura M√°xima', 'Temperatura M√≠nima', 'Precipitaciones (suma)',
        'Diferencia T√©rmica', 'temp_max_movil', 'precipitacion_movil',
        'same_month_last_year', 'hist_avg_mes',
        'interaccion_ocupacion_temp', 'interaccion_precipitacion_disp'
    ] + [col for col in df_modelo.columns if col.startswith('Viento_')]

    # Divisi√≥n temporal
    X = df_modelo[features]
    y = df_modelo['Dias Cama Disponibles']
    X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=False, test_size=0.2)

    print("üîß Ajustando modelo con GridSearchCV...")
    param_grid = {
        'n_estimators': [50, 100],
        'max_depth': [2, 3],
        'learning_rate': [0.05, 0.1]
    }

    model = XGBRegressor(n_jobs=1, random_state=42)
    grid_search = GridSearchCV(
        estimator=model,
        param_grid=param_grid,
        scoring='neg_mean_absolute_error',
        cv=TimeSeriesSplit(n_splits=3),
        verbose=1
    )
    grid_search.fit(X_train, y_train)
    mejor_modelo = grid_search.best_estimator_
    print("üìå Mejores par√°metros encontrados:", grid_search.best_params_)

    print("üìä Evaluando sobre el 20% final de los datos...")

    # Predicci√≥n
    y_pred = mejor_modelo.predict(X_test)

    # C√°lculo de m√©tricas
    mae = mean_absolute_error(y_test, y_pred)
    rmse = mean_squared_error(y_test, y_pred) ** 0.5
    error_pct = np.mean(np.abs((y_test.values - y_pred) / y_test.values)) * 100

    # Resultado detallado con valores reales y predichos
    resultados = pd.DataFrame({
        'Fecha': df_modelo['Fecha'].iloc[-len(y_test):].values,
        'Real': y_test.values,                  # Valores reales observados
        'Predicho': y_pred,                     # Valores predichos por el modelo
        'Error Absoluto': np.abs(y_test.values - y_pred),
        'Error Porcentual (%)': np.abs((y_test.values - y_pred) / y_test.values) * 100
    })

    # Reporte resumen
    print(f"‚úÖ MAE (camas): {mae:.2f}")
    print(f"‚úÖ RMSE (camas): {rmse:.2f}")
    print(f"üìâ Error promedio porcentual: {error_pct:.2f}%")

    return resultados



### Ejemplo de uso - MODELO XGBOOST:

In [30]:
resultados_final = pipeline_final_mae_reducido("Hospital Barros Luco Trudeau (Santiago, San Miguel)")

display(resultados_final)

üîç Extrayendo datos para: Hospital Barros Luco Trudeau (Santiago, San Miguel) | Datos Establecimiento
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
Fitting 3 folds for each of 8 candidates, totalling 24 fits
üìå Mejores par√°metros encontrados: {'learning_rate': 0.1, 'max_depth': 2, 'n_estimators': 100}
üìä Evaluando sobre el 20% final de los datos...
‚úÖ MAE (camas): 679.47
‚úÖ RMSE (camas): 1230.06
üìâ Error promedio porcentual: 3.11%


Unnamed: 0,Fecha,Real,Predicho,Error Absoluto,Error Porcentual (%)
0,2023-02-01,18759.0,19603.121094,844.121094,4.499819
1,2023-03-01,21183.0,21595.763672,412.763672,1.948561
2,2023-04-01,20731.0,20718.337891,12.662109,0.061078
3,2023-05-01,21618.0,21560.382812,57.617188,0.266524
4,2023-06-01,20804.0,20826.619141,22.619141,0.108725
5,2023-07-01,21456.0,21485.037109,29.037109,0.135333
6,2023-08-01,21494.0,21428.087891,65.912109,0.306654
7,2023-09-01,21119.0,20884.730469,234.269531,1.109283
8,2023-10-01,21913.0,21565.263672,347.736328,1.586895
9,2023-11-01,21247.0,21233.869141,13.130859,0.061801


### Ejemplo de uso extendido a mas hospitales - MODELO XGBOOST:

In [31]:
# 1. Funci√≥n para extraer todos los hospitales v√°lidos (filtrando aquellos registros con √°rea "Datos Establecimiento")
def extraer_hospitales_validos(filtrado_limpio):
    hospitales = set()
    for df in filtrado_limpio.values():
        if "Nombre Establecimiento" in df.columns and "Area" in df.columns:
            # Filtrar √∫nicamente registros en los que el √°rea es "Datos Establecimiento"
            validos = df[df["Area"] == "Datos Establecimiento"][["Nombre Establecimiento"]].dropna().drop_duplicates()
            for _, row in validos.iterrows():
                hospitales.add(row["Nombre Establecimiento"])
    return sorted(list(hospitales))

# 2. Obtener la lista de hospitales v√°lidos y limitar a los primeros 30
hospitales_validos = extraer_hospitales_validos(filtrado_limpio)
hospitales_a_evaluar = hospitales_validos[:30]

# 3. Evaluar modelo para cada hospital (utilizando pipeline_final_mae_reducido, que internamente trabaja con "Datos Establecimiento")
resultados_todos = {}

for hospital in hospitales_a_evaluar:
    try:
        print("\n==========================")
        print(f"üè• Evaluando: {hospital}")
        print("==========================")
        resultados = pipeline_final_mae_reducido(hospital)
        if resultados is not None:
            resultados_todos[hospital] = resultados
    except Exception as e:
        print(f"‚ùå Error en {hospital}: {e}")
        continue

# 4. Crear tabla resumen con las m√©tricas MAE y Error Porcentual Promedio
tabla_resumen = []

for hospital, resultados in resultados_todos.items():
    if "Error Absoluto" in resultados.columns and "Error Porcentual (%)" in resultados.columns:
        mae = resultados["Error Absoluto"].mean()
        error_pct = resultados["Error Porcentual (%)"].mean()
        tabla_resumen.append({
            "Hospital": hospital,
            "MAE (camas)": round(mae, 2),
            "Error Porcentual Promedio (%)": round(error_pct, 2)
        })

# 5. Mostrar tabla resumen ordenada por MAE
df_tabla_resumen = pd.DataFrame(tabla_resumen).sort_values("MAE (camas)").reset_index(drop=True)
display(df_tabla_resumen)




üè• Evaluando: Complejo Hospitalario San Jos√© (Santiago, Independencia)
üîç Extrayendo datos para: Complejo Hospitalario San Jos√© (Santiago, Independencia) | Datos Establecimiento
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
Fitting 3 folds for each of 8 candidates, totalling 24 fits
üìå Mejores par√°metros encontrados: {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 100}
üìä Evaluando sobre el 20% final de los datos...
‚úÖ MAE (camas): 189.85
‚úÖ RMSE (camas): 232.91
üìâ Error promedio porcentual: 1.13%

üè• Evaluando: Hospital Adalberto Steeger (Talagante)
üîç Extrayendo datos para: Hospital Adalberto Steeger (Talagante) | Datos Establecimiento
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
Fitting 3 folds for each of 8 candidates, totalling 24 fits
üìå Mejores par√°metros encontrados: {'learning_rate': 0.1, 'max_dep

Unnamed: 0,Hospital,MAE (camas),Error Porcentual Promedio (%)
0,Hospital Lord Cochrane,1.93,0.95
1,Hospital Comunitario de Salud Familiar de El C...,9.56,1.33
2,Hospital Provincial del Huasco Monse√±or Fernan...,9.58,0.28
3,Hospital San Jos√© (Parral),12.17,0.4
4,Hospital Hanga Roa (Isla De Pascua),18.09,3.38
5,Hospital Comunitario de Salud Familiar Pedro M...,18.21,1.44
6,Hospital Comunitario de Salud Familiar de Quir...,20.91,1.4
7,Hospital Adriana Cousi√±o (Quintero),21.67,2.75
8,Hospital San Jos√© (Casablanca),24.77,5.62
9,Hospital San Antonio (Putaendo),26.58,2.84


### Listado y cantidad de hospitales con los que trabaja el modelo:

In [32]:
def obtener_lista_hospitales(filtrado_limpio):
    hospitales = set()
    
    for a√±o, df in filtrado_limpio.items():
        if "Nombre Establecimiento" in df.columns:
            hospitales.update(df["Nombre Establecimiento"].dropna().unique())
    
    return sorted(list(hospitales))


In [13]:
lista_hospitales = obtener_lista_hospitales(filtrado_limpio)
print(f"Se encontraron {len(lista_hospitales)} hospitales.")
for h in lista_hospitales[:10]:  # muestra los primeros 10 como ejemplo
    print("üè•", h)


Se encontraron 92 hospitales.
üè• Complejo Hospitalario San Jos√© (Santiago, Independencia)
üè• Hospital Adalberto Steeger (Talagante)
üè• Hospital Adriana Cousi√±o (Quintero)
üè• Hospital Barros Luco Trudeau (Santiago, San Miguel)
üè• Hospital Carlos Van Buren (Valpara√≠so)
üè• Hospital Centro Geri√°trico Paz de la Tarde (Limache)
üè• Hospital Clorinda Avello (Santa Juana)
üè• Hospital Cl√≠nico Herminda Mart√≠n (Chill√°n)
üè• Hospital Comunitario de Salud Familiar Pedro Morales Campos (Yungay)
üè• Hospital Comunitario de Salud Familiar de Bulnes


# 
92 hospitales comunes entre 2014 y 2025

### XGBOOST para predicci√≥n futura: (MODO ENTRENAMIENTO)

In [33]:
def predecir_camas_mes_futuro(hospital, modo="entrenamiento", mes_futuro=None):
    print(f"üîç Extrayendo datos para: {hospital}")
    df_base = extraer_info_hospital_area_todo_el_a√±o(hospital)

    if df_base.empty:
        print("‚ùå No se encontraron datos para el hospital especificado.")
        return None

    print("üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...")
    df_modelo = preparar_dataset_climatico_avanzado(df_base)

    if df_modelo is None or df_modelo.empty:
        print("‚ùå No se pudo preparar el dataset.")
        return None

    # Selecci√≥n de features
    features = [
        'Dias Cama Ocupados', 'Promedio Cama Disponibles', 'Numero de Egresos',
        'Mes', 'Trimestre', 'lag_1', 'lag_2', 'lag_3', 'media_movil_3',
        'porcentaje_ocupacion', 'variacion_disponibles',
        'ocupados_media_movil', 'promedio_media_movil', 'egresos_media_movil',
        'Temperatura M√°xima', 'Temperatura M√≠nima', 'Precipitaciones (suma)',
        'Diferencia T√©rmica', 'temp_max_movil', 'precipitacion_movil',
        'same_month_last_year', 'hist_avg_mes',
        'interaccion_ocupacion_temp', 'interaccion_precipitacion_disp'
    ] + [col for col in df_modelo.columns if col.startswith('Viento_')]

    X = df_modelo[features]
    y = df_modelo['Dias Cama Disponibles']

    if modo == "entrenamiento":
        # Divisi√≥n entrenamiento/test
        X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=False, test_size=0.2)

        print("üîß Ajustando modelo con GridSearchCV...")
        param_grid = {
            'n_estimators': [50, 100],
            'max_depth': [2, 3],
            'learning_rate': [0.05, 0.1]
        }

        model = XGBRegressor(n_jobs=1, random_state=42)
        grid_search = GridSearchCV(
            estimator=model,
            param_grid=param_grid,
            scoring='neg_mean_absolute_error',
            cv=TimeSeriesSplit(n_splits=3),
            verbose=0
        )
        grid_search.fit(X_train, y_train)
        mejor_modelo = grid_search.best_estimator_

        print("üìå Mejores par√°metros encontrados:", grid_search.best_params_)
        print("üìä Evaluando sobre el 20% final de los datos...")

        y_pred = mejor_modelo.predict(X_test)
        mae = mean_absolute_error(y_test, y_pred)
        rmse = mean_squared_error(y_test, y_pred) ** 0.5
        error_pct = np.mean(np.abs((y_test.values - y_pred) / y_test.values)) * 100

        print(f"‚úÖ MAE (camas): {mae:.2f}")
        print(f"‚úÖ RMSE (camas): {rmse:.2f}")
        print(f"üìâ Error promedio porcentual: {error_pct:.2f}%")

        resultados = pd.DataFrame({
            'Fecha': df_modelo['Fecha'].iloc[-len(y_test):].values,
            'Real': y_test.values,
            'Predicho': y_pred,
            'Error Absoluto': np.abs(y_test.values - y_pred),
            'Error Porcentual (%)': np.abs((y_test.values - y_pred) / y_test.values) * 100
        })

        return resultados

    else:
        print("‚ö†Ô∏è Modo no reconocido o no implementado a√∫n.")
        return None




In [34]:
# Crear resultados para entrenamiento iterando hospitales
resultados_entrenamiento_todos = []

for hospital in lista_hospitales:
    try:
        print("\n==========================")
        print(f"üè• Evaluando entrenamiento: {hospital}")
        print("==========================")

        resultado_entrenamiento = predecir_camas_mes_futuro(
            hospital=hospital,
            modo="entrenamiento"
        )

        if resultado_entrenamiento is not None:
            resultado_entrenamiento["Hospital"] = hospital
            resultados_entrenamiento_todos.append(resultado_entrenamiento)

    except Exception as e:
        print(f"‚ùå Error en {hospital} -> {e}")
        continue






üè• Evaluando entrenamiento: Complejo Hospitalario San Jos√© (Santiago, Independencia)
üîç Extrayendo datos para: Complejo Hospitalario San Jos√© (Santiago, Independencia)
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
üìå Mejores par√°metros encontrados: {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 100}
üìä Evaluando sobre el 20% final de los datos...
‚úÖ MAE (camas): 189.85
‚úÖ RMSE (camas): 232.91
üìâ Error promedio porcentual: 1.13%

üè• Evaluando entrenamiento: Hospital Adalberto Steeger (Talagante)
üîç Extrayendo datos para: Hospital Adalberto Steeger (Talagante)
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
üìå Mejores par√°metros encontrados: {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 100}
üìä Evaluando sobre el 20% final de los datos...
‚úÖ MAE (camas): 79.67
‚úÖ RMSE (camas): 88.25
üìâ Error pro

  error_pct = np.mean(np.abs((y_test.values - y_pred) / y_test.values)) * 100
  'Error Porcentual (%)': np.abs((y_test.values - y_pred) / y_test.values) * 100


üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
üìå Mejores par√°metros encontrados: {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 100}
üìä Evaluando sobre el 20% final de los datos...
‚úÖ MAE (camas): 10.01
‚úÖ RMSE (camas): 15.38
üìâ Error promedio porcentual: 1.45%

üè• Evaluando entrenamiento: Hospital de Tom√©
üîç Extrayendo datos para: Hospital de Tom√©
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
üìå Mejores par√°metros encontrados: {'learning_rate': 0.1, 'max_depth': 2, 'n_estimators': 100}
üìä Evaluando sobre el 20% final de los datos...
‚úÖ MAE (camas): 81.98
‚úÖ RMSE (camas): 92.17
üìâ Error promedio porcentual: 2.96%

üè• Evaluando entrenamiento: Hospital de Vilc√∫n
üîç Extrayendo datos para: Hospital de Vilc√∫n
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando m

In [35]:
# Unir todos los resultados
df_entrenamiento_resultados = pd.concat(resultados_entrenamiento_todos, ignore_index=True)
dataframe=df_entrenamiento_resultados

dataframe_ordenado = dataframe.sort_values(by="Error Porcentual (%)", ascending=False)


dataframe_ordenado.head(50)

Unnamed: 0,Fecha,Real,Predicho,Error Absoluto,Error Porcentual (%),Hospital
2056,2023-07-01,0.0,635.734436,635.734436,inf,Hospital de Teno
2239,2024-04-01,33.0,429.653046,396.653046,1201.978926,Instituto Nacional de Rehabilitaci√≥n Infantil ...
1265,2023-09-01,80.0,305.65332,225.65332,282.06665,Hospital de Curepto
1267,2023-11-01,94.0,320.777771,226.777771,241.252948,Hospital de Curepto
1266,2023-10-01,108.0,363.086761,255.086761,236.191446,Hospital de Curepto
1268,2023-12-01,147.0,363.086761,216.086761,146.997797,Hospital de Curepto
1264,2023-08-01,129.0,302.430481,173.430481,134.442233,Hospital de Curepto
2238,2024-03-01,189.0,433.439575,244.439575,129.333109,Instituto Nacional de Rehabilitaci√≥n Infantil ...
407,2024-02-01,1397.0,2355.582764,958.582764,68.617234,"Hospital Juana Ross de Edwards (Pe√±ablanca, Vi..."
1263,2023-07-01,180.0,302.616913,122.616913,68.120507,Hospital de Curepto


In [36]:
promedio = dataframe["Error Porcentual (%)"].mean()

print("El promedio de la columna es:", promedio)


El promedio de la columna es: inf




### KERAS



In [38]:
def extraer_info_hospital_area_todo_el_a√±o(hospital_nombre):
    registros = []

    for a√±o, df in filtrado_limpio.items():
        df_seremi = seremi_data[a√±o].copy()

        # Aseguramos que 'Mes' est√© en formato datetime
        df_seremi['Mes'] = pd.to_datetime(df_seremi['Mes'], errors='coerce')
        df_seremi.dropna(subset=['Mes'], inplace=True)
        df_seremi['Mes'] = df_seremi['Mes'].dt.to_period("M").dt.to_timestamp()

        columnas_mes = [col for col in df.columns if col.startswith("20")]
        for col in columnas_mes:
            # Filtro hospitalario por hospital, √°rea ("Datos Establecimiento") y mes
            df_tmp = df[
                (df["Nombre Establecimiento"] == hospital_nombre) &
                (df["Area"] == "Datos Establecimiento")
            ][["SEREMI", "Nombre Establecimiento", "Area", "Glosa", col]].copy()

            if df_tmp.empty:
                continue

            df_tmp = df_tmp.rename(columns={col: "Valor"})
            df_tmp["Fecha"] = pd.to_datetime(col)

            # Filtro clim√°tico por seremi y mes
            clima_mes = df_seremi[df_seremi["Mes"] == df_tmp["Fecha"].iloc[0]].copy()
            df_merge = df_tmp.merge(clima_mes, on=["SEREMI"], how="left")

            registros.append(df_merge)

    if registros:
        return pd.concat(registros, ignore_index=True).sort_values("Fecha")
    else:
        print("‚ö†Ô∏è No se encontraron datos para ese hospital y √°rea.")
        return pd.DataFrame()

# Ejemplo de uso:
ejemplo_df = extraer_info_hospital_area_todo_el_a√±o(
    "Hospital Barros Luco Trudeau (Santiago, San Miguel)"
)
ejemplo_df.head()


Unnamed: 0,SEREMI,Nombre Establecimiento,Area,Glosa,Valor,Fecha,Mes,Temperatura M√°xima,Temperatura M√≠nima,Precipitaciones (suma),Direcci√≥n del Viento
0,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",Datos Establecimiento,Dias Cama Disponibles,21236.0,2014-01-01,2014-01-01,28.964516,15.748387,0.4,SW
1,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",Datos Establecimiento,Dias Cama Ocupados,20034.0,2014-01-01,2014-01-01,28.964516,15.748387,0.4,SW
2,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",Datos Establecimiento,Dias de Estada,19132.0,2014-01-01,2014-01-01,28.964516,15.748387,0.4,SW
3,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",Datos Establecimiento,Promedio Cama Disponibles,685.03,2014-01-01,2014-01-01,28.964516,15.748387,0.4,SW
4,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",Datos Establecimiento,Numero de Egresos,2311.0,2014-01-01,2014-01-01,28.964516,15.748387,0.4,SW


In [39]:
def preparar_dataset_climatico_avanzado(df):
    # Filtrar para trabajar √∫nicamente con el √°rea "Datos Establecimiento"
    if 'Area' in df.columns:
        df = df[df['Area'] == "Datos Establecimiento"].copy()
    
    # Pivotear la tabla para tener una fila por fecha y cada glosa como columna;
    # Aqu√≠ renombramos la salida a df_modelo
    df_modelo = df.pivot(index='Fecha', columns='Glosa', values='Valor').reset_index()

    # Comprobamos que est√©n todas las columnas hospitalarias necesarias
    columnas_necesarias = ['Dias Cama Disponibles', 'Dias Cama Ocupados',
                           'Promedio Cama Disponibles', 'Numero de Egresos']
    if not all(col in df_modelo.columns for col in columnas_necesarias):
        print("‚ùå Datos insuficientes para generar el modelo.")
        return None

    # Extraemos variables clim√°ticas (asumimos que son iguales por cada fecha para cada hospital)
    clima = df.drop_duplicates(subset='Fecha')[[
        'Fecha', 'Temperatura M√°xima', 'Temperatura M√≠nima',
        'Precipitaciones (suma)', 'Direcci√≥n del Viento'
    ]]

    # Merge de hospital + clima
    df_modelo = pd.merge(df_modelo, clima, on='Fecha', how='left')

    # Codificar direcci√≥n del viento
    df_modelo = pd.get_dummies(df_modelo, columns=['Direcci√≥n del Viento'], prefix='Viento')

    # Orden cronol√≥gico
    df_modelo = df_modelo.sort_values('Fecha')
    
    # Variables de tiempo
    df_modelo['Mes'] = df_modelo['Fecha'].dt.month
    df_modelo['Trimestre'] = df_modelo['Fecha'].dt.quarter

    # Lags
    df_modelo['lag_1'] = df_modelo['Dias Cama Disponibles'].shift(1)
    df_modelo['lag_2'] = df_modelo['Dias Cama Disponibles'].shift(2)
    df_modelo['lag_3'] = df_modelo['Dias Cama Disponibles'].shift(3)

    # Media m√≥vil
    df_modelo['media_movil_3'] = df_modelo['Dias Cama Disponibles'].rolling(window=3).mean()

    # Diferencias hospitalarias
    df_modelo['variacion_disponibles'] = df_modelo['Dias Cama Disponibles'].diff()
    df_modelo['porcentaje_ocupacion'] = df_modelo['Dias Cama Ocupados'] / df_modelo['Dias Cama Disponibles']
    df_modelo['ocupados_media_movil'] = df_modelo['Dias Cama Ocupados'].rolling(window=3).mean()
    df_modelo['promedio_media_movil'] = df_modelo['Promedio Cama Disponibles'].rolling(window=3).mean()
    df_modelo['egresos_media_movil'] = df_modelo['Numero de Egresos'].rolling(window=3).mean()

    # Diferencia t√©rmica
    df_modelo['Diferencia T√©rmica'] = df_modelo['Temperatura M√°xima'] - df_modelo['Temperatura M√≠nima']

    # Tendencias clim√°ticas
    df_modelo['temp_max_movil'] = df_modelo['Temperatura M√°xima'].rolling(window=3).mean()
    df_modelo['precipitacion_movil'] = df_modelo['Precipitaciones (suma)'].rolling(window=3).mean()

    # Estacionalidad
    df_modelo['same_month_last_year'] = df_modelo['Dias Cama Disponibles'].shift(12)
    df_modelo['hist_avg_mes'] = df_modelo.groupby('Mes')['Dias Cama Disponibles'].transform('mean')

    # Interacciones cruzadas
    df_modelo['interaccion_ocupacion_temp'] = df_modelo['porcentaje_ocupacion'] * df_modelo['Temperatura M√°xima']
    df_modelo['interaccion_precipitacion_disp'] = df_modelo['Precipitaciones (suma)'] * df_modelo['Dias Cama Disponibles']

    return df_modelo.dropna().copy()

# Ejemplo de uso:
df_modelo = preparar_dataset_climatico_avanzado(ejemplo_df)
df_modelo.head()


Unnamed: 0,Fecha,Dias Cama Disponibles,Dias Cama Ocupados,Dias de Estada,Egresos Fallecidos,Indice Ocupacional,Indice de Rotaci√≥n,Letalidad,Numero de Egresos,Promedio Cama Disponibles,...,ocupados_media_movil,promedio_media_movil,egresos_media_movil,Diferencia T√©rmica,temp_max_movil,precipitacion_movil,same_month_last_year,hist_avg_mes,interaccion_ocupacion_temp,interaccion_precipitacion_disp
12,2015-01-01,22005.0,20358.0,19996.0,108.0,92.52,3.25,4.68,2306.0,709.84,...,20188.666667,712.16,2276.666667,13.622581,27.016452,7.233333,21236.0,22221.5,27.906804,4401.0
13,2015-02-01,19508.0,17889.0,17825.0,93.0,91.7,2.83,4.71,1973.0,696.71,...,19435.0,702.773333,2189.333333,12.921429,28.615975,2.766667,19049.0,20142.166667,26.619444,95589.2
14,2015-03-01,22141.0,20575.0,19207.0,115.0,92.93,3.3,4.87,2359.0,714.23,...,19607.333333,706.926667,2212.666667,13.248387,29.283717,3.0,21700.0,22545.090909,26.631122,86349.9
15,2015-04-01,21852.0,19538.0,20512.0,109.0,89.41,2.97,5.04,2162.0,728.4,...,19334.0,713.113333,2164.666667,15.05,27.854434,2.966667,21314.0,21726.272727,23.136478,2185.2
16,2015-05-01,22810.0,21344.0,20084.0,121.0,93.57,3.12,5.27,2298.0,735.81,...,20485.666667,726.146667,2273.0,14.441935,25.133082,2.066667,22165.0,22535.545455,19.523552,50182.0
