### Importaciones

In [4]:
import pandas as pd
from datetime import datetime
import pandas as pd
import numpy as np
import random
from xgboost import XGBRegressor
from sklearn.model_selection import TimeSeriesSplit, GridSearchCV, train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
from statsmodels.tsa.statespace.sarimax import SARIMAX

# 
Mes -> 	Fecha del mes en formato YYYY-MM-DD. Representa el mes al que corresponden los datos clim√°ticos.
temperature_2m_max	-> Temperatura m√°xima promedio del mes medida a 2 metros de altura, en grados Celsius (¬∞C).
temperature_2m_min -> Temperatura m√≠nima promedio del mes, tambi√©n a 2 metros de altura, en grados Celsius (¬∞C).
precipitation_sum -> Precipitaci√≥n total del mes en mil√≠metros (mm). Suma de toda el agua ca√≠da durante ese mes.
winddirection_10m_dominant -> Direcci√≥n dominante del viento a 10 metros de altura, en grados. Se mide en sentido azimutal desde el norte. (Ej.: 0¬∞ = norte, 90¬∞ = este, etc.).
SEREMI -> Nombre de la regi√≥n sanitaria (SEREMI) a la que corresponde esta fila.


### Creaci√≥n de DataSet's de clima mensual por a√±o y SEREMI:

In [5]:
# 1. Cargar todos los archivos seremi
seremi_data = {
    "2014": pd.read_csv("seremi_2014.csv"),
    "2015": pd.read_csv("seremi_2015.csv"),
    "2016": pd.read_csv("seremi_2016.csv"),
    "2017": pd.read_csv("seremi_2017.csv"),
    "2018": pd.read_csv("seremi_2018.csv"),
    "2019": pd.read_csv("seremi_2019.csv"),
    "2020": pd.read_csv("seremi_2020.csv"),
    "2021": pd.read_csv("seremi_2021.csv"),
    "2022": pd.read_csv("seremi_2022.csv"),
    "2023": pd.read_csv("seremi_2023.csv"),
    "2024": pd.read_csv("seremi_2024.csv"),
    "2025": pd.read_csv("seremi_2025.csv"),
}

# 2. Funci√≥n para procesar cada dataset clim√°tico
def procesar_datasets_climaticos(seremi_data_dict):
    def grados_a_cardinal(grados):
        if pd.isna(grados):
            return None
        direcciones = ['N', 'NE', 'E', 'SE', 'S', 'SW', 'W', 'NW']
        index = int((grados + 22.5) % 360 // 45)
        return direcciones[index]

    for a√±o, df in seremi_data_dict.items():
        # Eliminar columna innecesaria
        if "Unnamed: 0" in df.columns:
            df = df.drop(columns=["Unnamed: 0"])

        # Crear columna cardinal
        if "winddirection_10m_dominant" in df.columns:
            df["wind_direction_cardinal"] = df["winddirection_10m_dominant"].apply(grados_a_cardinal)

        # Renombrar columnas
        df = df.rename(columns={
            "temperature_2m_max": "Temperatura M√°xima",
            "temperature_2m_min": "Temperatura M√≠nima",
            "precipitation_sum": "Precipitaciones (suma)",
            "winddirection_10m_dominant": "Direcci√≥n Viento"
        })

        # Limpiar columna de grados si existe y renombrar cardinal
        if "Direcci√≥n Viento" in df.columns:
            df = df.drop(columns=["Direcci√≥n Viento"])
        if "wind_direction_cardinal" in df.columns:
            df = df.rename(columns={"wind_direction_cardinal": "Direcci√≥n del Viento"})

        # Guardar el dataframe procesado
        seremi_data_dict[a√±o] = df

    return seremi_data_dict

# 3. Aplicar la funci√≥n a todos los datasets clim√°ticos
seremi_data = procesar_datasets_climaticos(seremi_data)

# 4. Verificar que todo est√© correcto (opcional)
seremi_data["2015"].head(12)

Unnamed: 0,Mes,Temperatura M√°xima,Temperatura M√≠nima,Precipitaciones (suma),SEREMI,Direcci√≥n del Viento
0,2015-01-01,12.277419,6.867742,33.7,Magallanes,W
1,2015-02-01,12.142857,7.1,36.9,Magallanes,W
2,2015-03-01,11.56129,6.393548,92.1,Magallanes,W
3,2015-04-01,9.093333,4.446667,57.9,Magallanes,W
4,2015-05-01,5.935484,2.541935,100.0,Magallanes,S
5,2015-06-01,3.943333,1.15,92.8,Magallanes,SW
6,2015-07-01,3.032258,-0.13871,98.4,Magallanes,SW
7,2015-08-01,4.180645,0.509677,59.8,Magallanes,SW
8,2015-09-01,5.266667,1.12,46.0,Magallanes,SW
9,2015-10-01,8.925806,2.803226,24.2,Magallanes,SW


### Creaci√≥n de DataSet's sobre ocupaci√≥n de camas por mes y por a√±o seg√∫n hospital y √°rea:

In [21]:
# Archivos filtrados hospitalarios
archivos_filtrados = {
    "2014": "2014_filtrado.csv",
    "2015": "2015_filtrado.csv",
    "2016": "2016_filtrado.csv",
    "2017": "2017_filtrado.csv",
    "2018": "2018_filtrado.csv",
    "2019": "2019_filtrado.csv",
    "2020": "2020_filtrado.csv",
    "2021": "2021_filtrado.csv",
    "2022": "2022_filtrado.csv",
    "2023": "2023_filtrado.csv",
    "2024": "2024_filtrado.csv",
    "2025": "2025_filtrado.csv"
}

# Diccionario para guardar los dataframes ya limpios
filtrado_limpio = {}

# Abreviaturas de los meses
meses_abreviados = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun',
                    'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

# Columnas que se eliminar√°n si existen
columnas_a_eliminar = ["C√≥d. SS/SEREMI", "C√≥d. Estab.", "C√≥d. Nivel Cuidado", "Acum", "A√±o"]

# Procesamiento de los archivos
for a√±o, archivo in archivos_filtrados.items():
    # Cargar CSV
    df = pd.read_csv(archivo)

    # Eliminar filas irrelevantes
    df = df[~df["Nombre Nivel Cuidado"].isin([
      "330 - Area Pensionado",
      "330 - √Årea Pensionado",
      "401 - √Årea M√©dica Adulto Cuidados B√°sicos",
      "402 - √Årea M√©dica Adulto Cuidados Medios",
      "403 - √Årea M√©dico-Quir√∫rgico Cuidados B√°sicos",
      "404 - √Årea M√©dico-Quir√∫rgico Cuidados Medios",
      "405 - √Årea Cuidados Intensivos Adultos",
      "406 - √Årea Cuidados Intermedios Adultos",
      "407 - √Årea M√©dica Pedi√°trica Cuidados B√°sicos",
      "408 - √Årea M√©dica Pedi√°trica Cuidados Medios",
      "409 - √Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados B√°sicos",
      "410 - √Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados Medios",
      "411 - √Årea Cuidados Intensivos Pedi√°tricos",
      "412 - √Årea Cuidados Intermedios Pedi√°tricos",
      "413 - √Årea Neonatolog√≠a Cuidados B√°sicos",
      "414 - √Årea Neonatolog√≠a Cuidados Intensivos",
      "415 - √Årea Neonatolog√≠a Cuidados Intermedios",
      "416 - √Årea Obstetricia",
      "418 - √Årea Psiquiatr√≠a Adulto Corta estad√≠a",
      "419 - √Årea Psiquiatr√≠a Adulto Mediana estad√≠a",
      "420 - √Årea Psiquiatr√≠a Adulto Larga estad√≠a",
      "421 - √Årea Psiquiatr√≠a Infanto-adolescente corta estad√≠a",
      "427 - √Årea Sociosanitaria Adulto",
      "428 - √Årea de Hospitalizaci√≥n de Cuidados Intensivos en Psiquiatr√≠a Adulto",
      "429 - √Årea de Hospitalizaci√≥n de Cuidados Intensivos en Psiquiatr√≠a Infanto Adolescente",
      "√Årea Cuidados Intensivos Adultos",
      "√Årea Cuidados Intensivos Pedi√°tricos",
      "√Årea Cuidados Intermedios Adultos",
      "√Årea Cuidados Intermedios Pedi√°tricos",
      "√Årea M√©dica Adulto Cuidados B√°sicos",
      "√Årea M√©dica Adulto Cuidados Medios",
      "√Årea M√©dica Pedi√°trica Cuidados B√°sicos",
      "√Årea M√©dica Pedi√°trica Cuidados Medios",
      "√Årea M√©dico-Quir√∫rgico Cuidados B√°sicos",
      "√Årea M√©dico-Quir√∫rgico Cuidados Medios",
      "√Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados B√°sicos",
      "√Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados Medios",
      "√Årea Neonatolog√≠a Cuidados B√°sicos",
      "√Årea Neonatolog√≠a Cuidados Intensivos",
      "√Årea Neonatolog√≠a Cuidados Intermedios",
      "√Årea Obstetricia",
      "√Årea Pensionado",
      "√Årea Psiquiatr√≠a Adulto Corta estad√≠a",
      "√Årea Psiquiatr√≠a Adulto Larga estad√≠a",
      "√Årea Psiquiatr√≠a Adulto Mediana estad√≠a",
      "√Årea Psiquiatr√≠a Infanto-adolescente corta estad√≠a"
    ]
    )].copy()

    # Eliminar columnas innecesarias
    df = df.drop(columns=columnas_a_eliminar, errors='ignore')

    # Renombrar columnas clave
    df = df.rename(columns={
        "Nombre SS/SEREMI": "SEREMI",
        "Nombre Nivel Cuidado": "Area"
    })

    # Renombrar columnas de meses abreviados por fecha
    nuevo_nombre_columnas = {}
    a√±o_int = int(a√±o)

    for i, mes_abrev in enumerate(meses_abreviados, start=1):
        if mes_abrev in df.columns:
            fecha = datetime(a√±o_int, i, 1).strftime('%Y-%m-%d')
            nuevo_nombre_columnas[mes_abrev] = fecha

    df = df.rename(columns=nuevo_nombre_columnas)

    # Guardar DataFrame limpio
    filtrado_limpio[a√±o] = df

# Ejemplo: verificar que todo carg√≥ bien
filtrado_limpio["2020"].head(50)

Unnamed: 0,SEREMI,Nombre Establecimiento,Area,Glosa,2020-01-01,2020-02-01,2020-03-01,2020-04-01,2020-05-01,2020-06-01,2020-07-01,2020-08-01,2020-09-01,2020-10-01,2020-11-01,2020-12-01
0,Datos Pa√≠s,Datos Pa√≠s,Datos Pa√≠s,Dias Cama Disponibles,800179.0,745007.0,789700.0,745965.0,802598.0,795021.0,832573.0,827810.0,779335.0,805056.0,776759.0,793770.0
1,Datos Pa√≠s,Datos Pa√≠s,Datos Pa√≠s,Dias Cama Ocupados,627256.0,577307.0,540914.0,412450.0,477211.0,498858.0,545163.0,557324.0,540777.0,567446.0,559618.0,552408.0
2,Datos Pa√≠s,Datos Pa√≠s,Datos Pa√≠s,Dias de Estada,627876.0,557377.0,602302.0,406231.0,439175.0,503875.0,548854.0,515769.0,527973.0,554252.0,532859.0,589847.0
3,Datos Pa√≠s,Datos Pa√≠s,Datos Pa√≠s,Promedio Cama Disponibles,25812.23,25689.9,25474.19,24865.5,25890.26,26500.7,26857.19,26703.55,25977.83,25969.55,25891.97,25605.48
4,Datos Pa√≠s,Datos Pa√≠s,Datos Pa√≠s,Numero de Egresos,89177.0,80451.0,79438.0,54961.0,58717.0,59720.0,65544.0,66102.0,67836.0,71445.0,70530.0,72361.0
5,Datos Pa√≠s,Datos Pa√≠s,Datos Pa√≠s,Egresos Fallecidos,2605.0,2261.0,2383.0,2246.0,3222.0,4739.0,3864.0,3381.0,3026.0,2924.0,2565.0,2799.0
6,Arica,Datos Servicio Salud,Datos Servicio Salud,Dias Cama Disponibles,9697.0,9066.0,9608.0,9660.0,9688.0,10159.0,11000.0,11674.0,11427.0,11426.0,11395.0,11337.0
7,Arica,Datos Servicio Salud,Datos Servicio Salud,Dias Cama Ocupados,8977.0,8535.0,8042.0,5209.0,6357.0,6985.0,8342.0,8989.0,8223.0,8957.0,8602.0,8269.0
8,Arica,Datos Servicio Salud,Datos Servicio Salud,Dias de Estada,8196.0,7182.0,9624.0,4785.0,5341.0,5879.0,7435.0,8042.0,7151.0,8490.0,7162.0,8778.0
9,Arica,Datos Servicio Salud,Datos Servicio Salud,Promedio Cama Disponibles,312.81,312.62,309.94,322.0,312.52,338.63,354.84,376.58,380.9,368.58,379.83,365.71


### Funci√≥n para uni√≥n de datos:

In [7]:
def extraer_info_hospital_area_todo_el_a√±o(hospital_nombre, area_nombre):
    registros = []

    for a√±o, df in filtrado_limpio.items():
        df_seremi = seremi_data[a√±o].copy()

        # Aseguramos que 'Mes' est√© en formato datetime
        df_seremi['Mes'] = pd.to_datetime(df_seremi['Mes'], errors='coerce')
        df_seremi.dropna(subset=['Mes'], inplace=True)
        df_seremi['Mes'] = df_seremi['Mes'].dt.to_period("M").dt.to_timestamp()

        columnas_mes = [col for col in df.columns if col.startswith("20")]
        for col in columnas_mes:
            # Filtro hospitalario por hospital, √°rea y mes
            df_tmp = df[
                (df["Nombre Establecimiento"] == hospital_nombre) &
                (df["Area"] == area_nombre)
            ][["SEREMI", "Nombre Establecimiento", "Area", "Glosa", col]].copy()

            if df_tmp.empty:
                continue

            df_tmp = df_tmp.rename(columns={col: "Valor"})
            df_tmp["Fecha"] = pd.to_datetime(col)

            # Filtro clim√°tico por seremi y mes
            clima_mes = df_seremi[df_seremi["Mes"] == df_tmp["Fecha"].iloc[0]].copy()
            df_merge = df_tmp.merge(clima_mes, on=["SEREMI"], how="left")

            registros.append(df_merge)

    if registros:
        return pd.concat(registros, ignore_index=True).sort_values("Fecha")
    else:
        print("‚ö†Ô∏è No se encontraron datos para ese hospital y √°rea.")
        return pd.DataFrame()

# Ejemplo de prueba
ejemplo_df = extraer_info_hospital_area_todo_el_a√±o(
    "Hospital Barros Luco Trudeau (Santiago, San Miguel)",
    "401 - √Årea M√©dica Adulto Cuidados B√°sicos"
)

dataframe=ejemplo_df

dataframe.head()

Unnamed: 0,SEREMI,Nombre Establecimiento,Area,Glosa,Valor,Fecha,Mes,Temperatura M√°xima,Temperatura M√≠nima,Precipitaciones (suma),Direcci√≥n del Viento
0,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",401 - √Årea M√©dica Adulto Cuidados B√°sicos,Dias Cama Disponibles,3469.0,2016-01-01,2016-01-01,28.664516,16.0,11.2,SW
1,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",401 - √Årea M√©dica Adulto Cuidados B√°sicos,Dias Cama Ocupados,3135.0,2016-01-01,2016-01-01,28.664516,16.0,11.2,SW
2,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",401 - √Årea M√©dica Adulto Cuidados B√°sicos,Dias de Estada,2879.0,2016-01-01,2016-01-01,28.664516,16.0,11.2,SW
3,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",401 - √Årea M√©dica Adulto Cuidados B√°sicos,Promedio Cama Disponibles,111.9,2016-01-01,2016-01-01,28.664516,16.0,11.2,SW
4,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",401 - √Årea M√©dica Adulto Cuidados B√°sicos,Numero de Egresos,332.0,2016-01-01,2016-01-01,28.664516,16.0,11.2,SW


### Preparaci√≥n de datos pre modelaci√≥n:

In [8]:
def preparar_dataset_climatico_avanzado(df):
    # Pivotear la tabla para tener una fila por fecha y cada glosa como columna
    df_pivot = df.pivot(index='Fecha', columns='Glosa', values='Valor').reset_index()

    # Comprobamos que est√©n todas las columnas hospitalarias necesarias
    columnas_necesarias = ['Dias Cama Disponibles', 'Dias Cama Ocupados',
                           'Promedio Cama Disponibles', 'Numero de Egresos']
    if not all(col in df_pivot.columns for col in columnas_necesarias):
        print("‚ùå Datos insuficientes para generar el modelo.")
        return None

    # Extraemos variables clim√°ticas (asumimos que son iguales por cada fecha para cada hospital)
    clima = df.drop_duplicates(subset='Fecha')[[
        'Fecha', 'Temperatura M√°xima', 'Temperatura M√≠nima',
        'Precipitaciones (suma)', 'Direcci√≥n del Viento'
    ]]

    # Merge de hospital + clima
    df_pivot = pd.merge(df_pivot, clima, on='Fecha', how='left')

    # Codificar direcci√≥n del viento
    df_pivot = pd.get_dummies(df_pivot, columns=['Direcci√≥n del Viento'], prefix='Viento')

    # Orden cronol√≥gico
    df_pivot = df_pivot.sort_values('Fecha')
    
    # Variables de tiempo
    df_pivot['Mes'] = df_pivot['Fecha'].dt.month
    df_pivot['Trimestre'] = df_pivot['Fecha'].dt.quarter

    # Lags
    df_pivot['lag_1'] = df_pivot['Dias Cama Disponibles'].shift(1)
    df_pivot['lag_2'] = df_pivot['Dias Cama Disponibles'].shift(2)
    df_pivot['lag_3'] = df_pivot['Dias Cama Disponibles'].shift(3)

    # Media m√≥vil
    df_pivot['media_movil_3'] = df_pivot['Dias Cama Disponibles'].rolling(window=3).mean()

    # Diferencias hospitalarias
    df_pivot['variacion_disponibles'] = df_pivot['Dias Cama Disponibles'].diff()
    df_pivot['porcentaje_ocupacion'] = df_pivot['Dias Cama Ocupados'] / df_pivot['Dias Cama Disponibles']
    df_pivot['ocupados_media_movil'] = df_pivot['Dias Cama Ocupados'].rolling(window=3).mean()
    df_pivot['promedio_media_movil'] = df_pivot['Promedio Cama Disponibles'].rolling(window=3).mean()
    df_pivot['egresos_media_movil'] = df_pivot['Numero de Egresos'].rolling(window=3).mean()

    # Diferencia t√©rmica
    df_pivot['Diferencia T√©rmica'] = df_pivot['Temperatura M√°xima'] - df_pivot['Temperatura M√≠nima']

    # Tendencias clim√°ticas
    df_pivot['temp_max_movil'] = df_pivot['Temperatura M√°xima'].rolling(window=3).mean()
    df_pivot['precipitacion_movil'] = df_pivot['Precipitaciones (suma)'].rolling(window=3).mean()

    # Estacionalidad
    df_pivot['same_month_last_year'] = df_pivot['Dias Cama Disponibles'].shift(12)
    df_pivot['hist_avg_mes'] = df_pivot.groupby('Mes')['Dias Cama Disponibles'].transform('mean')

    # Interacciones cruzadas
    df_pivot['interaccion_ocupacion_temp'] = df_pivot['porcentaje_ocupacion'] * df_pivot['Temperatura M√°xima']
    df_pivot['interaccion_precipitacion_disp'] = df_pivot['Precipitaciones (suma)'] * df_pivot['Dias Cama Disponibles']

    return df_pivot.dropna().copy()



### Automatizaci√≥n de extraci√≥n de datos y preparaci√≥n de dataset - MODELO XGBOOST:

Estamos prediciendo aproximadamente el 20% de los meses m√°s recientes del historial disponible para ese hospital y √°rea. Por ejemplo:

Si el hospital tiene datos desde 2014 hasta 2025, son 12 a√±os √ó 12 meses = 144 - 10 (meses faltantes del 2025) -> 134 meses totales.

El 20% de 134 son aprox 27 meses -> estamos prediciendo los √∫ltimos 27 meses, desde fines de 2022 hasta marzo de 2025 (en nuestro caso actual).

In [9]:
def pipeline_final_mae_reducido(hospital, area):
    print(f"üîç Extrayendo datos para: {hospital} | {area}")
    df_base = extraer_info_hospital_area_todo_el_a√±o(hospital, area)

    if df_base.empty:
        print("‚ùå No se encontraron datos para el hospital o √°rea especificada.")
        return None

    print("üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...")
    df_modelo = preparar_dataset_climatico_avanzado(df_base)

    if df_modelo is None or df_modelo.empty:
        print("‚ùå No se pudo preparar el dataset.")
        return None

    # Selecci√≥n de features
    features = [
        'Dias Cama Ocupados', 'Promedio Cama Disponibles', 'Numero de Egresos',
        'Mes', 'Trimestre', 'lag_1', 'lag_2', 'lag_3', 'media_movil_3',
        'porcentaje_ocupacion', 'variacion_disponibles',
        'ocupados_media_movil', 'promedio_media_movil', 'egresos_media_movil',
        'Temperatura M√°xima', 'Temperatura M√≠nima', 'Precipitaciones (suma)',
        'Diferencia T√©rmica', 'temp_max_movil', 'precipitacion_movil',
        'same_month_last_year', 'hist_avg_mes',
        'interaccion_ocupacion_temp', 'interaccion_precipitacion_disp'
    ] + [col for col in df_modelo.columns if col.startswith('Viento_')]

    # Divisi√≥n temporal
    X = df_modelo[features]
    y = df_modelo['Dias Cama Disponibles']
    X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=False, test_size=0.2)

    print("üîß Ajustando modelo con GridSearchCV...")
    param_grid = {
        'n_estimators': [50, 100],
        'max_depth': [2, 3],
        'learning_rate': [0.05, 0.1]
    }

    model = XGBRegressor(n_jobs=1, random_state=42)
    grid_search = GridSearchCV(
        estimator=model,
        param_grid=param_grid,
        scoring='neg_mean_absolute_error',
        cv=TimeSeriesSplit(n_splits=3),
        verbose=1
    )
    grid_search.fit(X_train, y_train)
    mejor_modelo = grid_search.best_estimator_
    print("üìå Mejores par√°metros encontrados:", grid_search.best_params_)

    print("üìä Evaluando sobre el 20% final de los datos...")

    # Predicci√≥n
    y_pred = mejor_modelo.predict(X_test)

    # C√°lculo de m√©tricas
    mae = mean_absolute_error(y_test, y_pred)
    rmse = mean_squared_error(y_test, y_pred) ** 0.5
    error_pct = np.mean(np.abs((y_test.values - y_pred) / y_test.values)) * 100

    # Resultado detallado con valores reales y predichos
    resultados = pd.DataFrame({
        'Fecha': df_modelo['Fecha'].iloc[-len(y_test):].values,
        'Real': y_test.values,                  # üîπ Valores reales observados
        'Predicho': y_pred,                     # üîπ Valores predichos por el modelo
        'Error Absoluto': np.abs(y_test.values - y_pred),
        'Error Porcentual (%)': np.abs((y_test.values - y_pred) / y_test.values) * 100
    })

    # Reporte resumen
    print(f"‚úÖ MAE (camas): {mae:.2f}")
    print(f"‚úÖ RMSE (camas): {rmse:.2f}")
    print(f"üìâ Error promedio porcentual: {error_pct:.2f}%")

    return resultados



### Ejemplo de uso - MODELO XGBOOST:

In [10]:
resultados_final = pipeline_final_mae_reducido(
    "Hospital Barros Luco Trudeau (Santiago, San Miguel)",
    "401 - √Årea M√©dica Adulto Cuidados B√°sicos"
)

display(resultados_final)

üîç Extrayendo datos para: Hospital Barros Luco Trudeau (Santiago, San Miguel) | 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
Fitting 3 folds for each of 8 candidates, totalling 24 fits
üìå Mejores par√°metros encontrados: {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 100}
üìä Evaluando sobre el 20% final de los datos...
‚úÖ MAE (camas): 56.44
‚úÖ RMSE (camas): 78.82
üìâ Error promedio porcentual: 2.65%


Unnamed: 0,Fecha,Real,Predicho,Error Absoluto,Error Porcentual (%)
0,2023-07-01,2325.0,2275.050049,49.949951,2.148385
1,2023-08-01,2325.0,2280.936523,44.063477,1.895203
2,2023-09-01,2252.0,2310.750488,58.750488,2.608814
3,2023-10-01,2334.0,2330.941162,3.058838,0.131056
4,2023-11-01,2252.0,2313.443604,61.443604,2.728402
5,2023-12-01,2144.0,2099.135254,44.864746,2.092572
6,2024-01-01,2146.0,2104.379639,41.620361,1.939439
7,2024-02-01,2035.0,2025.235718,9.764282,0.479817
8,2024-03-01,2458.0,2339.99292,118.00708,4.800939
9,2024-04-01,2400.0,2326.737061,73.262939,3.052622


### Ejemplo de uso extendido a mas hospitales - MODELO XGBOOST:

In [11]:
# 1. Funci√≥n para extraer todos los pares √∫nicos (hospital, √°rea)
def extraer_hospitales_y_areas_validos(filtrado_limpio):
    pares_hospital_area = set()
    for df in filtrado_limpio.values():
        if "Nombre Establecimiento" in df.columns and "Area" in df.columns:
            pares = df[["Nombre Establecimiento", "Area"]].dropna().drop_duplicates()
            for _, row in pares.iterrows():
                pares_hospital_area.add((row["Nombre Establecimiento"], row["Area"]))
    return sorted(list(pares_hospital_area))

# 2. Obtener los pares v√°lidos y limitar a los primeros 30
hospitales_areas_validos = extraer_hospitales_y_areas_validos(filtrado_limpio)
pares_a_evaluar = hospitales_areas_validos[:30]

# 3. Evaluar modelo para cada hospital
resultados_todos = {}

for hospital, area in pares_a_evaluar:
    try:
        print("\n==========================")
        print(f"üè• Evaluando: {hospital} | √Årea: {area}")
        print("==========================")
        resultados = pipeline_final_mae_reducido(hospital, area)
        if resultados is not None:
            resultados_todos[f"{hospital} | {area}"] = resultados
    except Exception as e:
        print(f"‚ùå Error en {hospital} con √°rea {area}: {e}")
        continue

# 4. Crear tabla resumen
tabla_resumen = []

for nombre_completo, resultados in resultados_todos.items():
    if "Error Absoluto" in resultados.columns and "Error Porcentual (%)" in resultados.columns:
        hospital, area = nombre_completo.split(" | ", 1)
        mae = resultados["Error Absoluto"].mean()
        error_pct = resultados["Error Porcentual (%)"].mean()
        tabla_resumen.append({
            "Hospital": hospital,
            "√Årea": area,
            "MAE (camas)": round(mae, 2),
            "Error Porcentual Promedio (%)": round(error_pct, 2)
        })

# 5. Mostrar tabla ordenada
df_tabla_resumen = pd.DataFrame(tabla_resumen).sort_values("MAE (camas)").reset_index(drop=True)
display(df_tabla_resumen)




üè• Evaluando: Complejo Hospitalario San Jos√© (Santiago, Independencia) | √Årea: 330 - √Årea Pensionado
üîç Extrayendo datos para: Complejo Hospitalario San Jos√© (Santiago, Independencia) | 330 - √Årea Pensionado
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
‚ùå No se pudo preparar el dataset.

üè• Evaluando: Complejo Hospitalario San Jos√© (Santiago, Independencia) | √Årea: 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üîç Extrayendo datos para: Complejo Hospitalario San Jos√© (Santiago, Independencia) | 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
Fitting 3 folds for each of 8 candidates, totalling 24 fits
üìå Mejores par√°metros encontrados: {'learning_rate': 0.05, 'max_depth': 3, 'n_estimators': 50}
üìä Evaluando sobre el 20% final de los datos...
‚úÖ MAE (camas): 190.52
‚úÖ RMSE (camas): 238.21
üìâ Error promedio porce

Unnamed: 0,Hospital,√Årea,MAE (camas),Error Porcentual Promedio (%)
0,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Neonatolog√≠a Cuidados Intermedios,0.51,0.06
1,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Cuidados Intensivos Adultos,0.76,0.23
2,Hospital Adalberto Steeger (Talagante),405 - √Årea Cuidados Intensivos Adultos,1.05,0.6
3,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Cuidados Intermedios Adultos,1.36,0.14
4,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Pensionado,2.43,0.4
5,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Neonatolog√≠a Cuidados Intensivos,4.35,1.08
6,"Complejo Hospitalario San Jos√© (Santiago, Inde...",413 - √Årea Neonatolog√≠a Cuidados B√°sicos,4.5,0.92
7,Hospital Adalberto Steeger (Talagante),407 - √Årea M√©dica Pedi√°trica Cuidados B√°sicos,6.44,3.8
8,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Neonatolog√≠a Cuidados B√°sicos,7.63,1.8
9,"Complejo Hospitalario San Jos√© (Santiago, Inde...",414 - √Årea Neonatolog√≠a Cuidados Intensivos,8.1,2.4


### Listado y cantidad de hospitales con los que trabaja el modelo:

In [12]:
def obtener_lista_hospitales(filtrado_limpio):
    hospitales = set()
    
    for a√±o, df in filtrado_limpio.items():
        if "Nombre Establecimiento" in df.columns:
            hospitales.update(df["Nombre Establecimiento"].dropna().unique())
    
    return sorted(list(hospitales))


In [13]:
lista_hospitales = obtener_lista_hospitales(filtrado_limpio)
print(f"Se encontraron {len(lista_hospitales)} hospitales.")
for h in lista_hospitales[:10]:  # muestra los primeros 10 como ejemplo
    print("üè•", h)


Se encontraron 92 hospitales.
üè• Complejo Hospitalario San Jos√© (Santiago, Independencia)
üè• Hospital Adalberto Steeger (Talagante)
üè• Hospital Adriana Cousi√±o (Quintero)
üè• Hospital Barros Luco Trudeau (Santiago, San Miguel)
üè• Hospital Carlos Van Buren (Valpara√≠so)
üè• Hospital Centro Geri√°trico Paz de la Tarde (Limache)
üè• Hospital Clorinda Avello (Santa Juana)
üè• Hospital Cl√≠nico Herminda Mart√≠n (Chill√°n)
üè• Hospital Comunitario de Salud Familiar Pedro Morales Campos (Yungay)
üè• Hospital Comunitario de Salud Familiar de Bulnes


# 
92 hospitales comunes entre 2014 y 2025

### Listado y cantidad de √Åreas M√©dicas con los que trabaja el modelo:

In [14]:
def obtener_lista_areas(filtrado_limpio):
    areas = set()
    
    for a√±o, df in filtrado_limpio.items():
        if "Area" in df.columns:
            areas.update(df["Area"].dropna().unique())
    
    return sorted(list(areas))


In [15]:
lista_areas = obtener_lista_areas(filtrado_limpio)
print(f"Se encontraron {len(lista_areas)} √°reas m√©dicas.")
for a in lista_areas[:48]:  # muestra las primeras 10 como ejemplo
    print("üìå", a)


Se encontraron 47 √°reas m√©dicas.
üìå 330 - Area Pensionado
üìå 330 - √Årea Pensionado
üìå 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üìå 402 - √Årea M√©dica Adulto Cuidados Medios
üìå 403 - √Årea M√©dico-Quir√∫rgico Cuidados B√°sicos
üìå 404 - √Årea M√©dico-Quir√∫rgico Cuidados Medios
üìå 405 - √Årea Cuidados Intensivos Adultos
üìå 406 - √Årea Cuidados Intermedios Adultos
üìå 407 - √Årea M√©dica Pedi√°trica Cuidados B√°sicos
üìå 408 - √Årea M√©dica Pedi√°trica Cuidados Medios
üìå 409 - √Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados B√°sicos
üìå 410 - √Årea M√©dico-Quir√∫rgico Pedi√°trica Cuidados Medios
üìå 411 - √Årea Cuidados Intensivos Pedi√°tricos
üìå 412 - √Årea Cuidados Intermedios Pedi√°tricos
üìå 413 - √Årea Neonatolog√≠a Cuidados B√°sicos
üìå 414 - √Årea Neonatolog√≠a Cuidados Intensivos
üìå 415 - √Årea Neonatolog√≠a Cuidados Intermedios
üìå 416 - √Årea Obstetricia
üìå 418 - √Årea Psiquiatr√≠a Adulto Corta estad√≠a
üìå 419 - √Årea Psiquiatr√≠a Adulto Me

### XGBOOST para predicci√≥n futura: (MODO ENTRENAMIENTO)

In [32]:
def predecir_camas_mes_futuro(hospital, area, modo="entrenamiento", mes_futuro=None):
    print(f"üîç Extrayendo datos para: {hospital} | {area}")
    df_base = extraer_info_hospital_area_todo_el_a√±o(hospital, area)

    if df_base.empty:
        print("‚ùå No se encontraron datos para el hospital o √°rea especificada.")
        return None

    print("üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...")
    df_modelo = preparar_dataset_climatico_avanzado(df_base)

    if df_modelo is None or df_modelo.empty:
        print("‚ùå No se pudo preparar el dataset.")
        return None

    # Selecci√≥n de features
    features = [
        'Dias Cama Ocupados', 'Promedio Cama Disponibles', 'Numero de Egresos',
        'Mes', 'Trimestre', 'lag_1', 'lag_2', 'lag_3', 'media_movil_3',
        'porcentaje_ocupacion', 'variacion_disponibles',
        'ocupados_media_movil', 'promedio_media_movil', 'egresos_media_movil',
        'Temperatura M√°xima', 'Temperatura M√≠nima', 'Precipitaciones (suma)',
        'Diferencia T√©rmica', 'temp_max_movil', 'precipitacion_movil',
        'same_month_last_year', 'hist_avg_mes',
        'interaccion_ocupacion_temp', 'interaccion_precipitacion_disp'
    ] + [col for col in df_modelo.columns if col.startswith('Viento_')]

    X = df_modelo[features]
    y = df_modelo['Dias Cama Disponibles']

    if modo == "entrenamiento":
        # Divisi√≥n entrenamiento/test
        X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=False, test_size=0.2)

        print("üîß Ajustando modelo con GridSearchCV...")
        param_grid = {
            'n_estimators': [50, 100],
            'max_depth': [2, 3],
            'learning_rate': [0.05, 0.1]
        }

        model = XGBRegressor(n_jobs=1, random_state=42)
        grid_search = GridSearchCV(
            estimator=model,
            param_grid=param_grid,
            scoring='neg_mean_absolute_error',
            cv=TimeSeriesSplit(n_splits=3),
            verbose=0
        )
        grid_search.fit(X_train, y_train)
        mejor_modelo = grid_search.best_estimator_

        print("üìå Mejores par√°metros encontrados:", grid_search.best_params_)
        print("üìä Evaluando sobre el 20% final de los datos...")

        y_pred = mejor_modelo.predict(X_test)
        mae = mean_absolute_error(y_test, y_pred)
        rmse = mean_squared_error(y_test, y_pred) ** 0.5
        error_pct = np.mean(np.abs((y_test.values - y_pred) / y_test.values)) * 100

        print(f"‚úÖ MAE (camas): {mae:.2f}")
        print(f"‚úÖ RMSE (camas): {rmse:.2f}")
        print(f"üìâ Error promedio porcentual: {error_pct:.2f}%")

        resultados = pd.DataFrame({
            'Fecha': df_modelo['Fecha'].iloc[-len(y_test):].values,
            'Real': y_test.values,
            'Predicho': y_pred,
            'Error Absoluto': np.abs(y_test.values - y_pred),
            'Error Porcentual (%)': np.abs((y_test.values - y_pred) / y_test.values) * 100
        })

        return resultados

    else:
        print("‚ö†Ô∏è Modo no reconocido o no implementado a√∫n.")
        return None



In [37]:
# Crear resultados para entrenamiento iterando hospitales
resultados_entrenamiento_todos = []

for hospital in lista_hospitales:

    if not lista_areas:
        continue

    area_random = random.choice(lista_areas)
    try:
        print("\n==========================")
        print(f"üè• Evaluando entrenamiento: {hospital} | √Årea aleatoria: {area_random}")
        print("==========================")

        resultado_entrenamiento = predecir_camas_mes_futuro(
            hospital=hospital,
            area=area_random,
            modo="entrenamiento"
        )

        if resultado_entrenamiento is not None:
            resultado_entrenamiento["Hospital"] = hospital
            resultado_entrenamiento["√Årea"] = area_random
            resultados_entrenamiento_todos.append(resultado_entrenamiento)

    except Exception as e:
        print(f"‚ùå Error en {hospital} | √Årea: {area_random} -> {e}")
        continue





üè• Evaluando entrenamiento: Complejo Hospitalario San Jos√© (Santiago, Independencia) | √Årea aleatoria: √Årea M√©dico-Quir√∫rgico Cuidados Medios
üîç Extrayendo datos para: Complejo Hospitalario San Jos√© (Santiago, Independencia) | √Årea M√©dico-Quir√∫rgico Cuidados Medios
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
üìå Mejores par√°metros encontrados: {'learning_rate': 0.05, 'max_depth': 2, 'n_estimators': 100}
üìä Evaluando sobre el 20% final de los datos...
‚úÖ MAE (camas): 102.61
‚úÖ RMSE (camas): 112.80
üìâ Error promedio porcentual: 3.30%

üè• Evaluando entrenamiento: Hospital Adalberto Steeger (Talagante) | √Årea aleatoria: 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üîç Extrayendo datos para: Hospital Adalberto Steeger (Talagante) | 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSear

Unnamed: 0,Fecha,Real,Predicho,Error Absoluto,Error Porcentual (%),Hospital,√Årea
0,2015-10-01,3363.0,3324.772949,38.227051,1.136695,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea M√©dico-Quir√∫rgico Cuidados Medios
1,2015-11-01,2830.0,2681.626953,148.373047,5.242864,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea M√©dico-Quir√∫rgico Cuidados Medios
2,2015-12-01,3446.0,3324.772949,121.227051,3.517906,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea M√©dico-Quir√∫rgico Cuidados Medios
3,2020-09-01,678.0,674.895386,3.104614,0.457908,Hospital Adalberto Steeger (Talagante),401 - √Årea M√©dica Adulto Cuidados B√°sicos
4,2020-10-01,711.0,706.427002,4.572998,0.643178,Hospital Adalberto Steeger (Talagante),401 - √Årea M√©dica Adulto Cuidados B√°sicos
...,...,...,...,...,...,...,...
242,2024-10-01,2954.0,2268.814453,685.185547,23.195178,Hospital de Villarrica,Datos Establecimiento
243,2024-11-01,2774.0,2141.202637,632.797363,22.811729,Hospital de Villarrica,Datos Establecimiento
244,2024-12-01,3008.0,2267.984619,740.015381,24.601575,Hospital de Villarrica,Datos Establecimiento
245,2025-01-01,3012.0,2237.214844,774.785156,25.723279,Hospital de Villarrica,Datos Establecimiento


In [40]:
# Unir todos los resultados
df_entrenamiento_resultados = pd.concat(resultados_entrenamiento_todos, ignore_index=True)
dataframe=df_entrenamiento_resultados

dataframe_ordenado = dataframe.sort_values(by="Error Porcentual (%)", ascending=False)


dataframe_ordenado.head(50)

Unnamed: 0,Fecha,Real,Predicho,Error Absoluto,Error Porcentual (%),Hospital,√Årea
201,2025-02-01,172.0,383.393219,211.393219,122.903034,Hospital de Salamanca,401 - √Årea M√©dica Adulto Cuidados B√°sicos
193,2024-06-01,186.0,398.997833,212.997833,114.514964,Hospital de Salamanca,401 - √Årea M√©dica Adulto Cuidados B√°sicos
199,2024-12-01,191.0,398.10968,207.10968,108.434388,Hospital de Salamanca,401 - √Årea M√©dica Adulto Cuidados B√°sicos
200,2025-01-01,195.0,399.901489,204.901489,105.077687,Hospital de Salamanca,401 - √Årea M√©dica Adulto Cuidados B√°sicos
198,2024-11-01,192.0,391.026093,199.026093,103.659423,Hospital de Salamanca,401 - √Årea M√©dica Adulto Cuidados B√°sicos
192,2024-05-01,193.0,391.12088,198.12088,102.653306,Hospital de Salamanca,401 - √Årea M√©dica Adulto Cuidados B√°sicos
189,2024-02-01,203.0,392.245361,189.245361,93.224316,Hospital de Salamanca,401 - √Årea M√©dica Adulto Cuidados B√°sicos
191,2024-04-01,207.0,389.709839,182.709839,88.265623,Hospital de Salamanca,401 - √Årea M√©dica Adulto Cuidados B√°sicos
188,2024-01-01,208.0,391.263,183.263,88.107212,Hospital de Salamanca,401 - √Årea M√©dica Adulto Cuidados B√°sicos
190,2024-03-01,219.0,402.801697,183.801697,83.927715,Hospital de Salamanca,401 - √Årea M√©dica Adulto Cuidados B√°sicos


In [41]:
promedio = dataframe["Error Porcentual (%)"].mean()

print("El promedio de la columna es:", promedio)


El promedio de la columna es: 9.998263622142609
