In [68]:
import pandas as pd
from datetime import datetime

In [69]:
"""
Mes -> 	Fecha del mes en formato YYYY-MM-DD. Representa el mes al que corresponden los datos clim√°ticos.
temperature_2m_max	-> Temperatura m√°xima promedio del mes medida a 2 metros de altura, en grados Celsius (¬∞C).
temperature_2m_min -> Temperatura m√≠nima promedio del mes, tambi√©n a 2 metros de altura, en grados Celsius (¬∞C).
precipitation_sum -> Precipitaci√≥n total del mes en mil√≠metros (mm). Suma de toda el agua ca√≠da durante ese mes.
winddirection_10m_dominant -> Direcci√≥n dominante del viento a 10 metros de altura, en grados. Se mide en sentido azimutal desde el norte. (Ej.: 0¬∞ = norte, 90¬∞ = este, etc.).
SEREMI -> Nombre de la regi√≥n sanitaria (SEREMI) a la que corresponde esta fila.
"""

'\nMes -> \tFecha del mes en formato YYYY-MM-DD. Representa el mes al que corresponden los datos clim√°ticos.\ntemperature_2m_max\t-> Temperatura m√°xima promedio del mes medida a 2 metros de altura, en grados Celsius (¬∞C).\ntemperature_2m_min -> Temperatura m√≠nima promedio del mes, tambi√©n a 2 metros de altura, en grados Celsius (¬∞C).\nprecipitation_sum -> Precipitaci√≥n total del mes en mil√≠metros (mm). Suma de toda el agua ca√≠da durante ese mes.\nwinddirection_10m_dominant -> Direcci√≥n dominante del viento a 10 metros de altura, en grados. Se mide en sentido azimutal desde el norte. (Ej.: 0¬∞ = norte, 90¬∞ = este, etc.).\nSEREMI -> Nombre de la regi√≥n sanitaria (SEREMI) a la que corresponde esta fila.\n'

### Creaci√≥n de DataSet's de clima mensual por a√±o y SEREMI:

In [70]:
# 1. Cargar todos los archivos seremi
seremi_data = {
    "2014": pd.read_csv("seremi_2014.csv"),
    "2015": pd.read_csv("seremi_2015.csv"),
    "2016": pd.read_csv("seremi_2016.csv"),
    "2017": pd.read_csv("seremi_2017.csv"),
    "2018": pd.read_csv("seremi_2018.csv"),
    "2019": pd.read_csv("seremi_2019.csv"),
    "2020": pd.read_csv("seremi_2020.csv"),
    "2021": pd.read_csv("seremi_2021.csv"),
    "2022": pd.read_csv("seremi_2022.csv"),
    "2023": pd.read_csv("seremi_2023.csv"),
    "2024": pd.read_csv("seremi_2024.csv"),
    "2025": pd.read_csv("seremi_2025.csv"),
}

# 2. Funci√≥n para procesar cada dataset clim√°tico
def procesar_datasets_climaticos(seremi_data_dict):
    def grados_a_cardinal(grados):
        if pd.isna(grados):
            return None
        direcciones = ['N', 'NE', 'E', 'SE', 'S', 'SW', 'W', 'NW']
        index = int((grados + 22.5) % 360 // 45)
        return direcciones[index]

    for a√±o, df in seremi_data_dict.items():
        # Eliminar columna innecesaria
        if "Unnamed: 0" in df.columns:
            df = df.drop(columns=["Unnamed: 0"])

        # Crear columna cardinal
        if "winddirection_10m_dominant" in df.columns:
            df["wind_direction_cardinal"] = df["winddirection_10m_dominant"].apply(grados_a_cardinal)

        # Renombrar columnas
        df = df.rename(columns={
            "temperature_2m_max": "Temperatura M√°xima",
            "temperature_2m_min": "Temperatura M√≠nima",
            "precipitation_sum": "Precipitaciones (suma)",
            "winddirection_10m_dominant": "Direcci√≥n Viento"
        })

        # Limpiar columna de grados si existe y renombrar cardinal
        if "Direcci√≥n Viento" in df.columns:
            df = df.drop(columns=["Direcci√≥n Viento"])
        if "wind_direction_cardinal" in df.columns:
            df = df.rename(columns={"wind_direction_cardinal": "Direcci√≥n del Viento"})

        # Guardar el dataframe procesado
        seremi_data_dict[a√±o] = df

    return seremi_data_dict

# 3. Aplicar la funci√≥n a todos los datasets clim√°ticos
seremi_data = procesar_datasets_climaticos(seremi_data)

# 4. Verificar que todo est√© correcto (opcional)
seremi_data["2015"].head(12)

Unnamed: 0,Mes,Temperatura M√°xima,Temperatura M√≠nima,Precipitaciones (suma),SEREMI,Direcci√≥n del Viento
0,2015-01-01,12.277419,6.867742,33.7,Magallanes,W
1,2015-02-01,12.142857,7.1,36.9,Magallanes,W
2,2015-03-01,11.56129,6.393548,92.1,Magallanes,W
3,2015-04-01,9.093333,4.446667,57.9,Magallanes,W
4,2015-05-01,5.935484,2.541935,100.0,Magallanes,S
5,2015-06-01,3.943333,1.15,92.8,Magallanes,SW
6,2015-07-01,3.032258,-0.13871,98.4,Magallanes,SW
7,2015-08-01,4.180645,0.509677,59.8,Magallanes,SW
8,2015-09-01,5.266667,1.12,46.0,Magallanes,SW
9,2015-10-01,8.925806,2.803226,24.2,Magallanes,SW


### Creaci√≥n de DataSet's sobre ocupaci√≥n de camas por mes y por a√±o seg√∫n hospital y √°rea:

In [71]:
# Archivos filtrados hospitalarios
archivos_filtrados = {
    "2014": "2014_filtrado.csv",
    "2015": "2015_filtrado.csv",
    "2016": "2016_filtrado.csv",
    "2017": "2017_filtrado.csv",
    "2018": "2018_filtrado.csv",
    "2019": "2019_filtrado.csv",
    "2020": "2020_filtrado.csv",
    "2021": "2021_filtrado.csv",
    "2022": "2022_filtrado.csv",
    "2023": "2023_filtrado.csv",
    "2024": "2024_filtrado.csv",
    "2025": "2025_filtrado.csv"
}

# Diccionario para guardar los dataframes ya limpios
filtrado_limpio = {}

# Abreviaturas de los meses
meses_abreviados = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun',
                    'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

# Columnas que se eliminar√°n si existen
columnas_a_eliminar = ["C√≥d. SS/SEREMI", "C√≥d. Estab.", "C√≥d. Nivel Cuidado", "Acum", "A√±o"]

# Procesamiento de los archivos
for a√±o, archivo in archivos_filtrados.items():
    # Cargar CSV
    df = pd.read_csv(archivo)

    # Eliminar filas irrelevantes
    df = df[~df["Nombre Establecimiento"].isin(["Datos Pa√≠s", "Datos Servicio Salud"])].copy()

    # Eliminar columnas innecesarias
    df = df.drop(columns=columnas_a_eliminar, errors='ignore')

    # Renombrar columnas clave
    df = df.rename(columns={
        "Nombre SS/SEREMI": "SEREMI",
        "Nombre Nivel Cuidado": "Area"
    })

    # Renombrar columnas de meses abreviados por fecha
    nuevo_nombre_columnas = {}
    a√±o_int = int(a√±o)

    for i, mes_abrev in enumerate(meses_abreviados, start=1):
        if mes_abrev in df.columns:
            fecha = datetime(a√±o_int, i, 1).strftime('%Y-%m-%d')
            nuevo_nombre_columnas[mes_abrev] = fecha

    df = df.rename(columns=nuevo_nombre_columnas)

    # Guardar DataFrame limpio
    filtrado_limpio[a√±o] = df

# Ejemplo: verificar que todo carg√≥ bien
filtrado_limpio["2020"].head()


Unnamed: 0,SEREMI,Nombre Establecimiento,Area,Glosa,2020-01-01,2020-02-01,2020-03-01,2020-04-01,2020-05-01,2020-06-01,2020-07-01,2020-08-01,2020-09-01,2020-10-01,2020-11-01,2020-12-01
24,Antofagasta,Hospital de Mejillones,Datos Establecimiento,Dias Cama Disponibles,279.0,261.0,279.0,270.0,279.0,270.0,279.0,279.0,270.0,270.0,270.0,279.0
25,Antofagasta,Hospital de Mejillones,Datos Establecimiento,Dias Cama Ocupados,79.0,65.0,43.0,256.0,8.0,35.0,45.0,72.0,130.0,74.0,36.0,48.0
26,Antofagasta,Hospital de Mejillones,Datos Establecimiento,Dias de Estada,79.0,65.0,43.0,256.0,8.0,35.0,45.0,72.0,130.0,74.0,36.0,48.0
27,Antofagasta,Hospital de Mejillones,Datos Establecimiento,Promedio Cama Disponibles,9.0,9.0,9.0,9.0,9.0,9.0,9.0,9.0,9.0,8.71,9.0,9.0
28,Antofagasta,Hospital de Mejillones,Datos Establecimiento,Numero de Egresos,13.0,21.0,13.0,14.0,4.0,12.0,6.0,10.0,11.0,13.0,11.0,13.0


### Uni√≥n de datos:

In [72]:
#
def extraer_info_hospital_area_todo_el_a√±o(hospital_nombre, area_nombre):
    registros = []

    for a√±o, df in filtrado_limpio.items():
        df_seremi = seremi_data[a√±o].copy()

        # Aseguramos que 'Mes' est√© en formato datetime
        df_seremi['Mes'] = pd.to_datetime(df_seremi['Mes'], errors='coerce')
        df_seremi.dropna(subset=['Mes'], inplace=True)
        df_seremi['Mes'] = df_seremi['Mes'].dt.to_period("M").dt.to_timestamp()

        columnas_mes = [col for col in df.columns if col.startswith("20")]
        for col in columnas_mes:
            # Filtro hospitalario por hospital, √°rea y mes
            df_tmp = df[
                (df["Nombre Establecimiento"] == hospital_nombre) &
                (df["Area"] == area_nombre)
            ][["SEREMI", "Nombre Establecimiento", "Area", "Glosa", col]].copy()

            if df_tmp.empty:
                continue

            df_tmp = df_tmp.rename(columns={col: "Valor"})
            df_tmp["Fecha"] = pd.to_datetime(col)

            # Filtro clim√°tico por seremi y mes
            clima_mes = df_seremi[df_seremi["Mes"] == df_tmp["Fecha"].iloc[0]].copy()
            df_merge = df_tmp.merge(clima_mes, on=["SEREMI"], how="left")

            registros.append(df_merge)

    if registros:
        return pd.concat(registros, ignore_index=True).sort_values("Fecha")
    else:
        print("‚ö†Ô∏è No se encontraron datos para ese hospital y √°rea.")
        return pd.DataFrame()

# Ejemplo de prueba
ejemplo_df = extraer_info_hospital_area_todo_el_a√±o(
    "Hospital Barros Luco Trudeau (Santiago, San Miguel)",
    "401 - √Årea M√©dica Adulto Cuidados B√°sicos"
)

dataframe=ejemplo_df

dataframe.head()


           


Unnamed: 0,SEREMI,Nombre Establecimiento,Area,Glosa,Valor,Fecha,Mes,Temperatura M√°xima,Temperatura M√≠nima,Precipitaciones (suma),Direcci√≥n del Viento
0,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",401 - √Årea M√©dica Adulto Cuidados B√°sicos,Dias Cama Disponibles,3469.0,2016-01-01,2016-01-01,28.664516,16.0,11.2,SW
1,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",401 - √Årea M√©dica Adulto Cuidados B√°sicos,Dias Cama Ocupados,3135.0,2016-01-01,2016-01-01,28.664516,16.0,11.2,SW
2,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",401 - √Årea M√©dica Adulto Cuidados B√°sicos,Dias de Estada,2879.0,2016-01-01,2016-01-01,28.664516,16.0,11.2,SW
3,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",401 - √Årea M√©dica Adulto Cuidados B√°sicos,Promedio Cama Disponibles,111.9,2016-01-01,2016-01-01,28.664516,16.0,11.2,SW
4,Metropolitano Sur,"Hospital Barros Luco Trudeau (Santiago, San Mi...",401 - √Årea M√©dica Adulto Cuidados B√°sicos,Numero de Egresos,332.0,2016-01-01,2016-01-01,28.664516,16.0,11.2,SW


In [73]:
import pandas as pd
import numpy as np
from xgboost import XGBRegressor
from sklearn.model_selection import TimeSeriesSplit, GridSearchCV, train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error


In [74]:
def preparar_dataset_climatico(df):
    df_pivot = df.pivot(index='Fecha', columns='Glosa', values='Valor').reset_index()

    columnas_necesarias = ['Dias Cama Disponibles', 'Dias Cama Ocupados',
                           'Promedio Cama Disponibles', 'Numero de Egresos']
    if not all(col in df_pivot.columns for col in columnas_necesarias):
        print("‚ùå Datos insuficientes para generar el modelo.")
        return None

    clima = df.drop_duplicates(subset='Fecha')[[
        'Fecha', 'Temperatura M√°xima', 'Temperatura M√≠nima',
        'Precipitaciones (suma)', 'Direcci√≥n del Viento'
    ]]

    df_pivot = pd.merge(df_pivot, clima, on='Fecha', how='left')
    df_pivot = pd.get_dummies(df_pivot, columns=['Direcci√≥n del Viento'], prefix='Viento')

    df_pivot = df_pivot.sort_values('Fecha')
    df_pivot['Mes'] = df_pivot['Fecha'].dt.month
    df_pivot['Trimestre'] = df_pivot['Fecha'].dt.quarter
    df_pivot['lag_1'] = df_pivot['Dias Cama Disponibles'].shift(1)
    df_pivot['lag_2'] = df_pivot['Dias Cama Disponibles'].shift(2)
    df_pivot['porcentaje_ocupacion'] = df_pivot['Dias Cama Ocupados'] / df_pivot['Dias Cama Disponibles']
    df_pivot['variacion_disponibles'] = df_pivot['Dias Cama Disponibles'].diff()
    df_pivot['ocupados_media_movil'] = df_pivot['Dias Cama Ocupados'].rolling(window=3).mean()
    df_pivot['promedio_media_movil'] = df_pivot['Promedio Cama Disponibles'].rolling(window=3).mean()
    df_pivot['egresos_media_movil'] = df_pivot['Numero de Egresos'].rolling(window=3).mean()

    return df_pivot.dropna().copy()


In [51]:
# Pipeline final robusto con clima + hospital + evaluaci√≥n completa y errores porcentuales

def pipeline_final_mae_reducido(hospital, area):
    print(f"üîç Extrayendo datos para: {hospital} | {area}")
    df_base = extraer_info_hospital_area_todo_el_a√±o(hospital, area)

    if df_base.empty:
        print("‚ùå No se encontraron datos para el hospital o √°rea especificada.")
        return None

    print("üß™ Preparando dataset con variables hospitalarias y clim√°ticas...")
    df_modelo = preparar_dataset_climatico(df_base)

    if df_modelo is None or df_modelo.empty:
        print("‚ùå No se pudo preparar el dataset.")
        return None

    # Definir features din√°micamente
    features = [
        'Dias Cama Ocupados',
        'Promedio Cama Disponibles',
        'Numero de Egresos',
        'Mes', 'Trimestre',
        'lag_1', 'lag_2',
        'porcentaje_ocupacion',
        'variacion_disponibles',
        'ocupados_media_movil',
        'promedio_media_movil',
        'egresos_media_movil',
        'Temperatura M√°xima',
        'Temperatura M√≠nima',
        'Precipitaciones (suma)'
    ] + [col for col in df_modelo.columns if col.startswith('Viento_')]

    # Separar entrenamiento y prueba (√∫ltimo 20% como evaluaci√≥n)
    X = df_modelo[features]
    y = df_modelo['Dias Cama Disponibles']
    X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=False, test_size=0.2)

    print("üîß Ajustando modelo con GridSearchCV...")
    param_grid = {
        'n_estimators': [50, 100],
        'max_depth': [2, 3],
        'learning_rate': [0.05, 0.1]
    }

    model = XGBRegressor(n_jobs=1, random_state=42)
    grid_search = GridSearchCV(
        estimator=model,
        param_grid=param_grid,
        scoring='neg_mean_absolute_error',
        cv=TimeSeriesSplit(n_splits=3),
        verbose=1
    )
    grid_search.fit(X_train, y_train)
    mejor_modelo = grid_search.best_estimator_
    print("üìå Mejores par√°metros encontrados:", grid_search.best_params_)

    print("üìä Evaluando sobre el 20% final de los datos...")

    y_pred = mejor_modelo.predict(X_test)
    mae = mean_absolute_error(y_test, y_pred)
    rmse = mean_squared_error(y_test, y_pred) ** 0.5
    error_pct = np.mean(np.abs((y_test.values - y_pred) / y_test.values)) * 100

    resultados = pd.DataFrame({
        'Fecha': df_modelo['Fecha'].iloc[-len(y_test):].values,
        'Real': y_test.values,
        'Predicho': y_pred,
        'Error Absoluto': np.abs(y_test.values - y_pred),
        'Error Porcentual (%)': np.abs((y_test.values - y_pred) / y_test.values) * 100
    })

    print(f"‚úÖ MAE (camas): {mae:.2f}")
    print(f"‚úÖ RMSE (camas): {rmse:.2f}")
    print(f"üìâ Error promedio porcentual: {error_pct:.2f}%")

    return resultados




In [52]:
resultados_final = pipeline_final_mae_reducido(
    "Hospital Barros Luco Trudeau (Santiago, San Miguel)",
    "401 - √Årea M√©dica Adulto Cuidados B√°sicos"
)

display(resultados_final)


üîç Extrayendo datos para: Hospital Barros Luco Trudeau (Santiago, San Miguel) | 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üß™ Preparando dataset con variables hospitalarias y clim√°ticas...
üîß Ajustando modelo con GridSearchCV...
Fitting 3 folds for each of 8 candidates, totalling 24 fits
üìå Mejores par√°metros encontrados: {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 100}
üìä Evaluando sobre el 20% final de los datos...
‚úÖ MAE (camas): 66.96
‚úÖ RMSE (camas): 87.72
üìâ Error promedio porcentual: 3.04%


Unnamed: 0,Fecha,Real,Predicho,Error Absoluto,Error Porcentual (%)
0,2023-05-01,2329.0,2254.68335,74.31665,3.190925
1,2023-06-01,2250.0,2236.470215,13.529785,0.601324
2,2023-07-01,2325.0,2259.773926,65.226074,2.805423
3,2023-08-01,2325.0,2269.901367,55.098633,2.369834
4,2023-09-01,2252.0,2256.21167,4.21167,0.187019
5,2023-10-01,2334.0,2273.539795,60.460205,2.590412
6,2023-11-01,2252.0,2250.23291,1.76709,0.078468
7,2023-12-01,2144.0,2104.215576,39.784424,1.855617
8,2024-01-01,2146.0,2111.233154,34.766846,1.620077
9,2024-02-01,2035.0,2155.288574,120.288574,5.910986


In [None]:
##############################
##############################
##DESDE AQUI, NUEVAS PRUEBAS##
##############################
##############################

In [53]:
# Ampliamos la funci√≥n `preparar_dataset_climatico` con nuevas features derivados:
# - tasas
# - cruces entre clima y variables hospitalarias
# - m√°s variaciones

def preparar_dataset_climatico(df):
    df_pivot = df.pivot(index='Fecha', columns='Glosa', values='Valor').reset_index()

    columnas_necesarias = ['Dias Cama Disponibles', 'Dias Cama Ocupados',
                           'Promedio Cama Disponibles', 'Numero de Egresos']
    if not all(col in df_pivot.columns for col in columnas_necesarias):
        print("‚ùå Datos insuficientes para generar el modelo.")
        return None

    # A√±adir clima
    clima = df.drop_duplicates(subset='Fecha')[[
        'Fecha', 'Temperatura M√°xima', 'Temperatura M√≠nima',
        'Precipitaciones (suma)', 'Direcci√≥n del Viento'
    ]]

    df_pivot = pd.merge(df_pivot, clima, on='Fecha', how='left')
    df_pivot = pd.get_dummies(df_pivot, columns=['Direcci√≥n del Viento'], prefix='Viento')

    # Ordenar temporalmente
    df_pivot = df_pivot.sort_values('Fecha')

    # Variables temporales b√°sicas
    df_pivot['Mes'] = df_pivot['Fecha'].dt.month
    df_pivot['Trimestre'] = df_pivot['Fecha'].dt.quarter
    df_pivot['lag_1'] = df_pivot['Dias Cama Disponibles'].shift(1)
    df_pivot['lag_2'] = df_pivot['Dias Cama Disponibles'].shift(2)
    df_pivot['porcentaje_ocupacion'] = df_pivot['Dias Cama Ocupados'] / df_pivot['Dias Cama Disponibles']
    df_pivot['variacion_disponibles'] = df_pivot['Dias Cama Disponibles'].diff()
    df_pivot['ocupados_media_movil'] = df_pivot['Dias Cama Ocupados'].rolling(window=3).mean()
    df_pivot['promedio_media_movil'] = df_pivot['Promedio Cama Disponibles'].rolling(window=3).mean()
    df_pivot['egresos_media_movil'] = df_pivot['Numero de Egresos'].rolling(window=3).mean()

    # üîß Nuevas features derivadas:
    df_pivot['tasa_egresos'] = df_pivot['Numero de Egresos'] / df_pivot['Dias Cama Ocupados']
    df_pivot['tasa_ocupacion_promedio'] = df_pivot['Dias Cama Ocupados'] / df_pivot['Promedio Cama Disponibles']
    df_pivot['variacion_ocupados'] = df_pivot['Dias Cama Ocupados'].diff()
    df_pivot['variacion_egresos'] = df_pivot['Numero de Egresos'].diff()

    # üîÅ Cruces con clima
    df_pivot['ocupados_x_temp'] = df_pivot['Dias Cama Ocupados'] * df_pivot['Temperatura M√°xima']
    df_pivot['egresos_x_precipitacion'] = df_pivot['Numero de Egresos'] * df_pivot['Precipitaciones (suma)']
    df_pivot['ocupacion_pct_x_tempmin'] = df_pivot['porcentaje_ocupacion'] * df_pivot['Temperatura M√≠nima']

    return df_pivot.dropna().copy()


In [54]:
from sklearn.model_selection import TimeSeriesSplit, GridSearchCV, train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
from xgboost import XGBRegressor
import numpy as np

def pipeline_final_mae_reducido(hospital, area):
    print(f"üîç Extrayendo datos para: {hospital} | {area}")
    df_base = extraer_info_hospital_area_todo_el_a√±o(hospital, area)

    if df_base.empty:
        print("‚ùå No se encontraron datos para el hospital o √°rea especificada.")
        return None

    print("üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...")
    df_modelo = preparar_dataset_climatico(df_base)

    if df_modelo is None or df_modelo.empty:
        print("‚ùå No se pudo preparar el dataset.")
        return None

    # Features din√°micos
    features = [
        'Dias Cama Ocupados',
        'Promedio Cama Disponibles',
        'Numero de Egresos',
        'Mes', 'Trimestre',
        'lag_1', 'lag_2',
        'porcentaje_ocupacion',
        'variacion_disponibles',
        'ocupados_media_movil',
        'promedio_media_movil',
        'egresos_media_movil',
        'tasa_egresos',
        'tasa_ocupacion_promedio',
        'variacion_ocupados',
        'variacion_egresos',
        'ocupados_x_temp',
        'egresos_x_precipitacion',
        'ocupacion_pct_x_tempmin',
        'Temperatura M√°xima',
        'Temperatura M√≠nima',
        'Precipitaciones (suma)'
    ] + [col for col in df_modelo.columns if col.startswith('Viento_')]

    # Separar entrenamiento y test (√∫ltimo 20% como test)
    X = df_modelo[features]
    y = df_modelo['Dias Cama Disponibles']
    X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=False, test_size=0.2)

    print("üîß Ajustando modelo con GridSearchCV...")
    param_grid = {
        'n_estimators': [50, 100],
        'max_depth': [2, 3],
        'learning_rate': [0.05, 0.1]
    }

    model = XGBRegressor(n_jobs=1, random_state=42)
    grid_search = GridSearchCV(
        estimator=model,
        param_grid=param_grid,
        scoring='neg_mean_absolute_error',
        cv=TimeSeriesSplit(n_splits=3),
        verbose=1
    )
    grid_search.fit(X_train, y_train)
    mejor_modelo = grid_search.best_estimator_

    print("üìå Mejores par√°metros encontrados:", grid_search.best_params_)

    print("üìä Evaluando sobre el 20% final de los datos...")

    y_pred = mejor_modelo.predict(X_test)
    mae = mean_absolute_error(y_test, y_pred)
    rmse = mean_squared_error(y_test, y_pred) ** 0.5
    error_pct = np.mean(np.abs((y_test.values - y_pred) / y_test.values)) * 100

    resultados = pd.DataFrame({
        'Fecha': df_modelo['Fecha'].iloc[-len(y_test):].values,
        'Real': y_test.values,
        'Predicho': y_pred,
        'Error Absoluto': np.abs(y_test.values - y_pred),
        'Error Porcentual (%)': np.abs((y_test.values - y_pred) / y_test.values) * 100
    })

    print(f"‚úÖ MAE (camas): {mae:.2f}")
    print(f"‚úÖ RMSE (camas): {rmse:.2f}")
    print(f"üìâ Error promedio porcentual: {error_pct:.2f}%")

    return resultados


In [55]:
hospital = "Hospital Barros Luco Trudeau (Santiago, San Miguel)"
area = "401 - √Årea M√©dica Adulto Cuidados B√°sicos"

resultados_mejorado = pipeline_final_mae_reducido(hospital, area)

if resultados_mejorado is not None:
    display(resultados_mejorado)


üîç Extrayendo datos para: Hospital Barros Luco Trudeau (Santiago, San Miguel) | 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
Fitting 3 folds for each of 8 candidates, totalling 24 fits
üìå Mejores par√°metros encontrados: {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 100}
üìä Evaluando sobre el 20% final de los datos...
‚úÖ MAE (camas): 67.76
‚úÖ RMSE (camas): 88.44
üìâ Error promedio porcentual: 3.06%


Unnamed: 0,Fecha,Real,Predicho,Error Absoluto,Error Porcentual (%)
0,2023-05-01,2329.0,2265.841309,63.158691,2.711837
1,2023-06-01,2250.0,2222.516602,27.483398,1.221484
2,2023-07-01,2325.0,2253.972656,71.027344,3.05494
3,2023-08-01,2325.0,2261.367676,63.632324,2.736874
4,2023-09-01,2252.0,2246.199951,5.800049,0.257551
5,2023-10-01,2334.0,2260.54248,73.45752,3.14728
6,2023-11-01,2252.0,2241.694092,10.305908,0.457634
7,2023-12-01,2144.0,2106.540771,37.459229,1.747166
8,2024-01-01,2146.0,2122.444336,23.555664,1.097654
9,2024-02-01,2035.0,2146.662354,111.662354,5.487094


In [56]:
# Lista de hospitales y √°rea para evaluar con el mismo pipeline robusto
hospitales_a_evaluar = [
    ("Hospital Barros Luco Trudeau (Santiago, San Miguel)", "401 - √Årea M√©dica Adulto Cuidados B√°sicos"),
    ("Complejo Hospitalario San Jos√© (Santiago, Independencia)", "401 - √Årea M√©dica Adulto Cuidados B√°sicos"),
    ("Hospital Carlos Van Buren (Valpara√≠so)", "401 - √Årea M√©dica Adulto Cuidados B√°sicos"),
    ("Hospital Cl√≠nico Herminda Mart√≠n (Chill√°n)", "401 - √Årea M√©dica Adulto Cuidados B√°sicos"),
    ("Hospital El Pino (Santiago, San Bernardo)", "401 - √Årea M√©dica Adulto Cuidados B√°sicos"),
]

# Diccionario para almacenar resultados
resultados_todos = {}

# Evaluar cada hospital
for hospital, area in hospitales_a_evaluar:
    print("\n==========================")
    print(f"üè• Evaluando: {hospital}")
    print("==========================")
    resultados = pipeline_final_mae_reducido(hospital, area)
    if resultados is not None:
        resultados_todos[hospital] = resultados

# Mostrar un ejemplo del primer hospital evaluado
primer_hospital = list(resultados_todos.keys())[0]
resultados_todos[primer_hospital].head()



üè• Evaluando: Hospital Barros Luco Trudeau (Santiago, San Miguel)
üîç Extrayendo datos para: Hospital Barros Luco Trudeau (Santiago, San Miguel) | 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
Fitting 3 folds for each of 8 candidates, totalling 24 fits
üìå Mejores par√°metros encontrados: {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 100}
üìä Evaluando sobre el 20% final de los datos...
‚úÖ MAE (camas): 67.76
‚úÖ RMSE (camas): 88.44
üìâ Error promedio porcentual: 3.06%

üè• Evaluando: Complejo Hospitalario San Jos√© (Santiago, Independencia)
üîç Extrayendo datos para: Complejo Hospitalario San Jos√© (Santiago, Independencia) | 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
Fitting 3 folds for each of 8 candidates, totalling 24 fits

Unnamed: 0,Fecha,Real,Predicho,Error Absoluto,Error Porcentual (%)
0,2023-05-01,2329.0,2265.841309,63.158691,2.711837
1,2023-06-01,2250.0,2222.516602,27.483398,1.221484
2,2023-07-01,2325.0,2253.972656,71.027344,3.05494
3,2023-08-01,2325.0,2261.367676,63.632324,2.736874
4,2023-09-01,2252.0,2246.199951,5.800049,0.257551


In [57]:
# Funci√≥n para extraer todos los pares √∫nicos (hospital, √°rea) desde los datos combinados
def extraer_hospitales_y_areas_validos(combinados):
    pares_hospital_area = set()

    for df in combinados.values():
        if "Nombre Establecimiento" in df.columns and "Area" in df.columns:
            pares = df[["Nombre Establecimiento", "Area"]].dropna().drop_duplicates()
            for _, row in pares.iterrows():
                pares_hospital_area.add((row["Nombre Establecimiento"], row["Area"]))

    return sorted(list(pares_hospital_area))

# Extraer todos los hospitales y √°reas v√°lidos
hospitales_areas_validos = extraer_hospitales_y_areas_validos(combinados)

# Mostrar los primeros 10 pares para verificar
hospitales_areas_validos[:10]





[('Complejo Hospitalario San Jos√© (Santiago, Independencia)',
  '330 - √Årea Pensionado'),
 ('Complejo Hospitalario San Jos√© (Santiago, Independencia)',
  '401 - √Årea M√©dica Adulto Cuidados B√°sicos'),
 ('Complejo Hospitalario San Jos√© (Santiago, Independencia)',
  '402 - √Årea M√©dica Adulto Cuidados Medios'),
 ('Complejo Hospitalario San Jos√© (Santiago, Independencia)',
  '403 - √Årea M√©dico-Quir√∫rgico Cuidados B√°sicos'),
 ('Complejo Hospitalario San Jos√© (Santiago, Independencia)',
  '404 - √Årea M√©dico-Quir√∫rgico Cuidados Medios'),
 ('Complejo Hospitalario San Jos√© (Santiago, Independencia)',
  '405 - √Årea Cuidados Intensivos Adultos'),
 ('Complejo Hospitalario San Jos√© (Santiago, Independencia)',
  '406 - √Årea Cuidados Intermedios Adultos'),
 ('Complejo Hospitalario San Jos√© (Santiago, Independencia)',
  '413 - √Årea Neonatolog√≠a Cuidados B√°sicos'),
 ('Complejo Hospitalario San Jos√© (Santiago, Independencia)',
  '414 - √Årea Neonatolog√≠a Cuidados Intensivos'),

In [63]:
import numpy as np

# Evaluar solo los primeros 30 hospitales y su primera √°rea v√°lida
resultados_todos = {}
pares_a_evaluar = hospitales_areas_validos[:30]

for hospital, area in pares_a_evaluar:
    try:
        print("\n==========================")
        print(f"üè• Evaluando: {hospital} | √Årea: {area}")
        print("==========================")
        resultados = pipeline_final_mae_reducido(hospital, area)
        if resultados is not None:
            resultados_todos[f"{hospital} | {area}"] = resultados
    except Exception as e:
        print(f"‚ùå Error en {hospital} con √°rea {area}: {e}")
        continue

# Crear resumen comparativo de MAE y error porcentual
resumen_comparativo = []

for nombre_completo, resultados in resultados_todos.items():
    if "Error Absoluto" in resultados.columns and "Error Porcentual (%)" in resultados.columns:
        mae = resultados["Error Absoluto"].mean()
        error_pct = resultados["Error Porcentual (%)"].mean()
        resumen_comparativo.append({
            "Hospital | √Årea": nombre_completo,
            "MAE (camas)": round(mae, 2),
            "Error Porcentual Promedio (%)": round(error_pct, 2)
        })

df_resumen_comparativo = pd.DataFrame(resumen_comparativo).sort_values("MAE (camas)").reset_index(drop=True)

import ace_tools as tools
tools.display_dataframe_to_user(name="Comparaci√≥n de desempe√±o (30 hospitales)", dataframe=df_resumen_comparativo)




üè• Evaluando: Complejo Hospitalario San Jos√© (Santiago, Independencia) | √Årea: 330 - √Årea Pensionado
üîç Extrayendo datos para: Complejo Hospitalario San Jos√© (Santiago, Independencia) | 330 - √Årea Pensionado
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
‚ùå No se pudo preparar el dataset.

üè• Evaluando: Complejo Hospitalario San Jos√© (Santiago, Independencia) | √Årea: 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üîç Extrayendo datos para: Complejo Hospitalario San Jos√© (Santiago, Independencia) | 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo con GridSearchCV...
Fitting 3 folds for each of 8 candidates, totalling 24 fits
üìå Mejores par√°metros encontrados: {'learning_rate': 0.05, 'max_depth': 3, 'n_estimators': 50}
üìä Evaluando sobre el 20% final de los datos...
‚úÖ MAE (camas): 67.90
‚úÖ RMSE (camas): 96.07
üìâ Error promedio porcent

ModuleNotFoundError: No module named 'ace_tools'

In [65]:
# Crear tabla resumen con hospital, √°rea, MAE y porcentaje de error

tabla_resumen = []

for nombre_completo, resultados in resultados_todos.items():
    if "Error Absoluto" in resultados.columns and "Error Porcentual (%)" in resultados.columns:
        hospital, area = nombre_completo.split(" | ", 1)
        mae = resultados["Error Absoluto"].mean()
        error_pct = resultados["Error Porcentual (%)"].mean()
        tabla_resumen.append({
            "Hospital": hospital,
            "√Årea": area,
            "MAE (camas)": round(mae, 2),
            "Error Porcentual Promedio (%)": round(error_pct, 2)
        })

df_tabla_resumen = pd.DataFrame(tabla_resumen).sort_values("MAE (camas)").reset_index(drop=True)

dataframe=df_tabla_resumen

dataframe


Unnamed: 0,Hospital,√Årea,MAE (camas),Error Porcentual Promedio (%)
0,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Cuidados Intensivos Adultos,0.78,0.24
1,Hospital Adalberto Steeger (Talagante),405 - √Årea Cuidados Intensivos Adultos,0.91,0.51
2,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Neonatolog√≠a Cuidados B√°sicos,5.88,1.38
3,Hospital Adalberto Steeger (Talagante),330 - √Årea Pensionado,6.05,1.55
4,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Cuidados Intermedios Adultos,6.56,0.7
5,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Neonatolog√≠a Cuidados Intermedios,7.2,0.84
6,"Complejo Hospitalario San Jos√© (Santiago, Inde...",413 - √Årea Neonatolog√≠a Cuidados B√°sicos,7.82,1.65
7,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Obstetricia,8.4,0.23
8,"Complejo Hospitalario San Jos√© (Santiago, Inde...",402 - √Årea M√©dica Adulto Cuidados Medios,9.36,0.45
9,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Pensionado,9.68,1.58


In [None]:
#######################################
#######################################
##DESDE AQUI, NUEVO MODELO ->LightGBM##
#######################################
#######################################

In [66]:
!pip install lightgbm




In [69]:
# Importar LightGBM
from lightgbm import LGBMRegressor

# Nueva versi√≥n del pipeline usando LightGBM en vez de XGBoost
def pipeline_lightgbm_mae_reducido(hospital, area):
    print(f"üîç [LGBM] Extrayendo datos para: {hospital} | {area}")
    df_base = extraer_info_hospital_area_todo_el_a√±o(hospital, area)

    if df_base.empty:
        print("‚ùå No se encontraron datos para el hospital o √°rea especificada.")
        return None

    print("üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...")
    df_modelo = preparar_dataset_climatico(df_base)

    if df_modelo is None or df_modelo.empty:
        print("‚ùå No se pudo preparar el dataset.")
        return None

    # Selecci√≥n de features
    features = [
        'Dias Cama Ocupados',
        'Promedio Cama Disponibles',
        'Numero de Egresos',
        'Mes', 'Trimestre',
        'lag_1', 'lag_2',
        'porcentaje_ocupacion',
        'variacion_disponibles',
        'ocupados_media_movil',
        'promedio_media_movil',
        'egresos_media_movil',
        'tasa_egresos',
        'tasa_ocupacion_promedio',
        'variacion_ocupados',
        'variacion_egresos',
        'ocupados_x_temp',
        'egresos_x_precipitacion',
        'ocupacion_pct_x_tempmin',
        'Temperatura M√°xima',
        'Temperatura M√≠nima',
        'Precipitaciones (suma)'
    ] + [col for col in df_modelo.columns if col.startswith('Viento_')]

    # Separar train/test
    X = df_modelo[features]
    y = df_modelo['Dias Cama Disponibles']
    X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=False, test_size=0.2)

    print("üîß Ajustando modelo LightGBM con GridSearchCV...")
    param_grid = {
        'n_estimators': [50, 100],
        'max_depth': [2, 3],
        'learning_rate': [0.05, 0.1]
    }

    model = LGBMRegressor(n_jobs=1, random_state=42, verbose=-1)

    grid_search = GridSearchCV(
        estimator=model,
        param_grid=param_grid,
        scoring='neg_mean_absolute_error',
        cv=TimeSeriesSplit(n_splits=3),
        verbose=1
    )
    grid_search.fit(X_train, y_train)
    mejor_modelo = grid_search.best_estimator_

    print("üìå [LGBM] Mejores par√°metros encontrados:", grid_search.best_params_)

    # Evaluaci√≥n
    y_pred = mejor_modelo.predict(X_test)
    mae = mean_absolute_error(y_test, y_pred)
    rmse = mean_squared_error(y_test, y_pred) ** 0.5
    error_pct = np.mean(np.abs((y_test.values - y_pred) / y_test.values)) * 100

    resultados = pd.DataFrame({
        'Fecha': df_modelo['Fecha'].iloc[-len(y_test):].values,
        'Real': y_test.values,
        'Predicho': y_pred,
        'Error Absoluto': np.abs(y_test.values - y_pred),
        'Error Porcentual (%)': np.abs((y_test.values - y_pred) / y_test.values) * 100
    })

    print(f"‚úÖ [LGBM] MAE (camas): {mae:.2f}")
    print(f"‚úÖ [LGBM] RMSE (camas): {rmse:.2f}")
    print(f"üìâ [LGBM] Error porcentual promedio: {error_pct:.2f}%")

    return resultados



In [70]:
# Ejecutamos el pipeline LightGBM con un hospital de ejemplo para comparar con XGBoost
hospital = "Hospital Barros Luco Trudeau (Santiago, San Miguel)"
area = "401 - √Årea M√©dica Adulto Cuidados B√°sicos"

resultados_lgbm = pipeline_lightgbm_mae_reducido(hospital, area)

# Mostrar resultados si est√°n disponibles
if resultados_lgbm is not None:
    resultados_lgbm.head()


üîç [LGBM] Extrayendo datos para: Hospital Barros Luco Trudeau (Santiago, San Miguel) | 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo LightGBM con GridSearchCV...
Fitting 3 folds for each of 8 candidates, totalling 24 fits
üìå [LGBM] Mejores par√°metros encontrados: {'learning_rate': 0.1, 'max_depth': 2, 'n_estimators': 100}
‚úÖ [LGBM] MAE (camas): 122.76
‚úÖ [LGBM] RMSE (camas): 153.64
üìâ [LGBM] Error porcentual promedio: 5.72%


In [71]:
import numpy as np

# Evaluar LightGBM sobre los primeros 30 hospitales y sus √°reas
resultados_lgbm_todos = {}
pares_a_evaluar = hospitales_areas_validos[:30]

for hospital, area in pares_a_evaluar:
    try:
        print("\n==========================")
        print(f"üè• [LGBM] Evaluando: {hospital} | √Årea: {area}")
        print("==========================")
        resultados = pipeline_lightgbm_mae_reducido(hospital, area)
        if resultados is not None:
            resultados_lgbm_todos[f"{hospital} | {area}"] = resultados
    except Exception as e:
        print(f"‚ùå Error en {hospital} con √°rea {area}: {e}")
        continue

# Crear tabla resumen de resultados
resumen_lgbm = []

for nombre_completo, resultados in resultados_lgbm_todos.items():
    if "Error Absoluto" in resultados.columns and "Error Porcentual (%)" in resultados.columns:
        hospital, area = nombre_completo.split(" | ", 1)
        mae = resultados["Error Absoluto"].mean()
        error_pct = resultados["Error Porcentual (%)"].mean()
        resumen_lgbm.append({
            "Hospital": hospital,
            "√Årea": area,
            "MAE (camas)": round(mae, 2),
            "Error Porcentual Promedio (%)": round(error_pct, 2)
        })





üè• [LGBM] Evaluando: Complejo Hospitalario San Jos√© (Santiago, Independencia) | √Årea: 330 - √Årea Pensionado
üîç [LGBM] Extrayendo datos para: Complejo Hospitalario San Jos√© (Santiago, Independencia) | 330 - √Årea Pensionado
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
‚ùå No se pudo preparar el dataset.

üè• [LGBM] Evaluando: Complejo Hospitalario San Jos√© (Santiago, Independencia) | √Årea: 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üîç [LGBM] Extrayendo datos para: Complejo Hospitalario San Jos√© (Santiago, Independencia) | 401 - √Årea M√©dica Adulto Cuidados B√°sicos
üß™ Preparando dataset con variables hospitalarias, clim√°ticas y derivadas...
üîß Ajustando modelo LightGBM con GridSearchCV...
Fitting 3 folds for each of 8 candidates, totalling 24 fits
üìå [LGBM] Mejores par√°metros encontrados: {'learning_rate': 0.05, 'max_depth': 2, 'n_estimators': 50}
‚úÖ [LGBM] MAE (camas): 147.25
‚úÖ [LGBM] RMSE (camas): 181.52
üìâ [LGBM] Error

Unnamed: 0,Hospital,√Årea,MAE (camas),Error Porcentual Promedio (%)
0,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Cuidados Intensivos Adultos,5.59,1.66
1,Hospital Adalberto Steeger (Talagante),330 - √Årea Pensionado,10.44,2.69
2,Hospital Adalberto Steeger (Talagante),405 - √Årea Cuidados Intensivos Adultos,11.14,6.13
3,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Pensionado,11.84,1.91
4,"Complejo Hospitalario San Jos√© (Santiago, Inde...",413 - √Årea Neonatolog√≠a Cuidados B√°sicos,14.6,2.99
5,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Cuidados Intermedios Adultos,14.92,1.6
6,"Complejo Hospitalario San Jos√© (Santiago, Inde...",414 - √Årea Neonatolog√≠a Cuidados Intensivos,16.61,7.28
7,"Complejo Hospitalario San Jos√© (Santiago, Inde...",415 - √Årea Neonatolog√≠a Cuidados Intermedios,18.2,2.28
8,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Neonatolog√≠a Cuidados Intensivos,28.56,7.16
9,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Neonatolog√≠a Cuidados Intermedios,28.68,3.32


In [59]:
# Mostrar tabla ordenada
df_resumen_lgbm = pd.DataFrame(resumen_lgbm).sort_values("MAE (camas)").reset_index(drop=True)

dataframe2=df_resumen_lgbm
dataframe2

NameError: name 'resumen_lgbm' is not defined

In [77]:
# Generar tabla resumen de LightGBM (vuelve a correr esta si es necesario)
resumen_lgbm = []

for nombre_completo, resultados in resultados_lgbm_todos.items():
    if "Error Absoluto" in resultados.columns and "Error Porcentual (%)" in resultados.columns:
        hospital, area = nombre_completo.split(" | ", 1)
        mae = resultados["Error Absoluto"].mean()
        error_pct = resultados["Error Porcentual (%)"].mean()
        resumen_lgbm.append({
            "Hospital": hospital,
            "√Årea": area,
            "MAE (camas)": round(mae, 2),
            "Error Porcentual Promedio (%)": round(error_pct, 2)
        })

df_resumen_lgbm = pd.DataFrame(resumen_lgbm).sort_values("MAE (camas)").reset_index(drop=True)


In [79]:
# Comparar XGBoost vs LightGBM en MAE
df_comparacion = pd.merge(
    df_tabla_resumen,
    df_resumen_lgbm,
    on=["Hospital", "√Årea"],
    suffixes=("_XGBoost", "_LightGBM")
)

# Determinar modelo ganador
df_comparacion["Modelo Ganador (MAE)"] = df_comparacion.apply(
    lambda row: "XGBoost" if row["MAE (camas)_XGBoost"] < row["MAE (camas)_LightGBM"] else "LightGBM",
    axis=1
)

df_comparacion["Diferencia MAE"] = (
    df_comparacion["MAE (camas)_XGBoost"] - df_comparacion["MAE (camas)_LightGBM"]
).round(2)

dataframe=df_comparacion
dataframe


Unnamed: 0,Hospital,√Årea,MAE (camas)_XGBoost,Error Porcentual Promedio (%)_XGBoost,MAE (camas)_LightGBM,Error Porcentual Promedio (%)_LightGBM,Modelo Ganador (MAE),Diferencia MAE
0,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Cuidados Intensivos Adultos,0.78,0.24,5.59,1.66,XGBoost,-4.81
1,Hospital Adalberto Steeger (Talagante),405 - √Årea Cuidados Intensivos Adultos,0.91,0.51,11.14,6.13,XGBoost,-10.23
2,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Neonatolog√≠a Cuidados B√°sicos,5.88,1.38,48.89,11.44,XGBoost,-43.01
3,Hospital Adalberto Steeger (Talagante),330 - √Årea Pensionado,6.05,1.55,10.44,2.69,XGBoost,-4.39
4,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Cuidados Intermedios Adultos,6.56,0.7,14.92,1.6,XGBoost,-8.36
5,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Neonatolog√≠a Cuidados Intermedios,7.2,0.84,28.68,3.32,XGBoost,-21.48
6,"Complejo Hospitalario San Jos√© (Santiago, Inde...",413 - √Årea Neonatolog√≠a Cuidados B√°sicos,7.82,1.65,14.6,2.99,XGBoost,-6.78
7,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Obstetricia,8.4,0.23,59.05,1.6,XGBoost,-50.65
8,"Complejo Hospitalario San Jos√© (Santiago, Inde...",402 - √Årea M√©dica Adulto Cuidados Medios,9.36,0.45,54.64,2.57,XGBoost,-45.28
9,"Complejo Hospitalario San Jos√© (Santiago, Inde...",√Årea Pensionado,9.68,1.58,11.84,1.91,XGBoost,-2.16


In [None]:
#######################################
#######################################
##DESDE AQUI, PROBAR NUEVAS FEATURES###
#######################################
#######################################

In [75]:
from xgboost import XGBRegressor
from sklearn.model_selection import TimeSeriesSplit, GridSearchCV, train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
import pandas as pd
import numpy as np

# Lista de hospitales a evaluar
hospitales_a_evaluar = [
    "Hospital Barros Luco Trudeau (Santiago, San Miguel)",
    "Hospital Dr. Ernesto Torres Galdames (Iquique)",
    "Complejo Hospitalario San Jos√© (Santiago, Independencia)",
    "Hospital Carlos Van Buren (Valpara√≠so)",
    "Hospital Cl√≠nico Herminda Mart√≠n (Chill√°n)",
    "Hospital El Pino (Santiago, San Bernardo)",
    "Hospital de Puerto Montt",
    "Hospital Regional de Antofagasta",
    "Hospital de Coquimbo",
    "Hospital de Talca"
]

# Esta √°rea ser√° usada para todos por simplicidad (puedes personalizar)
area_default = "401 - √Årea M√©dica Adulto Cuidados B√°sicos"

# Funci√≥n principal ya definida antes, ahora la aplicamos masivamente
def evaluar_modelo_con_estacionalidad(hospital, area):
    df_largo = extraer_info_hospital_area_todo_el_a√±o(hospital, area)
    if df_largo.empty:
        return None

    df_pivot = df_largo.pivot(index='Fecha', columns='Glosa', values='Valor').reset_index()
    columnas_necesarias = ['Dias Cama Disponibles', 'Dias Cama Ocupados',
                           'Promedio Cama Disponibles', 'Numero de Egresos']
    if not all(col in df_pivot.columns for col in columnas_necesarias):
        return None

    df_pivot = df_pivot.sort_values('Fecha')
    df_pivot['Mes'] = df_pivot['Fecha'].dt.month
    df_pivot['Trimestre'] = df_pivot['Fecha'].dt.quarter
    df_pivot['lag_1'] = df_pivot['Dias Cama Disponibles'].shift(1)
    df_pivot['lag_2'] = df_pivot['Dias Cama Disponibles'].shift(2)
    df_pivot['porcentaje_ocupacion'] = df_pivot['Dias Cama Ocupados'] / df_pivot['Dias Cama Disponibles']
    df_pivot['variacion_disponibles'] = df_pivot['Dias Cama Disponibles'].diff()
    df_pivot['ocupados_media_movil'] = df_pivot['Dias Cama Ocupados'].rolling(window=3).mean()
    df_pivot['promedio_media_movil'] = df_pivot['Promedio Cama Disponibles'].rolling(window=3).mean()
    df_pivot['egresos_media_movil'] = df_pivot['Numero de Egresos'].rolling(window=3).mean()
    df_pivot['same_month_last_year'] = df_pivot['Dias Cama Disponibles'].shift(12)
    df_pivot['hist_avg_mes'] = df_pivot.groupby('Mes')['Dias Cama Disponibles'].transform('mean')
    df_modelo = df_pivot.dropna().copy()

    features = [
        'Dias Cama Ocupados',
        'Promedio Cama Disponibles',
        'Numero de Egresos',
        'Mes', 'Trimestre',
        'lag_1', 'lag_2',
        'porcentaje_ocupacion',
        'variacion_disponibles',
        'ocupados_media_movil',
        'promedio_media_movil',
        'egresos_media_movil',
        'same_month_last_year',
        'hist_avg_mes'
    ]

    X = df_modelo[features]
    y = df_modelo['Dias Cama Disponibles']
    X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=False, test_size=0.2)

    tscv = TimeSeriesSplit(n_splits=3)
    param_grid = {
        'n_estimators': [50, 100],
        'max_depth': [2, 3],
        'learning_rate': [0.05, 0.1]
    }
    modelo_xgb = XGBRegressor(n_jobs=1, random_state=42)
    grid_search = GridSearchCV(modelo_xgb, param_grid, scoring='neg_mean_absolute_error', cv=tscv, verbose=0)
    grid_search.fit(X_train, y_train)

    mejor_modelo = grid_search.best_estimator_
    y_pred = mejor_modelo.predict(X_test)

    resultados = pd.DataFrame({
        'Fecha': df_modelo['Fecha'].iloc[-len(y_test):].values,
        'Real': y_test.values,
        'Predicho': y_pred,
        'Error Absoluto': np.abs(y_test.values - y_pred),
        'Error Porcentual (%)': np.abs((y_test.values - y_pred) / y_test.values) * 100
    })

    resumen = {
        "Hospital": hospital,
        "√Årea": area,
        "MAE": mean_absolute_error(y_test, y_pred),
        "Error %": np.mean(resultados['Error Porcentual (%)'])
    }

    return resumen

# Evaluar para todos los hospitales
resultados_multiples = []
for hosp in hospitales_a_evaluar:
    resultado = evaluar_modelo_con_estacionalidad(hosp, area_default)
    if resultado:
        resultados_multiples.append(resultado)

dataframe_result=df_resultados_hospitales

dataframe_result







‚ö†Ô∏è No se encontraron datos para ese hospital y √°rea.
‚ö†Ô∏è No se encontraron datos para ese hospital y √°rea.
‚ö†Ô∏è No se encontraron datos para ese hospital y √°rea.
‚ö†Ô∏è No se encontraron datos para ese hospital y √°rea.


Unnamed: 0,Hospital,√Årea,MAE,Error %
0,"Hospital Barros Luco Trudeau (Santiago, San Mi...",401 - √Årea M√©dica Adulto Cuidados B√°sicos,60.805017,2.845284
1,"Complejo Hospitalario San Jos√© (Santiago, Inde...",401 - √Årea M√©dica Adulto Cuidados B√°sicos,194.85909,9.504034
2,Hospital Carlos Van Buren (Valpara√≠so),401 - √Årea M√©dica Adulto Cuidados B√°sicos,38.057153,1.45219
3,Hospital Cl√≠nico Herminda Mart√≠n (Chill√°n),401 - √Årea M√©dica Adulto Cuidados B√°sicos,205.300684,10.085671
4,"Hospital El Pino (Santiago, San Bernardo)",401 - √Årea M√©dica Adulto Cuidados B√°sicos,19.791855,1.92197
5,Hospital de Puerto Montt,401 - √Årea M√©dica Adulto Cuidados B√°sicos,197.631835,65.040586


In [77]:
# Crear tabla resumen desde resultados del nuevo modelo con estacionalidad
tabla_resumen_estacionalidad = []

for nombre_completo, resultados in resumen.items():
    if isinstance(resultados, pd.DataFrame) and \
       "Error Absoluto" in resultados.columns and \
       "Error Porcentual (%)" in resultados.columns:
        
        hospital, area = nombre_completo.split(" | ", 1)
        mae = resultados["Error Absoluto"].mean()
        error_pct = resultados["Error Porcentual (%)"].mean()
        
        tabla_resumen_estacionalidad.append({
            "Hospital": hospital,
            "√Årea": area,
            "MAE (camas)": round(mae, 2),
            "Error Porcentual Promedio (%)": round(error_pct, 2)
        })

df_tabla_resumen_estacionalidad = (
    pd.DataFrame(tabla_resumen_estacionalidad)
    .sort_values("MAE (camas)")
    .reset_index(drop=True)
)

dataframe=df_tabla_resumen_estacionalidad


df_tabla_resumen_estacionalidad


NameError: name 'resumen' is not defined