In [1]:
import pandas as pd
import lightgbm as lgb
import joblib # Importamos la librería para guardar el modelo

# --- 1. Cargar el Dataset con Lag Features ---
archivo_datos = 'dataset_cdmx_con_lags.csv'

try:
    df = pd.read_csv(archivo_datos)
    df['timestamp'] = pd.to_datetime(df['timestamp'])
    print(f"Dataset '{archivo_datos}' cargado para el entrenamiento final.")

    # --- 2. Preparar Datos (X y y) ---
    df.dropna(subset=['pm25_prediction'], inplace=True)
    y = df['pm25_prediction']
    X = df.drop(columns=['pm25_prediction', 'timestamp'])
    
    # Limpieza final
    X = X.interpolate(method='linear', limit_direction='both').fillna(method='bfill').fillna(method='ffill')

    # --- 3. Entrenar el Modelo FINAL con los Mejores Parámetros en TODOS los datos ---
    # (Para el archivo final, es una práctica común entrenar con todos los datos disponibles)
    print("\nEntrenando el modelo final con los parámetros óptimos...")
    
    # Usamos los mejores parámetros que encontraste en la búsqueda anterior
    mejores_parametros = {
        'reg_lambda': 1.0, 
        'reg_alpha': 1.0, 
        'num_leaves': 20, 
        'n_estimators': 500, 
        'max_depth': 15, 
        'learning_rate': 0.01, 
        'colsample_bytree': 0.9
    }
    
    # Inicializamos y entrenamos el modelo final
    final_model = lgb.LGBMRegressor(**mejores_parametros, random_state=42)
    final_model.fit(X, y)
    
    print("¡Modelo final entrenado!")

    # --- 4. Guardar el Modelo en un Archivo .pkl ---
    nombre_archivo_modelo = 'modelo_pm25_predictor_cdmx.pkl'
    print(f"\nGuardando el modelo en el archivo: {nombre_archivo_modelo}")
    
    joblib.dump(final_model, nombre_archivo_modelo)
    
    print(f"✅ ¡Éxito! El modelo ha sido guardado correctamente.")

except FileNotFoundError:
    print(f"❌ Error: No se encontró el archivo '{archivo_datos}'.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

Dataset 'dataset_cdmx_con_lags.csv' cargado para el entrenamiento final.

Entrenando el modelo final con los parámetros óptimos...


  X = X.interpolate(method='linear', limit_direction='both').fillna(method='bfill').fillna(method='ffill')


[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.002894 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 4671
[LightGBM] [Info] Number of data points in the train set: 15360, number of used features: 23
[LightGBM] [Info] Start training from score 17.065039
¡Modelo final entrenado!

Guardando el modelo en el archivo: modelo_pm25_predictor_cdmx.pkl
✅ ¡Éxito! El modelo ha sido guardado correctamente.


In [1]:
import pandas as pd
import lightgbm as lgb
import joblib # Importamos la librería para guardar el modelo

# --- 1. Cargar el Dataset con Lag Features ---
archivo_datos = 'dataset_LA_con_lags.csv'

try:
    df = pd.read_csv(archivo_datos)
    df['timestamp'] = pd.to_datetime(df['timestamp'])
    print(f"Dataset '{archivo_datos}' cargado para el entrenamiento final.")

    # --- 2. Preparar Datos (X y y) ---
    df.dropna(subset=['pm25_prediction'], inplace=True)
    y = df['pm25_prediction']
    X = df.drop(columns=['pm25_prediction', 'timestamp', 'pm10'])
    
    # Limpieza final
    X = X.interpolate(method='linear', limit_direction='both').fillna(method='bfill').fillna(method='ffill')

    # --- 3. Entrenar el Modelo FINAL con los Mejores Parámetros en TODOS los datos ---
    # (Para el archivo final, es una práctica común entrenar con todos los datos disponibles)
    print("\nEntrenando el modelo final con los parámetros óptimos...")
    
    # Usamos los mejores parámetros que encontraste en la búsqueda anterior
    mejores_parametros = {
        'reg_lambda': 1.0, 
        'reg_alpha': 1.0, 
        'num_leaves': 20, 
        'n_estimators': 500, 
        'max_depth': 15, 
        'learning_rate': 0.01, 
        'colsample_bytree': 0.9
    }
    
    # Inicializamos y entrenamos el modelo final
    final_model = lgb.LGBMRegressor(**mejores_parametros, random_state=42)
    final_model.fit(X, y)
    
    print("¡Modelo final entrenado!")

    # --- 4. Guardar el Modelo en un Archivo .pkl ---
    nombre_archivo_modelo = 'modelo_pm25_predictor_LA.pkl'
    print(f"\nGuardando el modelo en el archivo: {nombre_archivo_modelo}")
    
    joblib.dump(final_model, nombre_archivo_modelo)
    
    print(f"✅ ¡Éxito! El modelo ha sido guardado correctamente.")

except FileNotFoundError:
    print(f"❌ Error: No se encontró el archivo '{archivo_datos}'.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

  df['timestamp'] = pd.to_datetime(df['timestamp'])
  X = X.interpolate(method='linear', limit_direction='both').fillna(method='bfill').fillna(method='ffill')


Dataset 'dataset_LA_con_lags.csv' cargado para el entrenamiento final.

Entrenando el modelo final con los parámetros óptimos...
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.001977 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 4206
[LightGBM] [Info] Number of data points in the train set: 15384, number of used features: 23
[LightGBM] [Info] Start training from score 13.054105
¡Modelo final entrenado!

Guardando el modelo en el archivo: modelo_pm25_predictor_LA.pkl
✅ ¡Éxito! El modelo ha sido guardado correctamente.
