In [1]:
import pandas as pd

# --- Nombres de los archivos ---
archivo_entrada = 'dataset_cdmx_con_lags.csv'
archivo_salida = 'dataset_cdmx_lags_promedio.csv'

try:
    # 1. Cargar el dataset que ya tiene los lag features
    df = pd.read_csv(archivo_entrada)
    df['timestamp'] = pd.to_datetime(df['timestamp'])
    
    # --- Asegurarse de que los datos estén ordenados por fecha ---
    df.sort_values('timestamp', inplace=True)

    print("Creando nuevas columnas de 'Promedios Móviles'...")

    # 2. Definir las columnas y las ventanas de tiempo que usaremos
    columnas_a_procesar = ['pm25', 'o3', 'temperature_2m', 'no2']
    ventanas = [6, 12, 24] # Promedios de las últimas 6, 12 y 24 horas

    # 3. Usar la función rolling() para crear las nuevas columnas
    for col in columnas_a_procesar:
        for v in ventanas:
            nombre_nueva_col = f'{col}_roll_avg_{v}h'
            df[nombre_nueva_col] = df[col].rolling(window=v).mean()

    # 4. Eliminar las filas iniciales que ahora tienen valores NaN
    # (ya que no tienen suficientes datos históricos para calcular el promedio)
    print("Eliminando filas iniciales con valores NaN...")
    df.dropna(inplace=True)

    print("\n--- Revisión del Dataset Final ---")
    print(f"El dataset final tiene {df.shape[0]} filas y {df.shape[1]} columnas.")
    
    # Imprimimos la información del DataFrame para que veas todas las columnas nuevas
    print("\nColumnas en el archivo final:")
    df.info()

    # 5. Guardar el nuevo dataset, ahora con lags y promedios móviles
    df.to_csv(archivo_salida, index=False)
    
    print(f"\n✅ ¡Éxito! El dataset final y enriquecido ha sido guardado como: {archivo_salida}")

except FileNotFoundError:
    print(f"❌ Error: No se encontró el archivo '{archivo_entrada}'.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

Creando nuevas columnas de 'Promedios Móviles'...
Eliminando filas iniciales con valores NaN...

--- Revisión del Dataset Final ---
El dataset final tiene 15337 filas y 37 columnas.

Columnas en el archivo final:
<class 'pandas.core.frame.DataFrame'>
Index: 15337 entries, 23 to 15359
Data columns (total 37 columns):
 #   Column                       Non-Null Count  Dtype                    
---  ------                       --------------  -----                    
 0   timestamp                    15337 non-null  datetime64[ns, UTC-06:00]
 1   temperature_2m               15337 non-null  float64                  
 2   relativehumidity_2m          15337 non-null  float64                  
 3   precipitation                15337 non-null  float64                  
 4   pressure_msl                 15337 non-null  float64                  
 5   windspeed_10m                15337 non-null  float64                  
 6   winddirection_10m            15337 non-null  float64                 