In [1]:
import pandas as pd

# --- Nombres de los archivos ---
archivo_entrada = 'dataset_cdmx_con_prediccion.csv'
archivo_salida = 'dataset_cdmx_con_lags.csv'

try:
    # 1. Cargar el dataset que ya tiene la columna de predicción
    df = pd.read_csv(archivo_entrada)
    df['timestamp'] = pd.to_datetime(df['timestamp'])
    
    # --- PASO CRÍTICO: Asegurarse de que los datos estén ordenados por fecha ---
    df.sort_values('timestamp', inplace=True)

    print("Creando nuevas columnas 'Lag Features'...")

    # 2. Usar la función shift() para crear las columnas de retraso
    # .shift(3) toma el valor de 3 filas (horas) anteriores y lo pone en la fila actual.
    df['pm25_lag_3h'] = df['pm25'].shift(3)
    df['pm25_lag_6h'] = df['pm25'].shift(6)
    df['pm25_lag_12h'] = df['pm25'].shift(12)
    df['pm25_lag_24h'] = df['pm25'].shift(24)

    print("Nuevas columnas creadas. Mostrando las primeras filas con los nuevos datos:")
    
    # Mostramos una vista previa de las columnas relevantes para que veas el resultado
    # Nota los 'NaN' al principio. Esto es normal y los eliminaremos.
    preview_cols = ['timestamp', 'pm25', 'pm25_lag_3h', 'pm25_lag_6h', 'pm25_lag_12h', 'pm25_lag_24h']
    try:
        display(df[preview_cols].head(30))
    except NameError:
        print(df[preview_cols].head(30))

    # 3. Eliminar las filas iniciales que ahora tienen valores NaN
    # (ya que no tienen suficientes datos históricos para rellenar los lags)
    print("\nEliminando las primeras 24 filas que contienen valores NaN debido al shift...")
    df.dropna(inplace=True)
    print(f"El dataset ahora tiene {len(df)} filas completas.")

    # 4. Guardar el nuevo dataset enriquecido
    df.to_csv(archivo_salida, index=False)
    
    print(f"\n✅ ¡Éxito! El nuevo dataset con lag features ha sido guardado como: {archivo_salida}")

except FileNotFoundError:
    print(f"❌ Error: No se encontró el archivo '{archivo_entrada}'.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

Creando nuevas columnas 'Lag Features'...
Nuevas columnas creadas. Mostrando las primeras filas con los nuevos datos:


Unnamed: 0,timestamp,pm25,pm25_lag_3h,pm25_lag_6h,pm25_lag_12h,pm25_lag_24h
0,2023-01-01 00:00:00-06:00,37.0,,,,
1,2023-01-01 01:00:00-06:00,37.0,,,,
2,2023-01-01 02:00:00-06:00,37.0,,,,
3,2023-01-01 03:00:00-06:00,37.0,37.0,,,
4,2023-01-01 04:00:00-06:00,37.0,37.0,,,
5,2023-01-01 05:00:00-06:00,37.0,37.0,,,
6,2023-01-01 06:00:00-06:00,37.0,37.0,37.0,,
7,2023-01-01 07:00:00-06:00,37.0,37.0,37.0,,
8,2023-01-01 08:00:00-06:00,37.0,37.0,37.0,,
9,2023-01-01 09:00:00-06:00,37.0,37.0,37.0,,



Eliminando las primeras 24 filas que contienen valores NaN debido al shift...
El dataset ahora tiene 15360 filas completas.

✅ ¡Éxito! El nuevo dataset con lag features ha sido guardado como: dataset_cdmx_con_lags.csv


In [2]:
import pandas as pd

# --- Nombres de los archivos ---
archivo_entrada = 'dataset_LA_con_prediccion.csv'
archivo_salida = 'dataset_LA_con_lags.csv'

try:
    # 1. Cargar el dataset que ya tiene la columna de predicción
    df = pd.read_csv(archivo_entrada)
    df['timestamp'] = pd.to_datetime(df['timestamp'])
    
    # --- PASO CRÍTICO: Asegurarse de que los datos estén ordenados por fecha ---
    df.sort_values('timestamp', inplace=True)

    print("Creando nuevas columnas 'Lag Features'...")

    # 2. Usar la función shift() para crear las columnas de retraso
    # .shift(3) toma el valor de 3 filas (horas) anteriores y lo pone en la fila actual.
    df['pm25_lag_3h'] = df['pm25'].shift(3)
    df['pm25_lag_6h'] = df['pm25'].shift(6)
    df['pm25_lag_12h'] = df['pm25'].shift(12)
    df['pm25_lag_24h'] = df['pm25'].shift(24)

    print("Nuevas columnas creadas. Mostrando las primeras filas con los nuevos datos:")
    
    # Mostramos una vista previa de las columnas relevantes para que veas el resultado
    # Nota los 'NaN' al principio. Esto es normal y los eliminaremos.
    preview_cols = ['timestamp', 'pm25', 'pm25_lag_3h', 'pm25_lag_6h', 'pm25_lag_12h', 'pm25_lag_24h']
    try:
        display(df[preview_cols].head(30))
    except NameError:
        print(df[preview_cols].head(30))

    # 3. Eliminar las filas iniciales que ahora tienen valores NaN
    # (ya que no tienen suficientes datos históricos para rellenar los lags)
    print("\nEliminando las primeras 24 filas que contienen valores NaN debido al shift...")
    df.dropna(inplace=True)
    print(f"El dataset ahora tiene {len(df)} filas completas.")

    # 4. Guardar el nuevo dataset enriquecido
    df.to_csv(archivo_salida, index=False)
    
    print(f"\n✅ ¡Éxito! El nuevo dataset con lag features ha sido guardado como: {archivo_salida}")

except FileNotFoundError:
    print(f"❌ Error: No se encontró el archivo '{archivo_entrada}'.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

Creando nuevas columnas 'Lag Features'...
Nuevas columnas creadas. Mostrando las primeras filas con los nuevos datos:


  df['timestamp'] = pd.to_datetime(df['timestamp'])


Unnamed: 0,timestamp,pm25,pm25_lag_3h,pm25_lag_6h,pm25_lag_12h,pm25_lag_24h
0,2023-12-31 23:00:00-08:00,39.6,,,,
1,2024-01-01 00:00:00-08:00,48.4,,,,
2,2024-01-01 01:00:00-08:00,55.2,,,,
3,2024-01-01 02:00:00-08:00,52.8,39.6,,,
4,2024-01-01 03:00:00-08:00,32.9,48.4,,,
5,2024-01-01 04:00:00-08:00,30.5,55.2,,,
6,2024-01-01 05:00:00-08:00,25.1,52.8,39.6,,
7,2024-01-01 06:00:00-08:00,21.7,32.9,48.4,,
8,2024-01-01 07:00:00-08:00,23.1,30.5,55.2,,
9,2024-01-01 08:00:00-08:00,17.8,25.1,52.8,,



Eliminando las primeras 24 filas que contienen valores NaN debido al shift...
El dataset ahora tiene 15384 filas completas.

✅ ¡Éxito! El nuevo dataset con lag features ha sido guardado como: dataset_LA_con_lags.csv
