In [1]:
import pandas as pd

# --- Nombres de los archivos ---
archivo_combinado = 'datos_combinados_CDMX_completo.csv'
archivo_salida = 'datos_cdmx_interpolados.csv'

try:
    # 1. Cargar el dataset combinado
    df = pd.read_csv(archivo_combinado)
    df['timestamp'] = pd.to_datetime(df['timestamp'])

    # Columnas de calidad del aire que necesitan ser rellenadas
    columnas_aire = ['co', 'no', 'no2', 'nox', 'o3', 'pm25', 'so2']

    print("--- ANTES de la Interpolación ---")
    print("Cantidad de valores vacíos (NaN) por columna:")
    print(df[columnas_aire].isnull().sum())
    
    # Mostramos los datos del inicio de 2023, donde sabemos que hay huecos
    print("\nVista previa de los datos de Enero 2023 (antes):")
    display(df[df['timestamp'] < '2023-01-10 00:00:00Z'].head(10))


    # 2. Aplicar la Interpolación
    print("\n--- Aplicando interpolación... ---")
    
    # Primero, usamos interpolación lineal para rellenar los huecos INTERMEDIOS
    df[columnas_aire] = df[columnas_aire].interpolate(method='linear', limit_direction='both')
    
    # La interpolación lineal no puede rellenar los huecos al inicio o al final.
    # Para eso, usamos 'bfill' (backward fill) y 'ffill' (forward fill).
    df[columnas_aire] = df[columnas_aire].fillna(method='bfill').fillna(method='ffill')

    print("\n--- DESPUÉS de la Interpolación ---")
    print("Cantidad de valores vacíos (NaN) por columna (después):")
    print(df[columnas_aire].isnull().sum())

    # Mostramos los mismos datos de inicio de 2023 para ver cómo se rellenaron
    print("\nVista previa de los datos de Enero 2023 (después):")
    display(df[df['timestamp'] < '2023-01-10 00:00:00Z'].head(10))

    # 3. Guardar el dataset final sin huecos
    df.to_csv(archivo_salida, index=False)
    
    print(f"\n✅ ¡Éxito! El archivo con los datos interpolados ha sido guardado como: {archivo_salida}")

except FileNotFoundError:
    print(f"❌ Error: No se encontró el archivo '{archivo_combinado}'.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

--- ANTES de la Interpolación ---
Cantidad de valores vacíos (NaN) por columna:
co      6795
no      7342
no2     6706
nox     7316
o3      6612
pm25    6947
so2     6934
dtype: int64

Vista previa de los datos de Enero 2023 (antes):


Unnamed: 0,timestamp,temperature_2m,relativehumidity_2m,precipitation,pressure_msl,windspeed_10m,winddirection_10m,boundary_layer_height,shortwave_radiation_sum,hour_of_day,day_of_week,month_of_year,is_weekend,co,no,no2,nox,o3,pm25,so2
0,2023-01-01 00:00:00-06:00,9.322,83.51605,0.0,1020.7,7.993298,277.76508,25.0,17.61,0,6,1,True,,,,,,,
1,2023-01-01 01:00:00-06:00,8.572,85.76039,0.0,1020.4,9.504273,294.62354,25.0,17.61,1,6,1,True,,,,,,,
2,2023-01-01 02:00:00-06:00,8.072,87.201035,0.0,1020.6,7.903619,300.06848,30.0,17.61,2,6,1,True,,,,,,,
3,2023-01-01 03:00:00-06:00,7.772,86.27172,0.0,1020.7,5.00128,300.25635,30.0,17.61,3,6,1,True,,,,,,,
4,2023-01-01 04:00:00-06:00,8.272,80.82539,0.0,1020.8,4.024922,280.30478,30.0,17.61,4,6,1,True,,,,,,,
5,2023-01-01 05:00:00-06:00,7.472,83.58296,0.0,1021.0,5.588703,284.93146,30.0,17.61,5,6,1,True,,,,,,,
6,2023-01-01 06:00:00-06:00,6.822,86.47554,0.0,1021.9,5.95906,295.01685,35.0,17.61,6,6,1,True,,,,,,,
7,2023-01-01 07:00:00-06:00,6.622,85.55309,0.0,1022.4,6.12,298.0724,35.0,17.61,7,6,1,True,,,,,,,
8,2023-01-01 08:00:00-06:00,8.522,76.47981,0.0,1023.2,4.104631,307.87503,40.0,17.61,8,6,1,True,,,,,,,
9,2023-01-01 09:00:00-06:00,10.472,73.941315,0.0,1023.8,2.52,360.0,115.0,17.61,9,6,1,True,,,,,,,



--- Aplicando interpolación... ---

--- DESPUÉS de la Interpolación ---
Cantidad de valores vacíos (NaN) por columna (después):
co      0
no      0
no2     0
nox     0
o3      0
pm25    0
so2     0
dtype: int64

Vista previa de los datos de Enero 2023 (después):


  df[columnas_aire] = df[columnas_aire].fillna(method='bfill').fillna(method='ffill')


Unnamed: 0,timestamp,temperature_2m,relativehumidity_2m,precipitation,pressure_msl,windspeed_10m,winddirection_10m,boundary_layer_height,shortwave_radiation_sum,hour_of_day,day_of_week,month_of_year,is_weekend,co,no,no2,nox,o3,pm25,so2
0,2023-01-01 00:00:00-06:00,9.322,83.51605,0.0,1020.7,7.993298,277.76508,25.0,17.61,0,6,1,True,0.3,0.005,0.028,0.033,0.099,37.0,0.003
1,2023-01-01 01:00:00-06:00,8.572,85.76039,0.0,1020.4,9.504273,294.62354,25.0,17.61,1,6,1,True,0.3,0.005,0.028,0.033,0.099,37.0,0.003
2,2023-01-01 02:00:00-06:00,8.072,87.201035,0.0,1020.6,7.903619,300.06848,30.0,17.61,2,6,1,True,0.3,0.005,0.028,0.033,0.099,37.0,0.003
3,2023-01-01 03:00:00-06:00,7.772,86.27172,0.0,1020.7,5.00128,300.25635,30.0,17.61,3,6,1,True,0.3,0.005,0.028,0.033,0.099,37.0,0.003
4,2023-01-01 04:00:00-06:00,8.272,80.82539,0.0,1020.8,4.024922,280.30478,30.0,17.61,4,6,1,True,0.3,0.005,0.028,0.033,0.099,37.0,0.003
5,2023-01-01 05:00:00-06:00,7.472,83.58296,0.0,1021.0,5.588703,284.93146,30.0,17.61,5,6,1,True,0.3,0.005,0.028,0.033,0.099,37.0,0.003
6,2023-01-01 06:00:00-06:00,6.822,86.47554,0.0,1021.9,5.95906,295.01685,35.0,17.61,6,6,1,True,0.3,0.005,0.028,0.033,0.099,37.0,0.003
7,2023-01-01 07:00:00-06:00,6.622,85.55309,0.0,1022.4,6.12,298.0724,35.0,17.61,7,6,1,True,0.3,0.005,0.028,0.033,0.099,37.0,0.003
8,2023-01-01 08:00:00-06:00,8.522,76.47981,0.0,1023.2,4.104631,307.87503,40.0,17.61,8,6,1,True,0.3,0.005,0.028,0.033,0.099,37.0,0.003
9,2023-01-01 09:00:00-06:00,10.472,73.941315,0.0,1023.8,2.52,360.0,115.0,17.61,9,6,1,True,0.3,0.005,0.028,0.033,0.099,37.0,0.003



✅ ¡Éxito! El archivo con los datos interpolados ha sido guardado como: datos_cdmx_interpolados.csv


In [2]:
import pandas as pd

# Nombre del archivo que ya tiene la calidad del aire interpolada
archivo_a_limpiar = 'datos_cdmx_interpolados.csv'
# Nombre del archivo final, 100% limpio
archivo_final = 'dataset_final_cdmx_limpio.csv'

try:
    df = pd.read_csv(archivo_a_limpiar)

    print("--- ANTES de la limpieza final del clima ---")
    print("Valores vacíos en las columnas del clima:")
    print(df.isnull().sum())

    # --- Aplicando la limpieza ---
    # Columnas para rellenar con interpolación lineal
    cols_para_interpolar = [
        'temperature_2m', 'relativehumidity_2m', 'pressure_msl',
        'windspeed_10m', 'winddirection_10m', 'boundary_layer_height'
    ]
    df[cols_para_interpolar] = df[cols_para_interpolar].interpolate(method='linear', limit_direction='both')

    # Columnas para rellenar con 0
    cols_para_rellenar_cero = ['precipitation', 'shortwave_radiation_sum']
    df[cols_para_rellenar_cero] = df[cols_para_rellenar_cero].fillna(0)
    
    # Relleno final para cualquier posible hueco que haya quedado al inicio o final
    df.fillna(method='bfill', inplace=True)
    df.fillna(method='ffill', inplace=True)


    print("\n--- DESPUÉS de la limpieza final del clima ---")
    print("Valores vacíos restantes (deberían ser 0):")
    print(df.isnull().sum())

    # Guardamos el dataset final y 100% limpio
    df.to_csv(archivo_final, index=False)
    
    print(f"\n✅ ¡Éxito! El dataset final y completamente limpio ha sido guardado como: {archivo_final}")

except FileNotFoundError:
    print(f"❌ Error: No se encontró el archivo '{archivo_a_limpiar}'.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

--- ANTES de la limpieza final del clima ---
Valores vacíos en las columnas del clima:
timestamp                    0
temperature_2m               0
relativehumidity_2m          0
precipitation                0
pressure_msl                 0
windspeed_10m                0
winddirection_10m            0
boundary_layer_height      131
shortwave_radiation_sum      0
hour_of_day                  0
day_of_week                  0
month_of_year                0
is_weekend                   0
co                           0
no                           0
no2                          0
nox                          0
o3                           0
pm25                         0
so2                          0
dtype: int64

--- DESPUÉS de la limpieza final del clima ---
Valores vacíos restantes (deberían ser 0):
timestamp                  0
temperature_2m             0
relativehumidity_2m        0
precipitation              0
pressure_msl               0
windspeed_10m              0
winddirection_1

  df.fillna(method='bfill', inplace=True)
  df.fillna(method='ffill', inplace=True)



✅ ¡Éxito! El dataset final y completamente limpio ha sido guardado como: dataset_final_cdmx_limpio.csv


interpolacion y limpieza LA

In [3]:
import pandas as pd

# --- Nombres de los archivos ---
archivo_combinado = 'datos_combinados_LA_completo.csv'
archivo_salida = 'dataset_final_LA_limpio.csv'

try:
    # 1. Cargar el dataset combinado
    df = pd.read_csv(archivo_combinado)
    df['timestamp'] = pd.to_datetime(df['timestamp'])

    print("--- ANTES de la Interpolación ---")
    print("Cantidad de valores vacíos (NaN) por columna:")
    # Mostramos solo las columnas que tienen al menos un valor nulo para ser breves
    print(df.isnull().sum()[df.isnull().sum() > 0])
    
    # --- Aplicando la limpieza ---
    print("\n--- Aplicando interpolación y rellenando ceros... ---")

    # Columnas de calidad del aire para interpolar
    columnas_aire = ['co', 'no', 'no2', 'nox', 'o3', 'pm10', 'pm25', 'so2']
    
    # Columnas de clima para interpolar
    cols_clima_interpolar = [
        'temperature_2m', 'relativehumidity_2m', 'pressure_msl',
        'windspeed_10m', 'winddirection_10m', 'boundary_layer_height'
    ]
    
    # Columnas de clima para rellenar con 0
    cols_clima_cero = ['precipitation', 'shortwave_radiation_sum']

    # Aplicamos la interpolación lineal a las columnas correspondientes
    df[columnas_aire + cols_clima_interpolar] = df[columnas_aire + cols_clima_interpolar].interpolate(method='linear', limit_direction='both')

    # Rellenamos con 0 las columnas de eventos
    df[cols_clima_cero] = df[cols_clima_cero].fillna(0)
    
    # Relleno final con 'bfill' y 'ffill' para asegurar que no queden huecos al inicio o final del dataset
    df.fillna(method='bfill', inplace=True)
    df.fillna(method='ffill', inplace=True)


    print("\n--- DESPUÉS de la Interpolación ---")
    print("Cantidad de valores vacíos restantes (deberían ser 0):")
    print(df.isnull().sum()[df.isnull().sum() > 0]) # Debería imprimir una serie vacía

    # 3. Guardar el dataset final sin huecos
    df.to_csv(archivo_salida, index=False)
    
    print(f"\n✅ ¡Éxito! El archivo con los datos de LA interpolados ha sido guardado como: {archivo_salida}")

except FileNotFoundError:
    print(f"❌ Error: No se encontró el archivo '{archivo_combinado}'.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

  df['timestamp'] = pd.to_datetime(df['timestamp'])
  df.fillna(method='bfill', inplace=True)
  df.fillna(method='ffill', inplace=True)


--- ANTES de la Interpolación ---
Cantidad de valores vacíos (NaN) por columna:
boundary_layer_height      4487
shortwave_radiation_sum       2
co                          446
no                         8438
no2                         287
nox                         290
o3                          263
pm10                        371
pm25                        554
so2                         286
dtype: int64

--- Aplicando interpolación y rellenando ceros... ---

--- DESPUÉS de la Interpolación ---
Cantidad de valores vacíos restantes (deberían ser 0):
Series([], dtype: int64)

✅ ¡Éxito! El archivo con los datos de LA interpolados ha sido guardado como: dataset_final_LA_limpio.csv
