merge LA

In [1]:
import pandas as pd

# --- Nombres de los archivos ---
archivo_calidad_aire = 'openaq_data_LosAngeles_NMainSt.csv'
archivo_clima = 'datos_finales_ml_Centro_LA_24h.csv'
archivo_salida = 'datos_combinados_LA_completo.csv'

# --- Inicio del Script ---
try:
    print(f"Cargando datos de calidad del aire desde: {archivo_calidad_aire}")
    df_aire = pd.read_csv(archivo_calidad_aire)

    print(f"Cargando datos del clima desde: {archivo_clima}")
    df_clima = pd.read_csv(archivo_clima)

    print("\nProcesando columnas de fecha y hora...")
    df_aire['timestamp'] = pd.to_datetime(df_aire['timestamp'])
    df_clima['timestamp'] = pd.to_datetime(df_clima['timestamp'])

    print("Uniendo los dos conjuntos de datos (manteniendo todos los registros del clima)...")
    
    # --- EL CAMBIO CLAVE ESTÁ AQUÍ ---
    # Usamos 'how="right"' para conservar todas las filas del archivo de clima (df_clima).
    df_final = pd.merge(df_clima, df_aire, on='timestamp', how='left')

    print("\n--- Vista previa de los datos combinados ---")
    # Mostramos las primeras 5 filas para que veas el resultado
    try:
        display(df_final.head())
    except NameError:
        print(df_final.head())
    
    # Buscamos y mostramos una fila con datos faltantes para confirmar que funcionó
    print("\nEjemplo de fila con datos de clima pero SIN datos de calidad del aire (valores NaN):")
    fila_con_nulos = df_final[df_final['co'].isnull()]
    try:
        display(fila_con_nulos.head(1))
    except NameError:
        print(fila_con_nulos.head(1))


    # Guardamos el resultado en un nuevo archivo CSV.
    df_final.to_csv(archivo_salida, index=False)
    
    print(f"\n✅ ¡Éxito! Los datos combinados han sido guardados en: {archivo_salida}")

except FileNotFoundError:
    print(f"\n❌ Error: No se pudo encontrar uno de los archivos.")
    print(f"   Asegúrate de que '{archivo_calidad_aire}' y '{archivo_clima}' estén en la misma carpeta que el script.")
except Exception as e:
    print(f"\nOcurrió un error inesperado: {e}")

Cargando datos de calidad del aire desde: openaq_data_LosAngeles_NMainSt.csv
Cargando datos del clima desde: datos_finales_ml_Centro_LA_24h.csv

Procesando columnas de fecha y hora...


  df_aire['timestamp'] = pd.to_datetime(df_aire['timestamp'])


Uniendo los dos conjuntos de datos (manteniendo todos los registros del clima)...

--- Vista previa de los datos combinados ---


  df_clima['timestamp'] = pd.to_datetime(df_clima['timestamp'])


Unnamed: 0,timestamp,temperature_2m,relativehumidity_2m,precipitation,pressure_msl,windspeed_10m,winddirection_10m,boundary_layer_height,shortwave_radiation_sum,hour_of_day,...,month_of_year,is_weekend,co,no,no2,nox,o3,pm10,pm25,so2
0,2023-12-31 23:00:00-08:00,9.503,87.03908,0.0,1018.3,8.089993,20.854538,,,23,...,12,True,1.0,0.0196,0.0224,0.0419,0.001,51.0,39.6,0.0002
1,2024-01-01 00:00:00-08:00,9.103001,84.64586,0.0,1018.3,8.534353,27.645891,,11.39,0,...,1,False,1.2,0.0326,0.0196,0.0522,0.001,53.0,48.4,0.0001
2,2024-01-01 01:00:00-08:00,9.153,80.66726,0.0,1018.6,8.587338,33.023872,,11.39,1,...,1,False,0.9,0.0186,0.0183,0.0369,0.001,62.0,55.2,0.0001
3,2024-01-01 02:00:00-08:00,9.053,78.17895,0.0,1018.4,8.427383,19.983198,,11.39,2,...,1,False,0.8,0.011,0.0174,0.0284,0.001,53.0,52.8,0.0001
4,2024-01-01 03:00:00-08:00,9.903,71.56642,0.0,1018.1,5.937272,14.036275,,11.39,3,...,1,False,0.7,0.0083,0.0183,0.0266,0.001,38.0,32.9,0.0002



Ejemplo de fila con datos de clima pero SIN datos de calidad del aire (valores NaN):


Unnamed: 0,timestamp,temperature_2m,relativehumidity_2m,precipitation,pressure_msl,windspeed_10m,winddirection_10m,boundary_layer_height,shortwave_radiation_sum,hour_of_day,...,month_of_year,is_weekend,co,no,no2,nox,o3,pm10,pm25,so2
252,2024-01-11 11:00:00-08:00,13.003,32.06328,0.0,1016.8,2.52,360.0,,12.62,11,...,1,False,,0.0013,0.0033,0.0047,0.04,15.0,5.7,



✅ ¡Éxito! Los datos combinados han sido guardados en: datos_combinados_LA_completo.csv


merge CDMX

In [2]:
import pandas as pd

# --- Nombres de los archivos ---
# Archivo con los datos de calidad del aire que descargaste
archivo_calidad_aire = 'openaq_data_CCA_CDMX_2023_2025.csv'

# Archivo con los datos del pronóstico del tiempo
archivo_clima = 'datos_finales_ml_Centro_CDMX_24h.csv'

# Nombre que tendrá el archivo final combinado
archivo_salida = 'datos_combinados_CDMX_completo.csv'

# --- Inicio del Script ---
try:
    print(f"Cargando datos de calidad del aire desde: {archivo_calidad_aire}")
    df_aire = pd.read_csv(archivo_calidad_aire)

    print(f"Cargando datos del clima desde: {archivo_clima}")
    df_clima = pd.read_csv(archivo_clima)

    print("\nProcesando columnas de fecha y hora...")
    # 1. Convertimos la columna 'timestamp' en ambos archivos a un formato de fecha real.
    df_aire['timestamp'] = pd.to_datetime(df_aire['timestamp'])
    df_clima['timestamp'] = pd.to_datetime(df_clima['timestamp'])

    print("Uniendo los dos conjuntos de datos (manteniendo todos los registros del clima)...")
    
    # 2. Usamos 'how="left"' para conservar todas las filas del archivo de clima (df_clima).
    #    Esto asegura que no se pierda ninguna hora del pronóstico del tiempo.
    df_final = pd.merge(df_clima, df_aire, on='timestamp', how='left')

    print("\n--- Vista previa de los datos combinados ---")
    # Mostramos las primeras 5 filas para que veas el resultado
    try:
        display(df_final.head())
    except NameError:
        print(df_final.head())

    # 3. Guardamos el resultado en un nuevo archivo CSV.
    df_final.to_csv(archivo_salida, index=False)
    
    print(f"\n✅ ¡Éxito! Los datos combinados han sido guardados en: {archivo_salida}")

except FileNotFoundError:
    print(f"\n❌ Error: No se pudo encontrar uno de los archivos.")
    print(f"   Asegúrate de que '{archivo_calidad_aire}' y '{archivo_clima}' estén en la misma carpeta que el script.")
except Exception as e:
    print(f"\nOcurrió un error inesperado: {e}")

Cargando datos de calidad del aire desde: openaq_data_CCA_CDMX_2023_2025.csv
Cargando datos del clima desde: datos_finales_ml_Centro_CDMX_24h.csv

Procesando columnas de fecha y hora...
Uniendo los dos conjuntos de datos (manteniendo todos los registros del clima)...

--- Vista previa de los datos combinados ---


Unnamed: 0,timestamp,temperature_2m,relativehumidity_2m,precipitation,pressure_msl,windspeed_10m,winddirection_10m,boundary_layer_height,shortwave_radiation_sum,hour_of_day,day_of_week,month_of_year,is_weekend,co,no,no2,nox,o3,pm25,so2
0,2023-01-01 00:00:00-06:00,9.322,83.51605,0.0,1020.7,7.993298,277.76508,25.0,17.61,0,6,1,True,,,,,,,
1,2023-01-01 01:00:00-06:00,8.572,85.76039,0.0,1020.4,9.504273,294.62354,25.0,17.61,1,6,1,True,,,,,,,
2,2023-01-01 02:00:00-06:00,8.072,87.201035,0.0,1020.6,7.903619,300.06848,30.0,17.61,2,6,1,True,,,,,,,
3,2023-01-01 03:00:00-06:00,7.772,86.27172,0.0,1020.7,5.00128,300.25635,30.0,17.61,3,6,1,True,,,,,,,
4,2023-01-01 04:00:00-06:00,8.272,80.82539,0.0,1020.8,4.024922,280.30478,30.0,17.61,4,6,1,True,,,,,,,



✅ ¡Éxito! Los datos combinados han sido guardados en: datos_combinados_CDMX_completo.csv
