In [4]:
import pandas as pd
import numpy as np

# Lista de rutas a los archivos 2022
paths_2022 = [
    "bine2022_corregido.csv",
    "ninfas2022_corregido.csv",
    "santa2022_corregido.csv",
    "utp2022_corregido.csv",
    "vel2022_corregido.csv"
]

# Mapeo de nombres correctos
rename_map_2022 = {
    'Fecha_Hora': 'DateTime',
    'O3_Horario': 'O3',
    'O3_8H': 'O3_8hrs',
    'NO2': 'NO2',
    'CO_8H': 'CO',
    'SO2_24H': 'SO2',
    'PM_10': 'PM10',
    'PM_2.5': 'PM2_5'
}

# Estaciones según el archivo
estaciones = {
    'bine2022_corregido.csv': 'bine',
    'ninfas2022_corregido.csv': 'ninfas',
    'santa2022_corregido.csv': 'santa',
    'utp2022_corregido.csv': 'utp',
    'vel2022_corregido.csv': 'vel'
}

# Procesamiento
dfs_2022 = []

for path in paths_2022:
    df = pd.read_csv(f"data/final/profe/{path}")
    df.rename(columns=rename_map_2022, inplace=True)
    df['DateTime'] = pd.to_datetime(df['DateTime'], errors='coerce')

    df['Anio'] = df['DateTime'].dt.year
    df['Mes'] = df['DateTime'].dt.month
    df['Dia'] = df['DateTime'].dt.day
    df['Hora'] = df['DateTime'].dt.hour
    df['Estacion'] = estaciones[path]

    if 'O3_8hrs' not in df.columns:
        df['O3_8hrs'] = np.nan

    final_cols = ['O3', 'O3_8hrs', 'NO2', 'CO', 'SO2', 'PM10', 'PM2_5',
                  'Estacion', 'DateTime', 'Anio', 'Mes', 'Dia', 'Hora']
    for col in final_cols:
        if col not in df.columns:
            df[col] = np.nan

    df = df[final_cols]
    dfs_2022.append(df)

# Unir todos
df_2022_final = pd.concat(dfs_2022, ignore_index=True)

# Guardar como CSV limpio
df_2022_final.to_csv("data/final/clean/datos_Clean_2022.csv", index=False)
print("✅ Archivo guardado como datos_Clean_2022.csv")


✅ Archivo guardado como datos_Clean_2022.csv
