In [65]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

El objetivo de este notebook es poder juntar los csv de PM10 de los años 2020, 2021, 2022 y 2023 en un solo csv. Tambien verificar calidad en los datos: Unicidad, Consistencia, Validez y Completitud.

In [66]:
# Cargar los datos de PM10 de varios años
pm10_2020 = "raw/pm10-2020.csv"
pm10_2021 = "raw/pm10-2021.csv"
pm10_2022 = "raw/pm10-2022.csv"
pm10_2023 = "raw/pm10-2023.csv"

df_2020 = pd.read_csv(pm10_2020, sep=',')
df_2021 = pd.read_csv(pm10_2021, sep=',')
df_2022 = pd.read_csv(pm10_2022, sep=',')
df_2023 = pd.read_csv(pm10_2023, sep=',')

# Combinar los datos 
df_10 = pd.concat([df_2020, df_2021, df_2022, df_2023], ignore_index=True)
df_10.head()

Unnamed: 0,Estacion,Fecha inicial,Fecha final,PM10
0,"""USME""",12/31/2020 22:00,12/31/2020 22:59,39.5
1,"""USME""",12/31/2020 21:00,12/31/2020 21:59,35.5
2,"""USME""",12/31/2020 20:00,12/31/2020 20:59,38.3
3,"""USME""",12/31/2020 19:00,12/31/2020 19:59,34.7
4,"""USME""",12/31/2020 18:00,12/31/2020 18:59,38.7


De una vez vamos a procesar la fecha incial que es la que vamos a tomar, vamos a dejar la columna "Fecha inicial" renombrada a fecha, sacaremos de ahi, "ANIO" y "HORA"

In [67]:
# procesar la columna de fecha y hora
df_10['Fecha inicial'] = pd.to_datetime(df_10['Fecha inicial'], format='%m/%d/%Y %H:%M')
df_10.rename(columns={'Fecha inicial': 'FECHA'}, inplace=True)
df_10['ANIO'] = df_10['FECHA'].dt.year
df_10['HORA'] = df_10['FECHA'].dt.hour
df_10['MES'] = df_10['FECHA'].dt.month
df_10['DIA'] = df_10['FECHA'].dt.day
df_10.head()

# Renombrar columna a uppercase
df_10.rename(columns={'Estacion': 'ESTACION'}, inplace=True)

# Borrar columna fecha final
df_10.drop(columns=['Fecha final'], inplace=True)

In [68]:
df_10.head()

Unnamed: 0,ESTACION,FECHA,PM10,ANIO,HORA,MES,DIA
0,"""USME""",2020-12-31 22:00:00,39.5,2020,22,12,31
1,"""USME""",2020-12-31 21:00:00,35.5,2020,21,12,31
2,"""USME""",2020-12-31 20:00:00,38.3,2020,20,12,31
3,"""USME""",2020-12-31 19:00:00,34.7,2020,19,12,31
4,"""USME""",2020-12-31 18:00:00,38.7,2020,18,12,31


Ahora vamos a cargar y procesar los datos para PM2.5

In [69]:
# Cargar datos pm2.5
pm25_2020 = "raw/pm25-2020.csv"
pm25_2021 = "raw/pm25-2021.csv"
pm25_2022 = "raw/pm25-2022.csv"
pm25_2023 = "raw/pm25-2023.csv"

df_2020_25 = pd.read_csv(pm25_2020, sep=',')
df_2021_25 = pd.read_csv(pm25_2021, sep=',')
df_2022_25 = pd.read_csv(pm25_2022, sep=',')
df_2023_25 = pd.read_csv(pm25_2023, sep=',')

# Combinar los datos 
df_25 = pd.concat([df_2020_25, df_2021_25, df_2022_25, df_2023_25], ignore_index=True)
df_25.head()

Unnamed: 0,Estacion,Fecha inicial,Fecha final,PM2.5
0,"""USME""",12/31/2020 22:00,12/31/2020 22:59,24.0
1,"""USME""",12/31/2020 21:00,12/31/2020 21:59,28.8
2,"""USME""",12/31/2020 20:00,12/31/2020 20:59,21.8
3,"""USME""",12/31/2020 19:00,12/31/2020 19:59,17.1
4,"""USME""",12/31/2020 18:00,12/31/2020 18:59,10.6


In [70]:
# procesar la columna de fecha y hora
df_25['Fecha inicial'] = pd.to_datetime(df_25['Fecha inicial'], format='%m/%d/%Y %H:%M')
df_25.rename(columns={'Fecha inicial': 'FECHA'}, inplace=True)
df_25['ANIO'] = df_25['FECHA'].dt.year
df_25['HORA'] = df_25['FECHA'].dt.hour
df_25['MES'] = df_25['FECHA'].dt.month
df_25['DIA'] = df_25['FECHA'].dt.day
df_25.head()

# Renombrar columna a uppercase
df_25.rename(columns={'Estacion': 'ESTACION'}, inplace=True)

# Borrar columna fecha final
df_25.drop(columns=['Fecha final'], inplace=True)

In [71]:
df_25.head()

Unnamed: 0,ESTACION,FECHA,PM2.5,ANIO,HORA,MES,DIA
0,"""USME""",2020-12-31 22:00:00,24.0,2020,22,12,31
1,"""USME""",2020-12-31 21:00:00,28.8,2020,21,12,31
2,"""USME""",2020-12-31 20:00:00,21.8,2020,20,12,31
3,"""USME""",2020-12-31 19:00:00,17.1,2020,19,12,31
4,"""USME""",2020-12-31 18:00:00,10.6,2020,18,12,31


In [72]:
# Ahora cargamos los datos de CO, NO2, O3, SO2 de 2020-2023

co_2020 = "raw/co-2020.csv"
co_2021 = "raw/co-2021.csv" 
co_2022 = "raw/co-2022.csv"
co_2023 = "raw/co-2023.csv"
no2_2020 = "raw/no2-2020.csv"
no2_2021 = "raw/no2-2021.csv"
no2_2022 = "raw/no2-2022.csv"
no2_2023 = "raw/no2-2023.csv"
o3_2020 = "raw/o3-2020.csv"
o3_2021 = "raw/o3-2021.csv"
o3_2022 = "raw/o3-2022.csv"
o3_2023 = "raw/o3-2023.csv"
so2_2020 = "raw/so2-2020.csv"
so2_2021 = "raw/so2-2021.csv"
so2_2022 = "raw/so2-2022.csv"
so2_2023 = "raw/so2-2023.csv"

df_co_2020 = pd.read_csv(co_2020, sep=',')
df_co_2021 = pd.read_csv(co_2021, sep=',')
df_co_2022 = pd.read_csv(co_2022, sep=',')
df_co_2023 = pd.read_csv(co_2023, sep=',')
df_no2_2020 = pd.read_csv(no2_2020, sep=',')
df_no2_2021 = pd.read_csv(no2_2021, sep=',')
df_no2_2022 = pd.read_csv(no2_2022, sep=',')
df_no2_2023 = pd.read_csv(no2_2023, sep=',')
df_o3_2020 = pd.read_csv(o3_2020, sep=',')
df_o3_2021 = pd.read_csv(o3_2021, sep=',')
df_o3_2022 = pd.read_csv(o3_2022, sep=',')
df_o3_2023 = pd.read_csv(o3_2023, sep=',')
df_so2_2020 = pd.read_csv(so2_2020, sep=',')
df_so2_2021 = pd.read_csv(so2_2021, sep=',')
df_so2_2022 = pd.read_csv(so2_2022, sep=',')
df_so2_2023 = pd.read_csv(so2_2023, sep=',')

# Combinar los datos
df_co = pd.concat([df_co_2020, df_co_2021, df_co_2022, df_co_2023], ignore_index=True)
df_no2 = pd.concat([df_no2_2020, df_no2_2021, df_no2_2022, df_no2_2023], ignore_index=True)
df_o3 = pd.concat([df_o3_2020, df_o3_2021, df_o3_2022, df_o3_2023], ignore_index=True)
df_so2 = pd.concat([df_so2_2020, df_so2_2021, df_so2_2022, df_so2_2023], ignore_index=True)

# procesar la columna de fecha y hora
for df in [df_co, df_no2, df_o3, df_so2]:
    df['Fecha inicial'] = pd.to_datetime(df['Fecha inicial'], format='%Y-%m-%d %H:%M')
    df.rename(columns={'Fecha inicial': 'FECHA'}, inplace=True)
    df['ANIO'] = df['FECHA'].dt.year
    df['HORA'] = df['FECHA'].dt.hour
    df['MES'] = df['FECHA'].dt.month
    df['DIA'] = df['FECHA'].dt.day
    df.rename(columns={'Estacion': 'ESTACION'}, inplace=True)
    df.drop(columns=['Fecha final'], inplace=True) 

# Ahora unimos todos los dataframes en uno solo
data_frames = [df_10, df_25, df_co, df_no2, df_o3, df_so2]
tabla_final = pd.concat(data_frames, ignore_index=True)
tabla_final.head()

Unnamed: 0,ESTACION,FECHA,PM10,ANIO,HORA,MES,DIA,PM2.5,CO,NO2,O3,SO2
0,"""USME""",2020-12-31 22:00:00,39.5,2020,22,12,31,,,,,
1,"""USME""",2020-12-31 21:00:00,35.5,2020,21,12,31,,,,,
2,"""USME""",2020-12-31 20:00:00,38.3,2020,20,12,31,,,,,
3,"""USME""",2020-12-31 19:00:00,34.7,2020,19,12,31,,,,,
4,"""USME""",2020-12-31 18:00:00,38.7,2020,18,12,31,,,,,


#

In [73]:
# Ahora vamos a juntar todos los datos, de forma tal que cada fila tenga la estacion, misma fecha, anio, hora, mes y dia y la concetracion de pm2.5, pm10, co, no2, o3 y so2 correpondiente a esa fecha.
df_final = tabla_final.groupby(['ESTACION', 'FECHA', 'ANIO', 'HORA', 'MES', 'DIA'], as_index=False).first()

# Para los nulos en algun contaminante imputamos 0 
df_final.fillna(0, inplace=True)

# Ordenar vamos a estandarizar la fecha ya que algunos dataframes tenian diferente formato como %m/%d/%Y y otros %Y-%m-%d vamos a dejarlo simplemente %d-%m-%Y y le quitamos los"-" y lo pasamos a int que sera el id de la fecha

df_final['FECHA'] = df_final['FECHA'].dt.strftime('%d-%m-%Y').str.replace('-', '').astype(int)
df_final = df_final.sort_values(by=['ESTACION', 'FECHA'])

In [78]:
# --- PASO 1: Creación de los Mapeos ---

# 1.1 Mapeo de ESTACION a LOCALIDAD
# He investigado la ubicación de cada estación para asignarla a su localidad.
mapeo_estacion_localidad = {
    # Localidades obvias
    "USAQUEN": "Usaquén",
    '"USME"': "Usme",  # Limpiamos las comillas que vi en tu imagen
    "USME": "Usme",
    "SUBA": "Suba",
    "KENNEDY": "Kennedy",
    "SAN CRISTOBAL": "San Cristóbal",
    "BOSA": "Bosa",
    "CIUDAD BOLÍVAR": "Ciudad Bolívar",
    "PUENTE ARANDA": "Puente Aranda",
    "P_CAMI - FONTIBÓN": "Fontibón",
    "MÓVIL FONTIBÓN": "Fontibón",

    # Localidades investigadas
    "MINAMBIENTE": "Teusaquillo", # El ministerio está en Teusaquillo
    "CENTRO DE ALTO RENDIMIENTO": "Barrios Unidos",
    "TUNAL": "Tunjuelito", # El Parque Tunal está en Tunjuelito
    "LAS FERIAS": "Engativá",
    "GUAYMARAL": "Suba", # El aeródromo de Guaymaral está en Suba
    "BOGOTA RURAL - MOCHUELO": "Ciudad Bolívar",
    "MOCHUELO - COLEGIO": "Ciudad Bolívar",
    "EL JAZMÍN": "Puente Aranda",
    "BOLIVIA": "Engativá", # Ciudadela Bolivia está en Engativá
    "CARVAJAL - SEVILLANA": "Kennedy",
    "COLINA": "Suba", # Barrio Colina Campestre está en Suba
    "MÓVIL 7MA": "Chapinero" # Móvil en la Carrera 7ma, probablemente monitoreando Chapinero
}

# 1.2 Mapeo de LOCALIDAD a ID_LOCALIDAD
mapeo_localidad_id = {
    "Usaquén": 1,
    "Chapinero": 2,
    "Santa Fe": 3,
    "San Cristóbal": 4,
    "Usme": 5,
    "Tunjuelito": 6,
    "Bosa": 7,
    "Kennedy": 8,
    "Fontibón": 9,
    "Engativá": 10,
    "Suba": 11,
    "Barrios Unidos": 12,
    "Teusaquillo": 13,
    "Los Mártires": 14,
    "Antonio Nariño": 15,
    "Puente Aranda": 16,
    "La Candelaria": 17,
    "Rafael Uribe Uribe": 18,
    "Ciudad Bolívar": 19,
    "Sumapaz": 20
}

# --- PASO 2: Limpieza y Aplicación de Mapeos ---

# Limpiar espacios y caracteres extraños (como las comillas en "USME")
df_final['ESTACION'] = df_final['ESTACION'].str.strip().str.replace('"', '')

# Crear las nuevas columnas usando .map()
df_final['LOCALIDAD'] = df_final['ESTACION'].map(mapeo_estacion_localidad)
df_final['ID_LOCALIDAD'] = df_final['LOCALIDAD'].map(mapeo_localidad_id)

# (Opcional) Manejar estaciones no mapeadas, si las hubiera
# Esto te dirá si alguna estación no se mapeó correctamente
if df_final['LOCALIDAD'].isnull().any():
    estaciones_sin_mapear = df_final[df_final['LOCALIDAD'].isnull()]['ESTACION'].unique()
    print(f"ADVERTENCIA: Estas estaciones no se pudieron mapear: {estaciones_sin_mapear}")
    # Por ahora, las eliminaremos para el agregado, pero deberías revisar tu mapeo
    df_final = df_final.dropna(subset=['LOCALIDAD'])
    
# Convertir ID_LOCALIDAD a entero (ya que puede ser float por los NaNs)
df_final['ID_LOCALIDAD'] = df_final['ID_LOCALIDAD'].astype(int)


# --- PASO 3: Agregación (Reglas 1 y 2) ---

# Definir las columnas por las que agruparemos (la "llave" única de tiempo y lugar)
columnas_agrupacion = ['LOCALIDAD', 'ID_LOCALIDAD', 'FECHA', 'ANIO', 'MES', 'DIA', 'HORA']

# Definir las columnas de contaminantes que queremos promediar
columnas_contaminantes = ['PM10', 'PM2.5', 'CO', 'NO2', 'O3', 'SO2']

# Agrupar y calcular la media
# Esto aplica las reglas 1 y 2 automáticamente:
# - Si una localidad/hora tiene 1 estación, mean() de 1 valor = ese valor.
# - Si tiene 2+ (ej. Fontibón), mean() = el promedio de ellas.
df_agregado_por_localidad = df_final.groupby(columnas_agrupacion, as_index=False)[columnas_contaminantes].mean()

# Reordenar las columnas para que se parezca a tu DF original
columnas_finales = columnas_agrupacion + columnas_contaminantes
df_agregado_por_localidad = df_agregado_por_localidad[columnas_finales]

# Ordenamos por LOCALIDAD y FECHA para mejor visualización
df_agregado_por_localidad = df_agregado_por_localidad.sort_values(by=['FECHA', 'ID_LOCALIDAD'])
df_agregado_por_localidad


Unnamed: 0,LOCALIDAD,ID_LOCALIDAD,FECHA,ANIO,MES,DIA,HORA,PM10,PM2.5,CO,NO2,O3,SO2
381438,Usaquén,1,1012020,2020,1,1,1,0.000000,23.000000,801.430000,0.000000,0.000000,0.000000
381439,Usaquén,1,1012020,2020,1,1,2,0.000000,29.000000,686.940000,0.000000,0.000000,0.000000
381440,Usaquén,1,1012020,2020,1,1,3,0.000000,36.000000,686.940000,0.000000,0.000000,0.000000
381441,Usaquén,1,1012020,2020,1,1,4,19.000000,19.000000,686.940000,0.000000,0.000000,0.000000
381442,Usaquén,1,1012020,2020,1,1,5,23.000000,23.000000,801.430000,0.000000,0.000000,0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...
103136,Ciudad Bolívar,19,31122023,2023,12,31,18,34.943333,21.473333,381.633333,14.541667,6.409333,2.967667
103137,Ciudad Bolívar,19,31122023,2023,12,31,19,49.420000,31.413333,381.633333,12.849333,4.578000,3.055000
103138,Ciudad Bolívar,19,31122023,2023,12,31,20,48.123333,30.236667,457.960000,14.040333,3.204667,2.793333
103139,Ciudad Bolívar,19,31122023,2023,12,31,21,56.000000,36.233333,381.633333,11.282333,2.746667,1.658333


In [77]:
# Exportar csv 
# df_final.to_csv('consolidados/pm_consolidado.csv', index=False)

df_agregado_por_localidad.to_csv('consolidados/pm_consolidado_por_localidad.csv', index=False)

In [44]:
df_final["ESTACION"].value_counts() 

ESTACION
USAQUEN                       34958
MINAMBIENTE                   34958
CENTRO DE ALTO RENDIMIENTO    34922
TUNAL                         34865
PUENTE ARANDA                 34833
SAN CRISTOBAL                 34793
LAS FERIAS                    34634
GUAYMARAL                     34601
P_CAMI - FONTIBÓN             34548
SUBA                          34276
KENNEDY                       33771
BOGOTA RURAL - MOCHUELO       32956
EL JAZMÍN                     28104
"USME"                        27858
CIUDAD BOLÍVAR                27828
MÓVIL 7MA                     26745
BOLIVIA                       26300
CARVAJAL - SEVILLANA          24859
COLINA                        24658
MÓVIL FONTIBÓN                23034
BOSA                           6838
MOCHUELO - COLEGIO             3561
Name: count, dtype: int64

In [45]:
df_final

Unnamed: 0,ESTACION,FECHA,ANIO,HORA,MES,DIA,PM10,PM2.5,CO,NO2,O3,SO2,LOCALIDAD,ID_LOCALIDAD
2189,"""USME""",1012021,2021,0,1,1,56.6,32.7,457.96,30.08640,4.7088,18.85392,,
2190,"""USME""",1012021,2021,1,1,1,59.3,39.3,801.43,33.65916,2.1582,14.14044,,
2191,"""USME""",1012021,2021,2,1,1,96.4,70.8,1030.41,33.47112,2.3544,14.92602,,
2192,"""USME""",1012021,2021,3,1,1,108.3,81.0,343.47,18.61596,12.9492,6.28464,,
2193,"""USME""",1012021,2021,4,1,1,87.7,56.1,228.98,17.48772,18.6390,7.85580,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
633895,USAQUEN,31122023,2023,18,12,31,31.8,19.0,1259.39,0.00000,6.4750,1.83300,Usaquén,1.0
633896,USAQUEN,31122023,2023,19,12,31,29.7,22.0,1144.90,0.00000,7.2590,2.35700,Usaquén,1.0
633897,USAQUEN,31122023,2023,20,12,31,29.2,18.0,1030.41,0.00000,7.2590,2.09500,Usaquén,1.0
633898,USAQUEN,31122023,2023,21,12,31,36.5,14.0,1144.90,0.00000,3.1390,1.83300,Usaquén,1.0
