In [9]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

In [3]:
df = pd.read_csv("Datos_aire/SISAIRE-CO-2020.csv", parse_dates=["Fecha inicial","Fecha final"])
df.head()

Unnamed: 0,Estacion,Fecha inicial,Fecha final,CO
0,"""USME""",2020-12-31 22:00:00,2020-12-31 22:59:00,1259.39
1,"""USME""",2020-12-31 21:00:00,2020-12-31 21:59:00,801.43
2,"""USME""",2020-12-31 20:00:00,2020-12-31 20:59:00,1144.9
3,"""USME""",2020-12-31 19:00:00,2020-12-31 19:59:00,686.94
4,"""USME""",2020-12-31 18:00:00,2020-12-31 18:59:00,1488.37


In [8]:
df_new = pd.read_csv("Datos_aire/SISAIRE/SISAIRE-CO-2020-NEW.csv", parse_dates=["Fecha inicial","Fecha final"])
df_new.value_counts(["Estacion"]).sort_index()

Estacion                  
"USME"                        2476
BOLIVIA                       1656
BOSA                          1782
CARVAJAL - SEVILLANA          8122
CENTRO DE ALTO RENDIMIENTO    8729
CIUDAD BOLÍVAR                1806
EL JAZMÍN                     2189
KENNEDY                       8348
LAS FERIAS                    8666
MINAMBIENTE                   1894
MÓVIL 7MA                     5915
PUENTE ARANDA                 6820
P_CAMI - FONTIBÓN             3974
SUBA                          1775
TUNAL                         7945
USAQUEN                       8514
Name: count, dtype: int64

In [6]:
df.value_counts(["Estacion"]).sort_index()

Estacion                  
"USME"                        2476
BOLIVIA                       1656
BOSA                          1782
CARVAJAL - SEVILLANA          8122
CENTRO DE ALTO RENDIMIENTO    8729
CIUDAD BOLÍVAR                1806
EL JAZMÍN                     2189
KENNEDY                       8348
LAS FERIAS                    8666
MINAMBIENTE                   1894
MÓVIL 7MA                     5915
PUENTE ARANDA                 6820
P_CAMI - FONTIBÓN             3974
SUBA                          1775
TUNAL                         7945
USAQUEN                       8514
Name: count, dtype: int64

In [31]:
folder_path = 'c:\\Users\\aleja\\OneDrive\\Documentos\\2025-2\\Inteligencia de Negocios\\Proyecto 2 - Repo\\Proyecto2BI\\Datos_aire\\SISAIRE'
years = [2020,2021,2022,2023]
contaminantes = ["CO", "NO2", "O3", "PM10", "PM25", "SO2"]

for year in years:
    print("Procesando año {year}...")
    dfs_to_merge = []
    
    for contaminante in contaminantes:
        file_path = os.path.join(folder_path, f'SISAIRE-{contaminante}-{year}.csv')
        
        try:
            df= pd.read_csv(file_path)
            key_columns = ["Estacion","Fecha inicial","Fecha final"]
            key_columns = df.columns[:-1].tolist() 
            value_column = df.columns[-1]        
            df = df.rename(columns={value_column: contaminante})
            df[contaminante] = pd.to_numeric(df[contaminante], errors='coerce')
            dfs_to_merge.append(df)
            
        except FileNotFoundError:
            print(f"  - {contaminante}: No encontrado")
            continue
    
    if dfs_to_merge:
        combined = dfs_to_merge[0]
        for df in dfs_to_merge[1:]:
            merge_columns = [col for col in combined.columns if col not in contaminantes]
            combined = pd.merge(combined, df, on=merge_columns, how='outer')
        
        # Guardar
        output_path = os.path.join(folder_path, f'SISAIRE-COMBINED-{year}.csv')
        combined.to_csv(output_path, index=False)
        print(f"✓ Guardado: {output_path}")
        print(f"  Shape: {combined.shape}")
        print(f"  Columnas: {combined.columns.tolist()}")

print("\n¡Completado!")

Procesando año {year}...
✓ Guardado: c:\Users\aleja\OneDrive\Documentos\2025-2\Inteligencia de Negocios\Proyecto 2 - Repo\Proyecto2BI\Datos_aire\SISAIRE\SISAIRE-COMBINED-2020.csv
  Shape: (154198, 9)
  Columnas: ['Estacion', 'Fecha inicial', 'Fecha final', 'CO', 'NO2', 'O3', 'PM10', 'PM25', 'SO2']
Procesando año {year}...
✓ Guardado: c:\Users\aleja\OneDrive\Documentos\2025-2\Inteligencia de Negocios\Proyecto 2 - Repo\Proyecto2BI\Datos_aire\SISAIRE\SISAIRE-COMBINED-2021.csv
  Shape: (178882, 9)
  Columnas: ['Estacion', 'Fecha inicial', 'Fecha final', 'CO', 'NO2', 'O3', 'PM10', 'PM25', 'SO2']
Procesando año {year}...
✓ Guardado: c:\Users\aleja\OneDrive\Documentos\2025-2\Inteligencia de Negocios\Proyecto 2 - Repo\Proyecto2BI\Datos_aire\SISAIRE\SISAIRE-COMBINED-2022.csv
  Shape: (164558, 9)
  Columnas: ['Estacion', 'Fecha inicial', 'Fecha final', 'CO', 'NO2', 'O3', 'PM10', 'PM25', 'SO2']
Procesando año {year}...
✓ Guardado: c:\Users\aleja\OneDrive\Documentos\2025-2\Inteligencia de Negocios

In [99]:
df_year = pd.read_csv("Datos_aire/SISAIRE/SISAIRE-COMBINED-2023.csv", parse_dates=["Fecha inicial","Fecha final"])
df_year.head()

Unnamed: 0,Estacion,Fecha inicial,Fecha final,CO,NO2,O3,PM10,PM25,SO2
0,"""USME""",2023-12-31 22:00:00,2023-12-31 22:59:00,801.43,29.71,11.772,64.7,38.9,2.619
1,"""USME""",2023-12-31 21:00:00,2023-12-31 21:59:00,1144.9,42.309,6.671,80.9,31.6,3.142
2,"""USME""",2023-12-31 20:00:00,2023-12-31 20:59:00,1946.33,52.087,5.101,81.5,32.7,6.546
3,"""USME""",2023-12-31 19:00:00,2023-12-31 19:59:00,1717.35,56.6,5.101,32.9,15.3,7.856
4,"""USME""",2023-12-31 18:00:00,2023-12-31 18:59:00,1488.37,53.027,10.006,40.8,9.6,3.666


In [100]:
df = df_year.drop(['Fecha final'], axis=1)
df["year"] = df["Fecha inicial"].dt.year
df["Estacion"] = df["Estacion"].str.replace('"', '', regex=False)
df["Estacion"] = df["Estacion"].str.replace("CENTRO DE ALTO RENDIMIENTO", "CDAR", regex=False)
df.head()

Unnamed: 0,Estacion,Fecha inicial,CO,NO2,O3,PM10,PM25,SO2,year
0,USME,2023-12-31 22:00:00,801.43,29.71,11.772,64.7,38.9,2.619,2023
1,USME,2023-12-31 21:00:00,1144.9,42.309,6.671,80.9,31.6,3.142,2023
2,USME,2023-12-31 20:00:00,1946.33,52.087,5.101,81.5,32.7,6.546,2023
3,USME,2023-12-31 19:00:00,1717.35,56.6,5.101,32.9,15.3,7.856,2023
4,USME,2023-12-31 18:00:00,1488.37,53.027,10.006,40.8,9.6,3.666,2023


In [101]:
df.value_counts(["Estacion"]).sort_index()

Estacion               
BOGOTA RURAL - MOCHUELO    8492
BOLIVIA                    7195
CARVAJAL - SEVILLANA       3530
CDAR                       8720
CIUDAD BOLÍVAR             8720
COLINA                     8602
EL JAZMÍN                  8658
GUAYMARAL                  8585
KENNEDY                    8651
LAS FERIAS                 8652
MINAMBIENTE                8737
MOCHUELO - COLEGIO         3561
MÓVIL 7MA                  3747
MÓVIL FONTIBÓN             9296
PUENTE ARANDA              8711
P_CAMI - FONTIBÓN          8737
SAN CRISTOBAL              8735
SUBA                       8744
TUNAL                      8736
USAQUEN                    8738
USME                       8596
Name: count, dtype: int64

In [104]:
localidades = {
    'BOGOTA RURAL - MOCHUELO':'FONTIBÓN',
    'BOLIVIA': 'ENGATIVÁ',
    'BOSA':'BOSA',
    'CARVAJAL - SEVILLANA': 'KENNEDY',
    'CDAR':'BARRIOS UNIDOS',
    'CIUDAD BOLÍVAR': 'CIUDAD BOLIVAR',
    'COLINA':"SUBA",
    'FONTIBON': 'FONTIBÓN',
    'GUAYMARAL': 'SUBA',
    'EL JAZMÍN': 'PUENTE ARANDA',
    'KENNEDY': 'KENNEDY',
    'LAS FERIAS': 'ENGATIVÁ',
    'MINAMBIENTE':'SANTA FE',
    'MOCHUELO - COLEGIO':'CIUDAD BOLIVAR',
    'MÓVIL 7MA': 'CHAPINERO',
    'MÓVIL FONTIBÓN':'FONTIBÓN',
    'P_CAMI - FONTIBÓN':'FONTIBÓN',
    'PUENTE ARANDA': 'PUENTE ARANDA',
    'SAN CRISTOBAL': 'SAN CRISTOBAL',
    'SUBA': 'SUBA',
    'TUNAL': 'TUNJELITO',
    'USAQUEN': 'USAQUEN', 
    'USME': 'USME'
}

df['Localidad'] = df['Estacion'].map(localidades)
df.head()

Unnamed: 0,Estacion,Fecha inicial,CO,NO2,O3,PM10,PM25,SO2,year,Localidad
0,USME,2023-12-31 22:00:00,801.43,29.71,11.772,64.7,38.9,2.619,2023,USME
1,USME,2023-12-31 21:00:00,1144.9,42.309,6.671,80.9,31.6,3.142,2023,USME
2,USME,2023-12-31 20:00:00,1946.33,52.087,5.101,81.5,32.7,6.546,2023,USME
3,USME,2023-12-31 19:00:00,1717.35,56.6,5.101,32.9,15.3,7.856,2023,USME
4,USME,2023-12-31 18:00:00,1488.37,53.027,10.006,40.8,9.6,3.666,2023,USME


In [105]:
print("Estaciones sin localidad:")
print(df[df['Localidad'].isna()]['Estacion'].unique())
df['Localidad'].value_counts().sort_index()

Estaciones sin localidad:
[]


Localidad
BARRIOS UNIDOS     8720
CHAPINERO          3747
CIUDAD BOLIVAR    12281
ENGATIVÁ          15847
FONTIBÓN          26525
KENNEDY           12181
PUENTE ARANDA     17369
SAN CRISTOBAL      8735
SANTA FE           8737
SUBA              25931
TUNJELITO          8736
USAQUEN            8738
USME               8596
Name: count, dtype: int64

In [106]:
df.columns = ['Estacion', 'Fecha', 'CO', 'NO2','O3','PM10','PM25', 'SO2', 'Año', 'Localidad']

In [107]:

df = df.reindex(['Estacion', 'Localidad', 'Fecha','Año','CO', 'NO2','O3','PM10','PM25'], axis=1)
df.head()

Unnamed: 0,Estacion,Localidad,Fecha,Año,CO,NO2,O3,PM10,PM25
0,USME,USME,2023-12-31 22:00:00,2023,801.43,29.71,11.772,64.7,38.9
1,USME,USME,2023-12-31 21:00:00,2023,1144.9,42.309,6.671,80.9,31.6
2,USME,USME,2023-12-31 20:00:00,2023,1946.33,52.087,5.101,81.5,32.7
3,USME,USME,2023-12-31 19:00:00,2023,1717.35,56.6,5.101,32.9,15.3
4,USME,USME,2023-12-31 18:00:00,2023,1488.37,53.027,10.006,40.8,9.6


In [108]:
output_path = os.path.join(folder_path, f'SISAIRE-MODIFIED-2023.csv')
df.to_csv(output_path, index=False)