# Paso 1: Unificación de los archivos CSV

En este proyecto tomaremos los archivos descargados de SISAIRE para Facatativá y los uniremos en un solo DataFrame.  
Cada CSV contiene mediciones de un contaminante diferente, por lo que el objetivo es obtener una única tabla donde:

- Cada fila corresponde a una fecha.
- Cada columna representa un contaminante.
- Todas las fechas coincidan entre sí.
- Se puedan visualizar juntos NO2, CO, PM2.5, PM10 y SO2.

Este paso es fundamental para el análisis de calidad del aire.

In [7]:
import pandas as pd

# Cargar archivos CSV
df1 = pd.read_csv("reporte_sisaire.csv")
df2 = pd.read_csv("reporte_sisaire (1).csv")
df3 = pd.read_csv("reporte_sisaire (2).csv")
df4 = pd.read_csv("reporte_sisaire (3).csv")
df5 = pd.read_csv("reporte_sisaire (4).csv")

# Unir todos los CSV
df = pd.concat([df1, df2, df3, df4, df5], ignore_index=True)

# Renombrar la columna para que todas tengan la misma 'fecha'
df = df.rename(columns={"Fecha inicial": "fecha"})

# Convertir la fecha a datetime
df["fecha"] = pd.to_datetime(df["fecha"], errors="coerce")

# Ordenar por fecha
df = df.sort_values("fecha")

# Una fila por día (la primera medición encontrada)
df_unido = df.groupby("fecha").first().reset_index()

df_unido.head()


Unnamed: 0,fecha,Estacion,Fecha final,NO2,CO,PM2.5,PM10,SO2
0,2023-05-08,FACATATIVA - URBANO,,,,14.004167,32.972917,
1,2023-05-09,FACATATIVA - URBANO,,,,8.130833,21.382917,
2,2023-05-10,FACATATIVA - URBANO,,,,12.940417,28.497826,
3,2023-05-11,FACATATIVA - URBANO,,,,8.949167,22.26125,
4,2023-05-12,FACATATIVA - URBANO,,,,10.669167,27.92125,


In [13]:
# Contar cuántos contaminantes NO son NaN por día
df_unido["datos_disponibles"] = df_unido.drop(columns=["fecha", "Estacion", "Fecha final"]).notna().sum(axis=1)

# Ordenar por cantidad de datos
df_top = df_unido.sort_values("datos_disponibles", ascending=False)

# Tomar los 10 días con más datos
top10 = df_top.head(10)

top10[["fecha", "datos_disponibles"]]


Unnamed: 0,fecha,datos_disponibles
895,2025-10-22,5
894,2025-10-21,5
893,2025-10-20,5
892,2025-10-19,5
891,2025-10-18,5
890,2025-10-17,5
889,2025-10-16,5
888,2025-10-15,5
887,2025-10-14,5
886,2025-10-13,5


In [14]:
# Obtener los 10 días con más datos
top10 = df_top.head(10)

# Filtrar el dataframe original para solo esos días
df_top10_completo = df_unido[df_unido["fecha"].isin(top10["fecha"])]

df_top10_completo


Unnamed: 0,fecha,Estacion,Fecha final,NO2,CO,PM2.5,PM10,SO2,datos_disponibles
886,2025-10-13,FACATATIVA - URBANO,,20.066667,844.4375,6.168333,11.702917,8.329167,5
887,2025-10-14,FACATATIVA - URBANO,,22.080417,1240.243182,12.690417,26.457083,8.060833,5
888,2025-10-15,FACATATIVA - URBANO,,21.994167,1401.19375,16.5075,35.77,8.6875,5
889,2025-10-16,FACATATIVA - URBANO,,24.342083,1278.10625,12.292917,28.07375,8.329583,5
890,2025-10-17,FACATATIVA - URBANO,,22.019167,1391.175,16.489167,33.991667,9.3275,5
891,2025-10-18,FACATATIVA - URBANO,,20.53,1304.822917,9.44125,20.352917,8.3,5
892,2025-10-19,FACATATIVA - URBANO,,14.344167,1280.014583,10.534167,21.155833,8.406667,5
893,2025-10-20,FACATATIVA - URBANO,,20.91875,991.379167,14.390833,31.004167,8.033913,5
894,2025-10-21,FACATATIVA - URBANO,,22.93125,1015.710417,17.5225,34.7075,8.382083,5
895,2025-10-22,FACATATIVA - URBANO,,23.710417,735.185417,13.42375,30.513333,8.341667,5


In [16]:
df_200 = df_unido.head(200)
df_200


Unnamed: 0,fecha,Estacion,Fecha final,NO2,CO,PM2.5,PM10,SO2,datos_disponibles
0,2023-05-08,FACATATIVA - URBANO,,,,14.004167,32.972917,,2
1,2023-05-09,FACATATIVA - URBANO,,,,8.130833,21.382917,,2
2,2023-05-10,FACATATIVA - URBANO,,,,12.940417,28.497826,,2
3,2023-05-11,FACATATIVA - URBANO,,,,8.949167,22.261250,,2
4,2023-05-12,FACATATIVA - URBANO,,,,10.669167,27.921250,,2
...,...,...,...,...,...,...,...,...,...
195,2023-11-22,FACATATIVA - URBANO,,30.226957,962.754167,10.090833,20.101667,5.904545,5
196,2023-11-23,FACATATIVA - URBANO,,34.216667,550.640909,14.433750,28.184583,3.123478,5
197,2023-11-24,FACATATIVA - URBANO,,34.289167,513.341667,9.342500,20.308333,2.810000,5
198,2023-11-25,FACATATIVA - URBANO,,29.537647,221.073077,12.285833,24.991250,3.025294,5


In [18]:
pd.set_option('display.max_rows', 250)   # muestra hasta 250 filas
pd.set_option('display.max_columns', 20) # muestra todas las columnas

df_200


Unnamed: 0,fecha,Estacion,Fecha final,NO2,CO,PM2.5,PM10,SO2,datos_disponibles
0,2023-05-08,FACATATIVA - URBANO,,,,14.004167,32.972917,,2
1,2023-05-09,FACATATIVA - URBANO,,,,8.130833,21.382917,,2
2,2023-05-10,FACATATIVA - URBANO,,,,12.940417,28.497826,,2
3,2023-05-11,FACATATIVA - URBANO,,,,8.949167,22.26125,,2
4,2023-05-12,FACATATIVA - URBANO,,,,10.669167,27.92125,,2
5,2023-05-13,FACATATIVA - URBANO,,,,10.308333,22.472917,,2
6,2023-05-14,FACATATIVA - URBANO,,,,4.887083,10.61875,,2
7,2023-05-15,FACATATIVA - URBANO,,,,7.746667,21.4075,,2
8,2023-05-16,FACATATIVA - URBANO,,,,12.74,25.460435,,2
9,2023-05-17,FACATATIVA - URBANO,,,,11.43,23.9525,,2


In [19]:
import os

# Crear carpeta de salida
os.makedirs("exportado", exist_ok=True)

# Exportar todos los dataframes existentes
df_unido.to_csv("exportado/df_unido_completo.csv", index=False)
df_top.to_csv("exportado/df_dias_ordenados_por_datos.csv", index=False)
top10.to_csv("exportado/top10_dias.csv", index=False)
df_200.to_csv("exportado/df_200_dias.csv", index=False)

print("Listo. Los CSV se guardaron en la carpeta 'exportado'.")


Listo. Los CSV se guardaron en la carpeta 'exportado'.
