# Obtención de los datos de calidad del aire

In [1]:
import os
import requests
import zipfile
import glob
from datetime import datetime
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Extracción desde la web del Portal de datos abiertos del Ayuntamiento de Madrid

In [2]:
data_folder = {
    "estaciones": "datos/estaciones",
    "diarios": "datos/diarios",
    "horarios": "datos/horarios",
}

data_url = "https://datos.madrid.es/egob/catalogo/"

mediciones_estaciones = [
    "212629-1-estaciones-control-aire.csv"
]

mediciones_diarias = [
    "201410-10306615-calidad-aire-diario.csv",
    "201410-10306612-calidad-aire-diario.csv",
    "201410-10306609-calidad-aire-diario.csv",
    "201410-10306606-calidad-aire-diario.csv",
    "201410-7775096-calidad-aire-diario.csv",
    "201410-7775098-calidad-aire-diario.csv",
    "201410-10306574-calidad-aire-diario.csv",
    "201410-10306576-calidad-aire-diario.csv",
    "201410-10306578-calidad-aire-diario.csv",
    "201410-10306580-calidad-aire-diario.csv",
    "201410-10306582-calidad-aire-diario.csv",
    "201410-10306584-calidad-aire-diario.csv",
    "201410-10306586-calidad-aire-diario.csv",
    "201410-10306588-calidad-aire-diario.csv",
    "201410-10306590-calidad-aire-diario.csv",
    "201410-10306592-calidad-aire-diario.csv",
    "201410-10306594-calidad-aire-diario.csv",
    "201410-10306596-calidad-aire-diario.csv",
    "201410-10306598-calidad-aire-diario.csv",
    "201410-10306600-calidad-aire-diario.csv",
    "201410-10306602-calidad-aire-diario.csv",
    "201410-10306604-calidad-aire-diario.csv",
]

mediciones_hora = [
    "201200-10306318-calidad-aire-horario.zip",
    "201200-10306317-calidad-aire-horario.zip",
    "201200-10306316-calidad-aire-horario.zip",
    "201200-42-calidad-aire-horario.zip",
    "201200-10306314-calidad-aire-horario.zip",
    "201200-10306313-calidad-aire-horario.zip",
    "201200-28-calidad-aire-horario.zip",
    "201200-27-calidad-aire-horario.zip",
    "201200-26-calidad-aire-horario.zip",
    "201200-23-calidad-aire-horario.zip",
    "201200-22-calidad-aire-horario.zip",
    "201200-21-calidad-aire-horario.zip",
    "201200-20-calidad-aire-horario.zip",
    "201200-19-calidad-aire-horario.zip",
    "201200-18-calidad-aire-horario.zip",
    "201200-17-calidad-aire-horario.zip",
    "201200-16-calidad-aire-horario.zip",
    "201200-15-calidad-aire-horario.zip",
    "201200-14-calidad-aire-horario.zip",
    "201200-13-calidad-aire-horario.zip",
    "201200-30-calidad-aire-horario.zip",
    "201200-29-calidad-aire-horario.zip",
]

In [3]:
def download_file(data_url, file, data_folder):
    url = os.path.join(data_url + file)
    filename = os.path.join(data_folder, file)
    
    r = requests.get(url, allow_redirects=True)
    open(filename, "wb").write(r.content)
    
    print(f"Downloaded {file}")


In [4]:
for _, folder in data_folder.items():
    if not os.path.exists(folder):
        os.mkdir(folder)

# Descarga estaciones de medición
for file in mediciones_estaciones:
    download_file(data_url, file, data_folder["estaciones"])    

# Descarga mediciones diarias
for file in mediciones_diarias:
    download_file(data_url, file, data_folder["diarios"])    

# Descarga mediciones hora
for file in mediciones_hora:
    download_file(data_url, file, data_folder["horarios"])    


Downloaded 212629-1-estaciones-control-aire.csv
Downloaded 201410-10306615-calidad-aire-diario.csv
Downloaded 201410-10306612-calidad-aire-diario.csv
Downloaded 201410-10306609-calidad-aire-diario.csv
Downloaded 201410-10306606-calidad-aire-diario.csv
Downloaded 201410-7775096-calidad-aire-diario.csv
Downloaded 201410-7775098-calidad-aire-diario.csv
Downloaded 201410-10306574-calidad-aire-diario.csv
Downloaded 201410-10306576-calidad-aire-diario.csv
Downloaded 201410-10306578-calidad-aire-diario.csv
Downloaded 201410-10306580-calidad-aire-diario.csv
Downloaded 201410-10306582-calidad-aire-diario.csv
Downloaded 201410-10306584-calidad-aire-diario.csv
Downloaded 201410-10306586-calidad-aire-diario.csv
Downloaded 201410-10306588-calidad-aire-diario.csv
Downloaded 201410-10306590-calidad-aire-diario.csv
Downloaded 201410-10306592-calidad-aire-diario.csv
Downloaded 201410-10306594-calidad-aire-diario.csv
Downloaded 201410-10306596-calidad-aire-diario.csv
Downloaded 201410-10306598-calidad-a

## Procesado de los archivos fuentes

Estaciones de medición

In [5]:
dataframe_list = []

for file in mediciones_estaciones:
    filepath = os.path.join(data_folder["estaciones"], file)
    df = pd.read_csv(filepath, sep=";")
    dataframe_list.append(df)

estaciones = pd.concat(dataframe_list)

In [6]:
estaciones.sample(10)

Unnamed: 0,CODIGO,CODIGO_CORTO,ESTACION,DIRECCION,LONGITUD_ETRS89,LATITUD_ETRS89,ALTITUD,COD_TIPO,NOM_TIPO,NO2,...,BTX,COD_VIA,VIA_CLASE,VIA_PAR,VIA_NOMBRE,Fecha alta,COORDENADA_X_ETRS89,COORDENADA_Y_ETRS89,LONGITUD,LATITUD
0,28079004,4,Plaza de España,Plaza de España,"3°42'43.91""O","40°25'25.98""N",637,UT,Urbana tráfico,X,...,,273600,PLAZA,DE,ESPAÑA,01/12/1998,4395793291,4475049263,-3.712257,40.423882
13,28079047,47,Méndez Álvaro,C/ Juan de Mariana / Plaza Amanecer Méndez Álvaro,"3°41'12.57""O","40°23'53.17""N",600,UF,Urbana fondo,X,...,,414800,CALLE,DE,JUAN DE MARIANA,21/12/2009,4417154303,4472170249,-3.686814,40.398099
22,28079059,59,Juan Carlos I,Parque Juan Carlos I (frente oficinas mantenim...,"3º 36' 33""O",40º 27' 55''N,660,S,Suburbana,X,...,,1111,,,,14/12/2009,4477444666,4479077678,-3.616341,40.460726
21,28079058,58,El Pardo,Avda. La Guardia,"3°46'28.62""O","40°31'4.97""N",612,S,Suburbana,X,...,,348500,AVENIDA,DE LA,GUARDIA,01/12/2009,4343816,44855487,-3.77461,40.51807
4,28079017,17,Villaverde,C/ Juan Peñalver,"3°42'47.89""O","40°20'49.74""N",601,UF,Urbana fondo,X,...,,417200,CALLE,DE,JUAN PEÑALVER,01/12/1998,4394207015,4466532455,-3.713317,40.347147
5,28079018,18,Farolillo,C/ Farolillo - C/ Ervigio,"3°43'54.61""O","40°23'41.22""N",632,UF,Urbana fondo,X,...,X,1903,CALLE,DEL,FAROLILLO,31/03/2001,4378916961,4471832769,-3.731836,40.394782
16,28079050,50,Plaza Castilla,Plaza Castilla (Canal),"3°41'19.48""O","40°27'56.10""N",728,UT,Urbana tráfico,X,...,,154500,PLAZA,DE,CASTILLA,01/02/2010,4416099474,4479662346,-3.688745,40.465584
18,28079055,55,Urb. Embajada,C/ Riaño (Barajas),"3°34'50.03""O","40°27'44.51""N",619,UF,Urbana fondo,X,...,X,639250,CALLE,DE,RIAÑO,20/01/2010,4507788839,4479238863,-3.580565,40.462363
9,28079036,36,Moratalaz,Avda. Moratalaz esq. Camino de los Vinateros,"3°38'43.02""O","40°24'28.64""N",671,UT,Urbana tráfico,X,...,,522000,AVENIDA,DE,MORATALAZ,01/12/1998,445245513,4473237349,-3.64531,40.407952
14,28079048,48,Castellana,C/ José Gutiérrez Abascal,"3°41'25.34""O","40°26'23.61""N",680,UT,Urbana tráfico,X,...,,401400,CALLE,DE,JOSE GUTIERREZ ABASCAL,01/02/2010,4414496341,447681142,-3.690373,40.43989


In [7]:
print(f"El dataset está compuesto por {estaciones.shape[0]} filas (es decir, observaciones) y {estaciones.shape[1]} columnas (es decir, atributos)")

El dataset está compuesto por 24 filas (es decir, observaciones) y 25 columnas (es decir, atributos)


In [8]:
filename = os.path.join(data_folder["estaciones"], "estaciones.csv")
estaciones.to_csv(filename, sep=";", index=False)

Mediciones diarias

In [9]:
dataframe_list = []

for file in mediciones_diarias:
    filepath = os.path.join(data_folder["diarios"], file)
    df = pd.read_csv(filepath, sep=";")
    dataframe_list.append(df)

calidad_d = pd.concat(dataframe_list)

In [10]:
calidad_d.sample(10)

Unnamed: 0,PROVINCIA,MUNICIPIO,ESTACION,MAGNITUD,PUNTO_MUESTREO,ANO,MES,D01,V01,D02,...,D27,V27,D28,V28,D29,V29,D30,V30,D31,V31
215,28,79,11,7,28079011_7_8,2012,6,14.0,V,6.0,...,36.0,V,8.0,V,7.0,V,7.0,V,0.0,N
79,28,79,8,6,28079008_6_48,2012,8,0.3,V,0.4,...,0.4,V,0.4,V,0.3,V,0.3,V,0.3,V
1569,28,79,56,9,28079056_9_47,2019,10,11.0,V,6.0,...,15.0,V,20.0,V,35.0,V,23.0,V,9.0,V
586,28,79,24,42,28079024_42_2,2003,11,1.28,V,1.43,...,1.29,V,1.32,V,1.3,V,1.28,V,0.0,N
1142,28,79,47,8,28079047_8_8,2018,9,29.0,V,23.0,...,41.0,V,59.0,V,54.0,V,46.0,V,0.0,N
916,28,79,38,7,28079038_7_8,2018,11,23.0,V,14.0,...,44.0,V,132.0,V,70.0,V,44.0,V,0.0,N
1187,28,79,47,9,28079047_9_47,2010,10,16.0,V,16.0,...,26.0,V,31.0,V,19.0,V,4.0,V,5.0,V
1011,28,79,38,20,28079038_20_59,2011,4,7.2,V,3.2,...,3.6,V,4.6,V,3.2,V,0.9,V,0.0,N
1784,28,79,60,10,28079060_10_47,2013,9,23.0,V,24.0,...,34.0,V,23.0,V,10.0,V,14.0,V,0.0,N
655,28,79,24,35,28079024_35_59,2014,2,0.1,V,0.1,...,0.1,V,0.1,V,0.0,N,0.0,N,0.0,N


In [11]:
print(f"El dataset está compuesto por {calidad_d.shape[0]} filas (es decir, observaciones) y {calidad_d.shape[1]} columnas (es decir, atributos)")

El dataset está compuesto por 31396 filas (es decir, observaciones) y 69 columnas (es decir, atributos)


In [12]:
filename = os.path.join(data_folder["diarios"], "mediciones_diarias.csv")
calidad_d.to_csv(filename, sep=";", index=False)

Mediciones horarias

In [13]:
for file in mediciones_hora:
    filepath = os.path.join(data_folder["horarios"], file)
    with zipfile.ZipFile(filepath, mode="r") as archive:
        for file in archive.namelist():
            if file.endswith(".csv"):
                archive.extract(file, data_folder["horarios"])

files = glob.glob(data_folder["horarios"] + "/**/*.csv", recursive=True)

dataframe_list = []

for file in files:
    df = pd.read_csv(file, sep=";")
    dataframe_list.append(df)

calidad_h = pd.concat(dataframe_list)

In [14]:
calidad_h.sample(20)

Unnamed: 0,PROVINCIA,MUNICIPIO,ESTACION,MAGNITUD,PUNTO_MUESTREO,ANO,MES,DIA,H01,V01,...,H20,V20,H21,V21,H22,V22,H23,V23,H24,V24
831331,28,79,38,9,28079038_9_47,2020,10,30,7.0,V,...,23.0,V,17.0,V,25.0,V,21.0,V,19.0,V
458186,28,79,24,10,28079024_10_47,2002,6,4,13.0,V,...,28.0,V,46.0,V,12.0,V,34.0,V,33.0,V
2719,28,79,39,14,28079039_14_6,2020,5,10,82.21,V,...,70.73,V,70.64,V,66.15,V,63.42,V,61.45,V
1827,28,79,38,7,28079038_7_8,2021,6,2,1.0,V,...,5.0,V,5.0,V,7.0,V,5.0,V,5.0,V
4101,28,79,57,6,28079057_6_48,2014,12,15,0.2,V,...,0.3,V,0.7,V,1.0,V,0.9,V,0.8,V
39035,28,79,58,7,28079058_7_8,2013,4,28,1.0,V,...,1.0,V,1.0,V,1.0,V,1.0,V,1.0,V
802958,28,79,36,1,28079036_1_38,2014,10,16,2.0,V,...,2.0,V,2.0,V,4.0,V,3.0,V,2.0,V
354,28,79,16,12,28079016_12_8,2002,8,14,43.0,V,...,94.0,V,176.0,V,330.0,V,152.0,V,165.0,V
1484,28,79,24,30,28079024_30_59,2021,3,28,0.4,V,...,0.2,V,0.2,V,0.2,V,0.3,V,0.3,V
632159,28,79,39,6,28079039_6_48,2010,5,28,0.2,V,...,0.2,V,0.3,V,0.3,V,0.3,V,0.3,V


In [15]:
print(f"El dataset está compuesto por {calidad_h.shape[0]} filas (es decir, observaciones) y {calidad_h.shape[1]} columnas (es decir, atributos)")

El dataset está compuesto por 1895258 filas (es decir, observaciones) y 56 columnas (es decir, atributos)


In [16]:
filename = os.path.join(data_folder["horarios"], "mediciones_horarias.csv")
calidad_h.to_csv(filename, sep=";", index=False)