![](https://img.freepik.com/foto-gratis/famoso-palacio-cristal-parque-retiro-madrid-espana_268835-1311.jpg?w=1480&t=st=1669294452~exp=1669295052~hmac=a2ac176cf404d2df91a9380a7c69a0b40a39d9d2b6943ccd02737641e78a9218)

# Obtención de los datos de calidad del aire

El Portal de datos abiertos del Ayuntamiento de Madrid, en su [página web](https://datos.madrid.es/portal/site/egob/menuitem.c05c1f754a33a9fbe4b2e4b284f1a5a0/?vgnextoid=aecb88a7e2b73410VgnVCM2000000c205a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default), publica los datos recogidos por las estaciones de control de calidad del aire de los niveles de contaminación atmosférica.

Los datos que se encuentran disponibles son:

+ Relación de estaciones de control
+ Datos diarios desde 2001
+ Datos horarios desde 2001
+ Datos en tiempo real (actualización cada hora)

Para nuestros objetivos solo nos interesarán los tres primeros. El formato que elegiremos para descargar dichos archivos es csv.

In [1]:
# Importación de la librerias
import os
import requests
import zipfile
import glob
from datetime import datetime
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Extracción desde la web del Portal de datos abiertos del Ayuntamiento de Madrid

Para facilitar el tratamiento de los datos, en primer lugar vamos a estableces las rutas donde almacenaremos los archivos localmente y las rutas en origen donde se encuentran ubicadas las diferentes fuentes de información.

In [2]:
# Ubicación de los archivos locales
data_folder = {
    "estaciones": "datos/estaciones",
    "diarios": "datos/diarios",
    "horarios": "datos/horarios",
}

# url remota raíz de las fuentes de datos
data_url = "https://datos.madrid.es/egob/catalogo/"

mediciones_estaciones = [
    "212629-1-estaciones-control-aire.csv"
]

mediciones_diarias = [
    "201410-10306615-calidad-aire-diario.csv",
    "201410-10306612-calidad-aire-diario.csv",
    "201410-10306609-calidad-aire-diario.csv",
    "201410-10306606-calidad-aire-diario.csv",
    "201410-7775096-calidad-aire-diario.csv",
    "201410-7775098-calidad-aire-diario.csv",
    "201410-10306574-calidad-aire-diario.csv",
    "201410-10306576-calidad-aire-diario.csv",
    "201410-10306578-calidad-aire-diario.csv",
    "201410-10306580-calidad-aire-diario.csv",
    "201410-10306582-calidad-aire-diario.csv",
    "201410-10306584-calidad-aire-diario.csv",
    "201410-10306586-calidad-aire-diario.csv",
    "201410-10306588-calidad-aire-diario.csv",
    "201410-10306590-calidad-aire-diario.csv",
    "201410-10306592-calidad-aire-diario.csv",
    "201410-10306594-calidad-aire-diario.csv",
    "201410-10306596-calidad-aire-diario.csv",
    "201410-10306598-calidad-aire-diario.csv",
    "201410-10306600-calidad-aire-diario.csv",
    "201410-10306602-calidad-aire-diario.csv",
    "201410-10306604-calidad-aire-diario.csv",
]

mediciones_hora = [
    "201200-10306318-calidad-aire-horario.zip",
    "201200-10306317-calidad-aire-horario.zip",
    "201200-10306316-calidad-aire-horario.zip",
    "201200-42-calidad-aire-horario.zip",
    "201200-10306314-calidad-aire-horario.zip",
    "201200-10306313-calidad-aire-horario.zip",
    "201200-28-calidad-aire-horario.zip",
    "201200-27-calidad-aire-horario.zip",
    "201200-26-calidad-aire-horario.zip",
    "201200-23-calidad-aire-horario.zip",
    "201200-22-calidad-aire-horario.zip",
    "201200-21-calidad-aire-horario.zip",
    "201200-20-calidad-aire-horario.zip",
    "201200-19-calidad-aire-horario.zip",
    "201200-18-calidad-aire-horario.zip",
    "201200-17-calidad-aire-horario.zip",
    "201200-16-calidad-aire-horario.zip",
    "201200-15-calidad-aire-horario.zip",
    "201200-14-calidad-aire-horario.zip",
    "201200-13-calidad-aire-horario.zip",
    "201200-30-calidad-aire-horario.zip",
    "201200-29-calidad-aire-horario.zip",
]

In [3]:
# Descarga el archivo de la ruta indicada y lo almacena en la carpeta local
def download_file(data_url, file, data_folder):
    url = os.path.join(data_url + file)
    filename = os.path.join(data_folder, file)
    
    r = requests.get(url, allow_redirects=True)
    open(filename, "wb").write(r.content)
    
    print(f"Downloaded {file}")


In [4]:
# Crea las carpetas de almacenamiento local
for _, folder in data_folder.items():
    if not os.path.exists(folder):
        os.mkdir(folder)

# Descarga estaciones de medición
for file in mediciones_estaciones:
    download_file(data_url, file, data_folder["estaciones"])    

# Descarga mediciones diarias
for file in mediciones_diarias:
    download_file(data_url, file, data_folder["diarios"])    

# Descarga mediciones hora
for file in mediciones_hora:
    download_file(data_url, file, data_folder["horarios"])    


Downloaded 212629-1-estaciones-control-aire.csv
Downloaded 201410-10306615-calidad-aire-diario.csv
Downloaded 201410-10306612-calidad-aire-diario.csv
Downloaded 201410-10306609-calidad-aire-diario.csv
Downloaded 201410-10306606-calidad-aire-diario.csv
Downloaded 201410-7775096-calidad-aire-diario.csv
Downloaded 201410-7775098-calidad-aire-diario.csv
Downloaded 201410-10306574-calidad-aire-diario.csv
Downloaded 201410-10306576-calidad-aire-diario.csv
Downloaded 201410-10306578-calidad-aire-diario.csv
Downloaded 201410-10306580-calidad-aire-diario.csv
Downloaded 201410-10306582-calidad-aire-diario.csv
Downloaded 201410-10306584-calidad-aire-diario.csv
Downloaded 201410-10306586-calidad-aire-diario.csv
Downloaded 201410-10306588-calidad-aire-diario.csv
Downloaded 201410-10306590-calidad-aire-diario.csv
Downloaded 201410-10306592-calidad-aire-diario.csv
Downloaded 201410-10306594-calidad-aire-diario.csv
Downloaded 201410-10306596-calidad-aire-diario.csv
Downloaded 201410-10306598-calidad-a

## Procesado de los archivos fuentes

Una vez descargados todos los archivos fuentes necesarios, disponemos de un número elevado de archivos. En el caso de las mediciones diarios, uno por cada año. En el caso de las mediciones horarias un archivo comprimido por cada año, que a su vez contiene tres archivos fuentes (txt, xml y csv) por cada mes de ese año. Para las estaciones de medición sólo existe un único archivo csv.

Facilitar el tratamiento de estos archivos nos creamos una función que concatena todos los archivos y nos crea un objeto dataframe con todos los registros.

In [11]:
# Concatena los archivos de la carpeta indica y los devuelve un dataframe
def concat_files(file_list, file_folder):
    dataframe_list = []

    for file in file_list:
        filepath = os.path.join(file_folder, file)
        df = pd.read_csv(filepath, sep=";")
        dataframe_list.append(df)
        
    return pd.concat(dataframe_list)

**Estaciones de medición**

In [6]:
estaciones = concat_files(mediciones_estaciones, data_folder["estaciones"])

In [9]:
estaciones.head()

Unnamed: 0,CODIGO,CODIGO_CORTO,ESTACION,DIRECCION,LONGITUD_ETRS89,LATITUD_ETRS89,ALTITUD,COD_TIPO,NOM_TIPO,NO2,...,BTX,COD_VIA,VIA_CLASE,VIA_PAR,VIA_NOMBRE,Fecha alta,COORDENADA_X_ETRS89,COORDENADA_Y_ETRS89,LONGITUD,LATITUD
0,28079004,4,Plaza de España,Plaza de España,"3°42'43.91""O","40°25'25.98""N",637,UT,Urbana tráfico,X,...,,273600,PLAZA,DE,ESPAÑA,01/12/1998,4395793291,4475049263,-3.712257,40.423882
1,28079008,8,Escuelas Aguirre,Entre C/ Alcalá y C/ O’ Donell,"3°40'56.22""O","40°25'17.63""N",672,UT,Urbana tráfico,X,...,X,18900,CALLE,DE,ALCALA,01/12/1998,4421172366,4474770696,-3.682316,40.421553
2,28079011,11,Ramón y Cajal,Avda. Ramón y Cajal esq. C/ Príncipe de Vergara,"3°40'38.50""O","40°27'5.29""N",708,UT,Urbana tráfico,X,...,X,610450,CALLE,DEL,PRINCIPE DE VERGARA,01/12/1998,4425640457,4478088595,-3.677349,40.451473
3,28079016,16,Arturo Soria,C/ Arturo Soria esq. C/ Vizconde de los Asilos,"3°38'21.17""O","40°26'24.20""N",695,UF,Urbana fondo,X,...,,798700,CALLE,DEL,VIZCONDE DE LOS ASILOS,01/12/1998,4457861729,4476796019,-3.639242,40.440046
4,28079017,17,Villaverde,C/ Juan Peñalver,"3°42'47.89""O","40°20'49.74""N",601,UF,Urbana fondo,X,...,,417200,CALLE,DE,JUAN PEÑALVER,01/12/1998,4394207015,4466532455,-3.713317,40.347147


In [10]:
print(f"El dataset está compuesto por {estaciones.shape[0]} filas (es decir, observaciones) y {estaciones.shape[1]} columnas (es decir, atributos)")

El dataset está compuesto por 24 filas (es decir, observaciones) y 25 columnas (es decir, atributos)


In [12]:
# Grabamos el dataset final en un archivo csv
filename = os.path.join(data_folder["estaciones"], "estaciones.csv")
estaciones.to_csv(filename, sep=";", index=False)

**Mediciones diarias**

In [13]:
calidad_d = concat_files(mediciones_diarias, data_folder["diarios"])

In [14]:
calidad_d.sample(10)

Unnamed: 0,PROVINCIA,MUNICIPIO,ESTACION,MAGNITUD,PUNTO_MUESTREO,ANO,MES,D01,V01,D02,...,D27,V27,D28,V28,D29,V29,D30,V30,D31,V31
167,28,79,16,6,28079016_6_48,2001,2,1.2,V,1.8,...,0.6,V,0.6,V,0.0,N,0.0,N,0.0,N
734,28,79,27,43,28079027_43_2,2013,3,1.13,V,1.16,...,1.08,V,1.08,V,1.08,V,1.08,V,1.12,V
967,28,79,38,8,28079038_8_8,2011,8,0.0,N,0.0,...,36.0,V,34.0,V,62.0,V,56.0,V,30.0,V
1099,28,79,40,8,28079040_8_8,2013,8,29.0,V,20.0,...,16.0,V,16.0,V,16.0,V,21.0,V,24.0,V
569,28,79,24,8,28079024_8_8,2010,4,8.0,V,13.0,...,42.0,V,33.0,V,21.0,V,22.0,V,0.0,N
611,28,79,24,10,28079024_10_47,2011,12,28.0,V,9.0,...,23.0,V,19.0,V,13.0,V,16.0,V,24.0,V
121,28,79,8,10,28079008_10_47,2013,2,4.0,N,4.0,...,14.0,V,7.0,V,0.0,N,0.0,N,0.0,N
1206,28,79,47,10,28079047_10_47,2011,7,32.0,V,31.0,...,15.0,V,25.0,V,31.0,V,23.0,V,19.0,V
410,28,79,24,6,28079024_6_48,2006,3,0.4,V,0.4,...,0.3,V,0.3,V,0.2,V,0.4,V,0.5,V
1605,28,79,57,6,28079057_6_48,2015,10,0.3,V,0.2,...,0.3,V,0.3,V,0.3,V,0.4,V,0.3,V


In [15]:
print(f"El dataset está compuesto por {calidad_d.shape[0]} filas (es decir, observaciones) y {calidad_d.shape[1]} columnas (es decir, atributos)")

El dataset está compuesto por 31528 filas (es decir, observaciones) y 69 columnas (es decir, atributos)


In [16]:
# Grabamos el dataset final en un archivo csv
filename = os.path.join(data_folder["diarios"], "mediciones_diarias.csv")
calidad_d.to_csv(filename, sep=";", index=False)

**Mediciones horarias**

In [17]:
# Por cada archivo zip descomprime únicamente los .csv
for file in mediciones_hora:
    filepath = os.path.join(data_folder["horarios"], file)
    with zipfile.ZipFile(filepath, mode="r") as archive:
        for file in archive.namelist():
            if file.endswith(".csv"):
                archive.extract(file, data_folder["horarios"])

files = glob.glob(data_folder["horarios"] + "/**/*.csv", recursive=True)

dataframe_list = []

for file in files:
    df = pd.read_csv(file, sep=";")
    dataframe_list.append(df)

calidad_h = pd.concat(dataframe_list)

In [18]:
calidad_h.sample(20)

Unnamed: 0,PROVINCIA,MUNICIPIO,ESTACION,MAGNITUD,PUNTO_MUESTREO,ANO,MES,DIA,H01,V01,...,H20,V20,H21,V21,H22,V22,H23,V23,H24,V24
3103,28,79,55,12,28079055_12_8,2022,8,12,191.0,V,...,12.0,V,12.0,V,32.0,V,46.0,V,46.0,V
163,28,79,8,1,28079008_1_38,2017,10,9,13.0,V,...,13.0,V,14.0,V,17.0,V,18.0,V,15.0,V
1107553,28,79,56,7,28079056_7_8,2014,7,7,1.0,V,...,14.0,V,7.0,V,4.0,V,7.0,V,7.0,V
748488,28,79,24,8,28079024_8_8,2019,4,20,14.0,V,...,8.0,V,11.0,V,24.0,V,23.0,V,16.0,V
983284,28,79,60,10,28079060_10_47,2019,1,18,9.0,V,...,14.0,V,17.0,V,19.0,V,17.0,V,21.0,V
804501,28,79,56,12,28079056_12_8,2014,8,30,114.0,V,...,110.0,V,51.0,V,74.0,V,165.0,V,217.0,V
3585,28,79,56,7,28079056_7_8,2018,2,2,9.0,V,...,54.0,V,85.0,V,172.0,V,237.0,V,142.0,V
2087,28,79,35,12,28079035_12_8,2015,8,11,169.0,V,...,25.0,V,40.0,V,36.0,V,39.0,V,34.0,V
657503,28,79,4,1,28079004_1_38,2016,5,16,7.0,V,...,6.0,V,7.0,V,7.0,V,7.0,V,7.0,V
3980,28,79,56,7,28079056_7_8,2017,12,13,160.0,V,...,43.0,V,26.0,V,31.0,V,30.0,V,12.0,V


In [19]:
print(f"El dataset está compuesto por {calidad_h.shape[0]} filas (es decir, observaciones) y {calidad_h.shape[1]} columnas (es decir, atributos)")

El dataset está compuesto por 2846979 filas (es decir, observaciones) y 56 columnas (es decir, atributos)


In [20]:
# Grabamos el dataset final en un archivo csv
filename = os.path.join(data_folder["horarios"], "mediciones_horarias.csv")
calidad_h.to_csv(filename, sep=";", index=False)