In [1]:
%matplotlib inline

from pyhandy import get_data_summary
import pandas as pd
import os, zipfile, glob

from src.preprocessing import preprocess_madrid_aq_data as preprocess
from src.constants import indicators_code_dict, indicators_abbrev_dict, estaciones_codes_dict

### Calidad de Aire Ayto Madrid

In [2]:
zips = glob.glob("00-rawdata/Ayto Madrid/Anio*.zip", recursive = True)
aq_dfs = []
num_rows = 0
print(len(zips),"carpetas comprimidas contienen datos de calidad de aire")
#Iterar sobre todas las carpetas comprimidas para cargar los csv donde estan los datos
for zip in zips:
    with zipfile.ZipFile(zip) as z:
        for filename in z.namelist():
            if not os.path.isdir(filename):
              # read the file
              if filename.endswith('.csv'):
                df = pd.read_csv(z.open(filename),sep=';',decimal=',') #cargar csv como pandas.Dataframe
                num_rows += len(df)
                aq_dfs.append(df)
print(len(aq_dfs),'csv cargados')
print(num_rows,'observaciones en total')

21 carpetas comprimidas contienen datos de calidad de aire
247 csv cargados
892584 observaciones en total


In [3]:
aq_dfs[0] #Sin procesar

Unnamed: 0,PROVINCIA,MUNICIPIO,ESTACION,MAGNITUD,PUNTO_MUESTREO,ANO,MES,DIA,H01,V01,...,H20,V20,H21,V21,H22,V22,H23,V23,H24,V24
0,28,79,4,1,28079004_1_38,2021,1,1,00006,V,...,00006,V,00005,V,00005,V,00005,V,00004,V
1,28,79,4,1,28079004_1_38,2021,1,2,00004,V,...,00007,V,00006,V,00006,V,00006,V,00005,V
2,28,79,4,1,28079004_1_38,2021,1,3,00006,V,...,00007,V,00006,V,00006,V,00006,V,00005,V
3,28,79,4,1,28079004_1_38,2021,1,4,00005,V,...,00006,V,00006,V,00005,V,00005,V,00005,V
4,28,79,4,1,28079004_1_38,2021,1,5,00004,V,...,00007,V,00009,V,00008,V,00006,V,00005,V
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4206,28,79,60,14,28079060_14_6,2021,1,27,22.86,V,...,05.61,V,03.37,V,05.77,V,10.36,V,11.63,V
4207,28,79,60,14,28079060_14_6,2021,1,28,15.56,V,...,06.34,V,06.82,V,07.71,V,13.06,V,17.15,V
4208,28,79,60,14,28079060_14_6,2021,1,29,25.75,V,...,07.44,V,02.02,V,01.71,V,16.57,V,25.72,V
4209,28,79,60,14,28079060_14_6,2021,1,30,29.68,V,...,71.91,V,72.82,V,68.85,V,73.54,V,83.13,V


Del Interprete de Ficheros de Calidad de Aire dado por el ayuntamiento de Madrid vemos que:

|Código|parametro|Abreviatura|Unidad de medida|Código técnica de medida|Técnica de medida|
|---|---|---|---|---|---|
|1|Dióxido de Azufre|SO2|µg/m 3|38|Fluorescencia ultravioleta|
|6|Monóxido de Carbono|CO|mg/m3|48|Absorción infrarroja|
|7|Monóxido de Nitrógeno|NO|µg/m 3|8|Quimioluminiscencia|
|8|Dióxido de Nitrógeno|NO2|µg/m 3|8|Id.|
|9|Partículas < 2.5 µm|PM2.5|µg/m3|47|Microbalanza|
|10|Partículas < 10 µm|PM10|µg/m3|47|Id.|
|12|Óxidos de Nitrógeno|NOx|µg/m3|8|Quimioluminiscencia|
|14|Ozono|O3|µg/m 3|6|Absorción ultravioleta|
|20|Tolueno|TOL|µg/m3|59|Cromatografía de gases|
|30|Benceno|BEN|µg/m3|59|Id.|
|35|Etilbenceno|EBE|µg/m3|59|Id.|
|37|Metaxileno|MXY|µg/m3|59|Id.|
|38|Paraxileno|PXY|µg/m3|59|Id.|
|39|Ortoxileno|OXY|µg/m3|59|Id.|
|42|Hidrocarburos totales|TCH|mg/m3|2|Ionización de llama|
|43|Metano|CH4|mg/m3|2|Id.|
|44|Hidrocarburos no metánicos (hexano) |NMHC|mg/m3|2|Id.|

In [4]:
#Preprocesado
for i in indicators_code_dict:
    if indicators_code_dict[i]['parametro'] in indicators_abbrev_dict:
        indicators_code_dict[i]['parametro'] = indicators_abbrev_dict[indicators_code_dict[i]['parametro']]

calidad_aire_df = preprocess(pd.concat(aq_dfs),indicators_code_dict)#.interpolate(limit=6)
calidad_aire_df.columns = calidad_aire_df.columns.str.replace(' |\/','_',regex=True).str.replace('[(|)]|\.','',regex=True).str.replace('m_3','m3',regex=True)
calidad_aire_df['codigo'] = calidad_aire_df.estacion.astype(int).copy()
calidad_aire_df['estacion'] = calidad_aire_df.estacion.astype(int).replace(estaciones_codes_dict).astype(str)
calidad_aire_df

Unnamed: 0,fecha,provincia,municipio,estacion,ben_µg_m3,ch4_mg_m3,co_mg_m3,ebe_µg_m3,nmhc_mg_m3,no_µg_m3,no2_µg_m3,nox_µg_m3,o3_µg_m3,pm10_µg_m3,pm25_µg_m3,so2_µg_m3,tch_mg_m3,tol_µg_m3,codigo
0,2001-01-01 00:00:00,28,79,Pza. de España,,,0.3,,,5.0,54.0,61.0,,,,13.0,,,4
11,2001-01-01 00:00:00,28,79,Vallecas,,,,,,2.0,19.0,23.0,,4.0,,5.0,,,40
10,2001-01-01 00:00:00,28,79,Barrio del Pilar,,,0.4,,,8.0,19.0,32.0,54.88,,,,,,39
9,2001-01-01 00:00:00,28,79,Cuatro Caminos,,,,,,5.0,19.0,26.0,,5.0,,23.0,,,38
7,2001-01-01 00:00:00,28,79,Pza. del Carmen,,,0.2,,,3.0,22.0,27.0,62.42,,,17.0,,,35
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3378409,2021-07-31 23:00:00,28,79,Escuelas Aguirre,0.2,,0.2,0.2,,2.0,15.0,18.0,50.81,7.0,2.0,5.0,,0.6,8
3378408,2021-07-31 23:00:00,28,79,Pza. de España,,,0.2,,,1.0,8.0,10.0,,,,9.0,,,4
3378430,2021-07-31 23:00:00,28,79,Parque Juan Carlos I,,,,,,1.0,7.0,9.0,47.27,,,,,,59
3378418,2021-07-31 23:00:00,28,79,Cuatro Caminos,0.1,,,0.1,,2.0,10.0,13.0,,8.0,4.0,,,0.3,38


In [8]:
aq_ayto_summ = get_data_summary(calidad_aire_df) #Summary
aq_ayto_summ

Dataset has 3378432 rows and 18 columns


Unnamed: 0_level_0,DataType,MissingPercent,Mean,Median,Mode,MinValue,MaxValue,NumOfUnique,UniqueValues,FracUnique
ColumnName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
fecha,datetime64[ns],0.0,,,,2001-01-01 00:00:00,2021-07-31 23:00:00,180408,,
ben_µg_m3,float64,0.782159,0.699115,0.3,0.2,0.0,799.9,409,,
ch4_mg_m3,float64,0.848801,1.231341,1.22,1.22,0.0,350.7,423,,
co_mg_m3,float64,0.526782,0.426379,0.3,0.2,0.0,35.6,132,,
ebe_µg_m3,float64,0.783438,0.785463,0.4,0.1,0.0,1466.0,554,,
nmhc_mg_m3,float64,0.848907,0.164456,0.13,0.12,0.0,9.07,239,,
no2_µg_m3,float64,8.5e-05,41.385195,34.0,13.0,0.0,9108.0,421,,
no_µg_m3,float64,8.5e-05,26.503183,7.0,1.0,0.0,86812.0,1079,,
nox_µg_m3,float64,8.5e-05,81.849946,46.0,15.0,0.0,12957.0,1765,,
o3_µg_m3,float64,0.433437,46.70425,44.63,1.0,0.0,968.7,11195,,


In [13]:
#Guardar estos datos en formato feather (antes de eliminar columnas o hacer imputado)
(calidad_aire_df
 .drop(columns=['provincia','municipio'])
 .melt(id_vars=['fecha','estacion'],var_name='variable')
 .dropna(subset=['value'])
 .reset_index(drop=True)
 .to_feather('01-data/interim/aq_ayto_madrid-sin-imputar.feather')
)

In [32]:
pd.read_feather('01-data/aq_ayto_madrid-sin-imputar.feather') #Los datos se guardan en este formato para ahorrar espacio de almacenamiento

Unnamed: 0,fecha,estacion,variable,value
0,2001-01-01 00:00:00,Escuelas Aguirre,ben_µg_m3,3.8
1,2001-01-01 00:00:00,Casa de Campo,ben_µg_m3,0.2
2,2001-01-01 01:00:00,Escuelas Aguirre,ben_µg_m3,4.1
3,2001-01-01 01:00:00,Casa de Campo,ben_µg_m3,0.4
4,2001-01-01 02:00:00,Escuelas Aguirre,ben_µg_m3,9.2
...,...,...,...,...
21422011,2021-07-31 23:00:00,Casa de Campo,tol_µg_m3,0.1
21422012,2021-07-31 23:00:00,Escuelas Aguirre,tol_µg_m3,0.6
21422013,2021-07-31 23:00:00,Cuatro Caminos,tol_µg_m3,0.3
21422014,2021-07-31 23:00:00,C/ Farolillo,tol_µg_m3,0.4


### Trafico

Intensidad del tráfico desde julio 2013 (datos de los puntos de medida)

- Observaciones en periodos de 15 minutos

Contenido CSV:


|    | Nombre              | Tipo   | Descripcion                                                                                                                                                                 |
|---:|:--------------------|:-------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|  0 | idelem              | Entero | Identificación única del Punto de Medida en los sistemas de control del tráfico del Ayuntamiento de Madrid.                                                                 |
|  1 | fecha               | Fecha  | Fecha y hora oficiales de Madrid con formato yyyy-mm-dd hh:mi:ss                                                                                                            |
|  2 | identif             | Texto  | Identificador del Punto de Medida en los Sistemas de Tráfico (se proporciona por compatibilidad hacia atrás).                                                               |
|  3 | tipo_elem           | Texto  | Nombre del Tipo de Punto de Medida: Urbano o M30.                                                                                                                           |
|  4 | Intensidad          | Entero | Intensidad del Punto de Medida en el periodo de 15 minutos (vehículos/hora). Un valor negativo implica la ausencia de datos.                                                |
|  5 | ocupacion           | Entero | Tiempo de Ocupación del Punto de Medida en el periodo de 15 minutos (%).Un valor negativo implica la ausencia de datos.                                                     |
|  6 | carga               | Entero | Carga de vehículos en el periodo de 15 minutos. Parámetro que tiene en cuenta intensidad, ocupación y capacidad de la vía y establece el grado de uso de la vía de 0 a 100. |
|    |                     |        | Un valor negativo implica la ausencia de datos.                                                                                                                             |
|  7 | vmed                | Entero | Velocidad media de los vehículos en el periodo de 15 minutos (Km./h). Sólo para puntos de medida interurbanos M30. Un valor negativo implica la ausencia de datos.          |
|  8 | error               | Texto  | Indicación de si ha habido al menos una muestra errónea o sustituida en el periodo de 15 minutos.                                                                           |
|    |                     |        |       N: no ha habido errores ni sustituciones                                                                                                                              |
|    |                     |        |       E: los parámetros de calidad de alguna de las muestras integradas no son óptimos.                                                                                     |
|    |                     |        |       S: alguna de las muestras recibidas era totalmente errónea y no se ha integrado                                                                                       |
|  9 | periodo_integracion | Entero | Número de muestras recibidas y consideradas para el periodo de integración                                                                                                  |

In [None]:
import pandas as pd
import os, zipfile, glob
zips = glob.glob("00-rawdata/Ayto Madrid/Trafico/*.zip", recursive = True)
print(len(zips),"carpetas comprimidas contienen datos de trafico")
traffic_dfs = []
num_rows = 0
#Iterar sobre todas las carpetas comprimidas para cargar los csv donde estan los datos
for zip in zips:
    with zipfile.ZipFile(zip) as z:
        for filename in z.namelist():
            if not os.path.isdir(filename):
              # read the file
              if filename.endswith('.csv'):
                df = pd.read_csv(z.open(filename),sep=';',decimal=',') #cargar csv como pandas.Dataframe
                num_rows += len(df)
                traffic_dfs.append(df)
print(len(traffic_dfs),'csv cargados')
print(num_rows,'observaciones en total')

In [36]:
df = pd.concat(traffic_dfs) #Asi son los datos de trafico dados por el Ayto. de Madrid
df.head()

Unnamed: 0,id,fecha,tipo_elem,intensidad,ocupacion,carga,vmed,error,periodo_integracion,idelem,identif,tipo
0,1001.0,2017-10-01 00:00:00,PUNTOS MEDIDA M-30,1356.0,4.0,0.0,61.0,N,5,,,
1,1002.0,2017-10-01 00:00:00,PUNTOS MEDIDA M-30,1152.0,6.0,0.0,68.0,N,5,,,
2,1003.0,2017-10-01 00:00:00,PUNTOS MEDIDA M-30,1404.0,5.0,0.0,71.0,N,5,,,
3,1006.0,2017-10-01 00:00:00,PUNTOS MEDIDA M-30,1608.0,5.0,0.0,68.0,N,5,,,
4,1009.0,2017-10-01 00:00:00,PUNTOS MEDIDA M-30,1848.0,4.0,0.0,67.0,N,5,,,


In [37]:
df['fecha'] = pd.to_datetime(df['fecha'])
df['error'] = df['error'].astype(str)
get_data_summary(df) #Summary
# df = df.groupby("id")#.set_index("fecha").resample("60T").mean()
# df

In [None]:
get_data_summary(df)

In [None]:
df.set_index(['id','fecha'])#.resample("60T")

-----

In [34]:
csv = glob.glob("TRAFIC/*.csv", recursive = True) # ICAZA
print(csv)
print(len(csv))

['TRAFIC/07-2017.csv', 'TRAFIC/08-2017.csv', 'TRAFIC/09-2018.csv', 'TRAFIC/05-2020.csv', 'TRAFIC/06-2018.csv', 'TRAFIC/07-2019.csv', 'TRAFIC/04-2021.csv', 'TRAFIC/08-2019.csv', 'TRAFIC/09-2016.csv', 'TRAFIC/06-2016.csv', 'TRAFIC/05-2015.csv', 'TRAFIC/10-2017.csv', 'TRAFIC/11-2018.csv', 'TRAFIC/12-2020.csv', 'TRAFIC/03-2021.csv', 'TRAFIC/02-2020.csv', 'TRAFIC/01-2018.csv', 'TRAFIC/10-2019.csv', 'TRAFIC/11-2016.csv', 'TRAFIC/02-2015.csv', 'TRAFIC/12-2015.csv', 'TRAFIC/04-2015.csv', 'TRAFIC/07-2018.csv', 'TRAFIC/04-2020.csv', 'TRAFIC/08-2018.csv', 'TRAFIC/09-2017.csv', 'TRAFIC/06-2017.csv', 'TRAFIC/07-2016.csv', 'TRAFIC/08-2016.csv', 'TRAFIC/09-2019.csv', 'TRAFIC/05-2021.csv', 'TRAFIC/06-2019.csv', 'TRAFIC/03-2015.csv', 'TRAFIC/11-2017.csv', 'TRAFIC/02-2021.csv', 'TRAFIC/01-2019.csv', 'TRAFIC/03-2020.csv', 'TRAFIC/01-2017.csv', 'TRAFIC/10-2016.csv', 'TRAFIC/11-2019.csv', 'TRAFIC/03-2016.csv', 'TRAFIC/01-2021.csv', 'TRAFIC/02-2019.csv', 'TRAFIC/10-2020.csv', 'TRAFIC/12-2017.csv', 'TRAFIC/1

In [None]:
dataframe = []
for i in csv:
    df = pd.read_csv(i,sep = ";", decimal = ",",error_bad_lines=False, engine='python')
    if "tipo" in df.columns:
        df = df.drop("tipo",1)
    if "identif" in df.columns:
        df = df.drop("identif",1)
    if "idelem" in df.columns:
        df = df.rename(columns={'idelem':'id'})
    dataframe.append(df)

dataframe = pd.concat(dataframe, axis=0, ignore_index=True)

In [None]:
dataframe

In [44]:
print(dataframe.columns)
print(dataframe.shape)
dataframe.dtypes

Index(['idelem', 'fecha', 'identif', 'tipo_elem', 'intensidad', 'ocupacion',
       'carga', 'vmed', 'error', 'periodo_integracion', 'id', 'tipo',
       'idelem,fecha,identif,tipo_elem,intensidad,ocupacion,carga,vmed,error,periodo_integracion'],
      dtype='object')
(111168761, 13)


idelem                                                                                      float64
fecha                                                                                        object
identif                                                                                      object
tipo_elem                                                                                    object
intensidad                                                                                  float64
ocupacion                                                                                   float64
carga                                                                                       float64
vmed                                                                                        float64
error                                                                                        object
periodo_integracion                                                                         float64


In [45]:
print("Levels for the error variable: ",list(dataframe.error.value_counts().index))
# We will se that the error variable contains three different possible values or levels, however, this is lost when
# grouping by hours since we have chosen to use the mode for the error variable and in all cases, the mode is "N".
# This is going to make us consider deleting this variable in the future.

Levels for the error variable:  ['N', "'N'", 'E', 'S']


In [None]:
dataframe.columns

In [None]:
print("Idelem null values:",dataframe['idelem'].isnull().values.any())
print("Identif null values:",dataframe['identif'].isnull().values.any())
print("Tipo_elem null values:",dataframe['tipo_elem'].isnull().values.any())
print("Intensidad null values:",dataframe['intensidad'].isnull().values.any())
print("Ocupacion null values:",dataframe['ocupacion'].isnull().values.any())
print("Carga null values:",dataframe['carga'].isnull().values.any())
print("Vmed null values:",dataframe['vmed'].isnull().values.any())
print("Periodo_integracion null values:",dataframe['periodo_integracion'].isnull().values.any())