# **Air Quality**

---
---

## *Exploratory Data Analysis*

In [432]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#### Preparing Data

In [433]:
# Load and view pollution data 
pollution_2020 = pd.read_csv('../data/raw/pollution data/2020.csv', sep = ';')
pollution_2021 = pd.read_csv('../data/raw/pollution data/2021.csv', sep = ';')
pollution_2022 = pd.read_csv('../data/raw/pollution data/2022.csv', sep = ';')
pollution_2023 = pd.read_csv('../data/raw/pollution data/2023.csv', sep = ';')

pollution_2020.head()

Unnamed: 0,provincia,municipio,estacion,magnitud,punto_muestreo,ano,mes,dia,h01,v01,...,h20,v20,h21,v21,h22,v22,h23,v23,h24,v24
0,28,102,1,1,28102001_1_38,2020,1,1,10,V,...,10,V,10,V,10,V,10,V,10,V
1,28,102,1,6,28102001_6_48,2020,1,1,3,V,...,4,V,4,V,4,V,4,V,4,V
2,28,102,1,7,28102001_7_8,2020,1,1,10,V,...,10,V,10,V,10,V,10,V,10,V
3,28,102,1,8,28102001_8_8,2020,1,1,80,V,...,80,V,80,V,90,V,100,V,80,V
4,28,102,1,10,28102001_10_49,2020,1,1,80,V,...,160,V,160,V,170,V,170,V,170,V


In [434]:
# Load and view weather data
weather_2020 = pd.read_csv('../data/raw/weather data/2020.csv', sep = ';')
weather_2021 = pd.read_csv('../data/raw/weather data/2021.csv', sep = ';')
weather_2022 = pd.read_csv('../data/raw/weather data/2022.csv', sep = ';')
weather_2023 = pd.read_csv('../data/raw/weather data/2023.csv', sep = ';')

weather_2020.head()

Unnamed: 0,provincia,municipio,estacion,magnitud,punto_muestreo,ano,mes,dia,h01,v01,...,h20,v20,h21,v21,h22,v22,h23,v23,h24,v24
0,28,102,1,81,28102001_81_89,2020,1,1,11,V,...,2,V,3,V,9,V,7,V,4,V
1,28,102,1,82,28102001_82_89,2020,1,1,15,V,...,291,V,3,V,359,V,18,V,27,V
2,28,102,1,83,28102001_83_89,2020,1,1,27,V,...,73,V,63,V,53,V,43,V,42,V
3,28,102,1,86,28102001_86_89,2020,1,1,86,V,...,68,V,74,V,81,V,86,V,85,V
4,28,102,1,87,28102001_87_89,2020,1,1,946,V,...,944,V,945,V,945,V,945,V,944,V


In [435]:
print(pollution_2020.shape)
print(weather_2020.shape)

(58560, 56)
(61474, 56)


In [436]:
print(pollution_2020.info())
print(weather_2020.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58560 entries, 0 to 58559
Data columns (total 56 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   provincia       58560 non-null  int64 
 1   municipio       58560 non-null  int64 
 2   estacion        58560 non-null  int64 
 3   magnitud        58560 non-null  int64 
 4   punto_muestreo  58560 non-null  object
 5   ano             58560 non-null  int64 
 6   mes             58560 non-null  int64 
 7   dia             58560 non-null  int64 
 8   h01             58247 non-null  object
 9   v01             58560 non-null  object
 10  h02             58245 non-null  object
 11  v02             58560 non-null  object
 12  h03             58214 non-null  object
 13  v03             58560 non-null  object
 14  h04             58208 non-null  object
 15  v04             58560 non-null  object
 16  h05             58200 non-null  object
 17  v05             58560 non-null  object
 18  h06   

In [437]:
print(pollution_2020.dtypes)
print(weather_2020.dtypes)

provincia          int64
municipio          int64
estacion           int64
magnitud           int64
punto_muestreo    object
ano                int64
mes                int64
dia                int64
h01               object
v01               object
h02               object
v02               object
h03               object
v03               object
h04               object
v04               object
h05               object
v05               object
h06               object
v06               object
h07               object
v07               object
h08               object
v08               object
h09               object
v09               object
h10               object
v10               object
h11               object
v11               object
h12               object
v12               object
h13               object
v13               object
h14               object
v14               object
h15               object
v15               object
h16               object
v16               object


In [438]:
print(pollution_2020.isnull().sum())
print(weather_2020.isnull().sum())

provincia            0
municipio            0
estacion             0
magnitud             0
punto_muestreo       0
ano                  0
mes                  0
dia                  0
h01                313
v01                  0
h02                315
v02                  0
h03                346
v03                  0
h04                352
v04                  0
h05                360
v05                  0
h06               1265
v06                  0
h07               1880
v07                  0
h08               2316
v08                  0
h09               2566
v09                  0
h10               2752
v10                  0
h11               2616
v11                  0
h12               2217
v12                  0
h13               1531
v13                  0
h14                981
v14                  0
h15                661
v15                  0
h16                448
v16                  0
h17                327
v17                  0
h18                289
v18        

In [439]:
# Eliminar las columnas que no son necesarias
pollution_2020.drop(["provincia", "estacion", "punto_muestreo"], axis=1, inplace=True)
weather_2020.drop(["provincia", "estacion", "punto_muestreo"], axis=1, inplace=True)

In [440]:
# Eliminar las columnas de validacion que contengan "v"
pollution_2020 = pollution_2020.drop(columns=[col for col in pollution_2020.columns if 'v' in col])
weather_2020 = weather_2020.drop(columns=[col for col in weather_2020.columns if 'v' in col])

In [441]:
# Crear una columna 'fecha' con el año, mes y día
pollution_2020['fecha'] = pd.to_datetime(pollution_2020[['ano', 'mes', 'dia']].astype(str).agg('-'.join, axis=1) + ' 00:00', errors='coerce', format='%Y-%m-%d %H:%M')
pollution_2020.drop(["ano", "mes", "dia"], axis=1, inplace=True)

weather_2020['fecha'] = pd.to_datetime(weather_2020[['ano', 'mes', 'dia']].astype(str).agg('-'.join, axis=1) + ' 00:00', errors='coerce', format='%Y-%m-%d %H:%M')
weather_2020.drop(["ano", "mes", "dia"], axis=1, inplace=True)

In [442]:
# Crear diccionario de los municipios de la Comunidad de Madrid
municipal_dictionary = {
    5: 'ALCALÁ DE HENARES',
    6: 'ALCOBENDAS',
    7: 'ALCORCÓN',
    9: 'ALGETE',
    13: 'ARANJUEZ',
    14: 'ARGANDA DEL REY',
    16: 'EL ATAZAR',
    45: 'COLMENAR VIEJO',
    47: 'COLLADO VILLALBA',
    49: 'COSLADA',
    58: 'FUENLABRADA',
    65: 'GETAFE',
    67: 'GUADALIX DE LA SIERRA',
    74: 'LEGANÉS',
    80: 'MAJADAHONDA',
    92: 'MÓSTOLES',
    102: 'ORUSCO DE TAJUÑA',
    120: 'PUERTO DE COTOS',
    123: 'RIVAS-VACIAMADRID',
    133: 'SAN MARTÍN DE VALDEIGLESIAS',
    148: 'TORREJÓN DE ARDOZ',
    161: 'VALDEMORO',
    171: 'VILLA DEL PRADO',
    180: 'VILLAREJO DE SALVANÉS'
}


In [443]:
# Crear diccionario de las magnitudes contaminantes
popullant = {
    1: '(SO2) Dióxido de azufre',
    6: '(CO) Monóxido de carbono',
    7: '(NO) Monóxido de nitrógeno',
    8: '(NO2) Dióxido de nitrógeno',
    9: '(PM2,5) Partículas en suspensión < PM2,5',
    10: '(PM10) Partículas en suspensión < PM10',
    12: '(NOx)Óxidos de nitrógeno',
    14: '(O3) Ozono',
    20: '(CH3) Tolueno',
    22: '(BC) Black Carbon',
    30: '(C6H6) Benceno',
    42: 'Hidrocarburos totales',
    44: 'Hidrocarburos no metánicos',
    431: 'MetaParaXileno'
}


pollution_2020['municipio'] = pollution_2020['municipio'].map(municipal_dictionary)
pollution_2020['magnitud'] = pollution_2020['magnitud'].map(popullant)
pollution_2020.head()

Unnamed: 0,municipio,magnitud,h01,h02,h03,h04,h05,h06,h07,h08,...,h16,h17,h18,h19,h20,h21,h22,h23,h24,fecha
0,ORUSCO DE TAJUÑA,(SO2) Dióxido de azufre,10,10,10,10,10,10,10,10,...,10,10,10,10,10,10,10,10,10,2020-01-01
1,ORUSCO DE TAJUÑA,(CO) Monóxido de carbono,3,3,3,3,3,3,3,3,...,3,3,4,4,4,4,4,4,4,2020-01-01
2,ORUSCO DE TAJUÑA,(NO) Monóxido de nitrógeno,10,10,10,10,10,10,10,10,...,10,10,10,10,10,10,10,10,10,2020-01-01
3,ORUSCO DE TAJUÑA,(NO2) Dióxido de nitrógeno,80,80,70,60,60,60,70,60,...,50,60,70,80,80,80,90,100,80,2020-01-01
4,ORUSCO DE TAJUÑA,(PM10) Partículas en suspensión < PM10,80,150,130,110,120,160,170,200,...,70,140,220,220,160,160,170,170,170,2020-01-01


In [444]:
# Crear diccionario de las magnitudes meteorológicas
weather_magnitudes = {
    81: 'Velocidad del viento',
    82: 'Dirección del viento',
    83: 'Temperatura',
    86: 'Humedad relativa',
    87: 'Presión atmosférica',
    88: 'Radiación solar',
    89: 'Precipitación',
}

weather_2020['municipio'] = weather_2020['municipio'].map(municipal_dictionary)
weather_2020['magnitud'] = weather_2020['magnitud'].map(weather_magnitudes)
weather_2020.head()

Unnamed: 0,municipio,magnitud,h01,h02,h03,h04,h05,h06,h07,h08,...,h16,h17,h18,h19,h20,h21,h22,h23,h24,fecha
0,ORUSCO DE TAJUÑA,Velocidad del viento,11,1,11,1,12,12,15,16,...,8,8,13,7,2,3,9,7,4,2020-01-01
1,ORUSCO DE TAJUÑA,Dirección del viento,15,34,32,26,16,14,40,358,...,299,228,214,232,291,3,359,18,27,2020-01-01
2,ORUSCO DE TAJUÑA,Temperatura,27,26,21,19,16,16,0,1,...,139,119,86,75,73,63,53,43,42,2020-01-01
3,ORUSCO DE TAJUÑA,Humedad relativa,86,87,89,91,92,92,96,96,...,43,53,63,68,68,74,81,86,85,2020-01-01
4,ORUSCO DE TAJUÑA,Presión atmosférica,946,946,945,945,944,945,946,947,...,943,944,944,944,944,945,945,945,944,2020-01-01


In [445]:
no2 = pollution_2020[pollution_2020["magnitud"] == 8]
no2.head()

Unnamed: 0,municipio,magnitud,h01,h02,h03,h04,h05,h06,h07,h08,...,h16,h17,h18,h19,h20,h21,h22,h23,h24,fecha
