# Air pollution dataset

In [110]:
import numpy as np
import pandas as pd

## Import, Select and Clean the data

In [111]:
df_air = pd.read_csv("Raw Datasets/Air_pollution_2024_Bari.csv")

In [112]:
df_air.columns

Index(['data_di_misurazione', 'id_station', 'denominazione', 'comune',
       'provincia', 'Longitude', 'Latitude', 'tipologia_di_area',
       'tipologia_di_stazione', 'rete', 'interesse_rete', 'id_pollutant',
       'inquinante_misurato', 'valore_inquinante_misurato', 'limite',
       'unita_misura', 'superamenti', 'indice_qualita', 'classe_qualita'],
      dtype='object')

In [113]:
# select only some colomns
df_air = df_air[df_air.comune == "Bari"].drop(columns=['comune', 'provincia', 'rete', 'superamenti']).dropna()

In [None]:
months_dict = {
    "01": "Gennaio",
    "02": "Febbraio",
    "03": "Marzo",
    "04": "Aprile",
    "05": "Maggio",
    "06": "Giugno",
    "07": "Luglio",
    "08": "Agosto",
    "09": "Settembre",
    "10": "Ottobre",
    "11": "Novembre",
    "12": "Dicembre",
}

# Add Month
df_air["month"] =  [s.split('-')[1] for s in df_air.data_di_misurazione]

In [115]:
trimester_dict = {"01": "Trimestre_1",
            "02": "Trimestre_1",
            "03": "Trimestre_1",
            "04": "Trimestre_2",
            "05": "Trimestre_2",
            "06": "Trimestre_2",
            "07": "Trimestre_3",
            "08": "Trimestre_3",
            "09": "Trimestre_3",
            "10": "Trimestre_4",
            "11": "Trimestre_4",
            "12": "Trimestre_4",
            }

# Add Trimester
df_air["trimester"] =  df_air.month.map(trimester_dict)

In [116]:
df_air.head()

Unnamed: 0,data_di_misurazione,id_station,denominazione,Longitude,Latitude,tipologia_di_area,tipologia_di_stazione,interesse_rete,id_pollutant,inquinante_misurato,valore_inquinante_misurato,limite,unita_misura,indice_qualita,classe_qualita,month,trimester
4,2024-01-01,17,Bari - Caldarola,16.888064,41.113542,Urbana,Traffico,PUBBLICO,3,PM10,18.0,50.0,µg/m³,36.0,buona,1,Trimestre_1
5,2024-01-01,17,Bari - Caldarola,16.888064,41.113542,Urbana,Traffico,PUBBLICO,7,PM2.5,13.0,25.0,µg/m³,52.0,buona,1,Trimestre_1
6,2024-01-01,17,Bari - Caldarola,16.888064,41.113542,Urbana,Traffico,PUBBLICO,4,NO2,52.0,200.0,µg/m³,26.0,ottima,1,Trimestre_1
7,2024-01-01,17,Bari - Caldarola,16.888064,41.113542,Urbana,Traffico,PUBBLICO,2,C6H6,0.5,5.0,µg/m³,10.0,ottima,1,Trimestre_1
8,2024-01-01,17,Bari - Caldarola,16.888064,41.113542,Urbana,Traffico,PUBBLICO,1,CO,0.4,10.0,mg/m³,4.0,ottima,1,Trimestre_1


## Annual calendar

In [117]:
# Aggregate the values of same polluting of a specific date
df_air = df_air.pivot_table(
    values='valore_inquinante_misurato',
    columns=['data_di_misurazione', 'inquinante_misurato', 'limite', 'unita_misura'],
    aggfunc='mean'
).T

In [118]:
df_air

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,valore_inquinante_misurato
data_di_misurazione,inquinante_misurato,limite,unita_misura,Unnamed: 4_level_1
2024-01-01,C6H6,5.0,µg/m³,0.75
2024-01-01,CO,10.0,mg/m³,0.50
2024-01-01,NO2,200.0,µg/m³,52.20
2024-01-01,O3,180.0,µg/m³,70.00
2024-01-01,PM10,50.0,µg/m³,18.60
...,...,...,...,...
2024-12-31,CO,10.0,mg/m³,1.00
2024-12-31,NO2,200.0,µg/m³,75.60
2024-12-31,O3,180.0,µg/m³,56.50
2024-12-31,PM10,50.0,µg/m³,48.00


In [119]:
df_air = df_air.reset_index()

In [120]:
df_air.head()

Unnamed: 0,data_di_misurazione,inquinante_misurato,limite,unita_misura,valore_inquinante_misurato
0,2024-01-01,C6H6,5.0,µg/m³,0.75
1,2024-01-01,CO,10.0,mg/m³,0.5
2,2024-01-01,NO2,200.0,µg/m³,52.2
3,2024-01-01,O3,180.0,µg/m³,70.0
4,2024-01-01,PM10,50.0,µg/m³,18.6


In [121]:
# Set to 2 decimal the digit of the 'valore_inquinante_misurato' column
df_air.valore_inquinante_misurato = np.round(df_air.valore_inquinante_misurato, 2)

In [122]:
df_air.to_csv("./Fluorish/modified_Air_pollution_Calendar.csv")

#### Note
Possibile Problema:
Nel tempo si potrebbero osservare valori sempre sotto il limite in quetso caso specifico, per questo il max del range non sarebbe il limite ma il valore osservato più grande. Lpintensità del colore cambia in base a questo e non al limite assegnato.