# Importazione librerie e setup

In [2]:
from IPython.core.display import display, HTML

display(HTML("<style>.container { width:90% !important; }</style>"))

In [3]:
import pandas as pd
import numpy as np
import seaborn as sns
from pandas.api.types import CategoricalDtype

In [4]:
path = './data/'

# Conversione files e Importazione datasets

## Convesione da `.csv` a `.parquet`

Data la grande dimensione di alcuni dei dataset utilizzati, questi verranno convertiti da `.csv` a `.parquet` (Apache Parquet Format)

In [5]:
#df = pd.read_csv('./Datasets/Dati_sensori_meteo_2021.csv', low_memory=False)
#df.to_parquet('./Datasets/Dati_sensori_meteo_2021.parquet')

## Dataset Meteo - group

### Attributi

- IdSensore: 
    - Tipologia: Testo normale
- Data: 
    - Data e ora, Marcatura oraria flessibile
- Valore: 
    - Tipologia: numero
    - Legenda: 9999 = dato mancante 888, 8888 = direzione vento variabile 777, 7777 = calma (solo per direzione di vento)
- idOperatore	
    - *Molto utile per capire la dimensione del dato*
    - LEGENDA: 1: Valore medio 3: Valore massimo 4: Valore cumulato (per la pioggia)
    - Testo normale
- Stato	
    - LEGENDA: VA, VV = dato valido NA, NV, NC = dato invalido NI = dato incerto ND = dato non disponibile
    - Testo normale

### Read_csv

In [6]:
meteo__id_day = pd.read_csv(f'{path}data_meteo/meteo_group_17_21.csv', parse_dates = ['Data_corretta'], index_col = 0)
meteo__id_day.dtypes

  mask |= (ar1 == a)


IdSensore                 int64
Data_corretta    datetime64[ns]
Valore_mean             float64
valore_std              float64
valore_count              int64
dtype: object

In [7]:
meteo__id_day

Unnamed: 0,IdSensore,Data_corretta,Valore_mean,valore_std,valore_count
0,3,2017-01-01,37.054861,0.934560,144
1,3,2017-01-02,37.584028,0.618894,144
2,3,2017-01-03,37.242361,0.567238,144
3,3,2017-01-04,37.350694,0.591075,144
4,3,2017-01-05,37.583333,0.470084,144
...,...,...,...,...,...
1507592,32413,2021-12-27,34.013889,62.178514,144
1507593,32413,2021-12-28,93.618056,171.915575,144
1507594,32413,2021-12-29,67.291667,121.751603,144
1507595,32413,2021-12-30,69.659722,128.552521,144


## Dataset Meteo - sensori

### Attributi

- **IdSensore**
    - Foreign Key con vincolo di integrità referenziale a `IdSensore` di meteo_21
    - Testo normale
- **Tipologia**
    - Grandezza misurata
    - Testo normale
- **Unità DiMisura**
    - Unità di misura della grandezza
    - Testo normale
- IdStazione	
    - Numero identificativo della stazione (penso perchè ogni stazione può avere più sensori)
    - Testo normale
- NomeStazione	
    - Località della stazione (Spesso è 'Comune via' o 'Comune località)'
    - Testo normale
- Quota	
    - Altitudine
    - Numero
- Provincia
    - Sigla della provincia
    - Testo normale
- DataStart	
    - Data e ora
- DataStop	
    - Data e ora
- Storico	
    - Noto che assume valori N e S ma non capisco cosa sia
    - Testo normale
- UTM_Nord	
    - Coordinata UTM nord (le cordinate utm permettono di individuare univocamente un punto sulla cartina terrestre)
    - Testo normale
- UTM_Est	
    - Coordinata UTM est
    - Testo normale
- lng	
    - Longitudine (senza simbolo gradi)
    - Numero
- lat	
    - Latitudine (senza simbolo gradi)
    - Numero
- location	
    - (latitudine°, longitudine°)
    - Posizione

### Caratteristiche

Sono disponibili i dati delle grandezze:
- Livello Idrometrico (cm)
- Altezza neve (cm)
- Precipitazione (mm)
- Temperatura (°C)
- Umidità Relativa (%)
- Radiazione Globale (W/m2)
- Velocità e Direzione Vento (m/s e gradi).
- Velocità e direzione del vento (m/s e gradi N) raffica
NB: l’orario del dato è "ora solare" e si riferisce alle osservazioni ottenute fino all’orario indicato.

### Read_csv

In [8]:
sensori_meteo = pd.read_csv(f'{path}Stazioni_Meteorologiche.csv', dtype = {'Tipologia': 'category'})
sensori_meteo.head()
#stazioni_meteo['Tipologia'].value_counts()

Unnamed: 0,IdSensore,Tipologia,Unità DiMisura,IdStazione,NomeStazione,Quota,Provincia,DataStart,DataStop,Storico,UTM_Nord,UTM_Est,lng,lat,location
0,22006,Umidità Relativa,%,1890,Tavernole sul Mella Monte Guglielmo,1790,BS,14/10/2019,,N,5067376,591417,10.175407,45.753896,"(45.75389593743312, 10.175407094582125)"
1,22007,Direzione Vento,°,1890,Tavernole sul Mella Monte Guglielmo,1790,BS,14/10/2019,,N,5067376,591417,10.175407,45.753896,"(45.75389593743312, 10.175407094582125)"
2,22003,Temperatura,°C,1890,Tavernole sul Mella Monte Guglielmo,1790,BS,14/10/2019,,N,5067376,591417,10.175407,45.753896,"(45.75389593743312, 10.175407094582125)"
3,22009,Velocità Vento,m/s,1890,Tavernole sul Mella Monte Guglielmo,1790,BS,14/10/2019,,N,5067376,591417,10.175407,45.753896,"(45.75389593743312, 10.175407094582125)"
4,17612,Altezza Neve,cm,1545,San Siro Alpe Rescascìa,1285,CO,07/11/2019,,N,5102069,518430,9.238323,46.071947,"(46.071947417956004, 9.238323435918229)"


## Dataset Zonizzazione

In [9]:
zonizzazione = pd.read_csv(f'{path}zonizzazione/zonizzazione_ABCD.csv')
zonizzazione.head()

Unnamed: 0,Provincia,Codice Istat,Comune,Zona,Residenti 2008,Superficie (ha)
0,BG,16009,AMBIVERE,A,2341,327
1,BG,16013,ARZAGO D'ADDA,A,2836,944
2,BG,16018,BAGNATICA,A,4119,639
3,BG,16020,BARIANO,A,4396,714
4,BG,16021,BARZANO',A,5178,356


# Data Exploration e Data Cleansing (*superset*)

## Data Exploration

- verificare quali siano tutte le quantità uniche rilevate dai sensori qualità dell'aria
- quali siano i gruppi di inquinanti principali
- quali siano i limiti di assunzione umana (gionralieri e annuali)
    - Vedi [qui](https://www.arpalombardia.it/Pages/Aria/Inquinanti.aspx) per limiti e piccola descrizione
    - Vedi [qui](https://www.regione.lombardia.it/wps/portal/istituzionale/HP/DettaglioRedazionale/servizi-e-informazioni/cittadini/salute-e-prevenzione/Sicurezza-negli-ambienti-di-vita-e-di-lavoro/inquinamento-atmosferico/inquinamento-atmosferico/) per approfondimento

Determino il numero di sensori per ogni tipologia

- Si potrebbero considerare solo gli inquinanti **più importanti e con più stazioni**
- Ovvero **Biossido di Azoto | PM10 (SM2005) e PM2,5 e/o Particolato totale | Ozono troposferico | Bisossido di Zolfo**
- Facoltativi perchè non presenti nella valutazione della qualità dell'aria [qui](https://www.arpalombardia.it/Pages/Aria/Modellistica/Indice-qualit%C3%A0-aria.aspx): Monossido di carbonio e benzene

In [10]:
sensori_meteo['Tipologia'].value_counts()

Precipitazione         281
Temperatura            258
Umidità Relativa       199
Direzione Vento        144
Velocità Vento         144
Radiazione Globale     110
Livello Idrometrico     85
Altezza Neve            41
Name: Tipologia, dtype: int64

Determino il numero di zone in cui é suddiviso il territorio Lombardo

In [11]:
zonizzazione['Zona'].value_counts()

B         448
C         423
A         406
AGG MI    107
C D       102
AGG BG     37
AGG BS     20
D           2
Name: Zona, dtype: int64

## Data Cleansing

In [12]:
sensori_meteo.drop(sensori_meteo[sensori_meteo['Tipologia'] != 'Radiazione Globale'].index, inplace = True)
sensori_meteo.reset_index(drop=True, inplace=True)
sensori_meteo

Unnamed: 0,IdSensore,Tipologia,Unità DiMisura,IdStazione,NomeStazione,Quota,Provincia,DataStart,DataStop,Storico,UTM_Nord,UTM_Est,lng,lat,location
0,22017,Radiazione Globale,W/m²,1890,Tavernole sul Mella Monte Guglielmo,1790,BS,14/10/2019,,N,5067376,591417,10.175407,45.753896,"(45.75389593743312, 10.175407094582125)"
1,2190,Radiazione Globale,W/m²,114,Landriano Cascina Marianna,88,PV,29/09/2005,,N,5018600,520938,9.267153,45.320594,"(45.32059361110084, 9.26715311477454)"
2,6432,Radiazione Globale,W/m²,596,Osio Sotto v.per Levate,182,BG,04/04/2000,,N,5052072,547691,9.611738,45.620556,"(45.62055567939559, 9.611737821812373)"
3,2384,Radiazione Globale,W/m²,127,Casatenovo tetto,360,LC,10/11/2003,,N,5060979,524066,9.309145,45.701946,"(45.70194614072786, 9.309144812286515)"
4,17506,Radiazione Globale,W/m²,816,Sermide e Felonica SP 91,10,MN,21/10/2018,,N,4987208,680433,11.289926,45.015363,"(45.015363087231634, 11.289925972511382)"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
105,6476,Radiazione Globale,W/m²,559,Somma Lombardo v.Facchinetti,210,VA,20/03/2000,30/10/2020,S,5055150,477613,8.712691,45.649537,"(45.649537127292405, 8.71269145828479)"
106,9828,Radiazione Globale,W/m²,848,Livigno La Vallaccia,2660,SO,11/09/1993,,N,5147768,591251,10.188729,46.477305,"(46.47730494291044, 10.188728513795667)"
107,9786,Radiazione Globale,W/m²,847,Carona Carisole,1954,BG,01/07/1993,,N,5098634,561423,9.793800,46.038523,"(46.03852339399498, 9.793799590056548)"
108,9785,Radiazione Globale,W/m²,846,Edolo Pantano d`Avio,2108,BS,01/05/1993,,N,5114768,613679,10.472818,46.177000,"(46.1770002163179, 10.472817754713557)"


# Data preparation (group by e join su *superset*)

## JOIN meteo e sensori

In [13]:
meteo_sensori__id_day = pd.merge(meteo__id_day, sensori_meteo, how = 'inner', on = 'IdSensore')
meteo_sensori__id_day

Unnamed: 0,IdSensore,Data_corretta,Valore_mean,valore_std,valore_count,Tipologia,Unità DiMisura,IdStazione,NomeStazione,Quota,Provincia,DataStart,DataStop,Storico,UTM_Nord,UTM_Est,lng,lat,location
0,2008,2017-01-01,76.125874,123.108899,143,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.496780,"(45.49677982403948, 9.257515399681068)"
1,2008,2017-01-02,31.145833,55.454507,144,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.496780,"(45.49677982403948, 9.257515399681068)"
2,2008,2017-01-03,71.236111,116.145856,144,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.496780,"(45.49677982403948, 9.257515399681068)"
3,2008,2017-01-04,75.020833,122.348777,144,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.496780,"(45.49677982403948, 9.257515399681068)"
4,2008,2017-01-05,83.541667,136.971176,144,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.496780,"(45.49677982403948, 9.257515399681068)"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
158123,12728,2021-12-27,23.881944,45.027186,144,Radiazione Globale,W/m²,1974,Grone San Fermo,1246,BG,30/08/2020,,N,5066048,572800,9.935873,45.744156,"(45.744156277136966, 9.935872972330552)"
158124,12728,2021-12-28,39.270833,72.306672,144,Radiazione Globale,W/m²,1974,Grone San Fermo,1246,BG,30/08/2020,,N,5066048,572800,9.935873,45.744156,"(45.744156277136966, 9.935872972330552)"
158125,12728,2021-12-29,64.808511,109.422570,141,Radiazione Globale,W/m²,1974,Grone San Fermo,1246,BG,30/08/2020,,N,5066048,572800,9.935873,45.744156,"(45.744156277136966, 9.935872972330552)"
158126,12728,2021-12-30,65.269504,109.601999,141,Radiazione Globale,W/m²,1974,Grone San Fermo,1246,BG,30/08/2020,,N,5066048,572800,9.935873,45.744156,"(45.744156277136966, 9.935872972330552)"


## Controllo significativitá medie e unitá di misura

### Medie ottenute da piú di un'osservazione

In [14]:
meteo_sensori__id_day.shape[0]

158128

In [15]:
meteo_sensori__id_day[meteo_sensori__id_day.valore_count == 144].shape[0]

125308

In [16]:
meteo_sensori__id_day[meteo_sensori__id_day.valore_count < 130].shape[0]

10890

#### Rimozione medie ottenute da meno di 130 osservazioni

In [17]:
meteo_sensori__id_day.drop(meteo_sensori__id_day[meteo_sensori__id_day.valore_count < 130].index, inplace=True)
meteo_sensori__id_day.reset_index(drop=True, inplace=True)
meteo_sensori__id_day.head()

Unnamed: 0,IdSensore,Data_corretta,Valore_mean,valore_std,valore_count,Tipologia,Unità DiMisura,IdStazione,NomeStazione,Quota,Provincia,DataStart,DataStop,Storico,UTM_Nord,UTM_Est,lng,lat,location
0,2008,2017-01-01,76.125874,123.108899,143,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.49678,"(45.49677982403948, 9.257515399681068)"
1,2008,2017-01-02,31.145833,55.454507,144,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.49678,"(45.49677982403948, 9.257515399681068)"
2,2008,2017-01-03,71.236111,116.145856,144,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.49678,"(45.49677982403948, 9.257515399681068)"
3,2008,2017-01-04,75.020833,122.348777,144,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.49678,"(45.49677982403948, 9.257515399681068)"
4,2008,2017-01-05,83.541667,136.971176,144,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.49678,"(45.49677982403948, 9.257515399681068)"


## Tengo solo MI

- Inner joint tra `meteo_sensori__id_day` e `zonizzazione` a dare `meteo_sensori_zone__id_day`
- Non perdo nessuna riga con l'inner joint perché sono presenti tutti i comuni nel dataset `zonizzazione`

In [18]:
#meteo_sensori_zone__id_day = pd.merge(meteo_sensori__id_day, zonizzazione['Zona'], left_on = meteo_sensori__id_day['Comune'].str.lower(), right_on = zonizzazione['Comune'].str.lower())
#meteo_sensori_zone__id_day.head()

In [19]:
#meteo_sensori_zone__id_day.drop(meteo_sensori_zone__id_day[meteo_sensori_zone__id_day['Zona'] != 'AGG MI'].index, inplace = True)
#meteo_sensori_zone__id_day.reset_index(drop = True, inplace = True)
#meteo_sensori_zone__id_day

In [20]:
meteo_sensori__id_day.drop(meteo_sensori__id_day[meteo_sensori__id_day['Provincia'] != 'MI'].index, inplace = True)
meteo_sensori__id_day.reset_index(drop=True, inplace=True)
meteo_sensori__id_day

Unnamed: 0,IdSensore,Data_corretta,Valore_mean,valore_std,valore_count,Tipologia,Unità DiMisura,IdStazione,NomeStazione,Quota,Provincia,DataStart,DataStop,Storico,UTM_Nord,UTM_Est,lng,lat,location
0,2008,2017-01-01,76.125874,123.108899,143,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.496780,"(45.49677982403948, 9.257515399681068)"
1,2008,2017-01-02,31.145833,55.454507,144,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.496780,"(45.49677982403948, 9.257515399681068)"
2,2008,2017-01-03,71.236111,116.145856,144,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.496780,"(45.49677982403948, 9.257515399681068)"
3,2008,2017-01-04,75.020833,122.348777,144,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.496780,"(45.49677982403948, 9.257515399681068)"
4,2008,2017-01-05,83.541667,136.971176,144,Radiazione Globale,W/m²,100,Milano Lambrate,120,MI,12/09/2003,,N,5038171,520120,9.257515,45.496780,"(45.49677982403948, 9.257515399681068)"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13210,17479,2021-12-27,8.909722,20.399819,144,Radiazione Globale,W/m²,1873,Abbiategrasso Strada Casalina,115,MI,28/12/2018,,N,5026799,491367,8.889706,45.394655,"(45.39465495024529, 8.889705636733689)"
13211,17479,2021-12-28,21.638889,37.877538,144,Radiazione Globale,W/m²,1873,Abbiategrasso Strada Casalina,115,MI,28/12/2018,,N,5026799,491367,8.889706,45.394655,"(45.39465495024529, 8.889705636733689)"
13212,17479,2021-12-29,51.666667,86.442834,144,Radiazione Globale,W/m²,1873,Abbiategrasso Strada Casalina,115,MI,28/12/2018,,N,5026799,491367,8.889706,45.394655,"(45.39465495024529, 8.889705636733689)"
13213,17479,2021-12-30,14.729167,26.484253,144,Radiazione Globale,W/m²,1873,Abbiategrasso Strada Casalina,115,MI,28/12/2018,,N,5026799,491367,8.889706,45.394655,"(45.39465495024529, 8.889705636733689)"


## GROUP BY `meteo_sensori__day`

- Raggruppo per `Data` (giorno), `Zona`, `NomeTipoSensore`
- Calcolo grandezze aggregate
    - Calcolo il valore medio e la deviazione standard del `Valore_MEAN_id_day`, cioé il valore mediato di un sensore sull'intera giornata
    - Importante sottolineare che le funzioni `mean, count e std` di pandas NON tengono conto dei Na, quindi i valori che vediamo sono esatti
- Si perdono le colonne `valore_count` e `Valore_STD_id_day` ma non sono importanti, sono piú importanti quelle che ricalcoliamo (chiamate `Valore_COUNT_day_zona_tipo` e `Valore_STD_day_zona_tipo`)

In [28]:
meteo_sensori__day = meteo_sensori__id_day.groupby('Data_corretta').agg({'Valore_mean': ['mean', 'std']}).reset_index()

meteo_sensori__day.columns = ['Data', 'valore_mean','valore_std']
meteo_sensori__day

Unnamed: 0,Data,valore_mean,valore_std
0,2017-01-01,73.048141,20.409292
1,2017-01-02,41.620833,13.619913
2,2017-01-03,71.419246,3.751239
3,2017-01-04,79.087401,4.263804
4,2017-01-05,86.494072,4.794243
...,...,...,...
1807,2021-12-27,11.376786,1.899456
1808,2021-12-28,23.749776,2.023651
1809,2021-12-29,53.417758,11.747264
1810,2021-12-30,31.981151,11.091993


# Controlli (*superset*)

### Valori mancanti per ogni coppia `Zona` - `NomeTipoSensore`

#### Numero valori mancanti e valori NaN

I valori delle medie mancanti sono dovuti a:

- righe effettivamente mancanti
- righe con Valore_MEAN uguale a NaN

In [30]:
indice_date = pd.date_range(meteo_sensori__day.Data.min(), meteo_sensori__day.Data.max())
indice_date

DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
               '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08',
               '2017-01-09', '2017-01-10',
               ...
               '2021-12-22', '2021-12-23', '2021-12-24', '2021-12-25',
               '2021-12-26', '2021-12-27', '2021-12-28', '2021-12-29',
               '2021-12-30', '2021-12-31'],
              dtype='datetime64[ns]', length=1826, freq='D')

#### Aggiunta valori NaN per giorni mancanti

Serve dopo quando si compie la media mobile (per mediare i giorni contigui e non le righe contigue)

In [32]:
meteo_sensori__day = meteo_sensori__day.set_index('Data').reindex(indice_date, fill_value=np.NaN).reset_index()
meteo_sensori__day.columns = ['Data', 'valore_mean', 'valore_std']
meteo_sensori__day

Unnamed: 0,Data,valore_mean,valore_std
0,2017-01-01,73.048141,20.409292
1,2017-01-02,41.620833,13.619913
2,2017-01-03,71.419246,3.751239
3,2017-01-04,79.087401,4.263804
4,2017-01-05,86.494072,4.794243
...,...,...,...
1821,2021-12-27,11.376786,1.899456
1822,2021-12-28,23.749776,2.023651
1823,2021-12-29,53.417758,11.747264
1824,2021-12-30,31.981151,11.091993


Abbiamo ottenuto un numero di righe uguale a quelle teoriche con presenti dei NaN

# Medio/massimo negli anni

In [74]:
meteo_sensori__day['month'] = meteo_sensori__day.Data.dt.month
meteo_sensori__day['day'] = meteo_sensori__day.Data.dt.day
meteo_sensori__year = meteo_sensori__day.groupby(['month', 'day'], as_index = False).max()
meteo_sensori__year['year'] = 2020

meteo_sensori__year['Data'] = pd.to_datetime(meteo_sensori__year[['year', 'month', 'day']])

meteo_sensori__day.drop(['month', 'day'], axis = 1, inplace = True)
meteo_sensori__year.drop(['month', 'day', 'year'], axis = 1, inplace = True)
meteo_sensori__year

Unnamed: 0,Data,valore_mean,valore_std
0,2020-01-01,75.617088,20.409292
1,2020-01-02,86.009375,13.619913
2,2020-01-03,71.419246,14.579791
3,2020-01-04,79.087401,5.218365
4,2020-01-05,86.494072,4.944629
...,...,...,...
361,2020-12-27,60.957484,19.611644
362,2020-12-28,72.034821,7.987810
363,2020-12-29,74.004960,11.747264
364,2020-12-30,68.918750,11.091993


## Esportazione

In [75]:
meteo_sensori__year.to_csv(f'{path}/prova_rad.csv')