In [None]:
# caricare dataset

import pandas as pd

data_path = "../data/data_aggregate.csv"
df = pd.read_csv(data_path)
df.head()

In [None]:
# raggruppo per anni e cerco anno con più valori

df['Time'] = pd.to_datetime(df['Time'])

years = df['Time'].dt.year.unique()
years

In [None]:
# creo dataset per ogni anno

dataset_years = {year: df[df['Time'].dt.year == year].reset_index(drop=True) for year in years}

# salvo dataset in un csv per ogni anno

for year, df_year in dataset_years.items():
    name_file = f'dataset_{year}.csv'
    df_year.to_csv(name_file, index=False)

In [None]:
# controllo valori nulli per ogni anno di ogni variabile

file_list = ['dataset_2016.csv', 'dataset_2017.csv', 'dataset_2018.csv', 'dataset_2019.csv', 'dataset_2020.csv', 'dataset_2021.csv']
df_null_values = {}

for file in file_list:
  df = pd.read_csv(file)
  null_values = df.isnull().sum()
  df_null_values[file] = null_values

print(df_null_values)

# il numero di valori nulli è simile per ogni anno --> non scelgo in base a questo

In [None]:
import numpy as np

# faccio media per anno di ppm25 e altri valori

file_list = ['dataset_2016.csv', 'dataset_2017.csv', 'dataset_2018.csv', 'dataset_2019.csv', 'dataset_2020.csv', 'dataset_2021.csv']
df_mean_ppm25 = {}

for file in file_list:
  df = pd.read_csv(file)
  mean_ppm25 = np.mean(df['AQ_pm25'])
  df_mean_ppm25[file] = mean_ppm25

print(df_mean_ppm25)

In [None]:
# 2016 e 2017 sono più alti degli altri, prendiamo 2017/2018/2020 e vediamo le diverse timeseries dei dati di una stazione

df = pd.read_csv('dataset_2017.csv')

df['AQ_pm25'] = pd.to_numeric(df['AQ_pm25'], errors='coerce')

groups_stations = df.groupby('IDStations')

stations_wo_nan_pm25 = []

# Itera attraverso i gruppi di stazioni
for station, data_station in groups_stations:
    # Verifica se la stazione ha valori non nulli per PM2.5 in ogni misurazione
    if not data_station['AQ_pm25'].isnull().any():
        stations_wo_nan_pm25.append(station)

# Stampare le stazioni senza valori nulli di PM2.5 per ogni misurazione
print("Stazioni senza valori nulli di PM2.5 per ogni misurazione:")
print(stations_wo_nan_pm25)

# 1264 (Sondrio), 1265 (Lodi), 1297 (Cremona-molto inquinato), STA.IT0499A (Bolzano), 548 (Milano), CH-0033A (Svizzera) --> più rappresentative

In [None]:
# Bolzano-Milano-Cremona nel 2017

import matplotlib.pyplot as plt

df = pd.read_csv('dataset_2017.csv')

# Assicurati che la colonna 'PM2.5' sia in formato numerico e 'Data' sia in formato datetime
df['AQ_pm25'] = pd.to_numeric(df['AQ_pm25'], errors='coerce')
df['Time'] = pd.to_datetime(df['Time'])

# Seleziona tre stazioni
stations_sel = ['STA.IT0499A', '548', '1297']
labels = ['Bolzano','Milano','Cremona']

# Filtra il dataset per le stazioni selezionate
df_sel = df[df['IDStations'].isin(stations_sel)]

# Crea un subplot per il grafico
plt.figure(figsize=(10, 6))

# Itera attraverso le stazioni selezionate e plotta i dati PM2.5 nel corso dell'anno
for station, label in zip(stations_sel, labels):
    df_station = df_sel[df_sel['IDStations'] == station]
    plt.plot(df_station['Time'], df_station['AQ_pm25'], label=label)

# Impostazioni del grafico
plt.title('Variazione PM2.5 nel corso dell\'anno')
plt.xlabel('Time')
plt.ylabel('PM2.5')
plt.ylim(0,110)
plt.legend()
plt.grid(True)

# Visualizza il grafico
plt.tight_layout()
plt.show()

In [None]:
# Bolzano-Milano-Cremona nel 2018

import matplotlib.pyplot as plt

df = pd.read_csv('dataset_2018.csv')

# Assicurati che la colonna 'PM2.5' sia in formato numerico e 'Data' sia in formato datetime
df['AQ_pm25'] = pd.to_numeric(df['AQ_pm25'], errors='coerce')
df['Time'] = pd.to_datetime(df['Time'])

# Seleziona tre stazioni
stations_sel = ['STA.IT0499A', '548', '1297']
labels = ['Bolzano','Milano','Cremona']

# Filtra il dataset per le stazioni selezionate
df_sel = df[df['IDStations'].isin(stations_sel)]

# Crea un subplot per il grafico
plt.figure(figsize=(10, 6))

# Itera attraverso le stazioni selezionate e plotta i dati PM2.5 nel corso dell'anno
for station, label in zip(stations_sel, labels):
    df_station = df_sel[df_sel['IDStations'] == station]
    plt.plot(df_station['Time'], df_station['AQ_pm25'], label=label)

# Impostazioni del grafico
plt.title('Variazione PM2.5 nel corso dell\'anno')
plt.xlabel('Time')
plt.ylabel('PM2.5')
plt.ylim(0,110)
plt.legend()
plt.grid(True)

# Visualizza il grafico
plt.tight_layout()
plt.show()

In [None]:
# Bolzano-Milano-Cremona nel 2020

import matplotlib.pyplot as plt

df = pd.read_csv('dataset_2020.csv')

# Assicurati che la colonna 'PM2.5' sia in formato numerico e 'Data' sia in formato datetime
df['AQ_pm25'] = pd.to_numeric(df['AQ_pm25'], errors='coerce')
df['Time'] = pd.to_datetime(df['Time'])

# Seleziona tre stazioni
stations_sel = ['STA.IT0499A', '548', '1297']
labels = ['Bolzano','Milano','Cremona']

# Filtra il dataset per le stazioni selezionate
df_sel = df[df['IDStations'].isin(stations_sel)]

# Crea un subplot per il grafico
plt.figure(figsize=(10, 6))

# Itera attraverso le stazioni selezionate e plotta i dati PM2.5 nel corso dell'anno
for station, label in zip(stations_sel, labels):
    df_station = df_sel[df_sel['IDStations'] == station]
    plt.plot(df_station['Time'], df_station['AQ_pm25'], label=label)

# Impostazioni del grafico
plt.title('Variazione PM2.5 nel corso dell\'anno')
plt.xlabel('Time')
plt.ylabel('PM2.5')
plt.ylim(0,110)
plt.legend()
plt.grid(True)

# Visualizza il grafico
plt.tight_layout()
plt.show()

In [None]:
# timeseries dei dati di una/due stazioni in diversi anni, vedere se segue dei trend (prendere stazioni in parti diverse)

df = pd.read_csv(data_path)

df['AQ_pm25'] = pd.to_numeric(df['AQ_pm25'], errors='coerce')

groups_stations = df.groupby('IDStations')

stations_wo_nan_pm25 = []

# Itera attraverso i gruppi di stazioni
for station, data_station in groups_stations:
    # Verifica se la stazione ha valori non nulli per PM2.5 in ogni misurazione
    if not data_station['AQ_pm25'].isnull().any():
        stations_wo_nan_pm25.append(station)

# Stampare le stazioni senza valori nulli di PM2.5 per ogni misurazione
print("Stazioni senza valori nulli di PM2.5 per ogni misurazione:")
print(stations_wo_nan_pm25)

# tutti gli anni completi --> 1297 (Cremona), STA-CH0033A (Svizzera)

In [None]:
# Cremona-Svizzera in tutti gli anni

import matplotlib.pyplot as plt

df = pd.read_csv(data_path)

# Assicurati che la colonna 'PM2.5' sia in formato numerico e 'Data' sia in formato datetime
df['AQ_pm25'] = pd.to_numeric(df['AQ_pm25'], errors='coerce')
df['Time'] = pd.to_datetime(df['Time'])

# Seleziona tre stazioni
stations_sel = ['STA-CH0033A', 1297]
labels = ['Svizzera','Cremona']

# Filtra il dataset per le stazioni selezionate
df_sel = df[df['IDStations'].isin(stations_sel)]

# Crea un subplot per il grafico
plt.figure(figsize=(10, 6))

# Itera attraverso le stazioni selezionate e plotta i dati PM2.5 nel corso dell'anno
for station, label in zip(stations_sel, labels):
    df_station = df_sel[df_sel['IDStations'] == station]
    plt.plot(df_station['Time'], df_station['AQ_pm25'], label=label)

# Impostazioni del grafico
plt.title('Variazione PM2.5 nel corso di diversi anni')
plt.xlabel('Time')
plt.ylabel('PM2.5')
plt.ylim(0,110)
plt.legend()
plt.grid(True)

# Visualizza il grafico
plt.tight_layout()
plt.show()

## Time Series Analysis

In [None]:
df_timeseries = df_sel[df_sel["IDStations"] == stations_sel[0]][["Time", "AQ_pm25"]]
print(df_timeseries.head())

In [None]:
import statsmodels.api as sm
from statsmodels.tsa.api import ExponentialSmoothing

decomp_type = "multplicative"  # "additive"
period_size = 52
decomp = {}

time = df_sel[df_sel["IDStations"] == station]["Time"].reset_index()

for station, label in zip(stations_sel, labels):
    df_timeseries = df_sel[df_sel["IDStations"] == station]["AQ_pm25"].reset_index()
    decomp[label] = sm.tsa.seasonal_decompose(
        df_timeseries["AQ_pm25"], model=decomp_type, period=period_size,
    )

fig, ax = plt.subplots(4, 1, figsize=(10, 6), sharex=True)

ax[0].plot(decomp["Svizzera"].observed, label="Svizzera")
ax[0].plot(decomp["Cremona"].observed, label="Cremona")
ax[0].set_ylabel("Observed")
ax[0].legend(loc="upper right")

ax[1].plot(decomp["Svizzera"].trend)
ax[1].plot(decomp["Cremona"].trend)
ax[1].set_ylabel("Trend")

ax[2].plot(decomp["Svizzera"].seasonal)
ax[2].plot(decomp["Cremona"].seasonal)
ax[2].set_ylabel("Seasonal")

ax[3].plot(decomp["Svizzera"].resid)
ax[3].plot(decomp["Cremona"].resid)
ax[3].set_ylabel("Residual")

fig.suptitle("{} Time Series Decomposition".format(decomp_type))
plt.xlabel("Weeks")
plt.show()