# Test Statistici
## Introduzione

Lo studio di serie storiche con modelli statistici (ARMA, ARIMA, SARIMA, Holt-Winters,...) presuppone che la distribuzione abbia alcune caratteristiche come:
* stazionarietà
* indipendenza
* distibuzione normale dei dati
<br>
Per verificare se sussistono queste caratteristiche bisogna effettuare alcuni test statistici. In python la principale libreria che racchiude questi strumenti è statsmodels, in particolare il modulo *tsa*.

link alla libreria: [statsmodels](https://www.statsmodels.org/stable/index.html)

## Caricamento di Airpassengers

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

Per prima cosa carichiamo la serie e vediamo:
* i primi 5 valori
* il plot dell'originale

In [None]:
airpassengers = pd.read_csv("airpassenger.csv")
airpassengers.columns = ["Time","Passengers"]
airpassengers.head()

In [None]:
plt.figure(figsize=(16,8))
plt.plot(range(airpassengers.shape[0]), airpassengers["Passengers"].values, color='tab:red')
plt.gca().set(title="Airpassengers", xlabel="Time", ylabel="Passengers")
plt.show()

## Componenti della serie

Una serie storica ha solitamente quattro componenti:
* *trend*
* *ciclo*
* *stagionalità*
* *componente erratica*
<br>
In tsa esiste una funzione che decompone la serie e ci fa vedere 3 delle quattro componenti sopra elencate.
<br>

**N.B. La differenza tra ciclo e stagionalità. La stagionalità si presenta sui dodici mesi, il ciclo può essere mensile, seetimanale, ... non confondiamo.**

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose

In [None]:
decompose = seasonal_decompose(airpassengers["Passengers"], model = "multiplicative", freq = 12)

Sapevamo già che la serie è mensile, quindi frequenza 12, il model indica il tipo di stagionalità, se vediamo il grafico i picchi crescono al passare dei periodi, quindi l'interazione tra le componenti è moltiplicativa.
<br>
Nei grafici di seguito vediamo:
1. La serie originale
2. Il trend
3. La stagionalità
4. La componente erratica

In [None]:
decompose.plot()

## Test sull'indipendenza

Il test sull'indipendenza dei dati è il **Ljung-Box**.
<br>
Ha come ipotesi nulla che i dati sono indipendentemente distribuiti.
Useremo un alpha pari al 5% per tutti i nostri test.