(sampling-distr-mean-notebook)=
# Distribuzione campionaria della media e test t di Student

In [11]:
import pandas as pd
import itertools
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import arviz as az
import seaborn as sns


In [3]:
# Initialize random number generator
RANDOM_SEED = 8927
rng = np.random.default_rng(RANDOM_SEED)

plt.style.use("bmh")
plt.rcParams["figure.figsize"] = [10, 6]
plt.rcParams["figure.dpi"] = 100
plt.rcParams["figure.facecolor"] = "white"

sns.set_theme(palette="colorblind")

%load_ext autoreload
%autoreload 2
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
%config InlineBackend.figure_format = "svg"

## Test dell'ipotesi nulla

Con queste informazioni possiamo standardizzare la media osservata *all'interno della distribuzione campionaria delle medie*.

In [39]:
null_mean = 4.0
T = (sample_mean - null_mean) / (sample_sd / np.sqrt(2))
print(T)

5.0


Un importante teorema statistico afferma che la statistica calcolata segue una distribuzione nota, chiamata distribuzione $t$ di Student con $\nu = n - 1$ gradi di libertà.

L'obiettivo è comprendere quanto il valore osservato della statistica $T$ si discosti dal valore atteso. Nella distribuzione $t$ di Student, il valore atteso è 0. Per valutare questa differenza, viene calcolata la probabilità di osservare un valore di $T$ uguale a quello trovato nel campione o anche più estremo, nelle due code della distribuzione $T$ con $\nu = n - 1$ gradi di libertà.

Iniziamo calcolando la probabilità nella coda sinistra. 

In [42]:
df = 1 # gradi di libertà
# Calcolo della probabilità nella coda a sinistra
stats.t.cdf(-T, df)

0.06283295818900117

Dato che la distribuzione $t$ di Student è simmetrica, la probabilità nelle due code è uguale a 

In [43]:
2 * stats.t.cdf(-T, df)

0.12566591637800234

## Test t di Student

Il valore-p ottenuto indica la probabilità di ottenere una media campionaria uguale o ancora più estrema di quella osservata nel campione, se l'ipotesi nulla fosse vera. Si utilizza la distribuzione campionaria delle medie di campioni di ampiezza $n$ = 2 estratti dalla popolazione di interesse per calcolare il valore-p. L'ipotesi nulla specifica la media della popolazione e la varianza campionaria viene utilizzata come stima della varianza.

Se il valore-p è basso, significa che la statistica test ha prodotto un risultato molto estremo, ovvero molto diverso dal valore atteso previsto dall'ipotesi nulla. In questo caso, se il valore-p è inferiore a 0.05, il risultato del test statistico è considerato "statisticamente significativo" e l'ipotesi nulla viene rigettata. Ciò suggerisce che l'ipotesi nulla non è plausibile sulla base dei dati campionari.

Il test statistico che abbiamo eseguito è il test $t$ di Student per un campione, che viene utilizzato per confrontare le medie di due gruppi di dati appaiati, ad esempio pre e post-trattamento. Questo tipo di test può aiutare a valutare l'efficacia del trattamento e la differenza media tra le due misurazioni.

L'ipotesi nulla in questo caso è che il trattamento non abbia alcun effetto, e quindi la media delle differenze sia uguale a zero. Se il valore-p ottenuto dal test è inferiore a 0.05, il ricercatore può concludere che il trattamento è efficace (se la media post-trattamento è inferiore alla media pre-trattamento).

## Test $t$ di Student con `scipy.stats`

Verifichiamo il risultato numerico ottenuto usando la funzione `ttest_1samp` di `scipy.stats`.

In [57]:
null_mean = 4.0
stats.ttest_1samp(observed_sample, null_mean)

TtestResult(statistic=5.0, pvalue=0.12566591637800234, df=1)

Abbiamo impostato la media dell'ipotesi nulla a 4.0. Successivamente, chiamiamo la funzione `ttest_1samp`, passando come argomenti l'array di dati `observed_sample` e il valore della media sotto l'ipotesi nulla `null_mean`. La funzione restituisce la statistica $t$ e il valore-p corrispondente. 

Si noti che la funzione `ttest_1samp` assume che i dati siano distribuiti normalmente. Se questa ipotesi viene violata, i risultati del test t non sono validi. 

## Considerazioni conclusive

In questo tutorial abbiamo parlato di tre distribuzioni che sono alla base dell'inferenza frequentista:

1. La distribuzione della popolazione, con media $\mu$ e varianza $\sigma^2$. Questi valori sono spesso ignoti nella pratica.
2. La distribuzione del campione, con media $\bar{x}$ e varianza $s^2$. Questi valori sono noti.
3. La distribuzione campionaria della media, con media $\mu_{\bar{X}} = \mu$ e varianza $\frac{\sigma^2}{n}$. Anche questi valori sono spesso ignoti nella pratica.

Nell'approccio frequentista, la distribuzione campionaria della media viene costruita assumendo una media specificata dall'ipotesi nulla e utilizzando la varianza del campione per stimare la varianza della popolazione. Questo ci permette di specificare completamente la distribuzione campionaria della statistica di interesse. Se il campione è abbastanza grande, la distribuzione campionaria sarà approssimativamente normale grazie al teorema del limite centrale.

Una volta specificata la distribuzione campionaria della statistica di interesse (in questo caso, la media del campione), l'approccio frequentista calcola il valore "standardizzato" della media del campione all'interno della distribuzione campionaria costruita assumendo vera l'ipotesi nulla.

Il test di ipotesi consiste nel confronto tra il valore "standardizzato" della media del campione e la media della distribuzione campionaria costruita assumendo vera l'ipotesi nulla. Se la distanza tra questi due valori è grande, l'approccio frequentista conclude che l'ipotesi nulla non è plausibile.


