# Test parametrici per la verifica di ipotesi

Un'informazione relativa ad una popolazione è detta ipotesi quando essa viene formulata sulla base dell'esperienza o a partire da considerazioni teoriche.

Per effettuare la verifica di un' ipotesi si usano test di ipotesi, suddivisi in

* test parametrici, per le ipotesi relative ai parametri della distribuzione della popolazione (media o varianza)
* non parametrici, che riguardano generalmente il tipo di distribuzione ipotizzabile per la popolazione (o altre caratteristiche non esprimibili come parametri)

## Caratteristiche generali di un test di ipotesi

Sia $X$ una popolazione su cui vogliamo effettuare un test per confermare (o rifiutare) una particolare ipotesi che denotiamo come $H_0$.

Sia poi $T$ una statistica campionaria la cui distribuzione è nota quando l'ipotesi $H_0$ da controllare è vera: i test di ipotesi si basano sulla osservazione delle realizzazioni di statistiche campionarie di questo tipo.

Infatti essendo nota la distribuzione di $T$ quando $H_0$ è vera abbiamo un'idea dei valori che essa tende ad assumere. Saremo quindi portati ad accettare l'ipotesi $H_0$ (o per essere più precisi a non rifiutarla) quando il alore assunto da $T$ si trova in un sottoinsieme di valori altamente probabili tra quelli assumibili quando $H_0$ è vera. Rifiuteremo l'ipotesi in caso contrario.

Per ogni test di ipotesi abbiamo quindi:

* una popolazione statistica X sulla quale viene effettuato il test
* un'ipotesi nulla $H_0$, da convalidare (o rifiutare) sulla base dei valori assunti da un campione estratto da $X$
* $H_1$, un'ipotesi da considerare valida quandi si rifiuta l'ipotesi nulla
* una statistica campionaria $T=T(X_1, \ldots, X_n)$ di cui è nota la distribuzione quando l'ipotesi nulla è vera
* una regione di accettazione $\bar{C}$ che è l'insieme di valori assumibili dalla statistica $T$ che portano ad accettare l'ipotesi
* una regione critica $C$, insieme dei valori che portano a rifiutare l'ipotesi nulla e quindi accettare l'ipotesi alternativa
* un livello di significatività $\alpha$, che permette di individuare la regione di accettazione ed è tale che quando l'ipotesi nulla è vera allora la statistica $T$ assume valori nella regione critica con probabilità $\alpha$.

### Esempio per capire

Si supponga di sapere che il reddito medio annuo per famiglia di un determinato quartire sia distribuito secondo una normale con $\sigma^2 = 144k€$ mentre la media è incognita.

Un collaboratore sostiene, in base all'esperienza, che la media è uguale a 30k€.

Si supponga di voler controllare tale affermazione con un'indagine campionaria per la quale si intervistano 10 famiglie del quartiere.

Si supponga infine di accettare l'informazione del collaboratore se la media aritmetica delle 10 famiglie è compresa tra 25k e 35k euro, mentre di rifiutarla in caso contrario. 

$X$ è la popolazione costituita dai redditi annui dei nuclei familiari del quartiere.

$H_0 : \mu = 30k$ è l'ipotesi nulla.

La statistica campionaria $T$ è la media aritmentica $\bar{X}_{10} = \frac{X_1 + \ldots + X_10}{10}$

Accettiamo l'ipotesi quando $\bar{X}_{10}$ è compresa tra 25k e 35k quindi la regione di accettazione è $\bar{C} = [25,35] \subseteq R$ mentre $C = (- \infty, 25) \cup (35, \infty) \subseteq R$

Per determinare il livello di significatività occorre ricordare la distribuzione campionari di $\bar{X}_{10}$.

In particolare se la popolazione è normalmente distribuita anche la media è normalmente distribuita con parametri $\mu$ e $\sigma/\sqrt{10}$

Quindi $\bar{X}_{10} \sim N(30, 3.79)$ e la probabilità che $\bar{X}_{10}$ cada in $C$ è 

$$1 - P(\frac{\bar{X}_{10} - 30}{3.79} \in [-1.32, 1.32]) = 0.18$$

**Considerazioni**

Esiste una probabilità non nulla che la nostra statistica $\bar{X}_10$ cada nella regione critica anche quando $H_0$ è vera.

Può quindi capitare che il test porti ad un rifiuto di $H_0$ nonostante essa sia vera. 

Similmente può accadere che sia vera l'ipotesi alternativa ma la statistica cada nella regione di accettazione.

Questi test non portano a risposte certe! Tutte le accettazioni di ipotesi possono essere sempre soggette ad errore e devono essere consideratevalide solo in via provvisoria. 

Inoltre è sempre meglio dire che un'ipotesi viene "non rifiutata" e non dire che viene "accettata".

## Errori nei test di ipotesi

* errori di prima specie, quando sulla base delle osservazioni campionarie si rifiuta $H_0$ quando invece è vera
* errori di seconda specie, sulla base delle osservazioni campionarie si accetta $H_0$ quando è falsa

La probabilità di compiere errori di prima specie è nota e coincide con $\alpha$ mentre in genere non è nota la probabilità degli errori di seconda specie $\beta$.


## Procedura formulazione test di ipotesi

* Individuo l'ipotesi nulla $H_0$ e quella alternativa $H_1$
* Scelgo la significatività $\alpha$
* Determinazione della statistica campionaria $T$ da usare nel test
* Determinazione della regione critica e della regione di accettazione
* Accetto o rifuito $H_0$ in base all'osservazione dei dati campionari

## Tipologie di ipotesi

* Un ipotesi è detta semplice se il sottoinsieme di valori che essa assegna ad un parametro è costituito da un solo elemento (altrimenti è detta composta)
    * Ipotesi semplici: $\mu = 30$
    * Ipotesi composte: $\mu \in [25,35]$

Un test è statistico è detto bidirezionale se la regione critica è costituita dall'unione di due sottoinsiemi disgiunti mentre diciamo che un test è unidirezionale se la regione critita è costituita da un solo sottoinsieme.

# Considerazioni sugli errori 

Consideriamo test statistici con ipotesi semplice.

In fase di costruzione del test siamo in grado di calcolare la probabilità di compiere errori di prima specie. 

In realtà le regioni di accettazione e di rifiuto dell'ipotesi nulla vengono determinate proprio in funzione di tale probabilità, detta livello di significatività.

In generale non siamo in gradi di calcolare la probabilità di compiere errroi di 2a specie.  Siamo in grado di farlo solo se sapessimo quale è il reale valore del parametro a cui si riferisce il test (ma questa cosa non è possibile).

## Esempio

Torniamo al problema precedente. Supponiamo che il valore vero di $\mu$ sia 32k. Allora la popolazione $X$ è distribuita secondo una normale con parametri $\mu = 32k$ e $\sigma^2 = 144$, e la probabilità di compiere un erore di 2a specie risulta

$$\beta(32) = P(\text{accettare } H_0 \text{ quando } \mu = 32) = P(\bar{X}_{10} \in [25,35] | \bar{X}_{10} \sim N(32, 3.79))$$

$$= P(\frac{\bar{X}_{10} - 32}{3.79} \in [(25-32)/3.79, (35-32)/3.79]) = 0.75$$

----

In realtà però $\mu$ può assumere un qualsiasi altro valore diverso da trenta ed a ciascuno di questi valori corrisponde una diversa probabilità di compiere errori di seconda specie. 

Per tale ragione nel descrivere le caratteristiche di un test di ipotesi la probabilità di fare errori di seconda specie va pensata come una funzione, anzichè come uno specifico valore. 

In particolare si definisce una funzione detta curva di potenza del test.

## Curva di potenza

Sia $\theta$ il parametro a cui si riferisce il test e sia $\theta'$ il valore specificato dall'ipotesi $H_0 : \theta = \theta'$. Denotiamo poi $\beta(\bar{\theta})$ come la probabilità di accettare $H_0$ dato che $H_0$ è falsa e $\theta = \bar{\theta}$.

Definiamo allora la curva di potenza del test come 

$$\pi(\bar{\theta}) = 1 - \beta(\bar{\theta})$$


Un test risulta tanto migliore quanto la funzione di poteznza si avvicina al valore 1. Cioè tanto la possibilità di commettere errore di seconda specie è nulla.


### Esempio

Supponiamo di volere effettuare un test di ipotesi relativo ad una popolazione X che sappiamo essere distribuita secondo una esponenziale di parametro $\lambda$ e di voler controllare con significatibità $\alpha = 0.1$ l'ipotesi nulla $H_0 : \lambda = 2$

Per rendere più comprensibile l'esempio supponiamo di effettuare il test estraendo un campio $X_1$ di numerosità 1 e di rifiutare $H_0$ se X_1 assume valori troppo piccolo o troppo grandii per poter pensare che sia distribuita secondo una esponenziale di parametro $\lambda = 2$.

Prendiamo allora come regione di accettazione del test l'intervallo $[t_1, t_2[ \subseteq R^+$, con $t_1, t_2$ tale che 

$P(X_1 \leq t_1 | X_1 \sim Exp(2)) = P(X_1 \geq t_1 | X_1 \sim Exp(2)) = \alpha/2 = 0.05$

In questo modo risula P(compiere errori di 1a specie) = P(rifiutare $H_0$ quando $H_0$ è vera) = $P(X_1 \in (0, t_1) \cup (t_2, \infty) | X_1 \sim Exp(2) = 2 \cdot \alpha/2$

Per determinare $t_1, t_2$ ricordiamo che la funzione di ripartizione di una esponenziale è 

$$F_2(t) = \begin{cases}
0 & t < 0 \\
1-exp^{-2t} & t \geq 0
\end{cases}
$$

e che $t_1$, $t_2$ devono essere tali da soddisfare

$$1 - exp^{-2t} = F_2(t_1) = P(X_1 \leq t_1 | X_1 \sim Exp(2)) = 0.05$$

$$1 - exp^{-2t} = F_2(t_2) = 1 - P(X_1 \leq t_2 | X_1 \sim Exp(2)) = 0.95$$

quindi

$$t_1 = -ln(1-0.05)/2 = 0.03, t_2 = -ln(1-0.95)/2 = 1.50$$

pertanto la regione di accettazione del test è $\bar{C} = [0.03, 1.50]$.

Vediamo ora di determinare le probabilità di compiere errori di 2a specie al variare dei possibili valore alternativi del parametro.

$B(\bar{\lambda})$ = P(accettare $H_0$ quando $\lambda = \bar{\lambda}$) = $P(0.03 \leq X_1 \leq 1.50 | X_1 \sim Exp(\bar{\lambda}))$ = $F_{\bar{\lambda}}(1.50)-F_{\bar{\lambda}}(0.03) = e^{-0.03\bar{\lambda}} - e^{-1.50\bar{\lambda}}$


Quindi $\pi(\bar \lambda) = 1 - \beta(\bar \lambda)$

# Test sulla media di una popolazione

## Popolazione normalmente distribuita e varianza nota

Sia $\mu$ il valore reale del parametro. 

La media campionaria $\bar{X}_n$ ha distribuzione normale di media $\mu$ e deviazione standard $\sigma/\sqrt{n}$ quindi vale che 
$$Z = \frac{\bar X_n - \mu}{\sigma/\sqrt{n}} \sim N(0,1)$$

Il valore di $\mu$ di $Z$ non è noto. Sia quindi $Z_n$ la stessa cosa ma con $\mu_0$ al posto di $\mu$. Cioè vale $Z_n \sim N(0,1)$ se e solo se vale $H_0$.

Il test si basa allora sull'osservazione del  valore assunto dalla realizzazione statistica Z_n, in particolare 

* rifiuteremo $H_0$ se $Z_n$ assumerà valori poco probabili per N(0,1)

La definizione della regione critica per $Z_n$ dipende dal livello di significatività adottato e dalla forma dell'ipotesi alternativa. Possiamo infatti condierare le seguenti tre ipotesi alternative.

* $H_1 : \mu \neq \mu_0$
    * Test bidirezionale: si rifiuta $H_0$ quando $Z_n$ assume valori o troppo grandi o troppo piccoli
    * Regione critica: $C = (-\infty, -z_{1-\alpha/2}) \cup (z_{1-\alpha/2}, \infty)$
    * $C = (-\infty, \mu_0 - z_{1-\alpha/2} \cdot \sigma/\sqrt{n}) \cup (\mu_0 + z_{1-\alpha/2} \cdot \sigma/\sqrt{n}, \infty)$
* $H_1: \mu < \mu_0$
    * $C = (-\infty, -z_{1-\alpha}) $
    * Rifiuteremo l'ipotesi $H_0$ in favore di $H_1$ in caso in cui $Z_n$ assuma valori molto negativi, $\mu_0$ è una sovrastima della reale media.
    * $C = (- \infty, \mu_0 - z_{1-\alpha} \cdot \sigma/\sqrt{n})$
* $H_1 : \mu > \mu_0$
    * $C = (z_{1-\alpha}, \infty)$
    * Rifiuteremo l'ipotesi $H_0$ in favore di $H_1$ in caso in cui $Z_n$ assuma valori molto positivi, $\mu_0$ è una sottostima della reale media.
    * $C = (\mu_0 + z_{1-\alpha} \cdot \sigma/\sqrt{n}, \infty)$
    

## Popolazione normalmente distribuita e varianza non nota

La variabile 
$$T = \frac{\bar X_n - \mu}{S^\wedge_n / \sqrt{n}}$$ è distribuita come una $t$ di student con n-1 gradi di libertà.

$T$ dipende però da un parametro non noto ($\mu$). Quindi sostituiamo quel $\mu$ con $\mu_0$ per ottenere $T_n$

Il test si basa quindi sull'osservazione del valore assunto da $T_n$, in particolaree si rifiuta $H_0$ se $T_n$ assume valori poco probabili per una $t_{n-1}$

Anche in questo caso la definizione della regione critica per $T_n$ dipende dal livello di significatività prescelto e dalla forma dell'ipotesi alternativa.

![](images/6-01.png)

![](images/6-02.png)

![](images/6-03.png)

# Test sulla varianza di una popolazione

Possiamo farli solo se la popolazione è normalmente distribuita. Non importa la numerosità

$$Q = \frac{(n-1) \cdot S^{\wedge 2}_n}{\sigma^2}$$

Ma non è noto il valore di $\sigma^2$, di conseguenza definiamo $Q_n$ che usa $\sigma^2_0$ al posto di $\sigma^2$.

Sia $Q$ che $Q_n$ sono distribuite come una chi-quadro con n-1 gradi di libertà.

Rifiuteremo $H_0$ se $Q_n$ assumerà valori poco probaili per una chi-quadro on n-1 gradi di libertà.

![](images/6-04.png)
![](images/6-05.png)
![](images/6-06.png)

## Test sulla differenza delle medie

Siano $X$ ed $Y$ due popolazioni normalmente distribuite aventi rispettivamente valore medio $\mu_X$ e $\mu_Y$ ed identica varianza $\sigma^2$ incognita.

Sia $\mu = \mu_X - \mu_Y$ e si voglia controllare l'ipotesi $H_0 = \mu = 0$

Siano $\bar X_n e \bar Y_n$ le medie campionarie e $S^2_{X,n} e S^2_{Y,n}$ le varianze campionarie

$$T = \frac{ (\bar X_n - \bar Y_n) - \mu }{ \sqrt{ \frac{ (n+m)(n \cdot S^2_{X,n} + m \cdot S^2_{Y,m}) }{n \cdot m \cdot (n+m-2)} } } \sim t_{n+m-2}$$

Possiamo quindi definire le regioni critiche del test

* $C = (- \infty, -t_{1 - \alpha/2}) \cup (t_{1 - \alpha/2}, infty)$
* $C = (- \infty, -t_{1 - \alpha})$
* $C = (t_{1 - \alpha}, \infty)$

Dove $t_{\ldots}$ sono i quantili di ordine $\ldots$ della t di student con (n+m-2) gradi di libert-


![](images/6-07.png)


# Test sulla uguaglianza delle varianze di due popolazioni

Abbiamo due variabili, $X \sim N(\mu_X, \sigma_X)$ e $Y \sim N(\mu_Y, \sigma_Y)$

Definiamo una variabile 

$$V = \frac{\sigma^2_Y \cdot S^{\wedge^2}_{X,n}}{\sigma^2_X \cdot S^{\wedge^2}_{Y,m}}$$

risulta distribuita come una $F$ con (n-1) e (m-1) gradi di libertà.

Visto che non conosciamo $\sigma^2_Y$ e $\sigma^2_X$ allora $V$ non è una statistica. 

Mentre se fosse soddisfatta l'ipotesi $H_0 : \sigma^2_X = \sigma^2_Y$  allora 

$$V_{n,m} = \frac{S^{\wedge^2}_{X,n}}{S^{\wedge^2}_{Y,m}}$$


risulta anche essa distribuita secondo una $F$. 

Si considerino ora le ipotesi alternative 

* $H_1': \sigma^2_Y / \sigma^2_X \neq 1$
    * Rifiuteremo $H_0$ in favore di $H_1'$ quando V assume valori troppo grandi o piccoli;
    * $C = [0, f_{a/2} \cup (f_{1 - \alpha/2}, +\infty)$
* $H_1'': \sigma^2_Y / \sigma^2_X > 1$
    * Rifiuteremo $H_0$ in favore di $H_1''$ quando V assume valori vicini a zero;
    * $C = [0, f_a]$
* $H_1''': \sigma^2_Y / \sigma^2_X < 1$
    * Rifiuteremo $H_0$ in favore di $H_1'''$ quando V assume valori fortemente positivi. 
    * $C = (f_{1 - \alpha}, \infty)$
    





# Test di incorrelazione


Questo test agisce su un parametro che descrive il grado di correlaione tra due popolazioni ovvero tra due diversi caratteri di una popolazione bidimensionale $(X,Y)$

Tale parametro è il coefficente di correlazione di Pearson.

$p_{X,Y} = \frac{\sigma_{XY}}{\sigma_X \cdot \sigma_Y}$

dove $\sigma_{XY} = E[(X - \mu_X) \cdot (Y - \mu_Y)]$ è la covarianza.

Sono noti solo i dati $(x_i, y_i)$ allora $p_{XY}$ coincide con il coefficiente di correlazione lineare $r$ 

$$r = \frac{c_{xy}}{s_x \cdot s_y} = \frac{ \frac{1}{N} \cdot \sum (x_i - \mu_X)(y_i - \mu_Y) }{ \sigma_X \cdot \sigma_Y }$$

dove $N$ è il numero complessivo di individui della popolazione bidimensionale (X,Y).

Sia $p$ che $r$ possono assumere valori nel range [-1,1] e sono indici del grado di allineamento. 

Essi sono nulli quando la covarianza è nulla e sono uguali ad 1 in valore assoluto quando le coppie di dati si trovano lungo una retta.

Data una popolazione bidimensionale è impossibile determinare il valore di $p_{XY}$ e questo per gli stessi motivi per cui è impossibile determinare $\mu$ e $\sigma$.

Possiamo però effettuare una stima, un coefficiente $R_n$ basato su un campione definito come 

$$R_n = \frac{\sum(X_i - \bar X)(Y_i - \bar Y)}{n \cdot S_{X,n} \cdot S_{Y,n}}$$

Il test di incorrelazione serve a verificare che il coefficiente $p_{XY}$ assuma valore zero cioò che sussista incorrelazione tra i due caratteri.

Il test è basato sul fatto che sotto l'ipotesi $H_0: p_{XY}=0$

$T_n = R_n \cdot \sqrt{\frac{n-2}{1-R_n^2}}$ risulta essere distribuita con una t di Student con n-2 gradi di libertà.

Questa proprietà può essere usata per confrontare $H_0$ con ipotesi alternativa $H_1: p{XY} \neq 0$

Non rifiutando H_0 quando $T_n$ assume valori non troppo distanti dallo 0.

La regione critica di $T_n$ è

$$C = (-\infty, -t_{1-\alpha/2}) \cup (t_{1-\alpha/2}, \infty)$$