# Stime di Parametri

Grazie alla statistica inferenziale possiamo dedurre particolari caratteristiche di una popolazione limitando un numero limitato di individui.

Per stima di parametri si intende quindi il problema della deduzione di caratteristiche di tipo numerico di una popolazione facendo ricorso per questo all’analisi di un suo sottoinsieme detto campione.

Noi utilizzeremo le tecniche basate sulle distribuzioni campionarie.

## Campionamento e campioni

Con campionamento si intende la scelta degli individui che verrano analizzati per effettuare le inferenze sull'intera popolazione.

Dal tipo di campionamento che si effettua dipende anche la validità della tecnica utilizzata nella fase di inferenza. 

Noi, per semplicità, condieriamo solo il campionamento casuale, che assegno la stessa probabilità di essere estratto ad ogni individuo della popolazione.

Il campionamento casuale viene effettuato assegnando un numero ad ogni membro della popolazione ed inserendo nel campione i membri che hanno come numero quello uguale ad un numero estratto casualmente.

Il campionamento può essere con o senza ripetizione. La scelta tra con o senza ripetizione è cruciale quando la popolazione è di numerosità limitata, mentre non ha molto senso quando si parla di popolazioni di vaste dimensioni (o addirittura infinite). Noi consideriamo il caso in cui la popolazione sia infinita.

## Definizioni

Identifichiamo inanzitutto $X$ come il carattere della popolazione su cui siamo interessati. Ovviamente il valore di $X$ varia a seconda dell'individuo considerato.

Quindi $X$ è la variabili aleatoria la cui distribuzione (che per ora è sconosciuta) corrisponde a quella che si ottorrebbe facendo ricorso alle tecniche della statistica descrittiva. Pensiamo quindi ai valori assunti dai singoli individui come a delle realizzazioni di X.

Prendiamo un campione di numerosità $n$. Esso è una n-upla di variabili aleatorie indipendenti aventi ognuna la stessa distribuzione: $(X_1, \ldots, X_n)$

I valori di queste variabili aleatorie sono una realizzazione della n-upla e sono $(x_1, \ldots, x_n)$.

Per comodità usiamo l'espressione *distribuzione della popolazione* anzichè il termine *distribuzione del carattere in esame della popolazione $X$*

Un parametro è un valore numerico che descrive una caratteristica della popolazione, in particolare è una grandezza associata alla sua distribuzione.

Una stima è una misura che descrive una caratterisiche del campione (o meglio un'espressione funzionale delle realizzazioni delle variabili aleatorie).

Le variabili aleatorie sono anche dette *statistiche campionarie* e le loro distribuzioni sono dette *distribuzioni campionarie*.

## Metodi alternativi di campionamento

**Stratificato**: divido la popolazione in gruppi con caratteristiche omogenee. Effettuo quindi un estrazione di $n_i$ individui dal gruppo i-esimo. Il valore di $n_i$ dipende dalla numerosità del gruppo. Questo campionamento ha il vantaggio che i gruppi sono creati in maniera appropriata, quindi si può ridurre la numerosità finale del campione. Svantaggi: devo cambiare le formule nella fase inferenziale, devo perdere tempo a creare i gruppi.

**A grappoli**: divido la popolazione in gruppi eterogenei, in modo che ogni gruppo sia rappresentativo della popolazione intera. Lavoro su un singolo gruppo. E' più semplice raccogliere i dati ma perdo efficienza nella fase inferenziale.

## Principali distribuzioni campionarie

Abbiamo detto che il carattere della popolazione su cui vogliamo fare inferenze può essere visto come una variabile aleatoria $X$, avente funzione di ripartizione $F$ sconosciuta, ma corrispondente alla distribuzione di frequenza cumulata di tale carattere. 

Una stima di parametro di $F$ è costruita da una funzione di realizzazione $(x_1, \ldots, x_n)$ di un campione casuale, che è una n-pla $(X_1, \ldots, X_n)$ di variabili stocasticamente indipendenti aventi tutte distribuzione F.

In pratica una stima è una realizzazione di una statistica campionaria 
$$H_n = h(X_1, \ldots, X_n)$$

Ogni statistica campionaria, essendo una funzione di variabili aleatorie, è una variabile aleatoria, e come tale avrà una sua distribuzione.

Indichiamo con $\mu$ il valore atteso e con $\sigma^2$ la varianza della popolazione $X$, distribuita secondo $F$ ignota.

### Distribuzione campionaria della media

Consideriamo un campione $(X_1, \ldots, X_n)$ avente distribuzione $F_1$, media $\mu$ e deviazione standard $\sigma$ definiamo media campionaria la variabile 

$$\bar{X_n} = \frac{X_1 + \ldots + X_n}{n}$$.

E' detta poi **distribuzione campionaria della media** la distribuzione della variabile $\bar{X_n}$.

Intuitivamente diremmo che la statistica $\bar{X_n}$ sia appropriata per stimare la media della popolazione: questo è in effetti vero.

In generale trovare l'espressione di $\bar{X_n}$ conoscendo $F_x$ non è facile. E' però facile determinare il valore atteso e la varianza di $\bar{X_n}$.

Ricordiamo la proprietà 

$$E[aX+bY] aE[X] + bE[Y]$$

quindi

$$E[\bar{X_n}] = \frac{1}{n} E[X_1 + \ldots + X_n] = \frac{1}{n} (E[X_1] + \ldots + E[X_n]) = \frac{1}{n} (n \mu) = \mu$$

Mentre per la varianza ricordiamo le proprietà

$$V[X+Y] = V[X]+V[Y]$$ $$V[aX] = a^2V[X]$$

quindi

$$V[\bar{X_n}] = V[\frac{X_i + \ldots + X_n}{n}] = \frac{1}{n^2} V[X_\ + \ldots + X_n] = \frac{1}{n^2} (n \sigma^2) = \frac{\sigma^2}{n}$$

Il valore atteso non dipende dalla numerosita del campione, al contrario la varianza è più piccola tanto è più grande il campione.

Per $n$ grandi $\bar{X_n}$ può essere approssimato ad una normale di parametri $\mu$ e $\frac{sigma^2}{n}$


### Distribuzione campionaria della varianza

La variabile 

$$S^2_n = \frac{1}{n} \sum(X_i - \bar{X_n})^2$$

è detta varianza campionaria.

Definiamo invece come **distribuzioen campionaria della varianza** la distribuzione della variabile $S^2_n$.

Come nel caso precedente trovare l'espressione di $S^2_n$ non è facile. E' facile trovare valore atteso e varianza.

$$E[S^2_n] = \frac{n-1}{n} \sigma^2$$

$$V[S^2_n] = \frac{1}{n}(E[(X - \mu)^4)]-\frac{n-3}{n-3} \sigma^4$$

Anche in questo caso per $n$ grande, possiamo approssimare ad una normale. 

Inoltre è possibile definire una altra tipologia di varianza, $\overset{\wedge}{S^2_n}$

$$\overset{\wedge}{S^2_n} = \frac{n}{n-1} S^2_n$$

$$E[\overset{\wedge}{S^2_n}] = \sigma^2$$

Questo perchè la presenza di $\frac{n-1}{n}$ può risultare scomoda. Questa varianza è detta **varianza campionaria**.

................


## Stimatori e stime puntuali

Sia $\theta$ un parametro incognito della popolazione $X$. Una statistica campionaria $H_n = h(X_1, \ldots, X_n)$ è detta stimatore puntuale quando viene utilizzata per stimare il parametro incognito $\theta$.

E' detta stima puntuale di $\theta$ il valore $\theta' = h(X_1, \ldots, X_n)$ assunto dallo stimatore $H_n$ nella realizzazione $(x_1, \ldots, x_n)$.

Una statistica campionaria deve godere di due proprietà.

### Proprietà di correttezza

Uno stimatore $H_n = h(X_1, \ldots, X_n)$ del parametro $\theta$ è detto corretto se $E[H_n] = \theta$. 

### Proprietà di consistenza

Uno stimatore $H_n$ del parametro $\theta$ è detto consistente se $$\lim_{n \to \infty} P[|H_n-\theta| \leq \epsilon] = 1$$ per ogni $\epsilon > 0$.

Visto che è difficile dimostrare la consistenza di uno stimatore possiamo invece dimostrare sia la sua consistenza che la sua correttezza se vale che $$\lim_{n \to \infty} = V[H_n] = 0$$

### Osservazione

Per stimare un generico parametro $\theta$ possono esistere diversi stimatori. Diremo che uno stimatore è più efficiente di un altro se 

$$V[H_1] \leq V[H_2]$$

In particolare uno stimatore è detto **miglior stimatore** se è più efficiente di ogni altro stimatore corretto e consistente. 



## Stime intervallari

Le stime puntuali non forniscono informazioni sul grado di approssimazione delle stime stesse. Per questo delle volte si preferiscono le stime intervallari che sono stime espresse sotto forma di intervalli (intervalli fiduciari) all'interno dei quali con buona probabilità si trova il valore vero del parametro da stimare.

Pensiamo ad uno stimatore puntale $H_n$ di un parametro $\theta$ e sia $\theta' = h_n(x_1, \ldots, x_n)$ una sua realizzazione.

Molto difficilmente il valore di $\theta$ corrisponderà alla realizzazione indicata sopra.

### Intervallo di confidenza

Pensiamo allora ad un intervallo 
$$I = [\theta' - e_1, \theta' + e_2]$$

Un intervallo di questo tipo conterrà il reale valore di $\theta$ con maggiore o minore probabilità a seconda dell'ampiezza dell'intervallo stesso.

Quando conosciamo la distribuzione campionaria dello stimatore $H_n$ possiamo calcolare esattamente tali probabilità al variare del range dell'intervallo.

In altre parole dato un $\alpha \in [0,1]$ possiamo deteminare i valori di $e_1$ e di $e_2$ tali che risulti $$P(\theta \in [\theta' - e_1, \theta' + e_2]) = 1 - \alpha$$ dove $\theta'$ è una realizzazione dello stimatore $H_n$.

In questo caso il valore di $\alpha$ è detto livello di confidenza della stima e il corrispondente intervallo è l'intervallo di confidenza.

### Intervallo di confidenza per la media

Suddividiamo il problema della determinazione di un intervallo di confidenza per un valore medio $\mu$ in quattro sottocasi a seconda che la popolazione sia o non sia normalmente distribuita e che la varianza sia o non sia nota.

#### Popolazione non normalmente distribuita e varianza nota

In questo caso la media campionaria $\bar{X_n}$ è approssimabile per $n \geq 30$ tramite una variabile con distribuzione normale di media $\mu$ e deviazione standard $\frac{\sigma}{\sqrt{n}}$

L'unico parametro incognito è $\mu$.

Normalizzando otteniamo che $$Z = \frac{\bar{X_n}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1)$$.

I valori assunti da $Z$ dipenderanno dalle realizazioni di $X_n$.

Nonostante ciò siamo in grado di terminare un valore 
$$z_{1-\frac{\alpha}{2}} = z_s$$
per cui vale la relazione 

$$P(Z \in [- z_s, z_s]) = 1 - \alpha $$

e quindi anche 

$$P(\mu - z_s \frac{\sigma}{\sqrt{n}} \leq \bar{X_n} \leq \mu + z_s \frac{\sigma}{\sqrt{n}}) = 1 - \alpha$$

Petanto sappiamo che con probabilità $1 - \alpha$ lo stimatore $\bar{X_n}$ assume valori in un ben definito intervallo ma ancora indipendente da $\mu$ 

Possiamo quindi scrivere 

$$P(\bar{X_n} - z_s \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X_n} + z_s \frac{\sigma}{\sqrt{n}} ) = 1 - \alpha$$


Possiamo quindi dire che data una realizzazione $\bar{x_n}$ di $\bar{X_n}$ il parametro incognito $\mu$ è compreso nell'intervallo 

$$[ \bar{x_n} - z_s, \bar{x_n} + z_s]$$

con probabilità 1-a. Questo è quindi l'intervallo di confidenza cercato.

#### Popolazione non normalmente distribuita e varianza non nota

In questo caso si ragiona analogamente a quanto sopra andando però a sostituire al valore $\sigma$ la sua stima $\overset{\wedge}{S_n}$ ottenuta come realizzazione della statistica 
$$\overset{\wedge}{S_n} = \sqrt{\overset{\wedge}{S^2_n}}$$
dove $\overset{\wedge}{S^2_n}$ è la varianza  campionaria corretta.

Si può dimostrare che per $n$ grande anche la variabile 

$$Z = \frac{\bar{X_n} - \mu}{\frac{\overset{\wedge}{S_n}}{\sqrt{n}}}$$

Quindi quando non è nota al varianza possiamo definire con un intervallo di confidenza per la media $\mu$

$$P(\bar{X_n} - z_s \frac{\overset{\wedge}{S_n}}{\sqrt{n}} \leq \mu \leq \bar{X_n} + \frac{\overset{\wedge}{S_n}}{\sqrt{n}}) = 1 - \alpha$$

#### Popolazione normalmente distribuita e varianza nota

Visto che la popolazione è normalmente distribuita non ci preoccupiamo del valore di $n$, mentre prima richiedevamo $n \geq 30$

Si può continuare ad usare la formula:

$$P(\bar{X_n} - z_s \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X_n} + z_s \frac{\sigma}{\sqrt{n}} ) = 1 - \alpha$$




 #### Popolazione normalmente distribuita e varianza non nota
 
 In questo caso dobbiamo definire una nuova variabile
 
 $$T_n = \frac{\bar{X_n} - \mu}{\frac{\overset{\wedge}{S_n}}{\sqrt{n}}}$$
 
 che per quanto detto in precedenza è una variabiel distribuita secondo una t di Student con $n-1$ gradi di libertà.
 
Facendo uso delle tavole della t di Student è possibile determinare $t_{1 - (\alpha/2)}$ per cui valga

$$P(T_n \in [-t_{1 - \frac{\alpha}{2}, n-1}, t_{1 - \frac{ \alpha}{2}, n-1}]) = 1 - \alpha$$

e quindi anche 

$$ P(-t_{1 - \frac{\alpha}{2}} \frac{\overset{\wedge}{S_n}}{\sqrt{n}} \leq \bar{X_n} - \mu \leq t_{1 - \frac{\alpha}{2}} \frac{\overset{\wedge}{S_n}}{\sqrt{n}}) = 1 - \alpha$$

Che può essere scritto come

$$P(\bar{X_n} - t_{1 - \frac{\alpha}{2}} \frac{\overset{\wedge}{S_n}}{\sqrt{n}} \leq \mu \leq \bar{X_n} + t_{1 - \frac{\alpha}{2}} \frac{\overset{\wedge}{S_n}}{\sqrt{n}}) = 1 - \alpha$$


### Intervalli di confidenza per la varianza

Possiamo calcolarsi solo la popolazione è normalmente distribuita.

Se la popolazione è normalmente distribuita invece possiamo definire un intervallo fiduciario. 

Usiamo una variabile ausiliaria

$$Q_n = \frac{(n-1) \overset{\wedge}{S_n}}{\sigma^2}$$

che è distribuita secondo una chi-quadro con $n-1$ gradi di libertà.

Utilizzando le tavole del chi-quadro possiamo determinare due valori $q_1$ e $q_2$ per i quali vale

$$P(Q_n \in [q_1, q_2]) = 1 - \alpha$$

e quindi $$P(q_1 \leq \frac{(n-1) \overset{\wedge}{S_n} }{\sigma^2} \leq q_2) = 1- \alpha$$

che possiamo trasformare in

$$P(\frac{(n - 1) \overset{\wedge}{S^2_n}}{q_2} \leq \sigma^2 \leq \frac{(n-1) \overset{\wedge}{S^2_n}}{q_1}) = 1 - \alpha$$

Generalmente viene posto

$$q_2 = 1-\frac{\alpha}{2} \text{ e } q_1 = \frac{\alpha}{2}$$

 ## Altri metodi per effettuare stime puntuali
 
 ### Metodo dei momenti
 
 Questo metodi si applica nel caso in cui sia nota l'espressione funzionale della densità di probabilità della popolazion a meno di uno o più parametri incogniti.
 
Supponiamo quindi che la popolazione X abbia una densità di probabilità $f_x(t)$ dipendente da $m$ parametri incogniti
$$\theta_1, \ldots, \theta_m$$

Consideriamo ora i primi $m$ momenti centrali della variabile $X$, cioè:

$$\mu_k = E[X^k] | k = 1, \ldots, m$$

I valori assunti sono delle funzioni dei paraemtri ovvero

$$\mu_k = \mu_k(\theta_1, \ldots, \theta_m)$$

Consideriamo poi i corrispondenti primi $m$ momenti campionari definiti come 
$$\bar{X_n^k} = \frac{1}{n} \sum^n X^k_i$$

dove $(X_1, \ldots, X_n)$ è il campione estratto dalla popolazione.

Denotiamo infine con $\overset{-k}{x_n}$ le realizzazioni dei momenti campionari $\overset{-k}{X_n}$. 

Le stime dei parametri si ottengono risolvendo il sistema in $m$ equazioni ed $m$ incognite 
$$
\begin{cases}
\ldots \\
\mu_m(\theta_1, \ldots, \theta_m) = \overset{-1}{x_n}
\end{cases}
$$

### Metodo della massima verosimiglianza

Anche questo metodo è applicabile quando è nota l'espressione della densità di popolazione.

Per semplicità supponiamo che la popolazione considerata $X$ abbia una densità di probabilità f_x(t) dipendente da un singolo parametro $\theta$ incognito. Consideriamo la funzione di densità congiunta di un campione $(X_1, \ldots, X_n)$.

Visto che le variabili sono indipendenti abbiamo che $$f_{X_1, \ldots, X_n}(t_1, \ldots, t_n) = f_X(t) \cdot \ldots \cdot f_X(t_n)$$

Ricordiamo che l'espressione di $f_x$ è nota a meno del parametro $\lambda$. Tale densità congiunta può essere riscritta come 
$$f_{X_1, \ldots, X_n}(t_1, \ldots, t_n) = L(t_1, t_2, \overset{\wedge}{\theta})$$

$L$ prende il nome di funzione di verosimiglianza di dimensione $n$. 

Sia ora $(x_1, \ldots, x_n)$ una realizzazione. Notiamo che al variare di $\theta^\wedge$ assegnato al parametro $\theta$ varia anche $L$.

$L$ può essere vista come il campione assuma valroe $(x_1, \ldots, x_n)$ quando il parametro assume valore $\theta^\wedge$

Ovviamente il valore $\theta^\wedge$ è tanto più indicato ad essere l'effettivo valore dl parametro $\theta$ quanto più è alta tale probabilità cioè quanto più esso è verosimile. 

E' detta quindi stima di massima verosimiglianza per il parametro $\theta$ quel valore $\theta^\wedge$ che massimizza la funzione di verosimiglianza $L$

Si può dimostrare che le stime così ottenute sono sempre consistenti e nella maggior parte dei casi sono anche corrette e con la massima efficienza.