In [1]:
from scipy.stats import norm

# this loads some HTML style files
from IPython.core.display import HTML
with open( './style/custom.css', 'r' ) as f: html_style = f.read()
HTML( html_style )

# Intervallo di confidenza (ditribuzione normale)

Consideriamo v.a. $X\sim N(\mu,\sigma^2)$ con $\sigma$ nota e $\mu$ ignota.  Sia $\bar X$ la media campionaria. Fissiamo un $\varepsilon>0$ e calcoliamo la probabilità che $\bar X$ sia a distanza inferiore a $\varepsilon$ da $\mu$

$\displaystyle\qquad\Pr(|\bar X-\mu|\le \varepsilon)
\ =\ 
\Pr(-\varepsilon\le\bar X-\mu\le\varepsilon)$

$\displaystyle\qquad\phantom{\Pr(|\bar X-\mu|\le \varepsilon)}
\ =\ 
\Pr\bigg(-\frac{\varepsilon}{\sigma/\sqrt{n}}\le Z\le\frac{\varepsilon}{\sigma/\sqrt{n}}\bigg)$
 
$\displaystyle\qquad\phantom{\Pr(|\bar X-\mu|\le \varepsilon)}
\ =\ 
$ <mark>livello di confidenza</mark> generarmente denotato $1-\alpha$

Se $\sigma$ è assunta nota, possiamo calcolare $\alpha$ dato $\varepsilon$. Viceversa possiamo calcolare $\varepsilon$ dato $\alpha$. Notiamo che la stessa probabilità possiamo anche descriverla come

$\displaystyle\qquad\phantom{\Pr(|\bar X-\mu|\le \varepsilon)}
\ =\ 
\Pr(-\bar X-\varepsilon\le-\mu\le-\bar X+\varepsilon)$

$\displaystyle\qquad\phantom{\Pr(|\bar X-\mu|\le \varepsilon)}
\ =\ 
\Pr(\bar X-\varepsilon\le\mu\le\bar X+\varepsilon)$

Se in un esperimento misuriamo $\bar x$, diremo che $\mu=\bar x\pm\varepsilon$ con confidenza $1-\alpha$, o che $(\bar x-\varepsilon,\bar x+\varepsilon)$ è un intervallo di confidenza di livello $1-\alpha$.

L'interpretazione è la seguente: se ripetiamo l'esperimento, con probabilità $1-\alpha$ ritroveremo un intervallo che contiene $\mu$.

N.B. L'intervallo è la variabile alearoria, $\mu$ è un numero fissato, purché ignoto. 


# Esempio

Si  estrae  un  campione  di  dimensione  $100$  da  una  popolazione  con  distribuzione  normale  con  varianza $\sigma^2 = 225$ nota e valore atteso incognito $\mu$.   
Vogliamo calcolare un intervallo di confidenza del valore atteso a livello di confidenza di $1-\alpha=0.95$ sapendo che la stima della media sul campione è $\bar x = 1450$.


Sappiamo che $\bar X$ ha deviazione standard $\dfrac{\sigma}{\sqrt{n}}=1.5$.

$\displaystyle\qquad\Pr(|\bar X-\mu|\le \varepsilon)
\ =\ 
\Pr\bigg(-\frac{\varepsilon}{1.5}\le Z\le\frac{\varepsilon}{1.5}\bigg)$

$\displaystyle\qquad\phantom{\Pr(|\bar X-\mu|\le \varepsilon)}
\ =\ 
1 - 2\Pr\bigg(Z\le-\frac{\varepsilon}{1.5}\bigg)$

Quindi

$\displaystyle\qquad\Pr\bigg(Z\le-\frac{\varepsilon}{1.5}\bigg)
\ =\ 
.025$


$\displaystyle\qquad-\frac{\varepsilon}{1.5}
\ =\ 
$`norm.ppf(0.025) = -1.96`

$\displaystyle\qquad\varepsilon
\ =\ 
$` 1.96 * 1.5 = 2.94`

L'intervallo è $(\bar x - 2.94,\ \bar x +2.94)$.

In [2]:
norm.ppf(0.025)

-1.9599639845400545

# Intervallo di confidenza (ditribuzione t di Student)

Se $T\sim t(n-1)$ scriviamo $t_{\alpha/2}$ per quel numero tale che

$\qquad\Pr\big(T < - t_{\alpha/2}\big)
\ =\ 
\dfrac{\alpha}{2}$
 
Ovvero $t_{\alpha/2}$ è quello che si computa col comando `t.ppf(α/2, n-1)`.

Equivalentemente

$\qquad\Pr\big(-t_{\alpha/2} < T < t_{\alpha/2}\big)
\ =\ 
1-\alpha$


Sia $X_1,\dots,X_n$ un campione con distribusione $N(\mu,\sigma)$ con $\mu$ e $\sigma$ ignote. Siano $\bar X$ e $S$ le usuali statistiche.

$\qquad\displaystyle\Pr \left (-t_{\alpha/2} < \frac{\bar X - \mu}{S\big/\sqrt{n}} < t_{\alpha/2} \right)
\ =\ 
1-\alpha$

Equivalentemente

$\qquad\displaystyle\Pr \left (\bar X-t_{\alpha/2}\dfrac{S}{\sqrt{n}} < \mu < \bar X + t_{\alpha/2}\dfrac{S}{\sqrt{n}} \right)
\ =\ 
1-\alpha$


Se i valori delle statistiche sono $\bar x$ e $s$, diremo che $(\bar x-\varepsilon,\bar x+\varepsilon)$, dove $\varepsilon=t_{\alpha/2}\big(s\big/\sqrt{n}\big)$, è un intervallo di confidenza di livello $1-\alpha$.

L'interpretazione è la stessa che nel caso normale: se ripetiamo l'esperimento, con probabilità $1-\alpha$ ritroveremo un intervallo che contiene $\mu$. In questo caso però anche l'ampiezza dell'intervallo è aleatoria.