In [1]:
# this loads some HTML style files
from IPython.core.display import HTML
with open( './style/custom.css', 'r' ) as f: html_style = f.read()
HTML( html_style )

# Intervallo di confidenza (binomiale)

Un'urna contiene biglie rosse e blu. Chamiamo $p$ la <mark>proporzione</mark> 

$$p = \frac{\textrm{numero biglie rosse}}{\textrm{numero totale di biglie}}$$ 

L'estrazione di una biglia dall'urna è modellata con una v.a. di Bernoulli $X\sim B(1,p)$. L'estrazione di una biglia rossa è interpretata come <mark>successo</mark>. (Potevamo anche scegliere *blu*, allora la distiribuzione sarebbe stata $B(1,1-p)$.)

Supponiamo di non conoscere la proporzione $p$. Vogliamo stimarla con estrazioni ripetute. Estraiamo $n$ biglie dall'urna (con *reimbussolamento*, cioè dopo ogni estrazione rimmettiamo la biglia nell'urna, giusto per rendere il conto che segue più semplice).

Denotiamo con $x_1,\dots,x_n$ il risultato di questa estrazione.  Quindi $x_i\in\{0,1\}$ perché 1 sta per *rosso* e 0 sta per *blu*. È naturale stimare $p$ con in valore 

$$\bar x = \frac1n \sum^n_{i=1}x_i = \frac{\textrm{numero biglie rosse estratte}}{\textrm{numero totale di biglie estratte}}$$ 

È importante convincersi il numero $\bar x$ è il risultato di una variabile aleatoria.

Un <mark>campione</mark> <mark class=ita>sample</mark>  è un insieme di v.a. $X_1,\dots,X_n$ indipendenti e con la stessa distribuzione (di $X$ nel nostro caso). Nel nostro esempio corrisponde all'estrazione ripetuta di una biglia nell'urna (con reimbussolamento). La v.a.

$$\bar X = \frac1n \sum^n_{i=1}X_i$$ 

Si chiama <mark>media campionaria</mark> <mark class=ita>sample mean</mark>. Il valore $\bar x$ corrisponde ad una misura (o risultato, osservzione, realizzazione) della v.a. $\bar X$.

Non possiamo semplicemente dire che la nostra stima della proporzione è $\bar x$. Siccome $\bar x$ è il risultato di una v.a. non sappiamo quanto attendibile sia. Sarebbe più corretto rispondere: *la proporzione è $\bar x$ con probabilià $q$*. Ma ci sono due problemi:

1. non sappiamo come calcolare $q$

2. quando $n$, il <mark>rango</mark> del campione, è grande ci aspettiamo che $q\approx 0$ qualunquen sia $\bar x$ (la probabilità di misurare lo stesso valore $\bar x$ una seconda volta è praticamente nulla).

I secondo problema lo risolviamo sostituendo $\bar x$ con un intervallo centrato in $\bar x$, per esempio $[\bar x -\varepsilon, \ \bar x + \varepsilon]$. Il numero $\varepsilon$ lo scegliamo noi in base alla precisione che ci interessa (ma più spesso non lo si fa, vedi sotto).

La risposta che cerchiamo avrà la forma $p\in [\bar x -\varepsilon, \ \bar x + \varepsilon]$ con probabilità $q$. O più brevemente $p=\bar x \pm\varepsilon$ con  <mark>livello di confidenza</mark> $1-\alpha$ (questa è la notazione usuale, <mark>$\alpha$</mark> viene chiamata <mark>significatività</mark>).

La confidenza è funzione di $\varepsilon$, più alta è la precisione richiesta (ovvero più piccolo è $\varepsilon$) minore sarà la confidenza.

Possiamo anche fissare una significatività, per esempio $\alpha=5\%$ e calcolare l'errore corrispondente (così è più comune).

L'espressione $p=\bar x \pm\varepsilon$ con probabilità $1-\alpha$ può dare adito a confusione. Qual è l'evento di cui misuriamo la probabilità? 

Sarebbe più corretto scrivere $p\in [\bar X -\varepsilon, \ \bar X + \varepsilon]$ con probabilita $1-\alpha$. Quindi la variabile aleatoria è l'intervallo, $p$ è semplicemente un numero (ignoto, ma determinato).




In [6]:
from statsmodels.stats.proportion import proportion_confint

proportion_confint(80,160,alpha=0.01)

(0.33373093341136761, 0.66626906658863239)

In [8]:
proportion_confint(80,160,alpha=0.05)

(0.4225256209619298, 0.5774743790380702)