In [89]:
from numpy import linspace, concatenate, sqrt, array, mean
from scipy.stats import norm, t, sem                       # lib. for statistical functions
from ipywidgets import interact, IntSlider    # lib. for interactive graphic
from bokeh.io import push_notebook, show, output_notebook # lib. for graphic output
from bokeh.plotting import figure
output_notebook()
options = dict(plot_height=250,plot_width=700,
               tools="pan,wheel_zoom,reset,save,crosshair,box_select")
def printred(s):
    display(HTML('<pre style="font: bold 12pt Courier, serif;color:#a02">' + s + '</pre>') )
def printgrn(s):
    display(HTML('<pre style="font: bold 12pt Courier, serif;color:#080">' + s + '</pre>') )
    
# this loads some HTML style files
from IPython.core.display import HTML
with open( './style/custom.css', 'r' ) as f: html_style = f.read()
HTML( html_style )

Ricordiamo il procedimento per un test di ipotesi sulla media 
(per semplicità a una coda) di una v.a. $X$ con distribuzione normale.

Misuriamo i valori $x_1,\dots,x_n$ e calcoliamo la media campionaria 

$\qquad\displaystyle\bar x
\ =\ 
\frac1n\sum^n_{i=1}x_i$ 

poi calcoliamo il p-valore di questa misura

$\quad\Pr\big(\bar X > \bar x\big)
\ =\ 
\Pr\left(\dfrac{\bar X-\mu_0}{\sigma/\sqrt{n}}> \dfrac{\bar x -\mu_0}{\sigma/\sqrt{n}}\right)$ 

$\quad\phantom{\Pr\big(\bar X > \bar x\big)}
\ =\ 
\Pr\left(Z> \dfrac{\bar x -\mu_0}{\sigma/\sqrt{n}}\right)$ 

Dome $\mu_0$ è la media data dall'ipotesi nulla e $\sigma$ è la deviazione standard che supponiamo nota.
In molti casi però la deviazione standad non è nota.
In altri è più naturale non fare assunzioni.
Possiamo allora stimare $\sigma$ dai dati usando

$\qquad\displaystyle s
\ =\ 
\sqrt{\frac1{n-1}\sum^n_{i=1}(x_i-\bar x)^2}$ 

Sostituendo $\sigma$ con $s$ a sinistra della disequazione non otteneiamo più la v.a. normale standard ma una variabile normale 
con varianza ignota.

Se però inseriamo la statistica (cioè la v.a. $S$) 

$\qquad\displaystyle S\ =\ \sqrt{\frac1{n-1}\sum_{i=1}^n (X_i-\bar X)^2}$

otteniamo la v.a.

$\qquad T
\ =\ 
\dfrac{\bar X-\mu_0}{S\big/\sqrt{n}}$

che invece ha una distribuzione ben nota. Si chiama distribuzione <mark>t di Student</mark>:

$\qquad\displaystyle\Pr(T\le t)
\ =\ 
C_n \int_{-\infty}^t \bigg(1+\frac {x^2} {n-1}\bigg)^{-n/2} {\rm d}x$

dove $C_n$ è un fattore di normalizzazione.

N.B. si tratta di una famiglia di distribuzione una per ogni $n>1$ ($n$ è il rango del campione). Si dice che la distribuzione ha $\nu=n-1$  <mark>gradi di libertà</mark>.

In [90]:
nu = 1
sigma = 1
x  =  linspace(-10,10,200)
a  = -4.0
b  =  4.0
plot1 = figure(title=f"Distribuzione di T ~ t(n)",
               x_axis_label = "x",
               y_axis_label = "densità di probabilità",
               x_range=(-4, 4  ),  # range x da visualizzare inizialmente
               y_range=( 0, .4 ),  # range y da visualizzare inizialmente 
               **options,)
p1 = plot1.line(x,  norm.pdf(x), color='#ff0000' )
ab  = concatenate( ([a], linspace(a,b), [b]) )
pab = concatenate( ([0], t.pdf(linspace(a,b), nu), [0] ) )
p2 = plot1.patch(ab, pab, color='#119911', alpha=0.5)
show(plot1, notebook_handle=True)
def update1(nu): 
    ab  = concatenate( ([a], linspace(a,b), [b]) )
    pab = concatenate( ([0], t.pdf(linspace(a,b), nu), [0] ) )
    p2.data_source.data['x'] =  ab
    p2.data_source.data['y'] =  pab
    push_notebook()

interact(update1,  
         nu      = IntSlider(description="ν=n-1", min=1, max=20, step=1, value= 1),
         )

interactive(children=(IntSlider(value=1, description='ν=n-1', max=20, min=1), Output()), _dom_classes=('widget…

<function __main__.update1>

# Esempio

A professor wants to know if her introductory statistics class has a good grasp of basic math. Six students are chosen at random from the class and given a math proficiency test. The professor wants the class to be able to score above $70$ on the test. The six students get scores of $62+92+68+74$, and $94$. Can the professor have $90\%$ confidence that the mean score for the class on the test would be above $70$?

Ipotesi sottointesa: i risultati degli alunni nella classe sono distribuiti normalmente intorno ad un valore medio ignoto e con una varianza ignota.

Calcoliamo il valore delle statistiche media campionaria e deviazione standard campionaria

$\bar x =\dfrac15\big(62+92+74+68+94\big) =78$

$s
\ =\ 
\sqrt{\dfrac{\strut(62-\bar x)^2+(92-\bar x)^2+(74-\bar x)^2+(68-\bar x)^2+(94-\bar x)^2}{5-1}}$

$\phantom{s}
\ =\ 
\sqrt{\dfrac{\strut16^2+14^2+4^2+10^2+16^2}{4}}$

$\phantom{s}
\ =\ 
\sqrt{\dfrac{\strut824}{4}}$

$\phantom{s}
\ =\ 
\sqrt{\strut206}$

Facciamo il seguente test di ipotesi:


*    $H_0:\quad $  $\mu=70$

*    $H_A:\quad $   $\mu>70$

*    t-test coda superiore

Il valore della statistica $T$ è (si chiama anche <mark>$t$-score</mark>)

$t = \dfrac{\bar x - \mu_0}{s/\sqrt{n}}\ =\ \dfrac{8}{\sqrt{41.2}}\ \cong\ 1.25$

il corrispondente p-valore è $\Pr(T\ge t)=1-\Pr(T\le t)$ dove $T\sim t(4)$.

     il calcolo numerico nella cella sottostante

In [104]:
1 - t.cdf(1.25, 4)

0.13971982168323149

Il p-valore è $>0.1$ quindi NON è possibile rifiutare l'ipotesi nulla con una significatività del $10\%$.