In [47]:
from numpy import linspace, concatenate, sqrt, array, mean
from scipy.stats import norm, t, sem        # lib. for statistical functions
from ipywidgets import interact, IntSlider    # lib. for interactive graphic
from bokeh.io import push_notebook, show, output_notebook # lib. for graphic output
from bokeh.plotting import figure
output_notebook()
options = dict(plot_height=250,plot_width=700,
               tools="pan,wheel_zoom,reset,save,crosshair,box_select")
def printred(s):
    display(HTML('<pre style="font: bold 12pt Courier, serif;color:#a02">' + s + '</pre>') )
def printgrn(s):
    display(HTML('<pre style="font: bold 12pt Courier, serif;color:#080">' + s + '</pre>') )
    
# this loads some HTML style files
from IPython.core.display import HTML
with open( './style/custom.css', 'r' ) as f: html_style = f.read()
HTML( html_style )

# Differenza tra medie: due popolazioni stessa varianza

Consideriamo due v.a. normali con media e varianza ingnota. La varianza delle due variabili sia la stessa. 

$\qquad X\sim N(\mu_x,\sigma^2)\qquad $ e $\qquad Y\sim N(\mu_y,\sigma^2)$.

Vogliamo fare il seguente test di ipotesi

$\qquad H_0:\quad \mu_x = \mu_y\quad$  (le due popolazioni hanno media uguale)

$\qquad H_A:\quad \mu_x \neq \mu_y\quad$  (le due popolazioni hanno media diversa)

Gli usuali stimatori di $\mu_x$ e $\mu_y$ sono

$\qquad\displaystyle\bar X
\ =\ 
\frac1{n_x}\sum_{i=1}^{n_x}X_i\qquad$
e
$\qquad\displaystyle\bar Y
\ =\ 
\frac1{n_y}\sum_{i=1}^{n_y}Y_i$

Gli usuali stimatori per la deviazione standard sono

$\qquad\displaystyle S_x^2
\ =\ 
\frac1{n_x-1}\sum_{i=1}^{n_x}(X_i-\bar X)^2\qquad$ 
e
$\qquad\displaystyle S_y^2
\ =\ 
\frac1{n_y-1}\sum_{i=1}^{n_y}(Y_i-\bar Y)^2$

Notiamo che $S_x$ ed $S_y$ stimano lo stesso parametro $\sigma$. Non è ovvio come combinare le due informazioni in un unico stimatore. Prendiamo per buona la seguente ricetta

$\qquad\displaystyle S^2
\ =\ 
\frac{n_x-1}{n_x+n_y-2}\cdot S_x^2\quad +\quad \frac{n_y-1}{n_x+n_y-2}\cdot S_y^2$ 

Si not che $S^2=(S_x^2+S_y^2)/2$ nel caso $n_x=n_y$.

prendiamo per buono il fatto che la statistica

$\qquad\displaystyle T
\ =\ 
\frac{\bar X-\bar Y}{S\cdot\sqrt{\strut1/n_x+1/n_y}}$

ha distribuzione $t(n_x+n_y-2)$.

# Esempio (1)

Si sospetta che un certo medicinale modifichi la pressione diastolica.  Prendiamo due gruppi di $n_x=6$ e $n_y=5$ persone. Al primo gruppo somministriamo il medicinale al secondo un placebo. Assumiamo che in entrambi i casi la pressione diastolica sia distribuita normalmente con la stessa deviazione standard (ignota). Quindi i due campioni sono

$\qquad X_1,\dots,X_{6}\sim N(\mu_x,\sigma)$

$\qquad Y_1,\dots,Y_{5}\sim N(\mu_y,\sigma)$

Otteniamo i valori 

$\qquad x_1,\dots,x_6=62,92,75,68,83,94$ 

$\qquad y_1,\dots,y_5=60,88,75,69,88$.

Quindi $\bar x=79$ e $\bar y=76$ e $s_x\cong 12.9$ $s_y\cong 12.2$

$\qquad\displaystyle s
\ =\ 
\sqrt{\frac{n_x-1}{n_x+n_y-2}\cdot s_x^2\quad +\quad \frac{n_y-1}{n_x+n_y-2}\cdot s_y^2}$

$\qquad\displaystyle\phantom{ s}
\ =\ 
\sqrt{\frac{\strut5}{9}\cdot 166.4\quad +\quad \frac{4}{9}\cdot 148.8}$

$\qquad\displaystyle\phantom{ s}
\ =\ 
12.6$

Il valore della statistica è 

$\qquad\displaystyle t
\ =\ 
\frac{\bar x-\bar y}{s\cdot\sqrt{\strut1/n_x+1/n_y}}$

$\qquad\displaystyle\phantom{  t}
\ =\ 
\frac{3}{12.6\sqrt{\strut1/6+1/5}}$

$\qquad\displaystyle\phantom{  t}
\ =\ 
0.4$

Il p-valore corrispondente è

$\qquad\displaystyle\Pr(T<-t\ \ \rm{o}\ \ T>t)
\ =\ 
2\cdot \Pr(T<-t)$

$\qquad\displaystyle\phantom{\Pr(T<-t\ \ \rm{o}\ \ T>t)}
\ =\ 
$`2 * t.cdf(-0.4, 9) = 0.7` 

In [48]:
2 * t.cdf(-0.4, 9)

0.69848409167136538

# Esempio (2)

Si sospetta che un certo medicinale modifichi la pressione diastolica.  Prendiamo un gruppo di $n=5$ persone. In una prima fase somministriamo ad ogni individuo o medicinale o un placebo (a caso). Nella seconda fase invertiamo la somministrazione.

Assumiamo che in entrambi i casi la pressione diastolica sia distribuita normalmente con la stessa deviazione standard (ignota).

Il test corretto da fare è sulle differenze. 

$\qquad x_1,\dots,x_5=62,92,75,68,83$ 

$\qquad y_1,\dots,y_5=60,88,75,69,88$

differenze $d_i=y_i-x_i$

$\qquad H_0:\quad \mu = 0\quad$  (la media delle differenze è $=0$)

$\qquad H_A:\quad \mu \neq 0\quad$  (la media delle differenze è $\neq0$)

È un normalissimo $T$-test.

$\qquad d_1,\dots,d_5
\ =\ 
2,4,0,1,5$

$\qquad\bar d
\ =\ 
2.4$ 

$\qquad\displaystyle s_d
\ =\ 
\sqrt{\frac1{n-1}\sum_{i=1}^{n}(d_i-\bar d)^2}$

$\qquad\displaystyle\phantom{ s_d}
\ =\ 
\sqrt{\frac1{4}\sum_{i=1}^{5}(d_i-2.4)^2}$

$\qquad\displaystyle\phantom{s_d} 
\ =\ 
2.1$ 

$\qquad\displaystyle t
\ =\ 
\frac{\bar d}{s_d\big/\sqrt{n}}$

$\qquad\displaystyle\phantom{ t}
\ =\ 
\frac{2.4}{2.1\big/\sqrt{5}}$

$\qquad\displaystyle\phantom{ t}
\ =\ 
\frac{2.4}{2.1\big/\sqrt{5}}$

$\qquad\displaystyle\phantom{ t}
\ =\ 
2.5$

Il p-valore corrispondente è

$\qquad\displaystyle\Pr(T<-t\ \ \rm{o}\ \ T>t)
\ =\ 
2\cdot \Pr(T<-t)$

$\qquad\displaystyle\phantom{\Pr(T<-t\ \ \rm{o}\ \ T>t)}
\ =\ 
$`2 * t.cdf(-2.5, 4) = 0.07` 