In [1]:
from numpy import linspace, concatenate, sqrt
from scipy.stats import norm                        # lib. for statistical functions
from scipy.stats import t as tstudent                       
from ipywidgets import interactive, FloatSlider, IntSlider    # lib. for interactive graphic
from bokeh.io import push_notebook, show, output_notebook # lib. for graphic output
from bokeh.plotting import figure
output_notebook()
options = dict(plot_height=250,plot_width=700,
               tools="pan,wheel_zoom,reset,save,crosshair,box_select")
def printred(s):
    display(HTML('<pre style="font: bold 12pt Courier, serif;color:#a02">' + s + '</pre>') )
def printgrn(s):
    display(HTML('<pre style="font: bold 12pt Courier, serif;color:#080">' + s + '</pre>') )
    
# this loads some HTML style files
from IPython.core.display import HTML
with open( './style/custom.css', 'r' ) as f: html_style = f.read()
HTML( html_style )

# Problema

Abbiamo un'urna di biglie. Il peso delle biglie e ha distribuzione $N(\mu_0,\sigma^2)$ con $\mu_0=75$mg e $\sigma=9.5$mg. 

Ma maggioranza dele biglie ha colore blu. Ma alcune biglie hanno colore rosso. Ci chiediamo se le biglie rosse hanno lo stesso peso medio. Assumiamo che anche queste biglie siano distribuite normalmente con la stessa deviazione standard.

Facciamo questo test di ipotesi.

$\qquad H_0:\quad \mu=\mu_0$

$\qquad H_A:\quad \mu\neq\mu_0$

Il test consiste nel pesare $10$ biglie rosse, calcolare il peso medio campionario $\bar x$ e la differenza $|\bar x-\mu_0|$. 

# Domanda 1

Se misuriamo $\bar x = 84$ con che p-valore possiamo rigettare l'ipotesi nulla?

Si assuma di conoscere la funzione $f(z)=\Pr(Z\le z)$ per $Z\sim N(0,1)$.

***Risposta***

Dobbiamo calcolare 

$$\Pr\big(|\bar X - \mu_0|\ge|\bar x-\mu|\ \big|\ H_0\big)$$

Assumendo $H_0$, la v.a. $\bar X$ è distribuita come $N(\mu_0,\sigma^2/n)$ quindi

$$\frac{\bar X - \mu_0}{\sigma/\sqrt{10}}$$ 

è distribuita come $Z$. Possiamo quindi calcolare

$$\Pr\Big(|Z|\ge\Big|\frac{\bar x-\mu_0}{\sigma/\sqrt{10}}\Big|\Big)$$

Siccome la distribuzione di $Z$ è simmetrica rispetto allo $0$ questo è uguale a 

$$2\cdot\Pr\Big(Z\le-\Big|\frac{\bar x-\mu_0}{\sigma/\sqrt{10}}\Big|\Big)$$

Il risultato è $2\cdot f\Big(\frac{75- 84}{9.5/\sqrt(10})$

In [2]:
# il risultato numerico è

z = (75 - 84) * sqrt(10) / 9.5

2 * norm.cdf(z)

0.0027368820876839135

# Domanda 2

Come sopra, ma non vogliamo assumere che la deviazione standard del campione sia quella della popolazione.

Dai dati raccolti $x_1,\dots,x_{10}$ ci calcoliamo la deviazione standard campionaria con la formula

$$s=\sqrt{\frac1{9}\sum_{i=1}^{10}(x_i-\bar x)^2}$$

otteniamo $s=9.5$mg (per caso, lo stesso valore della deviazione standard di popolazione).

Con che p-valore possiamo rigettare l'ipotesi nulla?

Si assuma di conoscere la funzione $f(t,\nu)=\Pr(T\le t)$ per $T\sim T(\nu)$.

***Risposta***

Assumendo $H_0$, la v.a. 

$$\frac{\bar X - \mu_0}{S/\sqrt{10}}$$ 

è distribuita come $T(9)$. Possiamo quindi calcolare

$$\Pr\Big(|T|\ge\Big|\frac{\bar x-\mu_0}{s/\sqrt{10}}\Big|\Big)$$

Siccome la distribuzione di $T$ è simmetrica rispetto allo $0$ questo è uguale a 

$$2\cdot\Pr\Big(T\le-\Big|\frac{\bar x-\mu_0}{s/\sqrt{10}}\Big|\Big)$$

Il risultato è $2\cdot f\Big(\frac{75- 84}{9.5/\sqrt(10},\ 9)$

In [3]:
# il risultato numerico è

t = (75 - 84) * sqrt(10) / 9.5

2 * tstudent.cdf(z, 9)

0.015057554853767415

# Domanda (3)

Vogliamo progettare un test su una popolazione come quella descritta sopra (con $\sigma$ nota). 

Fissiamo la dimensione del campione: $n=25$. 

Come ipotesi alternativa prendiamo $\mu>\mu_0$.

Vogliamo un una significatività del $5\%$ e una potenza del $98\%$.

Quanto è l'effect size $\delta $ che possiamo misurare?

***Risposta***

Sia $\bar X$ la v.a. media campionaria.

Vogliamo calcolare il valore $x_{5\%}$ tale che $\Pr(\bar X>x_{5\%}\ |\ \mu=\mu_0) = 0.05$

Osserviamo che se $\mu=\mu_0$ la v.a.

$$\frac{\bar X - \mu_0}{\sigma/\sqrt{n}}$$ 

è distribuita come $Z$ e quindi

$$\Pr(Z>\frac{x_{5\%} - \mu_0}{\sigma/\sqrt{n}}) = 0.05$$

Equivalentemente

$$\Pr(Z\le\frac{x_{5\%} - \mu_0}{\sigma/\sqrt{n}}) = 0.95$$

otteniamo quindi 

$$x_{5\%} = \mu_0 + g(0.95)\frac{\sigma}{\sqrt{n}}$$

Per calcolare $\delta$ dobbiamo risolvere $\Pr(\bar X\le x_{5\%}\,|\, \mu=\mu_0+\delta) = 0.98$

Ragionando come prima (cioè standardizzando)

$$\Pr\bigg( Z\le\dfrac{x_{5\%}-\mu_0-\delta}{\sigma/\sqrt{n}}\bigg) = 0.98$$

Otteniamo 

$$\delta = x_{5\%} - \mu_0 -g(0.98)\frac{\sigma}{\sqrt{n}}$$

Usando la formula che ci siamo calcolati per $x_{5\%}$

$$\delta = \big(g(0.95)+g(0.98)\big)\frac{\sigma}{\sqrt{n}}$$

In [4]:
(norm.ppf(0.95) + norm.ppf(0.98)) *  9.5 / 5

7.027344821408259

In [5]:
n = 10;  mu0 = 75;  sigma=9.5;  xmin= 65.; xmax = 85.; x =linspace(xmin,xmax,200)

def shade(xalpha,f):
    ab  = concatenate( ([xalpha], linspace(xalpha,xmax), [xmax]) )
    fab = concatenate( ([0], f(linspace(xalpha,xmax) ), [0] ) )
    return ab, fab

plot = figure(title="PDF di X ~ N( μ, (9.5)^2 / n )",
              x_axis_label = "peso in mg", 
              y_axis_label = "densità di probabilità", 
              x_range=(xmin,xmax), 
              y_range=(0,0.3), 
              **options )               
plot.title.text_font="courier"
plot.title.text_font_size="14pt"


xalpha = 80
px,py = shade(xalpha, lambda x: norm.pdf( x, mu0, sigma/sqrt(n) ) )
p1 = plot.patch( px, py, color='#991111', alpha=0.5 )
p2 = plot.line(x,  norm.pdf(x, mu0, sigma), color='black' )
# px,py = shade(xmax, lambda x: norm.pdf( x, mu0, sigma) )
# p3 = plot.patch( px, py, color='#991111', alpha=0.5 )
def f(xalpha, mu, n):
    px,py = shade(xalpha, lambda x: norm.pdf( x, mu, sigma/sqrt(n)) )
    p1.data_source.data['x'] = px
    p1.data_source.data['y'] = py  
    p2.data_source.data['y'] = norm.pdf(x,  mu, sigma/sqrt(n) )
    printred('T = [ x_α, +∞ )  zona di rifiuto  x_α = {}'.format(xalpha) )
    if mu == mu0: 
        printred('Pr( T | μ = {:.2f}) = α = {:.3f} (falso positivo) ERRORE I tipo'.format(mu,1-norm.cdf(xalpha,mu,sigma/sqrt(n) ) ) ) 
    else: 
        printgrn('Pr( T | μ = {:.2f}) = β  = {:.3f} (falso negtivo) ERRORE II tipo'.format(mu,norm.cdf(xalpha, mu, sigma/sqrt(n))))
    push_notebook()
    
show(plot, notebook_handle=True) 

interactive(f,
      xalpha = FloatSlider(description="x_α", min=mu0, max=80, step=0.2, value=80), 
      mu     = FloatSlider(description="μ", min=mu0, max=mu0+10, step=1, value=mu0),
      n      = IntSlider(description="n", min=n, max=n+40, step=5, value=n) )


interactive(children=(FloatSlider(value=80.0, description='x_α', max=80.0, min=75.0, step=0.2), FloatSlider(va…