In [1]:
# RUN THIS CELL: it loads some style files
from IPython.core.display import HTML
with open( './style/custom.css', 'r' ) as f: html_style = f.read()
HTML( html_style )

# Le v.a. geometriche

Immaginiamo una sequenza infinita di v.a.i. di Bernoulli, $X_i\sim B(1,p)$ per $i=0,1,\dots$  
Sia $Y$ la variabile aleatoria che da il più piccolo $i$ tale che $X_i=1$. Più concretamente $Y$ corrisponde a contare quanti insuccessi abbiamo prima del primo successo se lanciamo una moneta con probabilità di successo $p$.  

Diremo che $Y$ è una variabile geometrica con parametro $p$, in simboli $Y\sim NB(1,p)$.

## La distribuzione geometrica

Sia $Y\sim NB(1,p)$. Data l'interpretazione esposta qui sopra è immediato calcolare la pmf

$P(Y=i)\ \ =\ \ (1-p)^ip$



In [2]:
from scipy.stats import geom, nbinom                      # libraries for statistical functions
from numpy import arange                      # libraries for statistical functions
from ipywidgets import interact, FloatSlider, IntSlider   # libraries for interactions with the graphic
from bokeh.io import push_notebook, show, output_notebook, output_file # libraries for graphic output
from bokeh.plotting import figure
output_notebook()
options = dict(plot_height=400,plot_width=700,tools="pan,wheel_zoom,reset,save,crosshair,box_select")

In [3]:
p = .3
n = 100         # maximal number of trials computed
n_vis = 10      # maximal number of trials initially visible
x = arange(n)   # inizialization
plot1 = figure(title="PMF of X ~ NB(1,p)", x_axis_label = "number of failures before the first success", # create an empty figure
               y_axis_label = "probability", x_range=(-1,n_vis), y_range=(0,0.5), **options )
plot1.title.text_font="times"
plot1.title.text_font_size="16pt"
r1 = plot1.vbar(x, top=[0 for i in x], bottom=0, # initialize barplot
                width=0.8, color="#111188", alpha=0.5 
               )
show(plot1, notebook_handle=True)
    
def update1(p):
    data = {'x':x, 'top': nbinom.pmf(x,1,p) }
    r1.data_source.data = data
    push_notebook()

interact(update1,
         p = FloatSlider(description="p", min=0.1, max=0.95,  step=0.05, value=p));

interactive(children=(FloatSlider(value=0.3, description='p', max=0.95, min=0.1, step=0.05), Output()), _dom_c…

## Esempio

Assumiamo che la probabilità di successo di un ciclo di IVF è di circa il $30\%$. Qual è la probabilità di successo in 4 clicli.<br> <br> 

## Risposta

$\qquad\Pr(Y+1\le 4)\ =\ \Pr(Y\le 3)\qquad $ dove $Y\sim NB(1,0.3)$

In [4]:
nbinom.cdf(3,1,0.3)

0.75990000000000002

## Valore atteso e varianza

Per calcolare il valore atteso usiamo un argomento basato sul calcolo differenziale $\def\E{{\rm E}}$

$\qquad\displaystyle\E(Y)
\ \ =\ \ 
\sum_{i=1}^\infty i\,(1-p)^i\,p\qquad$ (l'addendo $i=0$ si può omettere)

$\qquad\displaystyle\phantom{\E(Y)}
\ \ =\ \ 
p\,(1-p)\,\sum_{i=1}^\infty i\,(1-p)^{i-1}$

$\qquad\displaystyle\phantom{\E(Y)}
\ \ =\ \ 
p\,(1-p)\,\sum_{i=1}^\infty -\dfrac{{\rm d}(1-p)^i}{{\rm d}p}$

$\qquad\displaystyle\phantom{\E(Y)}
\ \ =\ \ 
p\,(1-p)\,\dfrac{{\rm d}}{{\rm d}p}\sum_{i=1}^\infty -(1-p)^i$

$\qquad\displaystyle\phantom{\E(Y)}
\ \ =\ \ 
p\,(1-p)\,\dfrac{{\rm d}}{{\rm d}p}\sum_{i=1}^\infty -(1-p)^i$

$\qquad\displaystyle\phantom{\E(Y)}
\ \ =\ \ 
p\,(1-p)\,\dfrac{{\rm d}}{{\rm d}p}-\dfrac{1}{p}$

$\qquad\displaystyle\phantom{\E(Y)}
\ \ =\ \ $
<mark style="padding:2ex;">$\dfrac{1-p}{p}$</mark>

Il calcolo della varianza è simile (lo prendiamo per buono) $\def\Var{{\rm Var}}$

$\qquad\Var \left(Y\right)\ \ =\ \  $<mark style="padding-top:1.5ex;padding-bottom:2.5ex;">$\dfrac {1 - p} {p^2}$</mark>

## Esempio

Nell'esempio precedente quant'è in media il numero di cicli necessario per avere successo?<br> <br> 

## Risposta

Se la variabile $Y\sim NB(1,0.3)$ conta il numero di insuccessi, il numero di tentativi per avere il primo successo è $Y+1$.

$\qquad\E(Y+1)\ =\ \E(Y)+1\ =\ \dfrac{0.7}{0.3}+1\ =\ 3.3$ 

## Esempio

Nell'esempio precedente quanti cicli dobbiamo preventivare per avere una probabilità di successo del $90\%$<br> <br> 

## Risposta

Vogliamo $x$ (il minimo) tale che

$\qquad\Pr(Y+1\le x)\ \ge 0.90$

Dal grafico sottostante si vede che $x=6$.

Questo può essere calcolato con la funzione `nbinom(q,1,p)` dove `q=0.90`, `p=0.30`.

In [5]:
plot2 = figure(title="CDF of X ~ NB(1,p)", x_axis_label = "number of failures before the first success",
               y_axis_label = "probability", x_range=(-1,10), y_range=(0,1), **options )
plot2.title.text_font="times"
plot2.title.text_font_size="16pt"
plot2.vbar(x, top=nbinom.cdf(x,1,.3), bottom=0, # initialize barplot
                width=0.8, color="#111188", alpha=0.5)
show(plot2)

In [6]:
nbinom.ppf(.9,1,0.3)

6.0

<div class="warn">Attenzione terminologia non uniforme</div>

Qualcuno definisce la v.a. geometrica come la funzione che conta il *numero di tentativi fino (compreso) al primo successo*. In questo caso la v.a. ha valori in $\{1,2,\dots\}$.

Qualcuno (più raramente, ma comunque nel testo 2) rovescia successi e insuccessi.

Noi chiamiamo quest'ultima v.a. geometrica <mark>traslata</mark> oppure <mark class="ita">shifted</mark>. Chiaramente qualcun'altro chiama translata la nostra non translata.

# La binomiale negativa

Le v.a. binomiale negative generalizzano le v.a. geometriche. Fissato un intero $n$ e una probabilità di successo $p$ la variabile $Y$ conta il numero di insuccessi ottenuti prima di avere l'$n$-esimo successo.

Per esempio $Y\sim NB(2,p)$

$Y(11)= 0$ 

$Y(101) = 1$

$Y(011) = 1$

$Y(0011) = 2$ 

$Y(1001) = 2$

$Y(0101) = 2$

$Y(00101) = 3$

A volte è utile sapere a quale tentativo otteniamo l'$n$-esimo successo. Se $Y\sim NB(n,p)$ questo è dato dall variabile $Y+n$.

In [7]:
p = .3
n = 1
n_max = 100             # maximal number of trials computed
n_vis = 20              # maximal number of trials initially visible
x = arange(n_max)       # inizialization
plot1 = figure(title="PMF of X ~ NB(n,p)", x_axis_label = "number of failure before the n-th success", # create an empty figure
               y_axis_label = "probability", x_range=(-1,n_vis), y_range=(0,0.5), **options )
plot1.title.text_font="times"
plot1.title.text_font_size="16pt"
r1 = plot1.vbar(x, top=[0 for i in x], bottom=0, # initialize barplot
                width=0.8, color="#111188", alpha=0.5 
               )
show(plot1, notebook_handle=True)
    
def update1(n,p):
    data = {'x':x, 'top': nbinom.pmf(x,n,p) }
    r1.data_source.data = data
    push_notebook()

interact(update1,
         n = IntSlider  (description="n", min=1, max=5, step=1, value=1), 
         p = FloatSlider(description="p", min=0.1, max=0.95,  step=0.05, value=p));

interactive(children=(IntSlider(value=1, description='n', max=5, min=1), FloatSlider(value=0.3, description='p…

## Valore atteso e varianza

$\qquad\E(Y)\ =\ \dfrac{n(1-p)}{p}$

$\qquad\Var(Y)\ =\ \dfrac{n(1-p)}{p^2}$

È facile rendersi conto della correttezza di queste se osserva che  $Y\sim NB(n,p)$ può essere ottenuta sommando $n$ v.a.i. geometriche con parametro $p$. Ovvero, se $Y_i\sim NB(1,p)$ sono indipendenti allora

$\qquad Y\ =\  Y_1+\dots+Y_n\sim NB(n,p)$

In effetti il numero di $0$ che oserviamo tra l'$i$-esimo e l'$i+1$-esimo $1$ è distribuito come una distribuzione geometria.

## Esempio

Una certa apparecchiatura si inceppa quando entra in contatto per 6 volte con un'impurità. Ad ogni ciclo di lavorazione la probabilità di venire a contatto con un impurità è del $20\%$. 

1. Quant'è la probabilità che l'apparecchiatura sopporti almeno 20 cicli?

2. Quanti cicli durarà in media l'apparecchiatura?<br><br>



## Risposta 1

Il successo qui è il venire a contatto con un impurità. La variabile $Y+6$, dove $Y\sim NB(6, 0.2)$, dà il numero del ciclo a cui l'apparecchiatura incontra la $6^{\rm a}$ impurità.

La probabilità richiesta è quindi 

$\qquad\Pr(Y+6>20)\ =\ 1-\Pr(Y\le 14)\ =\ 0.80$

In [8]:
1-nbinom.cdf(14,6,.2)

0.80420778545954907

## Risposta 2

L'aspettativa di vita dell'apparecchiatura è

$\qquad\E(Y+6)\ =\ \dfrac{6\cdot 0.8}{0.2}+5\ =\ 29\qquad$ cicli

ovvero al $30$-esimo ciclo si rompe.

## Esempio

Una monetina ha nominalmente probabilità di dare Testa $p=0.1$. Si sospetta che invece sia minore. Facciamo il seguente test di ipotesi.

$H_0:\quad$ $p=0.1$

$H_0:\quad$ $p>0.1$

Lanciamo la monetina ripetute volte fino ad ottenere 10 volte Testa. Sia $c$ il numero di volte in cui abbiamo ottenuto Croce prima di ottenere Testa per la 10a volta. Vogliamo sapere con che p-valore possiamo rigettare l'ipotesi nulla.

In [9]:
p = .1
n = 10
n_max = 200             # maximal number of trials computed
n_vis = 80              # maximal number of trials initially visible
x = arange(n_max)       # inizialization
plor3 = figure(title="PMF of X ~ NB(10,p)", x_axis_label = "number of failure before the 10-th success", # create an empty figure
               y_axis_label = "probability", x_range=(-1,n_vis), y_range=(0,0.04), **options )
plor3.title.text_font="times"
plor3.title.text_font_size="16pt"
r1 = plor3.vbar(x, top=[0 for i in x], bottom=0,width=0.8, color="#111188", alpha=0.5) 
r2 = plor3.vbar(x, top=[0 for i in x], bottom=0, width=.9, color='red',   alpha=0.5)

show(plor3, notebook_handle=True)
    
def update1(c,p):
    data  = {'x':x, 'top': nbinom.pmf(x,n,p) }
    r1.data_source.data = data
    z = arange(c+1)
    data2 = {'x':z, 'top': nbinom.pmf(z,n,p) }
    r2.data_source.data = data2
    if p == 0.1:
        print('\np-valore = nbinom.cdf({}, 10, 0.1) = {:.3f} '.format(c, nbinom.cdf(c, n, p)) )
    else:
        print('\n')
    push_notebook()

interact(update1,
         c = IntSlider  (description="c", min=20, max=60, step=1, value=1), 
         p = FloatSlider(description="p", min=0.1, max=0.2,  step=0.1, value=p));

interactive(children=(IntSlider(value=20, description='c', max=60, min=20), FloatSlider(value=0.1, description…