In [1]:
# RUN THIS CELL !!!

#this loads functions for numerical arrays
from numpy import array, arange, linspace, concatenate

# this loads functions for statistical functions
from scipy.stats import uniform, norm

# this loads functions for graphic output and set some global options
from bokeh.io import push_notebook, show, output_notebook, output_file
from bokeh.plotting import figure
output_notebook()
options = dict(plot_height=300, plot_width=600, tools="pan,wheel_zoom,reset,save,crosshair")

# this loads functions for interactions with the graphic
from ipywidgets import interact, fixed, FloatSlider, IntSlider, Button, Checkbox, HBox, Label

# this loads some HTML style files
from IPython.core.display import HTML
with open( './style/custom.css', 'r' ) as f: html_style = f.read()
HTML( html_style )

## Variabili aleatorie continue

Una v.a. $X\in R$ è <mark>continua</mark> se 

$\qquad\Pr(X=x)=0$ for every $x\in R$. 

Quindi la p.m.f. di una v.a. non è informativa (è costante $0$). La funzione di ripartizione (c.d.f.) continua comunque ad avere senso

$\qquad\Pr(X\le x)$

Usando la c.d.f. possiamo calcolare la probabilità di $X\in [a,b]$

$\displaystyle\qquad\Pr\big(X\in [a,b]\big)\ \ =\ \ \Pr(a \le X \le b)\ \ =\ \ \Pr(X\le b)-\Pr(X\le a)$

SI noti che la second uguaglianza sarebbe falsa se $\Pr(X{=}a)\neq0$.

Quando possibile è utile scrivere la c.d.f. come un integrale

$\displaystyle\qquad\Pr(X\le z)\ =\ \int^z_{-\infty}f(x)\;\textrm{d}x$

La funzione $f(x)$ si chiama <mark>densità di probabilità</mark> o più spesso <mark>distribuzione (continua) di probabilità</mark>. La più semplice di queste è la densità di probabilità che corrisponde alla <mark>distribuzione uniforme</mark>:

$\displaystyle\qquad f(x)\ =\ \left\{
\begin{array}{ll}
0& \textrm{se }x<α\\
1/(β-α)& \textrm{se }α\le x\le β\\
0& \textrm{se }x>β\\
\end{array}\right.$

In [7]:
alpha = 0
beta = 1
x = 0
plot0 = figure(title=f"Distribuzione uniforme intervallo [α,β]",
               x_axis_label = "z",
               y_axis_label = "densità di probabilità",
               x_range=(-2, 3  ),       # range x da visualizzare inizialmente
               y_range=( 0, 1.1 ),       # range y da visualizzare inizialmente 
               **options,)
p0 = plot0.line([-3,alpha,alpha,beta,beta,3],  [0,0,1/(beta-alpha),1/(beta-alpha),0,0], color='#119911' )
p1 = plot0.patch([-3,alpha,alpha,max(x,alpha),max(x,alpha),3], [0,0,1/(beta-alpha),1/(beta-alpha),0,0], color='#119911')
show(plot0, notebook_handle=True)

def update0(alpha  = 0, beta = 1, x = -2): 
    p0.data_source.data['x'] = [-3,alpha,alpha,beta,beta,3]
    p0.data_source.data['y'] = [0,0,1/(beta-alpha),1/(beta-alpha),0,0]
    p1.data_source.data['x'] = [-3,alpha,alpha,max(min(x,beta),alpha),max(min(x,beta),alpha),3]
    p1.data_source.data['y'] = [0,0,1/(beta-alpha),1/(beta-alpha),0,0]
    print( 'Pr(X<z) = (x - α ) / (β - α) = {:04.3f}'.format((max(alpha,min(x,beta)) - alpha ) / (beta - alpha)))
    push_notebook()

interact(update0,  
         alpha  = FloatSlider(description="α", min=-1, max=0, step=.2, value= 0),
         beta   = FloatSlider(description="β", min= 1, max=2, step=.2, value= 1),
         x      = FloatSlider(description="z", min=-1, max=3, step=.2, value= 3),
         );


interactive(children=(FloatSlider(value=0.0, description='α', max=0.0, min=-1.0, step=0.2), FloatSlider(value=…

# Il valore atteso per le distribuzioni continue

Se $X$ ha densità di probabilità $f(x)$ allora 

$\def\Ex{{\rm E}}$
$\displaystyle\qquad \Ex(X)\ =\ \int_{-\infty}^{+\infty}x\cdot f(x)\ {\rm d}x$


# La distribuzione normale

La distribuzione <mark>normale</mark> o  <mark>gaussiana</mark> è la funzione

$\displaystyle\qquad f(x)\ =\ \dfrac{1}{\sqrt{2\pi\sigma^2} } e^{ -\dfrac{(x-\mu)^2}{2\sigma^2} }\qquad$ (*non* da memorizzare)

Questa distribuzione dipende da due parametri $\mu$ e $\sigma$ che sono anche il valore atteso e la deviazione standard. per dire che $X$ è una v.a. con distribuzione normale scriveremo  <mark>$X\sim N(\mu,\sigma^2)$</mark> .

In [8]:
mu = 0
sigma = 1
x  =  linspace(-10,10,200)
a  = -3.0
b  =  3.0
plot1 = figure(title=f"Distribuzione di X ~ N(μ, σ^2)",
               x_axis_label = "x",
               y_axis_label = "densità di probabilità",
               x_range=(-4, 4  ),       # range x da visualizzare inizialmente
               y_range=( 0, .7 ),         # range y da visualizzare inizialmente 
               **options,)
p1 = plot1.line(x,  norm.pdf(x), color='#119911' )
ab  = concatenate( ([a], linspace(a,b), [b]) )
pab = concatenate( ([0], norm.pdf(linspace(a,b)), [0] ) )
p2 = plot1.patch(ab, pab, color='#119911')
#p2 = plot1.patch([a,a,b,b], [0,norm.pdf(a),norm.pdf(b), 0], color='#119911')
show(plot1, notebook_handle=True)
def update1(mu = 0, sigma = 1, a  = -3, b  =  3): 
    p1.data_source.data['x'] = x
    p1.data_source.data['y'] = norm.pdf(x,loc=mu,scale=sigma)
    ab  = concatenate( ([a], linspace(a,b), [b]) )
    pab = concatenate( ([0], norm.pdf(linspace(a,b),loc=mu,scale=sigma), [0] ) )
    p2.data_source.data['x'] =  ab
    p2.data_source.data['y'] =  pab
    pr =  norm.cdf(a,mu,sigma) - norm.cdf(b,mu,sigma)
    data = {'a':a, 'b':b, 'mu':mu, 'sigma':sigma,'pr':norm.cdf(b,mu,sigma) - norm.cdf(a,mu,sigma)}
    print('Pr(a<X<b) = norm.cdf(b, μ, σ) - norm.cdf(a, μ, σ)\n' )
    print('Pr(a<X<b) = norm.cdf({b}, {mu}, {sigma}) - norm.cdf({a}, {mu}, {sigma}) = {pr:04.3f}'.format(**data) )
    push_notebook()

interact(update1,  
         mu     = FloatSlider(description="μ", min=-2, max=2, step=.2, value= 0),
         sigma  = FloatSlider(description="σ", min=.6, max=2, step=.2, value= 1),
         a      = FloatSlider(description="a", min=-5, max=5, step=.2, value=-5),
         b      = FloatSlider(description="b", min=-5, max=5, step=.2, value= 5),
         );

interactive(children=(FloatSlider(value=0.0, description='μ', max=2.0, min=-2.0, step=0.2), FloatSlider(value=…

# Standardizzazione

Spesso per poter meglio confrontare diverse ditribuzione si applica una trasformazione cheamato <mark>standardizzazione</mark> che consiste nel sottarre il valore atteso e dividere per la deviazione standard. Dalla v.a. $X$ otteniamo quindi

$\displaystyle\qquad Z\ =\ \dfrac{X-\mu}{\sigma}$

Una v.a. aleatoria standard ha valore atteso $0$ e varianza $1$. La distribuzione <mark>normale standard</mark> è un'equazione più semplice 

$\displaystyle\qquad f(x)\ =\ \dfrac{1}{\sqrt{2\pi} } e^{ -\dfrac{x^2}{2} }\qquad$ (*non* da memorizzare)

# Esempio

Abbiamo una scatola di biglie il cui diametro è (approssimativamente) distribuito normalmente con media $10$mm e deviazione standard $2$mm.

1. Qual è la probabilità che una biglia presa a caso passi per un foro di $12$mm?

2. Quanto grande dev'essere il foro perché passi il $95\%$ delle biglie?

Si calcoli il risultato usando solo i valori della distribuzione normale standard.

Ovvero si assumino noti i valori della funzione $f(z)=\Pr(Z\le z)$ dove $Z\sim N(0,1)$ e della funzione (quantile/percentile) $g(\alpha)$ che dato $\alpha\in[0,1]$ calcola $z$ tale che $\alpha=\Pr(Z\le z)$.

**Risposta**

Sia $X\sim N(10,4)$. Per rispondere dobbiamo

1. calcolare $\Pr\big(X\le 12\big)$

2. trovare $x$ tale che $\Pr\big(X\le x\big)\ =\ 0.95$

Poiché $Z\ =\ \dfrac{X-\mu}{\sigma}$ riscriviamo il problema:

1. calcolare $\Pr\bigg(Z\le \dfrac{12-\mu}{\sigma}\bigg)$ ovvero $\Pr(Z\le 1)$

2. trovare $x$ tale che $\Pr\bigg(Z\le \dfrac{x-\mu}{\sigma}\bigg)\ =\ 0.95$


Quindi


1. $f(1)$

2. $g(.95)\cdot\sigma - \mu = 2\cdot g(.95) + 10$

In [4]:
norm.cdf(1)

0.8413447460685429

In [5]:
2 * norm.ppf(0.95) + 10

13.289707253902945

# Somma di v.a. normali

Siano

$$X \sim N(\mu_X, \sigma_X^2)$$

$$Y \sim N(\mu_Y, \sigma_Y^2)$$


Allora

$$X+Y \sim N(\mu_X + \mu_Y, \sigma_X^2 + \sigma_Y^2)$$


La stessa cosa vale per somma di un numero rbitrario di v.a. normali. Siano per $i=1,\dots,n$


$$X_i \sim N(\mu_i, \sigma_i^2)$$

$$X = \sum^n_{i=1} X_i$$

Allora

$$X\sim N(\mu, \sigma^2)$$

dove 

$$\mu = \sum^n_{i=1}\mu_i$$

$$\sigma^2 = \sum^n_{i=1}\sigma_i^2$$

# Statistiche

Una collezione $X_1,\dots,X_n$ di v.a.i. con la stessa distribuzione si dice essere un campione di <mark>rango</mark> (o <mark>dimensione</mark>) $n$. La v.a.

$\displaystyle\qquad \bar X\ =\ \dfrac1n\sum^n_{i=1}X_i\qquad$ 

Si chiama <mark>media campionaria</mark>. La media campionaria è un esempio di statistica. Una <mark>statistica</mark> è una variabile aleatoria a valori in $\mathbb R$ ottenuta come funzione delle variabili aleatorie di un campione.

La media campionaria è una statistica che viene usata per stimare il valore atteso. Si dice essere uno <mark>stimatore</mark> del valore atteso. 

Un'atra statistica che incontreremo è lo <mark>stimatore della deviazione standard</mark> 

$\displaystyle\qquad S\ =\ \sqrt{\frac1{n-1}\sum_{i=1}^n (X_i-\bar X)^2}$

# Media campionaria di v.a. normali

Per quanto visto prima, se $X_1,\dots,X_n\sim N(\mu,\sigma^2)$, la v.a.

$\displaystyle\qquad \bar X\ =\ \dfrac1n\sum^n_{i=1}X_i\qquad$ 

ha distribuzione $N(\mu,\sigma^2/n)$.


# Teorema del limite centrale

Quanto detto sopra vale in maniera approssimata anche per variabili non normali. 

L'importanza pratica della distribuzione normale deriva da questo. 

Il teorema del limite centrale dice (approssimativamente) quanto segue. Se che $X_i$, per $i=1,2,3,\dots$ sono v.a. indipendenti. Tutte con lo stesso con valore atteso $\mu$ e la stessa varianza $\sigma^2$, allora per $n$ molto grande la v.a.

$\displaystyle\qquad \bar X\ =\ \dfrac1n\sum^n_{i=1}X_i\qquad$ 

è approssimativamente $N(\mu,\sigma^2/n)$.