In [37]:
# RUN THIS CELL: it loads some style files
from IPython.core.display import HTML, display, Math
with open( './style/custom.css', 'r' ) as f: html_style = f.read()
HTML( html_style )

In [38]:
#  RUN THIS CELL: it imports some graphic and numerical libraries
#import numpy as np                                   
from numpy import array, arange, random, bincount         # lib for numerical functions
from bokeh.io import push_notebook, show, output_notebook # lib for graphic output
from bokeh.plotting import figure
output_notebook()
options = dict(plot_height=100,lot_width=800,
               tools="pan,wheel_zoom,reset,save,crosshair,box_select")

# Varianza

La <mark>varianza</mark> di una v.a. numerica discreta $X$ a valori in $R$, che per semplicità assumiamo essere un insieme finito, è

$\def\Var{{\rm Var}}\def\E{{\rm E}}\def\Pr{{\rm Pr}\,}\def\SD{{\rm SD}}
\displaystyle\quad$<mark>$\Var(X)$</mark>$\ \ =\ \ \E\big((X-\mu)^2\big)$

dove $\mu=\E(X)$. Dalla definizione di valore atteso

$\displaystyle\quad\phantom{\Var(X)}\ \ =\ \ \sum_{x\in R} (x- \mu)^2\cdot \Pr(X=x)$

$\displaystyle\quad\phantom{\Var(X)}\ \ =\ \ \E(X^2)-\mu^2\quad$ (facile da verificare).

La <mark>deviazione standard</mark> è la radice della varianza

$\displaystyle\quad$<mark>$\SD(X)$</mark>$\ \ =\ \ \sqrt{\Var(X)\phantom{\big)}}$

Il simbolo <mark>$\sigma$</mark> viene spesso usato per la deviazione standard, e di conseguenza <mark>$\sigma^2$</mark> è la varianza. Per evitare ambiguità a volte si usa il simbolo <mark>$\sigma_X$</mark>.

# Esempio numerico

La v.a. discreta X ha distribuzione di probabilità

$\quad\displaystyle\Pr(X{=}{-}1)\  =\  \frac14$,

$\quad\displaystyle\Pr(X=1)\   =\  \frac18$,

$\quad\displaystyle\Pr(X=2)\   =\  \frac58$


$\quad\displaystyle\E(\ X\ )\ =\ -1\cdot\frac14\  +\ 1\cdot\frac18\  +\  2\cdot\frac58$


$\quad\displaystyle\E(X^2)\ =\ \quad 1\cdot\frac14\  +\ 1\cdot\frac18\  +\  4\cdot\frac58$


$\quad\displaystyle\Var(X)\ =\ \E(X^2) - \E(X)^2$

    Il risultato numerico nella cella sottostatnte

In [46]:
x = array( [ -1, 1, 2 ] )
p = array( [ 1/4, 1/8, 5/8 ] )
print( 'E(X) = ', sum( x*p ), '\n' )
print( 'E(X^2) = ', sum( x**2*p ), '\n' )
print( 'Var(X) = E(X^2) - E(X)^2 = ', sum( x**2*p ) - sum( x*p )**2 )


E(X) =  1.125 

E(X^2) =  2.875 

Var(X) = E(X^2) - E(X)^2 =  1.609375


# La disuguaglianza di  Chebychev 

Enunciamo senza dimostrazione un caso particolare della disuguaglianza di Chebychev. La diseguaglianza dice che la probabilità è concentrata attorno alla media in un intervallo di raggio proporzionale alla deviazione standard.

Per ogni variabile aleatoria numerica $X$ con valore atteso $\mu$ e varianza $\sigma^2$.

$\quad\Pr\Big(\mu - 2\sigma \le X\le\mu+2\sigma\Big)\le \dfrac34$

Ovvero gran parte della massa di probabilità è concentrata in un intorno di $\mu$ di raggio $2\sigma$. Quindi più piccola è $\sigma$ più concentrata è a distribuzione di $X$.

L'utilità pratica della disuguaglianza è limitata perchè spesso informazioni sulla distribuzione abbiamo informazioni dulla Per alcune particolari v.a. valgono anche proprietà ancora più forti. Per esempio, se $X$ ha distribuzione normale possiamo scrivere $95\%$ invece che $75\%$. Per la distribuzione uniforme, $\sigma$ è così grande che il $100\%$ della massa è contenuta nell'intervallo $[\mu-2\sigma,\ \mu+2\sigma]$

In [36]:
# Questo è uno script un po abboracciato per generare PMF quasi a caso 
size = 11
x_data = arange(size)
y_data = bincount( [ int(y) for y in random.normal(size/2,1.7,size*5) 
                        if int(y) in x_data], minlength=size )\
         + random.uniform(0,1,size) # questa è una PMF un po  normale un po uniforme
    
y_data = y_data / sum(y_data)
mean = sum( x_data * y_data )

y_max = max( y_data )*1.05

var = sum( [(x-mean)**2 for x in x_data] * y_data )
sd = var**0.5
plot1 = figure(title="Una PMF a caso, evidenziati i valori nell'intervallo [μ-2σ, μ+2σ]",
               x_range=(-1,size), y_range=(0,1.05*y_max))
plot1.title.text_font="times"
plot1.title.text_font_size="14pt"
plot1.vbar(x_data, top=y_data, bottom=0, # initialize barplot
                width=0.9, color="green", alpha=0.5 )
plot1.line([mean,mean], [-.5,0.3], line_width=3, color="black", alpha=0.4 )
x1_data = [ x for x in x_data if x<mean + 2*sd and mean - 2*sd<x ]
y1_data = [ y_data[x] for x in x1_data]
plot1.vbar(x1_data, top=y1_data, bottom=0, # initialize barplot
                width=0.9, color="red", alpha=0.5 )
show(plot1)
display(Math(r'\qquad\mu={}\qquad \sigma={}'.format(round(mean,2), round(sd,2))))

<IPython.core.display.Math object>

# Effetto sulla varianza di un cambiamento di scala (moltiplicazione per costante)

Per ogni costante $c$ 

$\quad\Var(cX)\ \ =\ \ \ c^2\,\Var(X)$

Infatti, ricordando che $c\,X\in\{cx:x\in R\}$ e che $\mu_{cX}=c\,\mu_X$. Quindi

$\quad\Var(c X)\ \ =\ \ \displaystyle\phantom{c^2}\sum_{x\in R}\ (c\,x-\mu_{cX})^2\, \Pr(cX=cx)$

$\quad\phantom{\Var(cX)}\ \ =\ \ \displaystyle\phantom{c^2}\sum_{x\in R}\ (c\,x-\mu_{cX})^2\,\Pr(X=x)$

$\quad\phantom{\Var(cX)}\ \ =\ \ \displaystyle\phantom{c^2}\sum_{x\in R}\ c^2\,(x-\mu_{X})^2\,\Pr(X=x)$

$\quad\phantom{\Var(cX)}\ \ =\ \ \displaystyle c^2\sum_{x\in R}\ \phantom{c^2}\,(x-\mu_{X})^2\,\Pr(X=x)$

$\quad\phantom{\Var(cX)}\ \ =\ \ \displaystyle c^2\; \Var(X)$.

Ne consegue che


$\quad\SD(cX)\ \ =\ \ \ |c|\cdot\SD(X)$


# Varianza e somma di v.a. e covarianza

Per ogni coppia di v.a. $X$, $Y$ indipendenti

$\quad\Var(X+Y)\ \ =\ \ \Var(X)+\Var(Y)$

In generale, per ogni coppia di v.a. (non necessariamente indipendenti) $X$, $Y$ vale

$\quad\Var(X+Y)\ \ =\ \ \Var(X)+\Var(Y) + 2\,\big(\E(XY)-\E(X)\E(Y)\big)$

La quantità 

$\def\coVar{{\rm coVar}}
\displaystyle\quad$<mark>$\coVar(X,Y)$</mark>$\ \ =\ \ \E(XY)-\E(X)\E(Y)$

si chiama <mark>covarianza</mark> di $X$ ed $Y$. 

Per le proprietà già viste del valore atteso, se $X$ ed $Y$ sono indipendenti allora $\coVar(X,Y)=0$ (ma il viceversa potrebbe non essere vero). 

