# Indicatori statistici

Gli indicatori statistici sono delle funzioni di un campione di dati che ne esprimono, in maniera sintetica, alcune proprietà.

In questa sezione definiremo gli indicatori per un campione finito di dati. Sarà possibile estendere queste definizioni a distribuzioni di probabilità, sia discrete che continue, nel seguito.

Assumiamo di seguito di avere un campione di valori $\{x_1, \cdots, x_n\}$.

## Media

La media aritmetia di un campione $\{x_1, \cdots, x_n\}$ è definita come:

$\displaystyle \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$

Ricaviamo l'età media dei passeggeri del Titanic:

In [1]:
import pandas as pd
import numpy as np
import math
df = pd.read_csv('data/titanic passenger list.csv')

In [2]:
df['age'].mean()

29.881137667304014

La media di una funzione di $x$, $f(x)$, si definisce allo stesso modo, come la media del campione $\{f(x_1), \cdots, f(x_n)\}$:
    
$\displaystyle \overline{f(x)} = \frac{1}{n}\sum_{i=1}^n f(x_i)$

In [3]:
(df['age']**2).mean()

1100.4325622370939

## Mediana

La mediana è il valore che divide a metà un campione $\{x_1, \cdots, x_n\}$. Se $n$ è dispari, la mediana è definita come $x_{(n+1)/2}$, altrimenti vale $\frac{1}{2}(x_{n/2}+x_{n/2+1})$.


Ricaviamo la mediana delle età dei passeggeri del Titanic:

In [4]:
df['age'].median()

28.0

## Moda 

La moda è il valore più frequente. In caso di più valori con la stessa frequenza massima, si parla di campione *multimodale*.

In [5]:
df['age'].mode()

0    24.0
dtype: float64

In caso di più valori con la stessa frequenza massima, saranno tutti riprotati. Di seguito, si estrae il primo valore.

In [6]:
df['age'].mode().values[0]

24.0

## Deviazione standard

Indica quanto è grande la dispersione del campione intorno alla media $\bar{x}$. È definito come:

$\displaystyle \sigma_x = \sqrt{\frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^2}$

La somma sotto radice si può sviluppare, ottenendo:

$\displaystyle \frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^2 = \frac{1}{n}\sum_{i=1}^n(x_i^2 - 2\bar{x}x_i + \bar{x}^2) = \frac{1}{n}\sum_{i=1}^nx_i^2 - 2\bar{x}\frac{1}{n}\sum_{i=1}^nx_i + \bar{x}^2 = $

Quindi:

$\displaystyle \sigma_x = \sqrt{\overline{x^2} - \bar{x}^2}$


Calcoliamo la deviazione standard delle età dei passaggeri del Titanic:

In [14]:
df['age'].std()

14.413493211271321

In [13]:
math.sqrt((df['age']**2).mean()-(df['age'].mean())**2)

14.406601748667834

La lieve differenza viene spiegata dal fatto che spesso si preferisce definire la deviazione standard utilizzando $n-1$ al denominatore. La motivazione sarà più chiara nel seguito.

$\displaystyle \sigma_x = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i - \bar{x})^2}$

In pandas si può usare il parametro ```ddof``` che indica quanto sottrarre ad $n$ nel denominatore. Di default ```ddof``` vale 1. Ponendolo a zero si ottiene la definizione che usa $n$ al denominatore. Se usiamo un valore $k$, al denominatore sotto radice verrà usato $n-k$ anziché $n$.


In [16]:
df['age'].std(ddof=0)

14.406601748667825

## Altri indicatori

Esistono altri indicatori che misurano altre proprietà dei capioni. Ad esempio, la *skewness*  misura quanto il campione è distribuito asimmetricamente intorno al valor medio $\bar{x}$, spesso definita come segue, oppure con variazioni sul tema:

$\displaystyle g_1=\frac{\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^3}{\left[\frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^2\right]^{3/2}},\,\,\, 
 b_1=\frac{\frac{1}{n-2}\sum_{i=1}^n(x_i-\bar{x})^3}{\left[\frac{1}{n-1}\sum_{i=1}^n(x_i - \bar{x})^2\right]^{3/2}}$

$g_1$ vale zero se la distribuzione è simmetrica.

A volte viene anche usata la *kurtosis*, definita a partire dal valor medio di $(x_i-\bar{x})^4$, ma non la useremo in questo corso.

In [28]:
df['age'].skew()

0.4076745597436226

<span style="color:blue">Quale sia la definizione usata in una libreria potrebbe non essere ovvio. Conviene, di volta in volta, verificare quali siano le definizioni matematiche dietro le definizioni delle funzioni di libreria.</span>


<span style="color:blue">Per esempio [questa](https://github.com/scipy/scipy/blob/v1.6.1/scipy/stats/stats.py#L1147-L1247) è l'implementazione della funzione ```skew``` di ```numpy```. Nella documentazione del codice troviamo:</span>

*The sample skewness is computed as the Fisher-Pearson coefficient of skewness, i.e.*

$\displaystyle g_1=\frac{m_3}{m_2^{3/2}}$

*where*

$\displaystyle m_i=\frac{1}{N}\sum_{n=1}^N(x_n-\bar{x})^i$

*is the biased sample $i^\texttt{th}$ central moment, and $\bar{x}$ is
the sample mean.  If ``bias`` is False, the calculations are
corrected for bias and the value computed is the adjusted
Fisher-Pearson standardized moment coefficient, i.e.:*

$\displaystyle        G_1=\frac{k_3}{k_2^{3/2}}=
            \frac{\sqrt{N(N-1)}}{N-2}\frac{m_3}{m_2^{3/2}}$
            
#### References
[1] Zwillinger, D. and Kokoska, S. (2000). CRC Standard
Probability and Statistics Tables and Formulae. Chapman & Hall: New
York. 2000.
Section 2.2.24.1


<hr>

# Indicatori per distribuzioni di probabilità discrete

Si possono definire una serie di indicatori legati alle distribuzioni di probabilità. Lo faremo ora per le distribuzioni di probabilità discrete finora considerate. Di seguito, si estenderanno queste definizioni ai casi continui.

## Valore atteso

$\displaystyle \mathbb{E}[x] = \sum_x x P(x)$

Viene anche usata la notazione $\left< x\right>$ che ha similitudini con le notazioni usate in meccanica quantistica.

Ad esempio, nel caso del lancio dei dadi, con $x=1, \cdots, 6$ e $P(x)=1/6$, abbiamo:

$\displaystyle \mathbb{E}[x] = \sum_{x=1}^6 \frac{1}{6} x = \frac{1+\cdots+6}{6}=\frac{21}{6}=3.5$

## Varianza

$\displaystyle \mathbb{V}\mathrm{ar}[x] = \mathbb{E}[(x-\mathbb{E}[x])^2]$

Per il lancio dei dadi:

$\displaystyle \mathbb{V}\mathrm{ar}[x] = \sum_{x=1}^6\frac{1}{6}(x-3.5)^2 =
\frac{2(2.5^2+1.5^2+0.5^2)}{6}=\frac{6.25+2.25+0.25}{3}=\frac{8.75}{3}=2.916666667...$


## Deviazione standard

$\displaystyle \sigma_x = \sqrt{\mathbb{V}\mathrm{ar}[x]}$

Per il lancio dei dadi:

$\displaystyle \sigma_x = \sqrt{2.916666667...}=1.7078251...$

In [17]:
dice=np.array([1, 2, 3, 4, 5, 6])
print("mean:", dice.mean())
print("variance:", dice.var())
print("std. dev.:", dice.std())

mean: 3.5
variance: 2.9166666666666665
std. dev.: 1.707825127659933


# Linearità

Valore atteso e varianza sono lineari, si può dimostrare che:

$\mathbb{E}[x+y] = \mathbb{E}[x]+\mathbb{E}[y]$

(la dimostrazione richiede elementi che saranno visti nelle prossime lezioni).

Se $x$ e $y$ sono indipendenti:

$\mathbb{V}\mathrm{ar}[x+y] = \mathbb{V}\mathrm{ar}[x]+\mathbb{V}\mathrm{ar}[y]$

Di conseguenza, la deviazione standard non è lineare. Ma, dalla linearità della varianza, deriva che le deviazioni standard si sommano *in quadratura*:

$\sigma_{x+y}^2 = \sigma_{x}^2+\sigma_{y}^2$

ossia:

$\sigma_{x+y} = \sqrt{\sigma_{x}^2+\sigma_{y}^2}$

Inoltre:

$\mathbb{E}[\alpha\,x] = \alpha\,\mathbb{E}[x]$

$\mathbb{V}\mathrm{ar}[\alpha\,x] = \alpha^2\,\mathbb{V}\mathrm{ar}[x]$

$\sigma_{\alpha\,x} = |\alpha|\,\sigma_x$

In particolare, se:

$\displaystyle \bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$

e per ogni $i$ $\mathbb{E}[x_i]=\mu$ e $\mathbb{V}\mathrm{ar}[x_i] =\sigma^2$, abbiamo che:

$\mathbb{E}[\bar{x}] = \mu$

$\displaystyle\mathbb{V}\mathrm{ar}[\bar{x}] = \frac{\sigma^2}{N}$

$\displaystyle\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{N}}$

# Variabile di Bernoulli

Per una variabile di Bernoulli $x$, abbiamo due possibili valori: $x=0, 1$ con probabilità $P(0)=1-p$, $P(1)=p$. Quindi abbiamo:

$\mathbb{E}[x] = 0\cdot P(0) + 1\cdot P(1) = p$

$\mathbb{V}\mathrm{ar}[x] = (0-p)^2\cdot P(0) + (1-p)^2\cdot P(1) = p^2(1-p)+(1-p)^2p = p(1-p)$

$\sigma_x = \sqrt{p(1-p)}$

In [18]:
from scipy.stats import bernoulli
p = 0.3
print("mean:", bernoulli.mean(p))
print("variance:", bernoulli.var(p))
print("std. dev.:", bernoulli.std(p))

mean: 0.3
variance: 0.21
std. dev.: 0.458257569495584


# Variabile Binomiale

Una variabile binomiale $x$ caratterizzata da un numero di prove $n$ ed una probabilità individuale di successo $p$, è la somma di $N$ variabili di Bernoulli. Per la linearità del valore atteso e della varianza, abbiamo:

$\mathbb{E}[x] = Np$

$\mathbb{V}\mathrm{ar}[x] = Np\,(1-p)$

$\sigma_x = \sqrt{Np\,(1-p)}$


In [19]:
from scipy.stats import binom
n, p = 10, 0.3
print("mean:", binom.mean(n, p))
print("variance:", binom.var(n, p))
print("std. dev.:", binom.std(n, p))

mean: 3.0
variance: 2.0999999999999996
std. dev.: 1.4491376746189437


# Variabile di Poisson

Una variabile di Poisson $x$ si ottiene da una variabile binomiale nel limite per $p\rightarrow 0$, $N\rightarrow\infty$ con rapporto $Np=\nu$.

Si ottiene quindi facilmente:

$\mathbb{E}[x] = \nu$

$\mathbb{V}\mathrm{ar}[x] = \nu$

$\sigma_x = \sqrt{\nu}$


In [20]:
from scipy.stats import poisson
nu = 3.5
print("mean:", poisson.mean(nu))
print("variance:", poisson.var(nu))
print("std. dev.:", poisson.std(nu))

mean: 3.5
variance: 3.5
std. dev.: 1.8708286933869707


## Correlazione

Per distribuzioni a due o più variabili, oltre che alla varianza di ciascuna variabile, si definisce la **covarianza** di due variabili come:

$\mathbb{C}\mathrm{ov}(x, y) = \mathbb{E}[x y] - \mathbb{E}[x] \mathbb{E}[y]$

Il coefficiente di correlazione si definisce come:

$\displaystyle \rho_{xy} = \frac{\mathbb{C}\mathrm{ov}(x, y)}{\sigma_x\,\sigma_y}$

Per costruzione, si dimostra che $0\le \rho_{xy} \le 1$.

Si dimostra anche che:

$\mathbb{V}\mathrm{ar}[x+y] = \mathbb{V}\mathrm{ar}[x] + \mathbb{V}\mathrm{ar}[y] + 2\,\mathbb{C}\mathrm{ov}(x, y)$
