# Stats Codebook - Random Variables

---

## Contents

- [Definition](#random-variable-definition)
- [Expectation](#expectation)
- [Variance](#random-variance)
- [Independence & Identical Distribution](#iid)
- [Covariance](#random-covariance)
- [Correlation](#correlation)

---

<a id="random-variable-definition"></a>
# Definition

Dato il *sample space* $\Omega$ di un *random experiment*, una **random variable** $X$ è una funzione che assegna a ciascun elemento del *sample space* $\omega\in \Omega$ uno ed un solo numero reale $X(\omega)=x$.

$$\large X:\Omega\rightarrow \Re$$

Gli *outcome* prodotti dal *random experiment* prendono il nome di **realizations**.

Una qualsiasi funzione di *random variables* prende il nome di **statistic**.

Ogni *random variable* è associata ad un suo **probability space**, un costrutto matematico formato da tre elementi:

- Un *sample space*
- Un *event space*, cioè l'insieme di eventi costruiti a partire dai *simple events* del *sample space*
- Una *probability function*, che associa ad ogni evento dell'*event space* la sua probabilità di occorrenza

<br>

La **Cumulative Distribution Function** di una *random variable* $X$ è quella funzione che, dato in ingresso un certo valore $x$, restituisce la probabilità che la *realization* di $X$ assuma valore uguale o inferiore ad esso.

$$\large F(x)=P(X\leq x)$$

La *CDF* è sempre crescente o costante, non decresce mai, e assume valori solo nell'intervallo $[0, 1]$.

La differenza fra l'*ECDF* e la *CDF* è che la prima descrive la distribuzione cumulativa di un *sample* concreto, mentre la seconda modella la distribuzione dell'intera popolazione.

Un **p-quantile** è quel valore che, se fornito in input alla *CDF*, restituisce esattamente una probabilità pari a *p*. Ad esempio, con $x_{0.25}$ si indica lo 0.25-quantile: la probabilità di osservare un valore *alla sua sinistra* (cioè minore) è pari a $p$ (cioè 0.25), mentre la probabilità di osservare un valore *alla sua destra* (cioè maggiore) è $1-p$ (cioè 0.75).

$$\large F(x_p)=p$$

<br>

Una *random variable* $X$ si dice **continuous** se esiste una funzione $f(x)$, definita per *tutti* i valori reali, il cui integrale coincide con la *cumulative distribution function* di $X$.

$$\large F(x)=\int_{-\infty}^{x}f(t)dt$$

La funzione $f(x)$ prende il nome di **Probability Density Function** della *random variable* $X$.

Ogni *PDF* assume sempre valori positivi o nulli, e l'area totale sottesa alla curva è sempre pari ad uno.

Per una *random variable* continua, la probabilità che essa assuma uno specifico valore reale è sempre nulla.

Sfruttando la definizione di *CDF* e ricordando che la probabilità che $X$ assuma uno specifico valore reale è sempre nulla, possiamo calcolare le probabilità di occorrenza degli *outcome* di $X$ per tutti gli intervalli possibili:

- $\large P(X\leq a)=P(X<a)=CDF(a)=\int_{-\infty}^{a}f(t)dt$


- $\large P(X\geq a)=P(X>a)=1-CDF(a)=1-\int_{-\infty}^{a}f(t)dt$


- $\large P(a\leq X\leq b)=CDF(b)-CDF(a)=\int_{a}^{b}f(t)dt$


- $\large P(a<X<b)=CDF(b)-CDF(a)=\int_{a}^{b}f(t)dt$

<br>

Una *random variable* si dice **discrete** se il suo *sample space* contiene un numero finito o *countable* di *simple events*.

Data una *random variable* discreta $X$, la sua **Probability Mass Function** è la funzione che associa a ciascun valore che $X$ può assumere la sua corrispondente probabilità di occorrenza.

$$\large f(X)=P(X=x_i)=p_i$$

La *cumulative distribution function* di una *random variable* discreta $X$ è definita come la somma delle probabilità di occorrenza di tutti i valori assunti da $X$ che sono uguali o inferiori rispetto all'input $x$.

$$\large F(x)=\sum_{x_i\leq x}p_i$$

Sfruttando la definizione di *CDF*, possiamo calcolare le probabilità di occorrenza degli *outcome* di $X$ per tutti gli intervalli possibili:

- $\large P(X\leq a)=CDF(a)$


- $\large P(X<a)=CDF(a)-PMF(a)$


- $\large P(X>a)=1-CDF(a)$


- $\large P(X\geq a)=1-CDF(a)+PMF(a)$


- $\large P(a\leq X\leq b)=CDF(b)-CDF(a)+PMF(a)$


- $\large P(a< X\leq b)=CDF(b)-CDF(a)$


- $\large P(a< X< b)=CDF(b)-CDF(a)-PMF(b)$


- $\large P(a\leq X< b)=CDF(b)-CDF(a)+PMF(a)-PMF(b)$

---

<a id="expectation"></a>
## Expectation

L'**expectation** di una *random variable* rappresenta il valore centrale della distribuzione della popolazione, lo stesso ruolo che la media aritmetica svolge nei *sample* e nelle *realization*. Per questo motivo, è spesso denotata con $\mu$. 

Per una variabile aleatoria **continua**, l'*expectation* può essere calcolata come l'integrale da meno infinito a più infinito del prodotto fra il generico valore $x$ e il valore assunto dalla *probability density function* in tale punto.

$$\large \mu=E(X)=\int_{-\infty}^{+\infty}x\;f(x)\;dx$$

Per una variabile aleatoria **discreta**, l'*expectation* può essere calcolata come la sommatoria dei prodotti omologhi fra i valori che la variabile può assumere e le corrispondenti probabilità di occorrenza.

$$\large \mu=E(X)=\sum_{i=1}^{k}x_i\;p_i$$

L'aspettazione di una variabile che assume sempre un valore costante è pari al valore in questione:

$$\large E(a)=a$$

L'aspettazione del prodotto fra una variabile ed una costante reale è uguale al prodotto fra la costante e l'aspettazione della variabile:

$$\large E(a\cdot X)=a\cdot E(X)$$

Sfruttando le due regole precedenti possiamo calcolare l'aspettazione di una variabile definita come la somma fra una costante reale ed il prodotto fra un'altra costante e la variabile stessa.

$$\large E(a+b\cdot X)=a+b\cdot E(X)$$

L'aspettazione della somma di due variabli è pari alla somma delle singole aspettazioni.

$$\large E(X+Y)=E(X)+E(Y)$$

---

<a id="random-variance"></a>
## Variance

La **variance** di una *random variable* rappresenta l'entità della dispersione rispetto all'*expectation* dei valori assunti dalla variabile. E' spesso denotata con $\sigma^2$.

A livello concettuale, la *variance* di una *random variable* $X$ è definita come l'*expectation* al quadrato di $X$ meno il suo il suo valore centrale.

$$\large Var(X)=\sigma^2(X)=E[X-E(X)]^2=E[X-\mu_X]^2$$

Per una *random variable* continua, la varianza si calcola come segue:

$$\large Var(X)=\int_{-\infty}^{+\infty}(x-E(X))^2f(x)dx$$

Per una *random variable* discreta, la varianza si calcola come segue:

$$\large Var(X)=\sum_i\left(x_i-E(X)\right)^2\; p_i$$

La radice quadrata della *variance* è definita come la **standard deviation** della *random variable*.

La deviazione standard ha la stessa unità di misura delle osservazioni in analisi, e descrive la deviazione media dei valori assunti dalla *random variable* rispetto alla corrispondente *expectation*.

$$\large Std(X)=\sqrt{Var(X)}$$

La varianza di una variabile che assume sempre valore costante è nulla:

$$\large Var(a)=0$$

La varianza del prodotto fra una costante reale ed una variabile è pari al prodotto del quadrato della costante e la varianza della variabile:

$$\large Var(a\cdot X)=b^2 \cdot Var(X)$$

Sfruttando le due regole precedenti possiamo calcolare la varianza di una variabile definita come la somma fra una costante reale ed il prodotto fra un'altra costante e la variabile stessa.

$$\large Var(a+b\cdot X)=b^2\cdot Var(X)$$

---

<a id="iid"></a>
## Independence & Identical Distribution

Un insieme di *random variables* $X_1,\dots,X_n$ si dicono **independent** *and* **identically distributed** se tutte seguono la stessa distribuzione e sono indipendenti l'una dall'altra.

Un **sample**, quindi, più formalmente può essere visto come una sequenza di *random variable* indipendenti e identicamente distribuite, ognuna che ha generato una singola *realization*.

L'identica distribuzione significa che tutte le variabili assumono valori a partire da una singola *probability distribution*. Sarebbe a dire che se plottassimo tutte le variabili insieme, tenderebbero a seguire l'andamento di una delle diverse distribuzioni di probabilità note, come la normale, l'uniforme, ecc.

L'indipendenza, invece, fa riferimento al fatto che i valori assunti da una o da un insieme di variabili non influenzano in alcun modo i valori assunti dalle altre.

Delle variabili *iid* hanno tutte gli stessi valori di *expectation* e *variance*:

$$\large E(X_i)=\mu\;\;\;\;\;Var(X_i)=\sigma^2$$

---

<a id="random-covariance"></a>
## Covariance

La *covariance* tra due *random variable* $X$ e $Y$ è pari all'*expectation* del prodotto delle due variabili normalizzate rispetto alle corrispondenti aspettazioni.

$$\large Cov(X,Y)=E[(X-E(X))(Y-E(Y))]$$

La *covarianza* è positiva se, in media, a grandi valori di $X$ corrispondono grandi valori di $Y$; al contrario, la *covarianza* è negativa se, in media, a grandi valori di $X$ corrispondono piccoli valori di $Y$.

Con la covarianza possiamo avere informazioni solo sulla **direzione** dell'associazione fra $X$ e $Y$, cioè se esse tendono a crescere in modo concorde o inverso, e non sull'entità dell'associazione stessa o sulla dipendenza di una dall'altra.

La covarianza è simmetrica:

$$\large Cov(X,Y)=Cov(Y,X)$$

La covarianza di una variabile rispetto a se stessa coincide con la sua varianza:

$$\large Cov(X,X)=Var(X)$$

La covarianza di due combinazioni lineari di *random variables* è pari al prodotto dei fattori moltiplicativi delle variabili con la covarianza delle variabili.

$$\large Cov(aX + b, cY + d)=ac \cdot Cov(X,Y)$$

Se due variabili $X$ e $Y$ sono indipendenti, la loro covarianza è nulla:

$$\large X,Y\;\;\;\text{independent}\rightarrow Cov(X,Y)=0$$

La definizione di covarianza è utile per formulare l'*Additivity Theorem*, che descrive il calcolo della varianza della somma/differenza fra *random variables*:

$$\large Var(X\pm Y)=Var(X)+Var(Y)\pm 2Cov(X,Y)$$

Possiamo dedurre che se le variabili sono indipendenti, allora:

$$\large Var(X\pm Y)=Var(X)+Var(Y)$$

---

<a id="correlation"></a>
## Correlation

Date due *random variable* $X$ e $Y$, il loro **correlation coefficient** è definito come il rapporto fra la loro covarianza e il prodotto delle singole deviazioni standard.

$$\large \rho(X,Y)=\frac{Cov(X,Y)}{Std(X)\cdot Std(Y)}$$

Il coefficiente di correlazione è una misura dell'entità della relazione **lineare** esistente fra $X$ e $Y$.

Il coefficiente di correlazione assume solo valori nell'intervallo $[-1, 1]$.

Se $X$ e $Y$ sono indipendenti, sicuramente non sono correlate.

Al contrario, se il coefficiente di correlazione evidenzia che le due variabili non sono correlate, non è detto che siano per forza indipendenti.

---