# Calcolo delle probabilità

Il calcolo delle probabilità è la teoria che riguarda il calcolo della probabilità del verificarsi di certi eventi (elementari o composti). Il calcolo della probabilità è alla base della statistica.

## Impostazione assiomatica

Il calcolo delle probabilità che andiamo a studiare è detto ad *impostazione assiomatica* perchè basato su dei particolari assiomi dai quali si costruiscono le altre regole necessarie.

### Elementi fondamentali

Supponiamo di voler studiare una situazione:

* $\Omega$ è l'insieme degli esiti possibili, lo spazio campione
* $A \subset \Omega$ è detto **evento**
    * **Elementare** se $|A|=1$, altrimenti **composto**
* Ad ogni **evento** è associata una probabilità $P(A)$

Dati due eventi $A$ e $B$, questi sono **incompatibili** se sono **disgiunti**.

Una misura di probabilità è un'applicazione $$P: \mathbb{P}(\Omega) \to \mathbb{R}^+_0$$ che associa un valore reale ad ogni sottoinsieme di $\Omega$.

Inoltre:

* per ogni $A$, $P(A) \geq 0$
    * **frequenza relativa**
* $P(\Omega)=1$
    * probabilità che si verifichi un qualsiasi evento
* data la famiglia $\{A_i,i\in l \subseteq N\}$ di eventi incompatibili vale $$P(\bigcup_{i \in l} A_i) = \sum_{i \in l} P(A_i)$$
    * la probabilità che si verifichi uno qualsiasi degli eventi appartenenti ad un insieme di eventi incompatibili è data dalla somma delle probabilità del verificarsi di ogni evento appartenente all'inseiem degli eventi incompatibili considerato
    
Una misura di probabilità assegna valori a **sottoinsiemi** di $\Omega$, **non** agli eventi elementari, come si penserebbe comunemente.

Ricordiamo anche le seguenti formule:

* $P(A \cup B) = P(A) + P(B) - P(A \cap B)$
* $P(A \cup B) = P(A \cap \bar{B}) + P(A \cap B) + P(\bar{A} \cap B) $

## Probabilità condizionata

Dati due eventi $A,B$ con $P(B)>0$, si dice probabilità dell'evento $A$ condizionata dall'evento $B$ $$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

Deriva subito che $$P(A \cap B) = P(A|B)P(B) = P(B|A)P(A)$$

Importante è anche la formula del prodotto $$P(A \cap B \cap \ldots \cap Z) = P(A) P(B|A) \ldots P(Z|A \cap B \cap \ldots \cap Y)$$

### Indipendenza stocastica

Dati due eventi $A, B$, se vale che $P(A) = P(A|B)$ e cioò anche $P(B) = P(B|A)$ e anche $P(A \cap B) = P(A)P(B)$ essi sono **stocasticamente indipendenti**.

### Formula delle probabilità totali

Consideriamo una partizione $$\{A_i,i=\{1 \ldots n\} A_i \subseteq \Omega\}$$ di $\Omega$, cioè una famiglia di eventi mutualmente incompatibili, tali che la loro unione sia $\Omega$.

$$P(B) = \sum_{i=1}^{n}P(B|A_i)P(A_i)$$



## Variabili aleatorie

Le variabili alatorie sono delle "trasformazioni" che consentono di ricondursi sempre a $\mathcal{R}$ come spazio campione ed a considerare come suoi sottoinsiemi gli intervalli di R.

Formalmente dato uno spazio campione $\Omega$, è detta variabilile aleatoria un'applicazione $$X: \Omega \to \mathcal{R}$$ che associa un numero reale ad ogni elemento di $\Omega$.

In base a questa definizione possiamo assegnare delle probabilità agli eventi del tipo $$X \in B \subseteq R$$ essendo $$P(\{X \in B\}) = P(\{\omega \in \Omega : X(\omega) \in B\})$$

Per comodità scriveremo $P(X \in B)$

Intuitivamente una variabile aleatoria può essere vista come il risultato esprimibile numericamente di un esperimento non ancora avvenuto.

### Funzioni di ripartizione

Ad ogni variabile aleatoria è associata una **funzione di ripartizione** $$F_X: R \to [0,1]$$ ed indica $$F_X(t) = P(X \leq t)$$

Da questa definizione possiamo ottenere la probabilità che una variabile aleatoria assuma un intervallo tra due valori: $$P(X \in (a,b]) = F_X(b) - F_X(a)$$

Generalmente la funzione di ripartizione non è nota! E' scopo delle statistica determinarla. Nella probabilità si assume che questa sia nota.

#### Requisiti di una funzione di ripartizione

Una funzione di ripartizione $F$ è:

* Monotona non decrescente
* $\lim_{t \to \infty} F(t) = 1$
* $\lim_{t \to -\infty} F(t) = 0$
* $\lim_{t \to t_0^+} F(t) = F(t_0)$
In [ ]:

### Distribuzione discreta di probabilità

Per le variabili aleatorie discere è possibile associare una funzione detta **distribuzione discreta di probabilità** $$p_X:R\to[0,1]$$ ed è definita come segue

$$p_x(t) = \begin{cases}
P(X = t) & \text{per ogni } t \in S \\ 
0 & \text{altrimenti}
\end{cases}$$

#### Requisiti funzione di distribuzione discreta di probabilità

* $p_X(t) \geq 0$ per ogni $t \in R$
* $\sum p_X(s) = 1$

#### Corrispondenza con funzione di ripartizione

$$F_X(t) = \sum_{s \in S: s \leq t} p_X(s)$$

Da questa relazione ci accorgiamo che le funzione di ripartizione presentano dei salti in corrispondenza dei valori $s$, mentre sono costanti per gli altri valori.

Inoltre:
$$p_X(s) = F_X(s) - lim_{t \to s^-} F_X(t)$$



## Variabili Aleatorie Continue

Una variabile aleatoria è detta continua nel caso in cui la corrispondente funzione di ripartizione $F_X$ sia continua. In particolare è detta **assolutamente continua** se esiste una funzione $$f_X:R \to R_+$$ tale che $$F_X(t) = \int^{t}_{- \infty} f_x(u) \, du \text{  per ogni } t \in R$$ 

Tale funzione $F_X(t)$ viene detta funzione di **densità di probabilità** di $X$. Come per le variabili aleatorie continue, questa funzione indica la probabilità che $X$ sia minore di $t$.

*Per semplicità in seguito le variabili aleatoria assolutamente continue avranno sempre una funzione di ripartizione derivabile e che la densità di probabilità sia derivata di questa* 

E' detto **supporto** della variabile X l'insieme $S = \{t \in R: f_x(t) \neq 0 \}$ ed è l'insieme dei valori assumbili dall'evento che si sta misurando.

Si osservi che se la **densità di probabilità** $f_x(t)$ di una variabile aleatoria esiste allora la **funzione di ripartizione** è una sua primitiva.

La probabilità che una variabile aleatoria continua assuma un valore determinato è sempre nulla! 

$$P(X=t_0) = P(X \leq t_0) - lim_{t \to t_0} P(X \leq t) = F_X(t_0) - lim_{t \to t_0} F_X(t) = F_X(t_0) - F_X(t_0) = 0$$

Mentre $$P(X \in (a,b]) = F_X(b) - F_X(a) = \int^{b}_{a} f_X(u) \, du$$

#### Requisiti funzione di densità di probabilità

* $f_x(t) \geq 0$ per ogni t
* $\int_{- \infty}^{\infty} f_x(t)dt = 1$

#### Relazione tra funzione di ripartizione e densità di probabilità

Data una funzione di ripartizione, si ottiene la funzione di densità di probabilità tramite la derivazione:

$$\frac{d}{dt} F_X(t) = f_X(t)$$

## Variabili aleatorie multidimensionali

Prendiamo l'esempio con due dimensioni. Una variabile aleatoria bidimensionale è una applicazione $$(X;Y): \Omega \to R^2$$ 

**Funzione di ripartizione congiunta** $$F_{X,Y}(t,s):R^2 \to [0,1]$$ ed è definita come $$F_{X,Y}(t,s) = P(X \leq t \cap Y \leq s)$$

**Funzione di densità congiunta** $$f_{X,Y}: R^2 \to R$$ tale che $$F_{X,Y}(t,s) = \int^t_{- \infty} \int^s_{- \infty} f_{X,Y} (u,v) \, du \, dv$$

Valgono anche le seguenti formule:

$$P((X,Y) \in (a1,b1) \times (a2,b2)) = F(b1,b2) - F(a1,b2) - F(b1,a2) + F(a1,a2) = \int^{a1}_{b1} \int^{a2}_{b2} f_{X,Y}(u,v)$$

**Stocasticamente indipendenti**

Se per ogni $t,s$ vale che $$F(t,s) = F(t)F(S)$$ e quindi anche $$f(t,s)=f(t)f(s)$$

## Funzioni marginali

### Funzione di ripartizione marginale 

$$F_X(t) = P(X \leq t \cap Y \leq \infty) = F_{X,Y}(t,\infty)$$

### Funzione di densità marginale 

$$f_x(t) = \int^{\infty}_{- \infty} f_{X,Y}(t,s) ds$$

## Indici e Variabili Aleatorie

Grandezze numeriche associate alle variabili aleatorie in grado di sintetizzare, con un solo valore, le principali caratteristiche delle loro distribuzioni.

### Valore atteso

E' la media dei dati statistici.

$$E[X] = \begin{cases} \sum s p_x(s) & \text{ se X è discreta} \\
\int u \, f_X(u) du & \text{ se X è assolutamente continua} \end{cases}$$

Il valore atteso potrebbe non esistere! E' il caso in cui la sommatoria o l'integrale non convergano.

#### Proprietà

* Se $X=a$ con probabilità uguale a 1 allora $E[X]=a$
* $E[aX+b] = a \cdot E[X] + b$
* Data una funzione g(X) il suo valore atteso è $\int^{\infty}_{-\infty} g(u) f_X(u) du$

### Momento Centrale

$$E[X^r] = \begin{cases} \sum s^r p_x(s) & \text{ se X è discreta} \\
\int u^r \, f_X(u) du & \text{ se X è assolutamente continua} \end{cases}$$

### Moda

Corrisponde al valore per cui è massima la distribuzione discreta di probabilità (se X è discreta) oppure la funzione di densità (se X è ass. continua)

Questo valore potrebbe non essere unico! Si parla quindi di distribuzione **multimodale**.

### Mediana

Data una variable aleatoria X chiamiamo mediana $X^*$ la quantità che soddisfa questa uguaglianza: 
$$\lim_{t \to X^*} F_X(t) \leq 1/2 \leq F_X(X^*)$$

Nel caso di variabili discree questo è il valore per cui il valore dell'ascissa passa da un valore di 0.5 ad uno maggiore di 0.5.

In generale è il valore per cui la probabilità che X assuma valori più piccoli che la probabilità che X assuma valori più grandi, sono pari a 0.5, 

La mediana non può essere unica, e ciè succede quando esistono più valori per cui $$F_X(t) = 1/2$$

### Quantili

Dato un valore $p \in [0,1]$ è detto **quantile p-esimo** il valore $$x_p \in R: \lim_{t \to x_p} F_X(t) \leq p \leq F_X(x_p)$$ e nel caso in cui la funzione di ripartizione sia continua allora: $$x_p = F_X(p)$$

Quindi $x_p$ è il valore per cui $P(X \leq x_p) = p$ e $P(X > x_p) = 1- p$

### Varianza

$$V[X] = \begin{cases}
\sum(s-E[X])^2 p_x(s) & \text{se X è discreta} \\
\\
\int^{\infty}_{- \infty} (u-E[X])^2 f_X(u) du & \text{se X è assolutamente continua} 
\end{cases} = \sigma^2_X$$

Proprietà:

* per ogni $a$, se $X=a$, con probabilità uguale a 1, allora $V[X]=0$
* $V[aX+b] = a^2 V[X]$
* $V[X] = E[X^2]-(E[X])^2$

### Deviazione Standard

$$\sigma_X = \sqrt{\sigma^2_X}$$

Ha il vantaggio di avere la stessa unità di misura del valore atteso

### Bidimensionali

* E[XY] = E[X]E[Y]
* V[X+Y] = V[X]+V[Y]

#### Covarianza

$$Cov[X,Y] = E[(X-E[X])(Y-E[Y])] = E[XY]-E[X]E[Y]$$

E un indice di correlazione che sussiste tra due variabili. Tanto è più grande tanto più forte è il legame di dipendenza tra queste. 

Se la covarianza è 0, le variabili sono dette **incorrelate**.

Dire che due variabili sono incorrelate, non implica che esse siano **indipendenti**.

#### Coefficiente di Pearson

$$\mathcal{p}_{XY} = \frac{Cov[X,Y]}{\sqrt{V[X]V[Y]}}$$

Il coefficiente è 0, se $X,Y$ sono incorrelate.

$|\mathcal{p}_{XY}|=1$ se vale che $Y=aX+b$, se vale +1, allora $a>0$, se vale -1 allora $a<0$.