### Classification Error Rate

Dato un dataset di esempio $D = {(x_i, y_i), i = 1 : N}$ e una funzione $f : ‚Ñù^D$ &rarr; $Y$, la Classification Error Rate √® l'<u>errore medio su **N** elementi</u> di $f$ su $D$ (conto quante volte sbaglio), ed √® definito come:

# $Err(f, D) = \frac{1}{N} \sum_{i=1}^{N} \mathbb{ùïÄ}_{(y_i \neq f(x_i))}$

- $f(x_i)$ √® la classe predetta
- $y_i$ √® la classe reale di appartenenza
- ùïÄ √® la funzione indicatrice, che vale 1 se la condizione √® vera, 0 altrimenti.

---

## Classification Accuracy Rate

Dato un dataset di esempio $D = {(x_i, y_i), i = 1 : N}$ e una funzione $f : ‚Ñù^D$ &rarr; $Y$, la Classification Accuracy Rate <u>misura della media di quante volte ci prendo</u>:

# $Acc(f, D) = \frac{1}{N} \sum_{i=1}^{N} \mathbb{ùïÄ}_{(y_i = f(x_i))}$

---

# Prior Probability

Se supponiamo che la funzione **f** precedentemente menzionata sia una funzione che fornisce in output una probabilit√†, allora stiamo usando un classificatore probabilistico.

Supponiamo che la probabilit√† di vedere un elemento che appartiene a una certa classe **c** sia $P(Y = c)$, dove quello dentro alle parentesi, $Y = c$, √® l'evento che stiamo considerando, ovvero che l'elemento appartenga alla classe **c**. Questa probabilit√† si indica con la notazione:

# $P(Y = c) = \pi_c$

E normalmente si chiama <span style="color:gold;">**prior probability**</span> (o probabilit√† a priori), perch√© di fatto non dipende da nessun elemento del dataset, ma √® una probabilit√† che viene assegnata a priori, prima di vedere il dataset (ad esempio probabilit√† a priori di capire se una persona √® maschio o femmina prima di guardarla in faccia).

---

# Likelihood

Viene definita come <span style="color:gold;">likelyhood</span> la densit√† di probabilit√† di vedere un vettore $x \in ‚Ñù^D$ che appartiene alla classe **c** come:

# $p(X = x | Y = c) = \phi_c(x)$

- ***p*** (probabilit√†) in questo caso √® una densit√†, quindi √® minuscola
    - La densit√† √® una funzione il cui integrale fa 1, mentre la probabilit√† √® gi√† l'integrale della densit√†

Fissata la classe **c**, qual √® la probabilit√† che **X** sia uguale a **x**.
La likelyhood misura quanto, fissata la classe, quello che sto guardando √® coerente con la mia classe.

*Esempio*: fisso la classe maschio, guardo la foto di una persona con la barba e ottengo (presumibilmente) una probabilit√† alta di essere maschio.

---

# A-posteriori probability

Per computare la probabilit√† che un elemento appartenga a una certa classe, si usa il <span style="color:gold;">**teorema di Bayes**</span>:

# $P(Y = c | X = x) = \frac{P(X = x | Y = c) P(Y = c)}{\sum_{c' \in ùí¥}P(X = x, Y = c')} = \frac{\phi_c(x) \pi_c}{\sum_{c' \in ùí¥}\phi_{c'}(x) \pi_{c'}}$

Dove la probabilit√† di che **Y** appartenga alla classe **c** dato **X** uguale a **x** √® uguale alla:

# $\frac{{\text{ likelyhood }} * {\text{ prior probability }}}{\text{normalizing constant}}$

dove la ***normalizing constant*** √® la sommatoria di tutti i possibili valori che pu√≤ assumere **Y** (ovvero tutte le classi possibili), quindi la somma delle quantit√† che si hanno sopra per tutte le classi.

---

# Classification strategies

Quando dobbiamo classificare, possiamo approcciare il problema in due modi. 

Supponendo di avere un dataset $D = (x_i, y_i)_{i=1..N}$ con $x_i$ vettore di feature e $y_i$ la classe, con in totale **k** classi $c_i | i = 1..k$ e un generico test sample $\hat{x}$:
- ### Maximum Likelihood Classification:
  - Dal dataset **D** impara una funzione di likelyhood per ogni classe $c_i$ $P(x | c_i)$
  - Poi prendo $\hat{x}$ e lo passo a tutte le funzioni di likelyhood &rarr; $P(\hat{x} | c_i)$
  - Quella che mi d√† il valore pi√π alto sar√† la classe da attribuire a $\hat{x}$ &rarr; $\hat{c} = argmax_c P(\hat{x}|c)$
    - Sto cercando la classe che massimizza il likelihood
  
- ### Maximum A-Posteriori Classification:
  - Dal dataset **D** impara una funzione di likelyhood per ogni classe $c_i$ $P(x | c_i)$
  - Da **D** imparo anche la probabilit√† a priori per ogni calsse $c_i$ $P(c_i)$
  - dato $\hat{x}$ applico la regola di Bayes per ottenere $P(c_i | \hat{x})$
  - $\hat{c} = argmax_c P(c_i | \hat{x})$
    - Sto cercando la classe che massimizza

---

# The Bayes Optimal Classifier

## $f_B(x) = argmax_{c \in ùí¥} P(Y = c | X = x) = argmax_{c \in ùí¥} \phi_c(x) \pi_c$

Da un punto di vista teorico, il classificatore baesyano minimizza indirettamente l'errore, perch√© assegno sempre l'errore che ha pi√π probabilit√† di essere giusta, ma non √® utilizzabile nella pratica perch√© X=x non √® finita e perch√© dipende dalle funzioni che ha imparato il classificatore (che potrebbero essere sbaliate in quanto potrebbe aver appreso un fenomeno non correttamente).

Quindi tra tutti i possibili errori attesi, il classificatore baesyano mi fornisce il pi√π basso.

---

### Prodotto di probabilit√†
Se ho due variabili aleatorie **x**, **y**, la probabilit√† congiunta √® espressa come $P(x, y)$.

Se la voglio valutare in un caso specifico sar√† $P(x=\hat{x}, y=\hat{y})$, dove **x** e **y** sono i nomi delle variabili e $\hat{x}$ e $\hat{y}$ sono due osservazioni &rarr; <span style="color:gold;">**Probabilit√† congiunta**</span> (joint probability), perch√© √® la probabilit√† che questi due eventi accadano insieme.

La regola del prodotto collega la probabilit√† congiunta con la probabilit√† condizionate, in quanto:

# $P(x, y) = P(x | y) P(y)$

# $P(x | y) = \frac{P(x, y)}{P(y)}$

La probabilit√† a posteriori, applicando la regola di Bayes sar√†:

# $P(y | x) = \frac{P(x | y) * P(y)}{P(x)}= \frac{P(x, y)}{P(x)}$

---

# Density estimation the JOINT Density JD

Se possiamo stimare la <span style="color:gold;">**joint probability**</span> $P(X = x, Y = c)$, ovvero la probabilit√† che **X** sia uguale a **x** e che **Y** sia uguale a **c**, allora utilizzando la regola del prodotto delle probabilit√† posso trovare tutte le probabilit√† condizionate.


Per fare density esimation posso usare una JD Table:

![JD](./images/bayesLDA1.png)

Tramite conteggio all'interno del mio dataset posso verificare la probabilit√† di quante volte sia presente all'interno del mio dataset una combinazione di variabili aleatorie rispetto al totale.

Problemi:
- La JD table funziona solo per le variabili numerabili (nel continuo non funziona)
- Se le variabili possono assumere molti valori, le possibili configurazioni possono salire molto velocemente
- Molto spesso le JD Table sono soggette a overfitting.

# Overfitting
Siccome il nostro dataset non rappresenta il fenomeno, ma una rappresentazione approssimata del vero fenomeno, pu√≤ non coprire tutti i possibili casi. Quindi costruendo la JD table su un determinato dataset potrebbe voler dire avere probabilit√† 0 per alcuni casi che invece potrebbero accadere.
Se la mia tabella di densit√† di probabilit√† √® talmente specializzata su questo dataset, non rappresenta bene il fenomeno e quindi non √® generalizzabile.
Molto spesso uno stimatore di densit√† di probabilit√† √® soggetto a overfitting &rarr; il mio classificatore ha visto una porzione di fenomeno troppo piccola.

Al posto di stimare $P(X = x, Y = c)$, che tiene conto di tutte le possibili combinazioni, posso stimare $P(x|c)$, cio√® "fissata la classe qual √® la probabilit√† di **x**?

Bloccando la classe, l'overfitting non c'√®!

---

# Parametric Maximum Likelihood Density Estimation

