### Classification Error Rate

Dato un dataset di esempio $D = {(x_i, y_i), i = 1 : N}$ e una funzione $f : ℝ^D$ &rarr; $Y$, la Classification Error Rate è l'<u>errore medio su **N** elementi</u> di $f$ su $D$ (conto quante volte sbaglio), ed è definito come:

# $Err(f, D) = \frac{1}{N} \sum_{i=1}^{N} \mathbb{𝕀}_{(y_i \neq f(x_i))}$

- $f(x_i)$ è la classe predetta
- $y_i$ è la classe reale di appartenenza
- 𝕀 è la funzione indicatrice, che vale 1 se la condizione è vera, 0 altrimenti.

---

## Classification Accuracy Rate

Dato un dataset di esempio $D = {(x_i, y_i), i = 1 : N}$ e una funzione $f : ℝ^D$ &rarr; $Y$, la Classification Accuracy Rate <u>misura della media di quante volte ci prendo</u>:

# $Acc(f, D) = \frac{1}{N} \sum_{i=1}^{N} \mathbb{𝕀}_{(y_i = f(x_i))}$

---

# Prior Probability

Se supponiamo che la funzione **f** precedentemente menzionata sia una funzione che fornisce in output una probabilità, allora stiamo usando un classificatore probabilistico.

Supponiamo che la probabilità di vedere un elemento che appartiene a una certa classe **c** sia $P(Y = c)$, dove quello dentro alle parentesi, $Y = c$, è l'evento che stiamo considerando, ovvero che l'elemento appartenga alla classe **c**. Questa probabilità si indica con la notazione:

# $P(Y = c) = \pi_c$

E normalmente si chiama <span style="color:gold;">**prior probability**</span> (o probabilità a priori), perché di fatto non dipende da nessun elemento del dataset, ma è una probabilità che viene assegnata a priori, prima di vedere il dataset (ad esempio probabilità a priori di capire se una persona è maschio o femmina prima di guardarla in faccia).

---

# Likelihood

Viene definita come <span style="color:gold;">likelyhood</span> la densità di probabilità di vedere un vettore $x \in ℝ^D$ che appartiene alla classe **c** come:

# $p(X = x | Y = c) = \phi_c(x)$

- ***p*** (probabilità) in questo caso è una densità, quindi è minuscola
    - La densità è una funzione il cui integrale fa 1, mentre la probabilità è già l'integrale della densità

Fissata la classe **c**, qual è la probabilità che **X** sia uguale a **x**.
La likelyhood misura quanto, fissata la classe, quello che sto guardando è coerente con la mia classe.

*Esempio*: fisso la classe maschio, guardo la foto di una persona con la barba e ottengo (presumibilmente) una probabilità alta di essere maschio.

---

# A-posteriori probability

Per computare la probabilità che un elemento appartenga a una certa classe, si usa il <span style="color:gold;">**teorema di Bayes**</span>:

# $P(Y = c | X = x) = \frac{P(X = x | Y = c) P(Y = c)}{\sum_{c' \in 𝒴}P(X = x, Y = c')} = \frac{\phi_c(x) \pi_c}{\sum_{c' \in 𝒴}\phi_{c'}(x) \pi_{c'}}$

Dove la probabilità di che **Y** appartenga alla classe **c** dato **X** uguale a **x** è uguale alla:

# $\frac{{\text{ likelyhood }} * {\text{ prior probability }}}{\text{normalizing constant}}$

dove la ***normalizing constant*** è la sommatoria di tutti i possibili valori che può assumere **Y** (ovvero tutte le classi possibili), quindi la somma delle quantità che si hanno sopra per tutte le classi.

---

# Classification strategies

Quando dobbiamo classificare, possiamo approcciare il problema in due modi. 

Supponendo di avere un dataset $D = (x_i, y_i)_{i=1..N}$ con $x_i$ vettore di feature e $y_i$ la classe, con in totale **k** classi $c_i | i = 1..k$ e un generico test sample $\hat{x}$:
- ### Maximum Likelihood Classification:
  - Dal dataset **D** impara una funzione di likelyhood per ogni classe $c_i$ $P(x | c_i)$
  - Poi prendo $\hat{x}$ e lo passo a tutte le funzioni di likelyhood &rarr; $P(\hat{x} | c_i)$
  - Quella che mi dà il valore più alto sarà la classe da attribuire a $\hat{x}$ &rarr; $\hat{c} = argmax_c P(\hat{x}|c)$
    - Sto cercando la classe che massimizza il likelihood
  
- ### Maximum A-Posteriori Classification:
  - Dal dataset **D** impara una funzione di likelyhood per ogni classe $c_i$ $P(x | c_i)$
  - Da **D** imparo anche la probabilità a priori per ogni calsse $c_i$ $P(c_i)$
  - dato $\hat{x}$ applico la regola di Bayes per ottenere $P(c_i | \hat{x})$
  - $\hat{c} = argmax_c P(c_i | \hat{x})$
    - Sto cercando la classe che massimizza

---

# The Bayes Optimal Classifier

## $f_B(x) = argmax_{c \in 𝒴} P(Y = c | X = x) = argmax_{c \in 𝒴} \phi_c(x) \pi_c$

Da un punto di vista teorico, il classificatore baesyano minimizza indirettamente l'errore, perché assegno sempre l'errore che ha più probabilità di essere giusta, ma non è utilizzabile nella pratica perché X=x non è finita e perché dipende dalle funzioni che ha imparato il classificatore (che potrebbero essere sbaliate in quanto potrebbe aver appreso un fenomeno non correttamente).

Quindi tra tutti i possibili errori attesi, il classificatore baesyano mi fornisce il più basso.

---

### Prodotto di probabilità
Se ho due variabili aleatorie **x**, **y**, la probabilità congiunta è espressa come $P(x, y)$.

Se la voglio valutare in un caso specifico sarà $P(x=\hat{x}, y=\hat{y})$, dove **x** e **y** sono i nomi delle variabili e $\hat{x}$ e $\hat{y}$ sono due osservazioni &rarr; <span style="color:gold;">**Probabilità congiunta**</span> (joint probability), perché è la probabilità che questi due eventi accadano insieme.

La regola del prodotto collega la probabilità congiunta con la probabilità condizionate, in quanto:

# $P(x, y) = P(x | y) P(y)$

# $P(x | y) = \frac{P(x, y)}{P(y)}$

La probabilità a posteriori, applicando la regola di Bayes sarà:

# $P(y | x) = \frac{P(x | y) * P(y)}{P(x)}= \frac{P(x, y)}{P(x)}$

---

# Density estimation the JOINT Density JD

Se possiamo stimare la <span style="color:gold;">**joint probability**</span> $P(X = x, Y = c)$, ovvero la probabilità che **X** sia uguale a **x** e che **Y** sia uguale a **c**, allora utilizzando la regola del prodotto delle probabilità posso trovare tutte le probabilità condizionate.


Per fare density esimation posso usare una JD Table:

![JD](./images/bayesLDA1.png)

Tramite conteggio all'interno del mio dataset posso verificare la probabilità di quante volte sia presente all'interno del mio dataset una combinazione di variabili aleatorie rispetto al totale.

Problemi:
- La JD table funziona solo per le variabili numerabili (nel continuo non funziona)
- Se le variabili possono assumere molti valori, le possibili configurazioni possono salire molto velocemente
- Molto spesso le JD Table sono soggette a overfitting.

# Overfitting
Siccome il nostro dataset non rappresenta il fenomeno, ma una rappresentazione approssimata del vero fenomeno, può non coprire tutti i possibili casi. Quindi costruendo la JD table su un determinato dataset potrebbe voler dire avere probabilità 0 per alcuni casi che invece potrebbero accadere.
Se la mia tabella di densità di probabilità è talmente specializzata su questo dataset, non rappresenta bene il fenomeno e quindi non è generalizzabile.
Molto spesso uno stimatore di densità di probabilità è soggetto a overfitting &rarr; il mio classificatore ha visto una porzione di fenomeno troppo piccola.

Al posto di stimare $P(X = x, Y = c)$, che tiene conto di tutte le possibili combinazioni, posso stimare $P(x|c)$, cioè "fissata la classe qual è la probabilità di **x**?

Bloccando la classe, l'overfitting non c'è!

---

# Parametric Maximum Likelihood Density Estimation

