### Classification Error Rate

Dato un dataset di esempio $D = {(x_i, y_i), i = 1 : N}$ e una funzione $f : ℝ^D$ &rarr; $Y$, la Classification Error Rate è l'<u>errore medio su **N** elementi</u> di $f$ su $D$ (conto quante volte sbaglio), ed è definito come:

# $Err(f, D) = \frac{1}{N} \sum_{i=1}^{N} \mathbb{𝕀}_{(y_i \neq f(x_i))}$

- $f(x_i)$ è la classe predetta
- $y_i$ è la classe reale di appartenenza
- 𝕀 è la funzione indicatrice, che vale 1 se la condizione è vera, 0 altrimenti.

---

## Classification Accuracy Rate

Dato un dataset di esempio $D = {(x_i, y_i), i = 1 : N}$ e una funzione $f : ℝ^D$ &rarr; $Y$, la Classification Accuracy Rate <u>misura della media di quante volte ci prendo</u>:

# $Acc(f, D) = \frac{1}{N} \sum_{i=1}^{N} \mathbb{𝕀}_{(y_i = f(x_i))}$

---

# Prior Probability

Se supponiamo che la funzione **f** precedentemente menzionata sia una funzione che fornisce in output una probabilità, allora stiamo usando un classificatore probabilistico.

Supponiamo che la probabilità di vedere un elemento che appartiene a una certa classe **c** sia $P(Y = c)$, dove quello dentro alle parentesi, $Y = c$, è l'evento che stiamo considerando, ovvero che l'elemento appartenga alla classe **c**. Questa probabilità si indica con la notazione:

# $P(Y = c) = \pi_c$

E normalmente si chiama <span style="color:gold;">**prior probability**</span> (o probabilità a priori), perché di fatto non dipende da nessun elemento del dataset, ma è una probabilità che viene assegnata a priori, prima di vedere il dataset (ad esempio probabilità a priori di capire se una persona è maschio o femmina prima di guardarla in faccia).

---

# Likelihood

Viene definita come <span style="color:gold;">likelyhood</span> la densità di probabilità di vedere un vettore $x \in ℝ^D$ che appartiene alla classe **c** come:

# $p(X = x | Y = c) = \phi_c(x)$

- ***p*** (probabilità) in questo caso è una densità, quindi è minuscola
    - La densità è una funzione il cui integrale fa 1, mentre la probabilità è già l'integrale della densità

Fissata la classe **c**, qual è la probabilità che **X** sia uguale a **x**.
La likelyhood misura quanto, fissata la classe, quello che sto guardando è coerente con la mia classe.

*Esempio*: fisso la classe maschio, guardo la foto di una persona con la barba e ottengo (presumibilmente) una probabilità alta di essere maschio.

---

# A-posteriori probability

Per computare la probabilità che un elemento appartenga a una certa classe, si usa il <span style="color:gold;">**teorema di Bayes**</span>:

# $P(Y = c | X = x) = \frac{P(X = x | Y = c) P(Y = c)}{\sum_{c' \in 𝒴}P(X = x, Y = c')} = \frac{\phi_c(x) \pi_c}{\sum_{c' \in 𝒴}\phi_{c'}(x) \pi_{c'}}$

Dove la probabilità di che **Y** appartenga alla classe **c** dato **X** uguale a **x** è uguale alla:

# $\frac{{\text{ likelihood }} * {\text{ prior probability }}}{\text{normalizing constant}}$

dove la ***normalizing constant*** è la sommatoria di tutti i possibili valori che può assumere **Y** (ovvero tutte le classi possibili), quindi la somma delle quantità che si hanno sopra per tutte le classi.

---

# Classification strategies

Quando dobbiamo classificare, possiamo approcciare il problema in due modi. 

Supponendo di avere un dataset $D = (x_i, y_i)_{i=1..N}$ con $x_i$ vettore di feature e $y_i$ la classe, con in totale **k** classi $c_i | i = 1..k$ e un generico test sample $\hat{x}$:
- ### Maximum Likelihood Classification:
  - Dal dataset **D** impara una funzione di likelyhood per ogni classe $c_i$ $P(x | c_i)$
  - Poi prendo $\hat{x}$ e lo passo a tutte le funzioni di likelyhood &rarr; $P(\hat{x} | c_i)$
  - Quella che mi dà il valore più alto sarà la classe da attribuire a $\hat{x}$ &rarr; $\hat{c} = argmax_c P(\hat{x}|c)$
    - Sto cercando la classe che massimizza il likelihood
  
- ### Maximum A-Posteriori Classification:
  - Dal dataset **D** impara una funzione di likelyhood per ogni classe $c_i$ $P(x | c_i)$
  - Da **D** imparo anche la probabilità a priori per ogni calsse $c_i$ $P(c_i)$
  - dato $\hat{x}$ applico la regola di Bayes per ottenere $P(c_i | \hat{x})$
  - $\hat{c} = argmax_c P(c_i | \hat{x})$
    - Sto cercando la classe che massimizza

---

# The Bayes Optimal Classifier

## $f_B(x) = argmax_{c \in 𝒴} P(Y = c | X = x) = argmax_{c \in 𝒴} \phi_c(x) \pi_c$

Da un punto di vista teorico, il classificatore baesyano minimizza indirettamente l'errore, perché assegno sempre l'errore che ha più probabilità di essere giusta, ma non è utilizzabile nella pratica perché X=x non è finita e perché dipende dalle funzioni che ha imparato il classificatore (che potrebbero essere sbaliate in quanto potrebbe aver appreso un fenomeno non correttamente).

Quindi tra tutti i possibili errori attesi, il classificatore baesyano mi fornisce il più basso.

---

### Prodotto di probabilità
Se ho due variabili aleatorie **x**, **y**, la probabilità congiunta è espressa come $P(x, y)$.

Se la voglio valutare in un caso specifico sarà $P(x=\hat{x}, y=\hat{y})$, dove **x** e **y** sono i nomi delle variabili e $\hat{x}$ e $\hat{y}$ sono due osservazioni &rarr; <span style="color:gold;">**Probabilità congiunta**</span> (joint probability), perché è la probabilità che questi due eventi accadano insieme.

La regola del prodotto collega la probabilità congiunta con la probabilità condizionate, in quanto:

# $P(x, y) = P(x | y) P(y)$

# $P(x | y) = \frac{P(x, y)}{P(y)}$

La probabilità a posteriori, applicando la regola di Bayes sarà:

# $P(y | x) = \frac{P(x | y) * P(y)}{P(x)}= \frac{P(x, y)}{P(x)}$

---

# Density estimation the JOINT Density JD

Se possiamo stimare la <span style="color:gold;">**joint probability**</span> $P(X = x, Y = c)$, ovvero la probabilità che **X** sia uguale a **x** e che **Y** sia uguale a **c**, allora utilizzando la regola del prodotto delle probabilità posso trovare tutte le probabilità condizionate.


Per fare density esimation posso usare una JD Table:

![JD](./images/bayesLDA1.png)

Tramite conteggio all'interno del mio dataset posso verificare la probabilità di quante volte sia presente all'interno del mio dataset una combinazione di variabili aleatorie rispetto al totale.

Problemi:
- La JD table funziona solo per le variabili numerabili (nel continuo non funziona)
- Se le variabili possono assumere molti valori, le possibili configurazioni possono salire molto velocemente
- Molto spesso le JD Table sono soggette a overfitting.

# Overfitting
Siccome il nostro dataset non rappresenta il fenomeno, ma una rappresentazione approssimata del vero fenomeno, può non coprire tutti i possibili casi. Quindi costruendo la JD table su un determinato dataset potrebbe voler dire avere probabilità 0 per alcuni casi che invece potrebbero accadere.
Se la mia tabella di densità di probabilità è talmente specializzata su questo dataset, non rappresenta bene il fenomeno e quindi non è generalizzabile.
Molto spesso uno stimatore di densità di probabilità è soggetto a overfitting &rarr; il mio classificatore ha visto una porzione di fenomeno troppo piccola.

Al posto di stimare $P(X = x, Y = c)$, che tiene conto di tutte le possibili combinazioni, posso stimare $P(x|c)$, cioè "fissata la classe qual è la probabilità di **x**?

Bloccando la classe, l'overfitting non c'è!

---

# Parametric Maximum Likelihood Density Estimation

Viene utilizzato nel caso continuo, dove definisco una determinata funzione $p(x|\theta)$, dove $\theta$ è un set di parametri.
La funzione è nota, ad esempio una delle più usate è la gaussiana.

Cerco il set di parametri \theta che massimizza il prodotto su tutto il dataset di $p(x|\theta)$, ovvero il prodotto della likelihood di ogni singolo elemento del dataset:

# $\hat{\theta} = argmax_{\theta} \prod_{x_i \in D} p(x_i | \theta)$

La produttoria non è molto bella da usare perché quando ci sono dei numeri molto prossimi allo zero, anche tutta la quantità risultante tenderà a zero.
Per evitare questo problema si usa il logaritmo, che trasforma la produttoria in una sommatoria:

# $\hat{\theta} = argmax_{\theta} \sum_{x_i \in D} log(p(x_i | \theta))$

Quando passo ai logaritmi, il logaritmo di una produttoria è uguale alla sommatoria dei logaritmi.

---

# Non-parametric Estimation

Per ogni possibile valore che può assumere una variabile, conto all'interno del dataset quanti elementi assumono quel determinato valore. Costruisco un istogramma $H(x)$ contando il numero di valori che assume la variabile **x*** e lo divido per il totale degli elementi del dataset (normalizzo).

![non-parametric](./images/bayesLDA2.png)

Ottengo così una densità di probabilità

---

Un modello non parametrico, per costruzione può rappresentare qualunque funzione, mentre nel modello parametrico scelgo la funzione prima.

Esempio: dico che la funzione è una gaussiana, ma se il fenomeno non è una gaussiano perdo informazione  (se il fenomeno non è "a campana").

Quindi, perché non fare sempre una stima di densità non parametrica?
Perché ha tre problemi:
1. Ha un problema di maneggiabilità nel momento in cui il numero di valori che può assumere ***x*** diventa molto alto
2. Problema di overfitting che non ho con la versione parametrica perché nel caso io assuma che la funzione sia una gaussiana, "interpolo" dove non ho dati.
3. Non so come discretizzare l'asse delle x, ovvero non so come dividere l'asse delle x in intervalli. La distribuzione potrebbe non essere uguale se vado di 5 in 5 o di 20 in 20.

---


# Distribuzione Gaussiana

**X** variabile che segue la distribuzione gaussiana con media $\mu$ e varianza $\sigma^2$ &rarr; $X \sim \mathcal{Norm}(\mu, \sigma^2)$ ha funzione di densità di probabilità (ovvero la probabilità di ottenere un valore specifico (**x**) all'interno di quella distribuzione):

# $p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

---


# Dimostrazione

Dato un dataset **D** di **N** elementi, l'equazione della gaussiana parametrica è:

## $p(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

Dove il likelihood è:

## $L(\mu, \sigma^2) = \prod_{i=1}^{N} p(x_i|\mu, \sigma^2) = \prod_{i=1}^{N} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}$

Uso il logaritmo per convertire la produttoria in sommatoria (il logarimo di un prodotto è la somma dei logaritmi):

## $L(\mu, \sigma^2) = \sum_{i=1}^{N} log(\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}})$

Avendo nuovamente il logaritmo di un prodotto, lo scompongo nella somma dei logaritmi:

## $L(\mu, \sigma^2) = \sum_{i=1}^{N} log(\frac{1}{\sqrt{2\pi\sigma^2}}) + log(e^{-\frac{(x_i-\mu)^2}{2\sigma^2}})$

Posso semplificare il secondo termine perché il logaritmo naturale di un esponenziale è l'esponente:

## $L(\mu, \sigma^2) = \sum_{i=1}^{N} log(\frac{1}{\sqrt{2\pi\sigma^2}}) - \frac{(x_i-\mu)^2}{2\sigma^2}$

Adesso voglio fare la derivata rispetto a $\mu$:

## $\frac{\partial L}{\partial \mu} = \sum_{i=1}^{N} \frac{\partial}{\partial \mu} log(\frac{1}{\sqrt{2\pi\sigma^2}}) - \frac{\partial}{\partial \mu} \frac{(x_i-\mu)^2}{2\sigma^2}$

Dove il primo termine si semplifica <u>perchè non dipende da</u> $\mu$:

## $\sum_{i=1}^{N} - \frac{(x_i-\mu)^2}{\sigma^2}$

E facendo la derivata del secondo termine ($a(x-b)^n$ che diventa $a n (x-b)^{n-1}$) e ponendo uguale a 0:

## $\sum_{i=1}^{N} \frac{2(x_i-\mu)}{2\sigma^2} = 0$

Dal momento che $\frac{1}{\sigma^2}$ non dipende da **x**, posso portarlo fuori dalla sommatoria:

## $\frac{1}{\sigma^2} \sum_{i=1}^{N} \frac{(x_i-\mu)}{2} = 0$

Posso moltiplicare da entrambe le parti per $\sigma^2$ e semplificare il 2:

## $\sum_{i=1}^{N} (x_i-\mu) = 0$

Spezzo la sommatoria:

## $\sum_{i=1}^{N} x_i = \sum_{i=1}^{N} \mu$

Suppongo che il dataset **D** sia composto da **N** elementi. Se ho **N** elementi, $\mu$ nella sommatoria lo sommo **N** volte, quindi:

## $\sum_{i=1}^{N} x_i = N \mu$

Dato che devo risolvere per $\mu$, la porto a sinistra e ottengo la media:

## $\frac{\sum_{i=1}^N x_i}{N} = \mu$

---

![derivate](./images/derivate.png)

Per $\sigma$ è la stessa cosa, ma devo fare la derivata rispetto a $\sigma^2$:

## $\frac{\partial L}{\partial \sigma^2}$ &rarr; $\sum_{i=1}^{N} log(\frac{1}{\sqrt{2\pi\sigma^2}}) - \frac{(x_i-\mu)^2}{2\sigma^2}$

Si ottiene:


```
Per l'esame saper costruire la Likelihood di una funzione
```

---

Il Parametric Maximum Likelihood risolve l'overfitting? No, perché non gestisce l'overfitting in alcun modo. Per prevenirlo si usa uno 

# Naive Density Estimator

Se io ho **k** variabili aleatorie, considero ogni variabile <u>indipendente dalle altre</u>, quindi:

## $P(x_1, x_2, ..., x_k | c) = \prod_{i=1}^k P(x_i | c)$ 

In questo modo considero ogni variabile indipendente dalle altre, quindi non ho più un problema di overfitting perché non dipendo più dalle possibili configurazioni delle k variabili $x_1, x_2, ..., x_k$, ma semplicemente dalle configurazioni di ogni singola variabile.

Perdo un po' di capacità di modellazione in quanto non considero i casi in cui le variabili si influenzino tra di loro.

---

# Naive Bayes

Il classificatore baesyano di tipo naive approssima il classificatore baesiano con la likelihood, considerando ogni variabile aleatoria indipendente dalle altre. Quindi la likelihood fattorizza come la probabilità del singolo attributo, data la classe:

## $\phi_c(x) = p(X = x | Y = c) = \prod_{d=1}^k p(X_d = x_d | Y = c) = \prod_{d=1}^k \phi_{cd}(x_d)$

La forma generale per il classificatore naive baesyano:

## $f_{NB}(x) = argmax_{c \in 𝒴}\pi_c \prod_{d=1}^k \phi_{cd}(x_d)$

---

# Class Conditional Distributions

![CCD](./images/bayesLDA4.png)

- Nel caso reale &rarr; Distribuzione Normale
- Nel caso di valori binari &rarr; Distribuzione di Bernoulli
  - In questo caso il parametro è $\theta$ mentre $x_d$ vale 0 o 1 
- Nel caso di valori categorici, ovvero dove $x_d$ può valere 1, 2, 3, ... *k* &rarr; Distribuzione categorica
  - dove ho tanti $\theta$, uno per ogni valore che può assumere $x$, poi se $x$ assume un determinato valore espresso nelle parentesi quadre $[x_d = v]$ vale 1, altrimenti vale 0 

---

# Gaussiana multivariata

## $\frac {1}{2\pi ^{k/2}|\Sigma |^{1/2}}e^{-{\frac {1}{2}}({\overline {x} }-{\overline {\mu }})^{\mathrm {T} }\Sigma ^{-1}({\overline {x} }-{\overline {\mu }})}$

dove $\overline {x}$ e $\overline {\mu }$ sono vettori di dimensione **k** e $\Sigma$ è una matrice di covarianza.

Se uso l'assunzione Naive, ovvero $P(x_1, x_2, ..., x_k | c) = \prod_{i=1}^k P(x_i | c)$, la distribuzione diventa la produttoria di tante gaussiane univariate:

## $\prod_{i=1}^k \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}$

---

# Learning for Naive Bayes

Il classificatore bayesiano ha due ingredienti:
1. Probabilità a priori $\pi_c$
    - Calcolata prendendo il dataset $D$, conto quante volte $y_i = c$ diviso il totale dei possibili casi, e ottengo la probabilità di una classe:
        ### $\pi_c = \frac{1}{N}{\sum_{i=1}^N [(y_i = c)]}$
2. Likelihood, che devo scegliere se farla parametrica o non parametrica:
    -  A seconda della distribuzione che ho scelto, prendo tutte le $x$ che appartengono a una determinata classe $c_1$, quindi blocco la classe e per esempio calcolo la media e il sigma della gaussiana. Ottengo così la Likelihood per la classe $c_1$, che poi dovrò ripetere per la classe $c_2$ e così via.

![learning](./images/bayesLDA5.png)
        
---

# Geometric Interpretation

Ogni classificatore ha anche una rappresentazione geometrica. Supponiamo di essere nello spazio bidimensionale e di avere $x \in ℝ^2$ con le classi  $c_0 e c_1$. Potendo rappresentare ogni variabile $x_i$ sul piano, qualsiasi superficie che divide lo spazio cartesiano in due parti, sta classificando. 

Quindi un classificatore può essere rappresentato come un confine che divide lo spazio in *n* partizioni pari al numero delle classi, chiamato <span style="color:gold;">**decision boundary**</span>, che consiste in un set di punti $x$ dove (assumendo di essere nel caso naive, nel caso di una gaussiana e aggiungendo i log):


#### $\log(\pi_0) + \sum_{d=1}^D \log(-\frac{1}{2} \log(2\pi\sigma^2_{d0})) - \frac{1}{2\sigma^2_{d0}} (x_d-\mu_{d0})^2 - \log(\pi_1) + \sum_{d=1}^D -\frac{1}{2} \log(2\pi\sigma^2_{d1}) - \frac{1}{2\sigma^2_{d1}} (x_d-\mu_{d1})^2 = 0$

Dato che a me interessa valutare in funzione di $x$, siccome $\log(-\frac{1}{2} \log(2\pi\sigma^2_{d0}))$ e $\log(2\pi\sigma^2_{d1})$ non dipendono da $x$, posso chiamarli rispettivamente $a$ e $b$.

Il secondi termini $\frac{1}{2\sigma^2_{d0}} (x_d-\mu_{d0})^2$ e $\frac{1}{2\sigma^2_{d1}} (x_d-\mu_{d1})^2$ dipendono da $x$, e svolgendo i quadrati ottengo qualcosa nella forma:

### $$\sum_{d=1}^D (a_d x_d^2 + b_d x_d) + c_d = 0$$

Essendo una funzione quadratica di $x$, la partizione del piano non è fatta da una retta, bensì da una curva.
***Quindi in generale, un classificatore bayesiano, con una gaussiana come likelihood function partiziona il piano con parabole o con iperboli***

---

# Vantaggi e svantaggi

- In termine di velocità, il classificatore bayesiano è molto veloce sia per apprendimento che inferenza. L'apprendimento applico la formula della maximum likelihood (nel caso della gaussiana ci si mette poco) e ha un carico computazione basso.
- In termini di parametri devo mantenere $D$ parametri della mia funzione parametrica che sto scegliendo per ogni classe $C$ o dimensioni considerate.
Nel caso di una gaussiana devo salvarmi $D$ volte $\mu$ e $D$ volte $\sigma^2$ per ogni classe.
- È molto interpretabile perché posso guardare quanto una precisa variabile nella produttoria ha contribuito alla classe.
- Per fare un classificatore bayesiano faccio una assunzione di tipo naive sulle variabili, che spesso non è vera. Questo errore viene pagato in termini di accuratezza.
- Ha anche il vantaggio di fare una stima anche in presenza di pochi dati

---