La ***<span style="color:gold;">classificazione binaria</span>*** può essere vista come il compito di separare le classi in uno spazio di feature.

![SVM](images/svm1.png)

Posso scegliere molte rette per dividere questi punti:

![SVM](images/svm2.png)

Mi piacerebbe scegliere quella retta che non passa esattamente vicino a uno di questi punti, bensì una che sia il più lontana possibile dai punti, perché mi permette di costruire una "banda di sicurezza" tra le due classi

---

# Classification Margin
Il <span style="color:gold;">margine</span> è lo spazio intorno alla retta di separazione in cui non cadono punti. Per semplicità il margine viene sempre costruito simmetrico

Per costruirlo utilizzo l'equazione della distanza punto-retta:

### $r_i = \frac{y_i(w^Tx_i + b)}{||w||}$

dove $x_i$ è il punto in cui devo calcolare la distanza.

Quindi io voglio trovare la retta in cui se io faccio la distanza punto-retta tra i punti più vicini alla retta, essa è massima.

![SVM](images/svm3.png)

Non tutti i punti sono uguali e concorrono allo stesso modo a scegliere la retta migliore, ma solamente quelli più vicini alla retta. <br>
Essi si chiamano anche <span style="color:gold;">vettori di supporto</span>.

---

Dato un dataset $D = (x_i, y_i)_{i\in[1..N]}$, con la label $y_i \in {+1, -1}$ e con $\rho$ come margine, vogliamo:

- #### se $y_i = +1$ allora $w^Tx_i + b \geq \rho$, ovvero che tutti i punti che stanno sopra la retta ci stiano almeno per $\frac{\rho}{2}$
- #### se $y_i = -1$ allora $w^Tx_i + b \leq -\rho$, ovvero che tutti i punti che stanno sotto alla retta ci stiano almeno per $\frac{\rho}{2}$

Posso scrivere queste due disequazioni in un'equazione unica (giocando sul fatto che le label sono $+1$ e $-1$):

### $y_i(w^Tx_i + b) \geq \rho,   \forall x_i \in D$

Per tutti i vettori di supporto (quelli cerchiati), questa disuguaglianza in realtà è un'uguaglianza:

### $w^Tx_i + b = \frac {\rho}{2}$

Che riscrivo come:

### $r_s = \frac{y_i(w^Tx_i + b)}{||w||} = \frac{\rho}{2||w||}$

Prendo il vettore $w$ che non conosco, e divido la quantità per $\frac {\rho}{2}$, e lo chiamo $\hat w$ ottenendo:

###  $\frac{\rho}{2||w||} = \frac {1}{||\hat w||}$

Quindi il mio margine è 2 volte $r_s$, ovvero (da questo momento verranno usati $w$ e $\hat w$ in modo intercambiabile dato che è il set di parametri che voglio trovare):

### $\rho = 2r_s = \frac{2}{||w||} = \frac{2}{||\hat w||}$

Il mio classificatore dovrà quindi risolvere una disequazione tale per cui dovrà massimizzare $\frac{2}{||w||}$

---

# SVM Quadratic Problem

Formula di massimizzazione:

### $argmax_{w,b} \frac{2}{||w||}$

Con i vincoli:

### $y_i(w^Tx_i + b) \geq 1,  \forall (x_i, y_i) \in D$

dove posso scrivere $\geq 1$ perché ho diviso tutto per $\rho/2$:

![SVM](images/svm4.png)

Quindi voglio trovare $w$ e $b$ tali per cui il margine è massimo, ma che allo stesso tempo soddisfino i vincoli.

Dato che $\frac{2}{||w||}$ è massimo quando $||w||$ è minimo, posso riscrivere il problema come:

### $argmin_{w,b} ||w||^2$

Con i vincoli:

### $y_i(w^Tx_i + b) \geq 1,  \forall (x_i, y_i) \in D$

Siccome la radice nella norma è problematica, elevo tutto al quadrato.

---

# QP Solvers

In generale, i problemi di minimizzazione quadratica soggetti a vincoli lineari (<span style="color:gold;">QP</span>) vengono risolti da software &rarr; <span style="color:gold;">QP solver</span>. 

---

# Constrained Optimization (ottimizzazione vincolata)

Normalmente, un problema di ottimizzazione con vincoli di disuguaglianza si imposta come:

### $min f(x)$ <br>
### soggetta ai vincoli $h_k(x) \geq 0, for k \in 1, ..., K$

Devo incorporare i miei vincoli nella equazione da risolvere utilizzando i moltiplicatori di Lagrange, ottenendo una funzione Lagrangiana in cui ho ancora la mia funzione che voglio risolvere $f(x)$ - la sommatoria di un moltiplicatore, uno per ogni vincolo, moltiplicato per il vincolo stesso:

### $L(x, \mu) = f(x) - \sum_{k=1}^K \alpha_i h_k(x), \forall \alpha_i \geq 0$

