La ***<span style="color:gold;">classificazione binaria</span>*** può essere vista come il compito di separare le classi in uno spazio di feature.

![SVM1](./images/SVM1.png)


Posso scegliere molte rette per dividere questi punti:

![SVM2](./images/SVM2.png)

Mi piacerebbe scegliere quella retta che non passa esattamente vicino a uno di questi punti, bensì una che sia il più lontana possibile dai punti, perché mi permette di costruire una "banda di sicurezza" tra le due classi

---

# Classification Margin
Il <span style="color:gold;">margine</span> è lo spazio intorno alla retta di separazione in cui non cadono punti. Per semplicità il margine viene sempre costruito simmetrico

Per costruirlo utilizzo l'equazione della distanza punto-retta:

### $r_i = \frac{y_i(w^Tx_i + b)}{||w||}$

dove $x_i$ è il punto in cui devo calcolare la distanza.

Quindi io voglio trovare la retta in cui se io faccio la distanza punto-retta tra i punti più vicini alla retta, essa è massima.

![SVM3](./images/SVM3.png)

Non tutti i punti sono uguali e concorrono allo stesso modo a scegliere la retta migliore, ma solamente quelli più vicini alla retta. <br>
Essi si chiamano anche <span style="color:gold;">vettori di supporto</span>.

---

Dato un dataset $D = (x_i, y_i)_{i\in[1..N]}$, con la label $y_i \in {+1, -1}$ e con $\rho$ come margine, vogliamo:

- #### se $y_i = +1$ allora $w^Tx_i + b \geq \rho$, ovvero che tutti i punti che stanno sopra la retta ci stiano almeno per $\frac{\rho}{2}$
- #### se $y_i = -1$ allora $w^Tx_i + b \leq -\rho$, ovvero che tutti i punti che stanno sotto alla retta ci stiano almeno per $\frac{\rho}{2}$

Posso scrivere queste due disequazioni in un'equazione unica (giocando sul fatto che le label sono $+1$ e $-1$):

### $y_i(w^Tx_i + b) \geq \rho,   \forall x_i \in D$

Per tutti i vettori di supporto (quelli cerchiati), questa disuguaglianza in realtà è un'uguaglianza:

### $w^Tx_i + b = \frac {\rho}{2}$

Che riscrivo come:

### $r_s = \frac{y_i(w^Tx_i + b)}{||w||} = \frac{\rho}{2||w||}$

Prendo il vettore $w$ che non conosco, e divido la quantità per $\frac {\rho}{2}$, e lo chiamo $\hat w$ ottenendo:

###  $\frac{\rho}{2||w||} = \frac {1}{||\hat w||}$

Quindi il mio margine è 2 volte $r_s$, ovvero (da questo momento verranno usati $w$ e $\hat w$ in modo intercambiabile dato che è il set di parametri che voglio trovare):

### $\rho = 2r_s = \frac{2}{||w||} = \frac{2}{||\hat w||}$

Il mio classificatore dovrà quindi risolvere una disequazione tale per cui dovrà massimizzare $\frac{2}{||w||}$

---

# SVM Quadratic Problem

Formula di massimizzazione:

### $argmax_{w,b} \frac{2}{||w||}$

Con i vincoli:

### $y_i(w^Tx_i + b) \geq 1,  \forall (x_i, y_i) \in D$

dove posso scrivere $\geq 1$ perché ho diviso tutto per $\rho/2$:

![SVM4](./images/SVM4.png)

Quindi voglio trovare $w$ e $b$ tali per cui il margine è massimo, ma che allo stesso tempo soddisfino i vincoli.

Dato che $\frac{2}{||w||}$ è massimo quando $||w||$ è minimo, posso riscrivere il problema come:

### $argmin_{w,b} ||w||^2$

Con i vincoli:

### $y_i(w^Tx_i + b) \geq 1,  \forall (x_i, y_i) \in D$

Siccome la radice nella norma è problematica, elevo tutto al quadrato.

---

# QP Solvers

In generale, i problemi di minimizzazione quadratica soggetti a vincoli lineari (<span style="color:gold;">QP</span>) vengono risolti da software &rarr; <span style="color:gold;">QP solver</span>. 

---

# Constrained Optimization (ottimizzazione vincolata)

Normalmente, un problema di ottimizzazione con vincoli di disuguaglianza si imposta come:

### $min f(x)$ <br>
### soggetta ai vincoli $h_k(x) \geq 0, for k \in 1, ..., K$

Devo incorporare i miei vincoli nella equazione da risolvere utilizzando i moltiplicatori di Lagrange, ottenendo una funzione Lagrangiana in cui ho ancora la mia funzione che voglio risolvere $f(x)$ - la sommatoria di un moltiplicatore, uno per ogni vincolo, moltiplicato per il vincolo stesso:

### $L(x, \mu) = f(x) - \sum_{k=1}^K \alpha_i h_k(x), \forall \alpha_i \geq 0$

dove $\alpha_i$ sono i moltiplicatori di Lagrange, ovvero un numero o positivo o nullo che moltiplica il vincolo.

Ci possono essere due casi:
- In tutti i casi in cui "qua dentro ci si mette" $x_i$ e il vincolo è soddisfatto, il moltiplicatore di Lagrange varrà 0 (quel vincolo è già soddisfatto e non devo considerarlo), il vincolo viene considerato inattivo e la soluzione del problema sarebbe la $x$ che annulla la derivata.
- Se però il vincolo non è soddisfatto e vale l'uguaglianza, cioè $x_i$ annulla il mio vincolo ($h_i(x_i) = 0$) allora il moltiplicatore di Lagrande deve essere attivo ($\alpha > 0$) e quindi la soluzione sarà quella che annulla le derivate - il vettore dei moltiplicatori di Lagrange per le derivate dei vincoli:

![SVM5](./images/SVM5.png)<br>Quindi deve annullare sia la derivata della funzione che la derivata del vincolo.

Il triangolo verso il basso indica un prodotto riga per colonna(?).

Spiegazione:

![SVM6](./images/SVM6.png)

---


# Constrained Optimization

Mettendo tutto insieme si ottiene otteniamo le <span style="color:gold;">KKT</span>, ovvero le condizioni necessarie affinché il nostro problema vincolato sia risolvibile.

La prima condizione indica che la soluzione annulli questa equazione (di fatto la derivata):<br>
### $\nabla f(x*) - \alpha^T \nabla h(x*) = 0$

La seconda condizione era vera fin dall'inizio, cioè dato che $\alpha_i$ sono moltiplicatori di Lagrange possono essere solo positivi o nulli:<br>
### $\alpha_i \geq 0$

La terza condizione ci dice che se uno dei vincoli non è nullo il suo moltiplicatore dev'essere 0, e viceversa se h è nullo, il suo moltiplicatore dev'essere positivo:<br>
### $\alpha^T h(x) = 0$

La quarta condizione dice che la mia soluzione deve comunque rispettare i vincoli (questo succederà per costruzione)
### $h(x*) \leq 0$


Se il vincolo è una funzione affine, e sostanzialmente lineare, $f$ è convessa e $g$ è differenziabile in "modo infinito", le ***KKT*** sono sia condizioni necessarie che sufficienti, quindi se sono verificate sono sicuro che ci sia una soluzione.

---


# Linear SVM Separable Case

Quindi, nel caso dell'SVM il mio problema è questo:

### $argmin_{w,b} ||w||^2$

Dove voglio minimizzare $||w||^2$ soggetta a questi vincoli:

### $y_i(w^Tx_i + b) \geq 1,  \forall (x_i, y_i) \in D$

Con $D$ composto da $N$ elementi, la funzione Lagrangiana diventa:

### $min_{w,b,\alpha} L(w,b,\alpha) = \frac{1}{2}||w||^2 - \sum_{i=1}^N \alpha_i(y_i(w^Tx_i + b) - 1)$

Che ha come KKT $\forall i = 1 .. N$:

### $\alpha_i \geq 0$

### $y_i(w^Tx_i+b)-1 \geq 0$

### $\alpha_i(y_i(w^Tx_i+b)-1) = 0$

Per trovare il minimo posso derivare e porre uguale a 0, e dato che dipende da 3 variabili dovrò derivare 3 volte.

Inizio con la derivata rispetto a $w$ ottengo:

### $w = \sum_{i=1}^N \alpha_i y_i x_i$

Che è l'equazione più importante perché mette in relazione $w$ al moltiplicatore, in quanto posso riscriverlo in funzione di $\alpha$ &rarr; relazione tra primale e duale (mette in relazione $w$, che è la pendenza della retta con i moltiplicatori di Lagrange).<br>
Dice che $w$, il vettore che serve per calcolare la pendenza della retta, viene calcolato ignorando tutti i punti distanti, dal momento che per tutti gli $x_i$ che hanno un moltiplicatore $\alpha$ uguale a 0 non vengono considerati. I punti che servono per calcolare la retta sono quelli più vicini che hanno $\alpha \gt 0$ &rarr; ***support vectors***.

Se derivo rispetto a $b$ ottengo:

### $\sum_{i=1}^N \alpha_i y_i = 0$

Se applico entrambe le derivate alla funzione Lagrangiana ottengo:

### $L(w,b,a) = \sum_{i=1}^N \alpha_i - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i^T x_j$)

E adesso questa funzione è solo in funzione di $\alpha$, e quindi la posso risolvere.

Questo equazione si chiama forma duale di WOLFE, che rispetto a prima va massimizzata (in quanto problema duale):

### $max_{\alpha} \sum_{i=1}^N \alpha_i - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i^T x_j)$

### soggetta ai vincoli $\alpha_i \geq 0$ e $\sum_{i=1}^N \alpha_i y_i = 0$

La soluzione contiene due tipologie di moltiplicatori $\alpha_i$:
- punti che hanno $\alpha_i = 0$ &rarr; $x_i$ è irrilevante
- punti che hanno $\alpha_i \gt 0$ &rarr; $x_i$ è un support vector

Alla fine, una volta che ho trovato $w$ come la uso? Basta fare:

### $f(x) = w^T x$

E so che se sono > 0 sono della classe 1 e se sono < 0 sono della classe -1.

Se sono nel duale, al posto di $w$ posso metter la formula $\sum_{i=1}^N \alpha_i y_i x_i$.

### $f(x) = \sum_{i=1}^N \alpha_i y_i x_i^T x$

Dove: 
- $x$ è il nuovo punto che devo classificare
- $\alpha_i y_i x_i^T$ viene dal dataset di training

---

# Non separable soft margin