# **Support Vector Machines**



Il s'agit de techniques d'apprentissage supervisé pour résoudre des problèmes de classification et de régression (données possiblement non séparable linéairement).
SVM peut être vu comme généralisation des classifieurs linéaires (séparer l'espace par un hyperplan affine).

**Pros:**
*   robuste à grande dimension
*   garanties théoriques
*   bons résultats en pratique
*   faible nombre d'hyperparamètres

**Objectif:** construire fonction de décision $\hat{f}: \mathcal{X} \longrightarrow \{-1, 1\}$ (classification binaire) pour prédire étiquette pour point inconnu



---


**Rappels:**

*   espace d'Hilbert: $(\mathcal{H}, <\cdot,\cdot>_{\mathcal{H}})$ complet pour la norme induite (complet: toute suite de Cauchy converge dans $\mathcal{H}$)
*   kernel: fonction symétrique, semi définie positive


*   Primal:
\begin{equation}
\begin{cases}
& \min\limits_w f(w) = \min\limits_w L(w, \mu, \nu)\\
& s.t.: w \geq a\\
& \quad \quad \sum w = b
\end{cases}
\end{equation}
Lagrangien: $$L(w, \mu, \nu) = f(w) - \mu(w-a) + \nu(\sum w - b)$$
Dual:
\begin{equation}
\begin{cases}
& \max\limits_{\mu, \nu} L(w, \mu, \nu)\\
& s.t.: \mu \geq 0\\
& \quad \quad \nu \geq 0
\end{cases}
\end{equation}
---





Les SVM (ou séparateurs à vastes marges) reposent sur deux idées clés:

**1.   fonction noyau:**

*   motivation: données non linéairement séparables $\Longrightarrow$ on considère le problème dans un espace de dimension supérieure, où il existe une séparation linéaire
*   appliquer aux vecteurs d'entrée $x$ une transformation non linéaire $\Phi$: $\mathcal{X}$ devient $(\mathcal{H}, <\cdot,\cdot>_{\mathcal{H}})$ espace d'Hilbert en plus grande dimension (espace de redescription)
*   kernel trick: $K(x, x') = <\Phi(x), \Phi(x')>$
*   pros: pas besoin de connaître explicitement $\Phi$, moins coûteux (transforme produit scalaire en grande dimension (coûteux) en simple évaluation en certains points)


> **$\Longrightarrow$** hyperplan: $h(x) = <w, \Phi(x)> + w_0 \quad$ et frontière: $\{x, <w, \Phi(x)> + w_0 = 0\}$

> **$\Longrightarrow$** classifieur: $\hat{f}_{w, w_0}(x) = sign(h(x))$




**2.   marge maximale:**

*   motivation: choix hyperplan séparateur parmi plusieurs avec la même performance $\Longrightarrow$ regarder performance en généralisation des hyperplans
*   marge est distance entre frontière de séparation et échantillons les plus proches (appelés vecteurs supports)
*   unique hyperplan optimal: hyperplan qui maximise marge entre hyperplan séparateur et échantillons (voir Théorème de Vapnik Chervonenkis)

**Problème Primal:**


*   distance échantillon $x_i$ à hyperplan est: $\frac{y_i(<w, \Phi(x_i)> + w_0)}{||w||}$
*   condition de séparabilité: $y_i h(x_i) = y_i(<w, \Phi(x_i)> + w_0) \geq 0$

$\Longrightarrow$ hyperplan séparateur de marge maximale:
\begin{equation}
\arg\max\limits_w \{\frac{1}{||w||} \min\limits_i \{y_i(<w, \Phi(x_i)> + w_0)\}\}
\end{equation}

*   hyperplan canonique: normaliser poids (pour faciliter optimisation): $y_i(<w, \Phi(x_i)> + w_0) \geq 1$

$\Longrightarrow$ hyperplan séparateur de marge maximale:
\begin{equation}
\begin{cases}
& \min\limits_w \{\frac{1}{2} ||w||^2\}\\
& s.t.: y_i(<w, \Phi(x_i)> + w_0) \geq 1
\end{cases}
\end{equation}


**Marge Souple:**


*   il est possible de ne pas trouver de séparateur linéaire dans l'espace de redescription
*   ajout de variables de ressort $\xi_i$ pour relacher les contraintes et d'un paramètre $C$ pour contrôler le compromis entre le nombre d'erreurs et la largeur de la marge (en pénalisant les variables de ressort trop élevées)
*   choix du paramètre $C$: par utilisateur, recherche exhaustive, validation croisée

$\Longrightarrow$ hyperplan séparateur de marge maximale:
\begin{equation}
\begin{cases}
& \min\limits_w \{\frac{1}{2} ||w||^2 + C \sum\limits_{i=1}^n \xi_i\}\\
& s.t.: \xi_i \geq 0\\
& \quad \quad y_i(<w, \Phi(x_i)> + w_0) \geq 1 - \xi_i
\end{cases}
\end{equation}


**Problème Dual:**


*   Lagrangien: $$L(w, w_0, \alpha) = \frac{1}{2} ||w||^2 + C \sum\limits_{i=1}^n \xi_i - \sum\limits_{i=1}^n \alpha_i (y_i(<w, \Phi(x_i)> + w_0) - 1 + \xi_i)$$
*   conditions de Kuhn Tucker: $\delta L = 0 \Longleftrightarrow \sum\limits_{i=1}^n \alpha_i y_i \Phi(x_i) = w^*$ and $\sum\limits_{i=1}^n \alpha_i y_i = 0$

$\Longrightarrow$ formulation duale:
\begin{equation}
\begin{cases}
& \max\limits_{\alpha} \{L(w^*, w_0, \alpha) = \sum\limits_{i=1}^n \alpha_i - \frac{1}{2} \sum\limits_{i=1}^n \alpha_i \alpha_j y_i y_j K(x_i, x_j)\}\\
& s.t.: 0 \leq \alpha_i \leq C\\
& \quad \quad \sum\limits_{i=1}^n \alpha_i y_i = 0
\end{cases}
\end{equation}

---

**Solutions:**

solution primal: $w^* = \sum\limits_{i=1}^n \alpha_i y_i \Phi(x_i)$

solution duale: $\alpha^*$

$\Longrightarrow$ hyperplan solution: $$h(x) = <w^*, \Phi(x)> + w_0 = \sum\limits_{i=1}^n \alpha_i^* y_i \Phi(x_i)^T \Phi(x) + w_0 = \sum\limits_{i=1}^n \alpha_i^* y_i K(x_i, x) + w_0$$

---