### Réalisé par :
AIT AMARA Mohamed, 181831072170

BOUROUINA Rania, 181831052716

CHIBANE Ilies, 181831072041

HAMMAL Ayoub, 181831048403

# Rapport du TP7 :  Machine à Vecteur de Support (MVS)

Le but de ce rapport est d'expliquer le fonctionnement des Machine à Vecteur de Support (Support Vector Machine ou SVM), leurs entrées et leurs sorties.

## Intuition

Le but des MVS est de trouver une fonction de séparation linéaire dont le signe servira de fonction de classification : $$sign(W^{T} X + b) \rightarrow \{0, 1\}$$

Pour cela, nous aimerons maximizer la largeur de la marge séparatrice entre les deux classes, pour maximiser ainsi la confiance du classifieur.

## Démonstration

### MVS à marge stricte 

La formule du hyperplan séparateur est : $h = W^{T} X + b$.

Une solution pour ce problème est la suivante : 

Si $W^{T} X + b \geq 0 \implies \text{X est +}$

Sinon si $W^{T} X + b < 0 \implies \text{X est -}$

Cependant, cette règle de décision : $(\delta) W^{T} X + b = 0$ est que même $k W, k b$ sont des solutions pour l'equation. Par conséquent, en pratique la règles suivante est employée : 

Pour chaque X de classe + : $W^{T} X + b \geq 1$

Pour chaque X de classe - : $W^{T} X + b \leq -1$

Et on a $y_{i} =
\begin{cases}
    1 & \quad \text{Pour X +}\\
    -1 & \quad \text{Pour X -}
\end{cases}$

La règle peut donc être simplifiée comme suit:

$$
\begin{align}
& y_{i}(W^{T} X_{i} + b) - 1 \geq 0 \nonumber \\
& \text{et} \nonumber \\
& y_{i}(W^{T} X_{i} + b) - 1 = 0 \quad \text{ pour chaque } X_{i} \text{ sur la frontière de décision (les marges)} \nonumber
\end{align}
$$

Pour que l'hyperplan obtenu soit optimal, la largeur de la frontière de séparation doit être maximale. Les vecteurs de support qui sont les points situés sur la bordure de la frontière vont nous aider pour cela.

<img src="svm_diagram.png" align ="center"/>

Le vecteur $\overrightarrow{W}$ représente les paramètres de notre MVS et par la même occasion la norme de l'hyperplan séparateur. Vu qu'il est perpendiculaire à la frontière de séparation, nous l'utilisons pour calculer la largeur de la frontière comme suit :

Sachant que pour $X^{+}$ et $X^{-}$ sur les marges de la frontière de décision :
$$y_{i}(W^{T} X^{+}_{i} + b) - 1 = 0 \quad \text{ et } \quad y_{i}(W^{T} X^{-}_{i} + b) - 1 = 0$$

$$
\begin{align}
width & = (\overrightarrow{X^{+}} - \overrightarrow{X^{-}}) . \frac{\overrightarrow{W}}{\|\overrightarrow{W}\|_{2}} \quad \text{(produit vectoriel)} \nonumber \\
      & = \frac{(1 - b) - (-1 - b)}{\overrightarrow{W}} . \frac{\overrightarrow{W}}{\|\overrightarrow{W}\|_{2}} \nonumber \\
      & = \frac{2}{\|\overrightarrow{W}\|_{2}} \nonumber
\end{align}
$$

Pour faciliter la dérivation et les étapes suivantes, nous allons au lieu de maximiser la largeur, minimiser $\frac{1}{2}\|\overrightarrow{W}\|_{2}$.

Pour résumer, nous devons trouver la solution pour le groupe d'équations suivant :

$$
\begin{cases}
    \text{min } & \quad \frac{1}{2}\|\overrightarrow{W}\|_{2} \\
    \text{sachant que } & \quad y_{i}(W^{T} X_{i} + b) - 1 \geq 0
\end{cases}
$$

Qui est un problème d'optimisation quadratique qu'on résout avec le _Multiplicateur de Lagrange_ (problème Dual).

### MVS à marge souple

L'approche d'optimisation précédent aboutit à une solution seulement si les points sont linéairement séparables. Pour pallier à cet inconvénient, nous introduisons dans ce qui suit les MVS à marge souple.

Nous permettons la violation des marges avec l'introduction des variables ressort $\epsilon_{i}$ (slack variables), les formules précédentes deviennent :

$$
\begin{cases}
    \text{min } & \quad \frac{1}{2} W^{T} W + C \sum_{i=1}^{n} \epsilon_{i}  \quad \text{ , C est un hyperparamètre}\\
    \text{sachant que } & \quad y_{i}(W^{T} X_{i} + b) \geq 1 - \epsilon_{i}
\end{cases}
$$

La variable ressort permet aux $X_{i}$ de franchir le marge et de même être sur le mauvais côté. Le $C$ permet de controler le coût d'un tel compromis, si $C$ est très grand le MVS devient strict, sinon, avec un petit $C$, il sacrifie des points pour obtenir une solution simple.

Une solution typique pour fixer les variables ressort est la suivante :

$$
\epsilon_{i} = 
\begin{cases}
    1 - y_{i}(W^{T} X_{i} + b) & \quad \text{ si } y_{i}(W^{T} X_{i} + b) < 1 \\
    0 & \quad \text{ si } y_{i}(W^{T} X_{i} + b) \geq 1
\end{cases}
$$

Cette solution vérifie la deuxième condition ($1 \geq 1$), dont il ne resque qu'à minimiser la première formule qui devient :

$$ \text{min} \quad \underbrace{\frac{1}{2} W^{T} W}_\text{L2 régularisation}+ \underbrace{C \sum_{i=1}^{n} max(1 - y_{i}(W^{T} X_{i} + b), 0)}_\text{Hinge loss} $$

On peut utiliser encore l'approche Dual, ou bien l'approche de résolution Primal (descente de gradient) pour résoudre cette formule.

## Kernels

Les fonctions kernels sont utilisées plus souvent avec la méthode Dual, mais il existe une méthode pour appliquer <a href="https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.129.3368&rep=rep1&type=pdf">les kernels avec la méthode de résolution Primal</a>.

> Soit $\beta$ les paramètres dans le nouvel espace, et $K$ la matrice kernel telle que $K_{ij} = K(x_{i}, x_{j})$
>
> La dernière formule devient ($\lambda = 1/C$ et L est la fonction de Hinge Loss):
>
> $$ \text{min} \quad \lambda \beta^{T} K \beta + \sum_{i=1}^{n} L(y_{i}, K_{i}^{T} \beta)$$

Une fonction kernel $\phi$ permet d'appliquer une transformation sur l'espace d'entrée. Les plus connues sont les fonctions de kernel _polynomiale_ et _radiale_.

Pour le noyau polynomial, nous devons préciser la dimension de sortie : 

$$
\phi(X) = \phi(\begin{pmatrix} x_{1} \\ x_{2} \end{pmatrix}) = \begin{pmatrix} x_{1}^{2} \\ \sqrt{2}x_{1}x_{2} \\ x_{2}^{2} \end{pmatrix}
$$

Cependant le kernel polynomial prend deux points et calcul directement le produit $\phi(a)^{T} \phi(b)$ qui constitue une partie de la solution du problème d'optimisation quadratique présenté précédemment. Sa formule après simplification est la suivante (exemple de polynome de degré 2) : 

$$
K(a, b) = (\gamma a^{T} b + r)^{d} \quad \text{ ou $r$ est le terme indépendent et $d$ est le degré du polynome}
$$

Pour le kernel radial (radial basis function or rbf), sa fonction est la suivante :

$$
K(a, b) = exp(-\gamma \|a - b\|^{2})
$$

Le terme $\gamma$ définit l'influence qu'a chaque point sur le reste des autres points. Plus il est grand plus la projection d'un point dépend des points adjacents.