# Rapport du TP7 :  Machine à Vecteur de Support (MVS)
Le but de ce rapport est d’expliquer le fonctionnement des Machine à Vecteur de Support et l’utilité de ses paramètres.

MVS est chargée de trouver la limite de décision pour séparer les différentes classes et maximiser la marge.

Les marges sont les distances (perpendiculaires) entre l'hyperplan séparateur et les points les plus proches de lui.    


## MVS dans les datasets linéairement séparables
<img src="linear.png" align="center"/>

Évidemment, un nombre infini d'hyperplan existent pour séparer les points marron et bleu dans l'exemple ci-dessus. 

MVS doit trouver l'hyperplan optimale telle que :

- Ne prendre en considération que les hyperplans séparateur i.e les hyperplan qui classent les individus correctement.
- choisir l'hyperplan qui maximise la marge.

### Qu'est-ce qu'un hyperplan?


Un hyperplan est un sous-espace à $n-1$ dimensions pour un espace à $n$ dimensions. Pour un espace à 2 dimensions, son hyperplan sera à 1 dimension, qui n'est qu'une ligne. Pour un espace à 3 dimensions, son hyperplan sera à 2 dimensions, qui est un plan qui tranche le cube...etc.

Tout hyperplan de dimension $n$ peut être écrit mathématiquement comme ci-dessous:

$$ \theta _0 + \theta _1 * x_1 + \theta _2 * x_2 + ... + \theta _n * x_n  = 0 $$

### Qu'est-ce qu'un hyperplan séparateur?
<img src="linear2.png" align="center"/>

Dans l'exemple ci dessus la ligne tracée (ou hyperplan unidimensionnel) est un hyperplan séparateur, car tout les éléments marron sont au dessous de la ligne, tandis que tout les éléments bleus sont au dessus.

Cette propriété peut s'écrire mathématiquement comme suit:

$$ \theta _0 + \theta _1 * x_1 + \theta _2 * x_2 > 0 \quad \text{si y=1 (bleu)}$$
$$ \theta _0 + \theta _1 * x_1 + \theta _2 * x_2 < 0 \quad \text{si y=-1 (marron)}$$

En généralisant ces deux inégalités en une seule, on obtient :

$$y*(\theta _0 + \theta _1 * x_1 + \theta _2 * x_2) > 0$$

Et cette dernière représente la contrainte d'hyperplan séparateur.

## MVS dans les datasets non-linéairement séparables

Dans le cas linéairement séparable, MVS essaie de trouver l'hyperplan qui maximise la marge, à condition que tout les individus soient correctement classées. Mais en réalité, les datasets ne sont presque jamais linéairement séparables.
MVS traite les cas non linéairement séparables en introduisant deux concepts : les marges souples et les kernels.

### Les marges souples
avec Les marges souples, MVS tolère que quelques points soient mal classés et essaie d'équilibrer le compromis entre la recherche d'une ligne qui maximise la marge et minimise la mauvaise classification.

Le degré de tolérance que nous voulons donner lors de la recherche de la limite de décision est un hyper-paramètre important pour le MVS. Dans Sklearn, il est représenté par le terme de pénalité - "C". Plus le C est grand, plus MVS est pénalisé lorsqu'il fait une mauvaise classification. Par conséquent, plus la marge est étroite et moins de vecteurs de support dépendront de la limite de décision.

<img src="soft1.png" align="center"/>
<img src="soft100.png" align="center"/>

### Les kernels
Ce qu'un kernel fait, c'est qu'il utilise des caractéristiques existantes, applique certaines transformations et crée de nouvelles caractéristiques. Ces nouvelles caractéristiques sont la clé pour MVS pour trouver la limite de décision non linéaire.

Dans Sklearn - svm.SVC(), nous pouvons choisir 'linear', 'poly', 'rbf', 'sigmoide', 'precomputed' comme kernel. Dans notre TP on se concentre sur le kernel gaussien ou 'rbf', sa fonction est la suivante:

$$K(x_1, x_2) = exp(-\gamma \|x_1 - x_2\|^{2})$$

Le terme $\gamma$ définit l'influence qu'a chaque point sur le reste des autres points, plus $\gamma$ est élevé, plus les points auront d'influence sur la limite de décision, plus la limite de decision sera irrégulière.

<img src="rbf1.png" align="left"/>
<img src="rbf25.png" align="right"/>
<img src="rbf50.png" align="center"/>


