# Rapport du TP7 :  Machine à Vecteur de Support (MVS)

Le but de ce rapport est d'expliquer le fonctionnement des Machine à Vecteur de Support (Support Vector Machine ou SVM), leurs entrées et leurs sorties.

## Definition

Le but des MVS est de trouver une fonction de séparation linéaire dont le signe servira de fonction de classification : $$sign(W^{T} X + b) \rightarrow \{0, 1\}$$

Pour cela, nous aimerons maximizer la largeur de la marge séparatrice entre les deux classes, pour maximiser ainsi la confiance du classifieur.

## Démonstration
On distingue deux types de marge pour les svm
### MVS à marge stricte 

La formule du hyperplan séparateur est : $h = W^{T} X + b$.

Une solution pour ce problème est la suivante : 

Si $W^{T} X + b \geq 0 \implies \text{X est +}$

Sinon si $W^{T} X + b < 0 \implies \text{X est -}$

Cependant, cette règle de décision : $(\delta) W^{T} X + b = 0$ est que même $k W, k b$ sont des solutions pour l'equation. Par conséquent, en pratique la règles suivante est employée : 

Pour chaque X de classe + : $W^{T} X + b \geq 1$

Pour chaque X de classe - : $W^{T} X + b \leq -1$

Et on a $y_{i} =
\begin{cases}
    1 & \quad \text{Pour X +}\\
    -1 & \quad \text{Pour X -}
\end{cases}$

La règle peut donc être simplifiée comme suit:

$$
\begin{align}
& y_{i}(W^{T} X_{i} + b) - 1 \geq 0 \nonumber \\
& \text{et} \nonumber \\
& y_{i}(W^{T} X_{i} + b) - 1 = 0 \quad \text{ pour chaque } X_{i} \text{ sur la frontière de décision (les marges)} \nonumber
\end{align}
$$

Pour que l'hyperplan obtenu soit optimal, la largeur de la frontière de séparation doit être maximale. Les vecteurs de support qui sont les points situés sur la bordure de la frontière vont nous aider pour cela.



### MVS à marge souple

L'approche d'optimisation précédent aboutit à une solution seulement si les points sont linéairement séparables. Pour pallier à cet inconvénient, nous introduisons dans ce qui suit les MVS à marge souple.

Nous permettons la violation des marges avec l'introduction des variables ressort $\epsilon_{i}$ (slack variables), les formules précédentes deviennent :

$$
\begin{cases}
    \text{min } & \quad \frac{1}{2} W^{T} W + C \sum_{i=1}^{n} \epsilon_{i}  \quad \text{ , C est un hyperparamètre}\\
    \text{sachant que } & \quad y_{i}(W^{T} X_{i} + b) \geq 1 - \epsilon_{i}
\end{cases}
$$

La variable ressort permet aux $X_{i}$ de franchir le marge et de même être sur le mauvais côté. Le $C$ permet de controler le coût d'un tel compromis, si $C$ est très grand le MVS devient strict, sinon, avec un petit $C$, il sacrifie des points pour obtenir une solution simple.





## Kernels

Un noyau (kernel) dans SVM est une fonction mathématique utilisée pour transformer les données d'entrée d'un espace de dimension inférieure vers un espace de dimension supérieure. Il permet de capturer des relations non linéaires entre les variables d'entrée.

Le rôle d'un noyau dans SVM est de calculer les similarités entre les points d'entraînement et les points de test dans l'espace transformé. Il permet ainsi de déterminer la position des points dans cet espace et de construire une frontière de décision qui sépare les différentes classes.

En utilisant des noyaux appropriés, tels que le noyau gaussien, linéaire ou polynomiale, les SVM peuvent résoudre des problèmes de classification non linéaires en trouvant des frontières de décision complexes dans l'espace de caractéristiques de dimension supérieure.

## Noyau gaussien 
Les noyaux gaussiens sont l'un des types de noyaux utilisés dans les SVM (Support Vector Machines). Ils sont largement utilisés pour capturer des relations non linéaires entre les variables d'entrée. Le noyau gaussien transforme les données d'entrée dans un espace de caractéristiques de dimension supérieure, où la séparation linéaire est plus facile. Il utilise une fonction gaussienne pour mesurer la similarité entre les points d'entraînement et les points de test, permettant ainsi au SVM de modéliser des relations complexes entre les variables ,la formule géneral est la suivant :
$$ \exp(-\gamma \|x-x'\|^2)$$
Ou $\gamma$ est un hyperparamètre
**les paramètres de ce noyaux sont les suivants:**
* **C:** le paramètre C dans un SVM contrôle le compromis entre la précision de classification des exemples d'entraînement et la complexité de la frontière de décision. Des valeurs plus élevées de C conduisent à un ajustement plus précis aux données d'entraînement, mais peuvent également entraîner un surajustement. Des valeurs plus faibles de C favorisent une frontière de décision plus simple et une meilleure généralisation. En ajustant la valeur de C, on peut régulariser le modèle et trouver un équilibre optimal entre l'ajustement aux données d'entraînement et la capacité de généralisation sur de nouvelles données.
* **Gamma:** le paramètre gamma contrôle la forme de la fonction noyau gaussien. Une valeur plus petite de gamma entraîne une courbe gaussienne plus large, ce qui signifie que les exemples d'entraînement ont une influence plus étendue. À l'inverse, une valeur plus élevée de gamma donne une courbe plus étroite, ce qui signifie que les exemples d'entraînement ont une influence plus localisée.

## Noyau polynomial
Les noyaux polynomiaux sont un autre type de noyaux utilisés dans les SVM (Support Vector Machines). Ils sont utilisés pour capturer des relations non linéaires entre les variables d'entrée. Les noyaux polynomiaux transforment les données d'entrée dans un espace de caractéristiques de dimension supérieure en appliquant des fonctions polynomiales. Cela permet au SVM de modéliser des relations plus complexes et de créer des frontières de décision non linéaires. Les noyaux polynomiaux sont particulièrement utiles lorsque les données présentent des motifs non linéaires et peuvent aider à améliorer les performances du modèle SVM.la formule géneral est la suivant :
$$ (\gamma \langle x, x'\rangle + r)^d$$
Ou $d$ est le degré du polynorme 
**les paramètres de ce noyaux sont les suivants:**
* **C et Gamma :** qui ont le meme role que pour les noyaux gaussiens 
* **Le degré:** le degré est un paramètre spécifique aux noyaux polynomiaux. Il détermine la complexité de la transformation polynomiale appliquée aux données d'entrée. Un degré plus élevé permet une représentation plus complexe des relations non linéaires, mais cela peut également augmenter la complexité et le temps de calcul du modèle.