# Les _support vector machines_

In [None]:
## Les imports de base
import numpy as np
import matplotlib.pyplot as plt

## Historique des SVM

Les Support Vector Machines (SVM) ont √©t√© introduits dans les ann√©es 1990 par Vladimir Vapnik et ses collaborateurs, dans le cadre du d√©veloppement de la [th√©orie de Vapnik-Chervonenkis](https://fr.wikipedia.org/wiki/Th%C3%A9orie_de_Vapnik-Chervonenkis) (un nom compliqu√© pour parler d'apprentissage statistique...). Un SVM est un mod√®le d'apprentissage supervis√© destin√© √† r√©soudre des probl√®mes de classification et de r√©gression en trouvant un hyperplan optimal qui s√©pare les donn√©es en classes distinctes avec une marge maximale.

Le concept de base des SVMs repose sur la minimisation de l'erreur de classification tout en maximisant la marge entre les classes. Ce mod√®le a √©t√© largement popularis√© gr√¢ce √† ses performances remarquables (pour l'√©poque) et √† sa capacit√© √† g√©rer des espaces de haute dimension, faisant des SVM un choix populaire pour une vari√©t√© de t√¢ches d'apprentissage automatique.

Avec le temps, plusieurs algorithmes ont √©t√© d√©velopp√©s pour r√©soudre les probl√®mes de SVM, y compris l'[algorithme SMO (_Sequential minimal optimization_)](https://cs229.stanford.edu/materials/smo.pdf) et les m√©thodes bas√©es sur les points int√©rieurs. Ces d√©veloppements ont permis d'am√©liorer l'efficacit√© et la scalabilit√© des SVM dans des applications pratiques.

Les SVMs ont √©t√© d√©velopp√©s √† la base pour des probl√®mes de classification binaire (mais il est possible d'√©tendre leur fonctionnement aux probl√®mes multi-classes). Leur objectif est de trouver un hyperplan qui s√©pare les donn√©es en deux classes de mani√®re optimale. L'id√©e cl√© est de maximiser la marge, c'est-√†-dire la distance entre les √©chantillons les plus proches des deux classes et l'hyperplan s√©parateur. Les points les plus proches de l'hyperplan sont appel√©s **vecteurs supports**.

## Formulation du probl√®me primal avec marge dure

√âtant donn√© un probl√®me de classification binaire $\{(\mathbf{x}_i, y_i)\}_{i=1}^n$ avec $\mathbf{x}_i \in \mathbb{R}^p$ un √©chantillon (de dimension $p$) et $y_i \in \{-1,+1\}$ sa classe associ√©e.

Si les donn√©es sont **lin√©airement s√©parables**, alors il existe un hyperplan $\mathcal{H} = (\mathbf{w},b)$ d'√©quation $\mathbf{w}^T \mathbf{x} + b = 0$ qui s√©pare parfaitement les donn√©es de la classe $+1$ de celles de la classe $-1$ avec $\mathbf{w} \in \mathbb{R}^p$ un vecteur normal √† l'hyperplan, et $b \in \mathbb{R}$ le biais (ordonn√©e √† l'origine).

L'existence d'un tel hyperplan :
* se traduit math√©matiquement par le fait que $\mathbf{w}^T \mathbf{x}_i + b \geq 0$ si $y_i = +1$ et $\mathbf{w}^T \mathbf{x}_i + b \leq 0$ si $y_i = -1$, ou, dit de mani√®re plus compacte, 

$$ y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 0 \ \ \forall i = 1,\dots,n $$
* implique en fait qu'il existe une infinit√© de tels hyperplan $\Rightarrow$ il faut donc un crit√®re suppl√©mentaire pour choisir l'hyperplan optimal.

Le crit√®re suppl√©mentaire de choix de l'hyperplan optimal dans le cas du SVM est la **maximisation** de la marge, autrement dit, la distance entre l'hyperplan et les √©chantillons les plus proches des deux c√¥t√©s de l'hyperplan.
On peut alors montrer (cf le cours) que :
* la marge (normalis√©e) s'√©crit $M_\mathcal{H} = \frac{2}{\| \mathbf{w} \|}$
* les contraintes de s√©parabilit√© lin√©aire se r√©√©crivent $ y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 \ \ \forall i = 1,\dots,n $

La maximisation de la marge est ramen√©e √† une minimisation d'un terme quadratique (totalement √©quivalent), pour aboutir au final √† la formulation suivante du probl√®me primal $(P)$ du SVM √† marge dure :

$$\begin{align}
\min_{(\mathbf{w},b) \in \mathbb{R}^{p}\times \mathbb{R}} \quad & \frac{1}{2} \| \mathbf{w} \|^2 \qquad (P)\\
\text{tel que} \quad & y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 \ \forall i = 1,\dots,n
\end{align}
$$

La fonction objective √©tant quadratique et les contraintes √©tant lin√©aires, on est bien en pr√©sence d'un probl√®me de programmation quadratique (QP).

## Formulation du probl√®me dual

L'application des conditions KKT au probl√®me primal permettent de formuler le probl√®me dual $(D)$ associ√© au probl√®me primal $(P)$ pr√©c√©dent pour le SVM, √† savoir :

$$\begin{align}
\max_{\boldsymbol \alpha \in \mathbb{R}^{n}} \quad & \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i=1}^n \sum_{j=1}^n \alpha_i \alpha_j y_i y_j \mathbf{x}_i^T \mathbf{x}_j \qquad (D) \\
\text{tel que} \quad & \alpha_i \geq 0 \ \ \forall i = 1, \dots, n \\
& \sum_{i=1}^n \alpha_i y_i = 0
\end{align}
$$

o√π $\boldsymbol \alpha \in \mathbb{R}^n$ est la variable duale constitu√©e des $n$ multiplicateurs de Lagrange associ√©s aux $n$ contraintes d'in√©galit√© du probl√®me primal.

Le probl√®me dual est √©galement un probl√®me QP, de contraintes $\alpha_i \geq 0 \ \¬†\forall i = 1,\dots,n$ (admissibilit√© duale) et $\sum_{i=1}^n \alpha_i y_i = 0$ (relation d√©coulant de la stationnarit√© du Lagrangien).
Il peut √™tre reformul√© sous forme vectorielle comme : 

$$\begin{align}
\max_{\boldsymbol \alpha \in \mathbb{R}^{n}} \quad & \mathbf{1}^T \boldsymbol \alpha - \frac{1}{2} \boldsymbol \alpha^T \mathbf{Q} \boldsymbol \alpha \qquad (D)\\
\text{tel que} \quad & \alpha_i \geq 0 \ \ \forall i = 1, \dots, n \\
& \mathbf{y}^T \boldsymbol \alpha = 0
\end{align}
$$

ou
- $ \mathbf{1} \in \mathbb{R}^n $ est un vecteur de 1.
- $ \mathbf{Q} \in \mathbb{R}^{n \times n} $ est la matrice des produits scalaires des √©chantillons multipli√©s par le produit de leur classe $ Q_{ij} = y_i y_j \mathbf{x}_i^T \mathbf{x}_j $.
- $ \mathbf{y} \in \mathbb{R}^n $ est le vecteur des labels, avec $ y_i \in \{-1, 1\} $.

## Solution du probl√®me primal

Une fois la solution optimale $ \boldsymbol \alpha^\star $ du probl√®me dual trouv√©e, on peut en d√©duire la solution optimale du probl√®me primal de la mani√®re suivante :

- **Vecteur normal √† l'hyperplan optimal $ \mathbf{w}^\star $** : 
  $$
  \mathbf{w}^\star = \sum_{i=1}^{n} \alpha_i^\star y_i \mathbf{x}_i
  $$
- **Biais de l'hyperplan optimal $ b^\star $** : Le biais optimal peut √™tre ensuite calcul√© √† partir des vecteurs de support (par exemple √† partir de n'importe quel $ \mathbf{x}_i $ tel que $ \alpha_i^\star > 0 $) en utilisant l'√©quation :
  $$
  y_i \big( (\mathbf{w}^\star)^T \mathbf{x}_i + b^\star)\big) = 1
  $$


## G√©n√©ration d'un jeu de donn√©es lin√©airement s√©parable

In [None]:
from sklearn.datasets import make_classification

Avant toute chose, g√©n√©rons un jeu de donn√©es de classification binaire **lin√©airement s√©parable**. Pour ce TP, on va se restreindre √† des √©chantillons √† deux dimensions $\mathbf{x}_i \in \mathbb{R}^2$.

In [None]:
# G√©n√©ration d'un jeu de donn√©es lin√©airement s√©parable
X, y = make_classification(n_samples=100, n_features=2, n_informative=2, n_redundant=0, 
                           n_clusters_per_class=1, flip_y=0, class_sep=2.0, random_state=42)
# Ajout d'un bruit l√©ger aux donn√©es
np.random.seed(seed=42)
noise = np.random.normal(scale=0.4, size=X.shape)
X += noise

cls = np.unique(y)
# Affichage des donn√©es
plt.figure(figsize=(8, 6))
plt.scatter(X[y==cls[0]][:, 0], X[y==cls[0]][:, 1], color='red', label='Classe %d'%cls[0], edgecolor='k')
plt.scatter(X[y==cls[1]][:, 0], X[y==cls[1]][:, 1], color='blue', label='Classe %d'%cls[1], edgecolor='k')
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.title('Jeu de donn√©es lin√©airement s√©parable')
plt.legend()
plt.grid(True)
plt.show()

Dans l'exemple pr√©c√©dent, la labellisation des classes a √©t√© faite de mani√®re standard par `scikit-learn`, √† savoir $y_i \in \{0,1\}$ pour un probl√®me binaire.

In [None]:
print("Labels des classes g√©n√©r√©es :",np.unique(y))

En revanche, pour la formulation du probl√®me du SVM, les deux classes doivent √™tre labellis√©e par $y_i \in \{ -1, +1 \}$

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

Relabellisez les donn√©es pr√©c√©dentes (le vecteur `y`) pour vous placer dans le cas attendu pour la r√©solution du SVM

In [None]:
y = ??? # FIXME ‚ö†Ô∏è
print("Labels des classes apr√®s relabellisation :",np.unique(y))

In [None]:
cls = np.unique(y)
# Affichage des donn√©es
plt.figure(figsize=(8, 6))
plt.scatter(X[y==cls[0], 0], X[y==cls[0], 1], color='red', label='Classe %d'%cls[0], edgecolor='k')
plt.scatter(X[y==cls[1], 0], X[y==cls[1], 1], color='blue', label='Classe %d'%cls[1], edgecolor='k')
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.title('Jeu de donn√©es lin√©airement s√©parable')
plt.legend()
plt.grid(True)
plt.show()

## R√©solution du SVM avec marge dure en utilisant `scipy.optimize.minimize`

Maintenant qu'un jeu de donn√©es lin√©airement s√©parable a √©t√© g√©n√©r√© et labellis√© en accord avec le mod√®le du SVM, nous allons passer √† la r√©solution de son probl√®me dual en utilisant tout d'abord la fonction `minimize` de `scipy.optimize`.

In [None]:
from scipy.optimize import minimize

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

R√©solvez le probl√®me dual du SVM gr√¢ce √† `minimize`, avec la d√©marche suivante :
1. Le probl√®me dual $(D)$ √©tant un probl√®me de **maximisation**, et la fonction `minimize` √©tant (comme son nom l'indique), une routine permettant de **minimiser** une fonction objective, reformulez tout d'abord le probl√®me dual pour l'√©crire comme un probl√®me de minimisation.
2. D√©finissez explicitement la matrice $\mathbf{Q} \in \mathbb{R}^{n \times n}$ de terme g√©n√©ral $ Q_{ij} = y_i y_j \mathbf{x}_i^T \mathbf{x}_j $.
3. D√©finissez la fonction objective √† minimiser selon le format attendu par `minimize`.
4. D√©finissez les fonctions de contraintes du probl√®me dual selon le format attendu par `minimize`.<br>
<u>Note</u> : la contrainte $\alpha_i \geq 0$ peut √™tre d√©finie soit via une contrainte d'in√©galit√©, soit gr√¢ce √† l'argument `bounds`.
5. R√©solvez num√©riquement le probl√®me dual gr√¢ce √† `minimize`.

In [None]:
# d√©finition de la matrice Q de l'objective duale
Q = ??? # # FIXME ‚ö†Ô∏è

In [None]:
# d√©finition de la fonction objective duale
def objective_function(x):
    ??? # FIXME ‚ö†Ô∏è

In [None]:
# definition des contraintes
def eq_constraint:
    ??? # FIXME ‚ö†Ô∏è

def ineq_constraint:
    ??? # FIXME ‚ö†Ô∏è
    
constraints = ??? # FIXME ‚ö†Ô∏è

In [None]:
result_sp = minimize(???) # FIXME ‚ö†Ô∏è

# Affichage des r√©sultats
print("Variable duale optimale :", result_sp.x)
print("Valeur optimale de la fonction objective :", result_sp.fun)
print("Succ√®s de l'optimisation :", result_sp.success)
print("Message :", result_sp.message)

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

Une fois le probl√®me dual r√©solu et le multiplicateur de Lagrange optimal $\boldsymbol \alpha^\star$ obtenu, d√©terminez :
1. Les vecteurs de support $\mathbf{x}_s$ (tels que $ \alpha_s^\star > 0 $)
2. Le vecteur normal $\mathbf{w}^\star$ de l'hyperplan optimal : $\displaystyle \mathbf{w}^\star = \sum_{i=1}^{n} \alpha_i^\star y_i \mathbf{x}_i$
3. Le biais $ b^\star$ de l'hyperplan optimal $y_i \big( (\mathbf{w}^\star)^T \mathbf{x}_i + b^\star)\big) = 1$ calcul√© √† partir d'un vecteur de support. 
  

In [None]:
alpha = result_sp.x

# Calcul des vecteurs de support
Xs_indices = ??? # FIXME ‚ö†Ô∏è indices (bool√©en) des vecteurs de support
ys = ??? # FIXME ‚ö†Ô∏è labels des vecteurs de support
Xs = ??? # FIXME ‚ö†Ô∏è coordonn√©es de vecteurs de support

In [None]:
# Calcul des param√®tres de l'hyperplan optimal
w_sp = ??? # FIXME ‚ö†Ô∏è vecteur normal √† l'hyperplan
b_sp = ??? # FIXME ‚ö†Ô∏è biais de l'hyperplanred

### Affichage de l'hyperplan optimal

Pour finir, voici une fonction vous permettant d'afficher sur le scatterplot des donn√©es : 
- les vecteurs de supports `Xs` (et leur classe associ√©e `ys`) que vous avez calcul√© √† la question pr√©c√©dente.
- l'hyperplan optimal du SVM de param√®tres $\mathbf{w}^\star$ et $b^\star$
- les hyperplans passant par les vecteurs de support des deux classes (d'√©quation ${(\mathbf{w}^\star)}^T \mathbf{x} + b^\star = \pm 1$).

In [None]:
def plot_svm(X, y, Xs, ys, w_star, b_star):
    
    plt.figure(figsize=(10, 6))
    plt.grid(True)
    # Classe -1
    plt.scatter(X[y==-1,0], X[y==-1,1],
                color='red',label='Classe -1',marker='o',edgecolor='k')
    plt.scatter(Xs[ys==-1,0], Xs[ys==-1,1],
                color='red',label='Vecteurs de support -1',marker='o',edgecolors='k',s=150)
    # Classe +1
    plt.scatter(X[y==1,0], X[y==1,1],color='blue', label='Classe +1',marker='o',edgecolor='k')
    plt.scatter(Xs[ys==1,0], Xs[ys==1,1], 
                color='blue',label='Vecteurs de support +1',marker='o',edgecolors='k',s=150)
      
    xmin = X[:,0].min()-0.5
    xmax = X[:,0].max()+0.5
    # Hyperplan optimal
    x_vals = np.linspace(xmin, xmax, 200)
    y_vals = -(w_star[0]*x_vals+b_star)/w_star[1]
    plt.plot(x_vals, y_vals, 'k-', label='Hyperplan optimal')
    # Hyperplans passant par les vecteurs de support (w.x+b=¬±1)
    y_vals_support1 = -(w_star[0]*x_vals+(b_star-1))/w_star[1]
    y_vals_support2 = -(w_star[0]*x_vals+(b_star+1))/w_star[1]
    plt.plot(x_vals, y_vals_support1, 'k--', label='Hyperplan +1')
    plt.plot(x_vals, y_vals_support2, 'k-.', label='Hyperplan -1')
    # Titre, labels et l√©gende
    plt.xlabel('$x_1$')
    plt.ylabel('$x_2$')
    plt.title('Hyperplan optimal et vecteurs de support')
    plt.legend()
    plt.show()

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

Affichez la solution que vous avez trouv√© pour le SVM. Si celle-ci est correcte, la figure devrait faire sens...  

In [None]:
plot_svm(X,y,Xs,ys,w_sp,b_sp)

## R√©solution du SVM avec marge dure en utilisant `cvxopt`

Vous devriez √™tre convaincus que le probl√®me dual du SVM est bien un programme quadratique. Il est donc maintenant temps de passer √† sa r√©solution en vous servant du solveur `qp` de `cvxopt` (qui, rappel, ne fonctionne **que** pour les programmes quadratiques au contraire de `minimize`), dont le format standard pour le solveur est 

$$\begin{aligned}
& \text{minimiser} & \frac{1}{2} \mathbf{x}^T \mathbf{P} \mathbf{x} + \mathbf{q}^T \mathbf{x} \\
& \text{sous les contraintes} & \mathbf{G}\mathbf{x} \leq \mathbf{h} \\
& & \mathbf{A}\mathbf{x} = \mathbf{b}
\end{aligned}
$$

Pour r√©soudre le probl√®me dual du SVM avec `qp`, il vous faudra donc "juste" sp√©cifier (au format `matrix` de `cvxopt`) les d√©finitions de ces matrices $\mathbf{P}$, $\mathbf{G}$, $\mathbf{A}$ et des vecteurs $\mathbf{q}$, $\mathbf{h}$, $\mathbf{b}$.

In [None]:
import cvxopt
from cvxopt import printing
cvxopt.matrix_repr = printing.matrix_str_default
from cvxopt import matrix
from cvxopt.solvers import qp

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

R√©solvez le probl√®me dual du SVM gr√¢ce au solveur `qp` de `cvxopt`, avec la d√©marche suivante :
1. Tout comme pour `minimize`, le solveur `qp` de `cvxopt` permet de **minimiser** une fonction objective donn√©e. La reformulation du probl√®me dual que vous avez (normalement) fait √† la question pr√©c√©dente avec `minimize` reste donc valable ici...
2. Identifiez puis d√©finissez les matrices $\mathbf{P}$, $\mathbf{G}$, $\mathbf{A}$ et les vecteurs $\mathbf{q}$, $\mathbf{h}$, $\mathbf{b}$ attendus par `qp`.
5. R√©solvez num√©riquement le probl√®me dual gr√¢ce √† `qp`.

‚ö†Ô∏è Il est possible que vous obteniez une erreur du type 
```python
TypeError: 'A' must be a 'd' matrix with 100 columns
```

`cvxopt` utilise plusieurs formats de stockage des matrices, en fonction du type des entr√©es (entiers, flottants, complexes). Si vous initialisez un `matrix` √† partir d'un `array` entier, vous obtiendrez un encodage entier (sans surprise).

In [None]:
A = np.array([2,1])
matrix(A).typecode

L'erreur pr√©c√©dente vous indique que `qp` attend que le param√®tre (matrice ou vecteur) qui lui est pass√©s en arguments soit de type `'d'` (flottant). Pour cela, il suffit juste de multiplier l'`array` qui sert √† instancier la variable `matrix` par `1.`

In [None]:
A = np.array([2,1])
matrix(1.*A).typecode

In [None]:
# d√©finition des matrices/vecteurs (au format matrix) pour le probl√®me dual
P = ??? # FIXME ‚ö†Ô∏è
q = ??? # FIXME ‚ö†Ô∏è
G = ??? # FIXME ‚ö†Ô∏è
h = ??? # FIXME ‚ö†Ô∏è
A = ??? # FIXME ‚ö†Ô∏è
b = ??? # FIXME ‚ö†Ô∏è

In [None]:
# r√©solution du probl√®me dual
result_cvxopt = qp(???) # FIXME ‚ö†Ô∏è

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

Idem que pour la question pr√©c√©dente avec `minimize`, d√©terminez maintenant gr√¢ce au multiplicateur de Lagrange optimal $\boldsymbol \alpha^\star$ obtenu avec `qp` :
1. Les vecteurs de support $\mathbf{x}_s$ (tels que $ \alpha_s^\star > 0 $)
2. Le vecteur normal $\mathbf{w}^\star$ de l'hyperplan optimal : $\displaystyle \mathbf{w}^\star = \sum_{i=1}^{n} \alpha_i^\star y_i \mathbf{x}_i$
3. Le biais $ b^\star$ de l'hyperplan optimal $y_i \big( (\mathbf{w}^\star)^T \mathbf{x}_i + b^\star)\big) = 1$ calcul√© √† partir d'un vecteur de support. 
  

In [None]:
alpha = np.array(result_cvxopt['x']).flatten()

# Calcul des vecteurs de support
Xs_indices = ??? # FIXME ‚ö†Ô∏è indices (bool√©en) des vecteurs de support
ys = ??? # FIXME ‚ö†Ô∏è labels des vecteurs de support
Xs = ??? # FIXME ‚ö†Ô∏è coordonn√©es de vecteurs de support

In [None]:
# Calcul des param√®tres de l'hyperplan optimal
w_cvxopt = ??? # FIXME ‚ö†Ô∏è vecteur normal √† l'hyperplan
b_cvxopt = ??? # FIXME ‚ö†Ô∏è biais de l'hyperplan

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

Affichez la solution que vous avez trouv√© pour le SVM avec `qp`. Si celle-ci est correcte (et sous r√©serve que celle que vous avez obtenu avec `minimize` l'√©tait aussi), vous devriez donc obtenir la m√™me chose...

In [None]:
plot_svm(X,y,Xs,ys,w_cvxopt,b_cvxopt)

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

Sous r√©serve que vous avez trouv√© les bonnes solutions avec `minimize` et `qp`, l'affichage du scatterplot avec les vecteurs de support et hyperplans optimaux doit normalement √™tre le m√™me dans les deux cas de figure (ouf).

V√©rifiez donc que les param√®tres $\mathbf{w}^\star$ et $b^\star$ concordent bien num√©riquement pour les deux m√©thodes : 
- est-ce vraiment le cas ?
- que pouvez vous en conclure ?

In [None]:
w_sp ??? w_cvxopt # FIXME ‚ö†Ô∏è est-ce que les vecteurs normaux aux hyperplans concordent ?
b_sp ??? b_cvxopt # FIXME ‚ö†Ô∏è est-ce que les biais des hyperplans concodent ?

On peut donc en conclude que ‚ö†Ô∏è FIXME

## Bravo ! üëèüçª

Vous en avez termin√© avec la r√©solution du SVM √† marge dure. En route maintenant vers les [SVMs √† marge douce](TP_SVM_exo3.ipynb) !