# Les _support vector machines_

In [None]:
## Les imports de base
import numpy as np
import matplotlib.pyplot as plt

## SVM √† marge souple

Le **SVM √† marge souple** (Soft margin SVM) est une extension du SVM √† marge dure qui permet de g√©rer les jeux de donn√©es o√π les classes ne sont pas parfaitement lin√©airement s√©parables. En effet, dans de nombreux cas r√©els, les donn√©es sont bruit√©es ou contiennent des erreurs de classification, rendant une s√©paration lin√©aire parfaite impossible, et l'√©chec par la m√™me occasion d'une tentative de r√©solution par un SVM √† marge dure.

Dans le cas du SVM √† marge souple, la formulation du probl√®me permet √† certains √©chantillons de se retrouver "dans la marge" (entre l'hyperplan optimal $\mathbf{w}^T \mathbf{x} + b = 0$ et l'hyperplan $\mathbf{w}^T \mathbf{x} + b = \pm 1$ selon leur classe), voir du mauvais c√¥t√© de la marge, comme l'illustre la figure ci-dessous $\downarrow$

<img src="https://miro.medium.com/v2/resize:fit:552/1*CD08yESKvYgyM7pJhCnQeQ.png" width="600"/>

L'objectif (g√©om√©trique) reste toujours de maximiser la marge, mais en int√©grant ces erreurs potentielles. Pour cela, des **variables de rel√¢chement** $\xi_i$ (associ√©es √† chaque √©chantillon $\mathbf{x}_i$) sont introduites dans la formulation du probl√®me pour relacher les contraintes de s√©parabilit√© lin√©aire.

Ainsi, les $n$ contraintes $ y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 \ \ \forall i = 1,\dots,n $ se transforment dans le cas du SVM √† marge souple en :

$$ \begin{aligned}
y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i, \quad \forall i = 1, \dots, n \\
\xi_i \geq 0, \quad \forall i = 1, \dots, n
\end{aligned} $$

o√π les variables de rel√¢chement $\xi_i$ s'interpr√®tent de la mani√®re suivante :

- $\xi_i = 0$ : L'√©chantillon est correctement class√© et se situe √† l'ext√©rieur ou sur la fronti√®re de marge.
- $0 < \xi_i < 1$ : L'√©chantillon est correctement class√©, mais il est √† l'int√©rieur de la marge. Il est donc plus proche de l'hyperplan de s√©paration que les vecteurs de support.
- $\xi_i \geq 1$ : L'√©chantillon est mal class√©, car il se trouve du mauvais c√¥t√© de l'hyperplan de s√©paration. Plus $\xi_i$ est grand, plus le point est loin de l'hyperplan de son c√¥t√© incorrect.

<img src="https://machinelearningcoban.com/assets/20_softmarginsvm/ssvm3.png" width="600"/>

Dans l'illustration ci-dessus $\uparrow$, $\xi_1 > 1$ et $\xi_3 > 1$ puisque les √©chantillons $\mathbf{x}_1$ et $\mathbf{x}_3$ sont du mauvais c√¥t√© de la marge. En revanche, $0 < \xi_2 <1$ puisque $\mathbf{x}_2$ est dans la marge, mais du bon c√¥t√© de celle ci.

## Formulation du probl√®me primal avec marge souple

Les variables de rel√¢chement $\xi_i$ √©tant toutes positives, elles jouent le r√¥le de co√ªts additionnels qui doivent √™tre pris en compte dans la d√©finition de la fonction objective √† minimiser. Ainsi, la formulation du probl√®me primal $(P)$ du SVM √† marge souple s'√©crit :

$$
\begin{align}
\min_{\mathbf{w} \in \mathbb{R}^p, \ b \in \mathbb{R}, \ \boldsymbol \xi \in \mathbb{R}^n} \quad & \frac{1}{2} \| \mathbf{w} \|^2 + C \sum_{i=1}^{n} \xi_i & (P)\\
\text{tel que} \quad & y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i, & \forall i = 1, \dots, n \\
& \xi_i \geq 0, & \forall i = 1, \dots, n
\end{align}
$$

L'hyperparam√®tre $C$ contr√¥le la p√©nalisation des points mal class√©s. Un $C$ √©lev√© donne plus de poids √† la minimisation des erreurs de classification, tandis qu'un $C$ faible favorise une marge plus large, mais permet potentiellement plus d'erreurs de classification.

## Formulation du probl√®me dual

Tout comme pour le SVM √† marge dure, la formulation du probl√®me dual passe par l'√©criture des conditions KKT. Le probl√®me primal $(P)$ diff√®re un peu de celui du SVM √† marge dure puisque de nouvelles variables $\xi_i$ et de nouvelles contraintes $\xi_i \geq 0, \ \ \forall i =1, \dots, n$ ont √©t√© introduites. Le Lagrangien va donc les incorporer dans sa formulation, associ√©es √† de nouveaux multiplicateurs de Lagrange : 

$$ \mathcal{L}(\mathbf{w},b, \boldsymbol \xi, \boldsymbol \alpha, \boldsymbol \beta) \mapsto \frac{1}{2} \| \mathbf{w} \|^2 + C \sum_{i=1}^{n} \xi_i  - \sum_{i=1}^n \alpha_i \big(y_i (w^T \mathbf{x}_i + b) - 1 + \xi_i \big) - \sum_{i=1}^n \beta_i \xi_i$$

ou
- $(\mathbf{w}$, b, $\boldsymbol \xi) \in \mathbb{R}^p \times \mathbb{R} \times \mathbb{R}^n$ sont les variables primales.
- $\boldsymbol \alpha \in \mathbb{R}^n$ est le vecteur de multiplicateurs de Lagrange associ√© aux $n$ contraintes $y_i (w^T \mathbf{x}_i + b) \geq 1 - \xi_i$
- $\boldsymbol \beta \in \mathbb{R}^n$ est le vecteur de multiplicateurs de Lagrange associ√© aux $n$ contraintes $\xi_i \geq 0$.

La stationnarit√© du Lagrangien donne :
- $\nabla_\mathbf{w} \mathcal{L}(\mathbf{w},b, \boldsymbol \xi, \boldsymbol \alpha, \boldsymbol \beta) = 0 \Rightarrow$ $\mathbf{w}^\star = \displaystyle \sum_{i=1}^{n} \alpha_i^\star y_i \mathbf{x}_i$ : le vecteur normal √† l'hyperplan optimal est d√©fini comme pour le SVM √† marge dure.
- $\displaystyle \frac{\partial \mathcal{L}}{\partial b}(\mathbf{w},b, \boldsymbol \xi, \boldsymbol \alpha, \boldsymbol \beta) = 0 \Rightarrow$ $\displaystyle \sum_{i=1}^n \alpha_i^\star y_i = 0$ : cette contrainte reste √©galement valable pour la formulation du probl√®me dual.
- $\nabla_{\boldsymbol \xi} \mathcal{L}(\mathbf{w},b, \boldsymbol \xi, \boldsymbol \alpha, \boldsymbol \beta) = 0 \Rightarrow$ $\forall i = 1,\dots,n \ \ \beta_i^\star = C - \alpha_i^\star \Leftrightarrow \alpha_i^\star \leq C$ puisque $\beta_i^\star \geq 0$ (admissibilit√© duale).

Cette derni√®re relation permet d'exprimer $\boldsymbol \beta = C - \boldsymbol \alpha$ et donc de tout reformuler en fonction de $\boldsymbol \alpha$ seulement pour obtenir le probl√®me dual $(D)$ du SVM √† marge souple :

$$\begin{align}
\max_{\boldsymbol \alpha \in \mathbb{R}^{n}} \quad & \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i=1}^n \sum_{j=1}^n \alpha_i \alpha_j y_i y_j (\mathbf{x}_i^T \mathbf{x}_j) \qquad (D) \\
\text{tel que} \quad & 0 \leq \alpha_i \leq C \ \ \forall i = 1, \dots, n \\
& \sum_{i=1}^n \alpha_i y_i = 0
\end{align}
$$

L'expression du dual du SVM √† marge souple est ainsi tr√®s similaire √† celle du SVM √† marge dure, la seule diff√©rence √©tant que la contrainte de positivit√© des multiplicateurs de Lagrange $\alpha_i \geq 0 \ \ \forall i = 1, \dots, n$ se transforme en $0 \leq \alpha_i \leq C \ \  \forall i = 1, \dots, n$ :
- Les multiplicateurs de Lagrange $\alpha_i$ se retrouvent born√©s sup√©rieurement par la valeur de l'hyperparam√®tre $C$, ce qui veut dire que les vecteurs de support ne peuvent pas "repousser" l'hyperplan optimal avec une force sup√©rieure √† $C$.
- Si $C = +\infty$, on retrouve le SVM √† marge dure, pour lequel il ne peut y avoir de points mal class√©s !


L'√©criture sous forme vectorielle du probl√®me dual est donc similaire √† celle du SVM √† marge dure : 

$$\begin{align}
\max_{\boldsymbol \alpha \in \mathbb{R}^{n}} \quad & \mathbf{1}^T \boldsymbol \alpha - \frac{1}{2} \boldsymbol \alpha^T \mathbf{Q} \boldsymbol \alpha \qquad (D)\\
\text{tel que} \quad & 0 \leq \alpha_i \leq C \ \ \forall i = 1, \dots, n \\
& \mathbf{y}^T \boldsymbol \alpha = 0
\end{align}
$$

avec les m√™mes notations que celles de l'[exercice 2](TP_SVM_exo2.ipynb) :
- $ \mathbf{1} \in \mathbb{R}^n $ est un vecteur de 1.
- $ \mathbf{Q} \in \mathbb{R}^{n \times n} $ est la matrice des produits scalaires des vecteurs d'entr√©e multipli√©s par le produit de leur classe $ Q_{ij} = y_i y_j \mathbf{x}_i^T \mathbf{x}_j $.
- $ \mathbf{y} \in \mathbb{R}^n $ est le vecteur des labels de classe, avec $ y_i \in \{-1, 1\} $.
- $C \geq 0$ est l'hyperparam√®tre de r√©gularisation.

## Solution du probl√®me primal

Une fois la solution optimale $ \boldsymbol \alpha^\star $ du probl√®me dual trouv√©e, on peut en d√©duire la solution optimale du probl√®me primal de la mani√®re suivante :

- **Vecteur normal √† l'hyperplan optimal $ \mathbf{w}^\star $** (idem que pour le SVM √† marge dure) : $$ \mathbf{w}^\star = \sum_{i=1}^{n} \alpha_i^\star y_i \mathbf{x}_i $$
- **Vecteurs de support et variables de rel√¢chement $\xi_i$** : contrairement au SVM √† marge dure o√π il suffisait de seuiller $\boldsymbol \alpha^\star$ pour r√©cup√©rer les vecteurs de support ($\alpha_i^\star > 0 \Leftrightarrow \mathbf{x}_i$ est vecteur de support), il est n√©cessaire de prendre une pr√©caution suppl√©mentaire dans le cas du SVM √† marge souple :
   - $\alpha_i^\star = 0 \Leftrightarrow$ $\mathbf{x}_i$ n'est pas vecteur de support $\Leftrightarrow$ $y_i \big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big) > 1$ $\Leftrightarrow$ $\xi_i^\star = 0$
   - $0 < \alpha_i^\star < C \Leftrightarrow$ $\mathbf{x}_i$ est vecteur de support $\Leftrightarrow$ $y_i \big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big) = 1$ $\Leftrightarrow$ $\xi_i^\star = 0$
   - $\alpha_i^\star = C \Leftrightarrow$ $\mathbf{x}_i$ n'est pas vecteur de support $\Leftrightarrow$ $y_i \big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big) < 1$ $\Leftrightarrow$ $\xi_i^\star = 1 - y_i\big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big)$
       - Si $0 < \xi_i < 1$ : $\mathbf{x}_i$ est dans la marge, mais du bon c√¥t√© de l'hyperplan s√©parateur (donc bien class√©).
       - Si $\xi_i = 1$ : $\mathbf{x}_i$ est sur l'hyperplan s√©parateur.
       - Si $\xi_i > 1$ : $\mathbf{x}_i$ est du mauvais c√¥t√© de l'hyperplan s√©parateur (donc mal class√©).
- **Biais de l'hyperplan optimal $ b^\star $** : Le biais optimal peut √™tre calcul√© √† partir des vecteurs de support (‚ö†Ô∏è √† partir de n'importe quel $ \mathbf{x}_i $ tel que $0 < \alpha_i^\star < C $) en utilisant l'√©quation :
  $$
  y_i \big( (\mathbf{w}^\star)^T \mathbf{x}_i + b^\star)\big) = 1
  $$


## G√©n√©ration d'un jeu de donn√©es presque lin√©airement s√©parable

In [None]:
from sklearn.datasets import make_classification

On reprend la g√©n√©ration d'un jeu de donn√©es en dimension $2$ de l'exercice pr√©c√©dent, en le modifiant pour qu'il soit cette fois-ci **presque lin√©airement s√©parable**.

Pour le moment, vous pouvez laisser les deux param√®tres `class_sep` (s√©paration entre les deux classes) et `scale` (√©cart-type du bruit gaussien rajout√©) √† leur valeur par d√©faut.

In [None]:
def generate_dataset(class_sep=2, scale=1, display=True):
    # G√©n√©ration d'un jeu de donn√©es lin√©airement s√©parable
    X, y = make_classification(n_samples=100, n_features=2, n_informative=2, n_redundant=0,
                               n_clusters_per_class=1, flip_y=0, class_sep=class_sep, random_state=42)
    # Ajout d'un bruit aux donn√©es pour qu'elles ne soient plus s√©parables
    np.random.seed(seed=42)
    noise = np.random.normal(scale=scale, size=X.shape)
    X += noise
    # Relabellisation de la classe 0 ‚Üí -1
    y[y==0] = -1
    
    # Affichage des donn√©es
    if display:
        plt.figure(figsize=(8, 6))
        plt.scatter(X[y==-1,0], X[y==-1,1], color='red', label='Classe -1', edgecolor='k')
        plt.scatter(X[y==1,0], X[y==1,1], color='blue', label='Classe +1', edgecolor='k')
        plt.xlabel('$x_1$')
        plt.ylabel('$x_2$')
        plt.title('Jeu de donn√©es presque lin√©airement s√©parable')
        plt.legend()
        plt.grid(True)
        plt.show()
    
    return X,y

In [None]:
X,y = generate_dataset()

## R√©solution du SVM avec marge souple en utilisant `scipy.optimize.minimize`

Et c'est parti pour la r√©solution du probl√®me dual du SVM √† marge souple avec la fonction `minimize` de `scipy.optimize` !

In [None]:
from scipy.optimize import minimize

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

R√©solvez le probl√®me dual du SVM √† marge souple gr√¢ce √† `minimize`, en utilisant la m√™me d√©marche que le SVM √† marge dure (rappel√©e ici) :
1. Le probl√®me dual $(D)$ √©tant un probl√®me de **maximisation**, et la fonction `minimize` √©tant (comme son nom l'indique), une routine permettant de **minimiser** une fonction objective, reformulez tout d'abord le probl√®me dual pour l'√©crire comme un probl√®me de minimisation.
2. D√©finissez explicitement la matrice $\mathbf{Q} \in \mathbb{R}^{n \times n}$ de terme g√©n√©ral $ Q_{ij} = y_i y_j \mathbf{x}_i^T \mathbf{x}_j $.
3. D√©finissez la fonction objective √† minimiser selon le format attendu par `minimize`.
4. D√©finissez les fonctions de contraintes du probl√®me dual selon le format attendu par `minimize`.<br>
<u>Note</u> : la contrainte $0 \leq \alpha_i \leq C$ peut √™tre d√©finie soit via deux contraintes d'in√©galit√© ($0 \leq \alpha_i$ et $\alpha_i \leq C$), soit gr√¢ce √† l'argument `bounds`.
5. R√©solvez num√©riquement le probl√®me dual gr√¢ce √† `minimize`.


Pour le moment, vous pouvez r√©gler l'hyperparam√®tre $C = 1$

In [None]:
# d√©finition de la matrice Q de l'objective duale
Q = ??? # # FIXME ‚ö†Ô∏è

In [None]:
# d√©finition de la fonction objective duale
def objective_function(x):
    ??? # FIXME ‚ö†Ô∏è

In [None]:
# definition des contraintes
def eq_constraint:
    ??? # FIXME ‚ö†Ô∏è

def ineq_constraint_0:
    ??? # FIXME ‚ö†Ô∏è
    
def ineq_constraint_C:
    ??? # FIXME ‚ö†Ô∏è
    
constraints = ??? # FIXME ‚ö†Ô∏è

In [None]:
C = ??? # FIXME ‚ö†Ô∏è Valeur de l'hyperparam√®tre C
result_sp = minimize(???) # FIXME ‚ö†Ô∏è

# Affichage des r√©sultats
print("Variable duale optimale :", result_sp.x)
print("Valeur optimale de la fonction objective :", result_sp.fun)
print("Succ√®s de l'optimisation :", result_sp.success)
print("Message :", result_sp.message)

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

Une fois le probl√®me dual r√©solu et le multiplicateur de Lagrange optimal $\boldsymbol \alpha^\star$ obtenu, d√©terminez :
1. Le vecteur normal $\mathbf{w}^\star$ √† l'hyperplan optimal : $\displaystyle \mathbf{w}^\star = \sum_{i=1}^{n} \alpha_i^\star y_i \mathbf{x}_i$
2. Les vecteurs de support $\mathbf{x}_s$ (tels que $0 < \alpha_s^\star < C$).
3. Le biais $ b^\star$ de l'hyperplan optimal $y_i \big( (\mathbf{w}^\star)^T \mathbf{x}_i + b^\star)\big) = 1$ calcul√© √† partir d'un vecteur de support. 
4. Les √©chantillons $\mathbf{x}_i$ √† l'int√©rieur de la marge ou mal class√©s (tels que $\alpha_i^\star = C $) et leur variable de rel√¢chement associ√©e $\xi_i^\star = 1 - y_i\big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big)$

In [None]:
alpha = result_sp.x

# Calcul des vecteurs de support
Xs_indices = ??? # FIXME ‚ö†Ô∏è indices (bool√©en) des vecteurs de support
ys = ??? # FIXME ‚ö†Ô∏è labels des vecteurs de support
Xs = ??? # FIXME ‚ö†Ô∏è coordonn√©es de vecteurs de support

In [None]:
# Calcul des param√®tres de l'hyperplan optimal
w_sp = ??? # FIXME ‚ö†Ô∏è vecteur normal √† l'hyperplan
b_sp = ??? # FIXME ‚ö†Ô∏è biais de l'hyperplan

In [None]:
# Calcul des variables de rel√¢chement
Xe_indices = ??? # FIXME ‚ö†Ô∏è indices (bool√©en) des √©chantillons dans la marge ou mal class√©s
ye = ??? # FIXME ‚ö†Ô∏è labels de ces √©chantillons erronn√©s
Xe = ??? # FIXME ‚ö†Ô∏è coordonn√©es de ces √©chantillons erronn√©s
Xi_e = ??? # FIXME ‚ö†Ô∏è variables de rel√¢chement associ√©es √† ces √©chantillons erronn√©s

### Affichage de l'hyperplan optimal

Pour finir, on reprend et compl√®te la fonction d'affichage de l'exercice pr√©c√©dent, pour afficher cette fois-ci :
- les vecteurs de supports `Xs` et leur classe associ√©e `ys`.
- les √©chantillons dans la marge ou mal classifi√©s `Xe` et leur classe associ√©e `ye` (la fonction attend √©galement les variables de rel√¢chement `Xi_e` associ√©es).
- l'hyperplan optimal du SVM de param√®tres $\mathbf{w}^\star$ et $b^\star$.
- les hyperplans passant par les vecteurs de support des deux classes (d'√©quation ${(\mathbf{w}^\star)}^T \mathbf{x} + b^\star = \pm 1$).

In [None]:
def plot_svm(X, y, Xs, ys, Xe, ye, Xi_e, w_star, b_star, label=''):
    
    plt.figure(figsize=(10, 6))
    plt.grid(True)
    # Classe -1
    plt.scatter(X[y==-1,0], X[y==-1,1],
                color='red',label='Classe -1',marker='o',edgecolor='k')
    plt.scatter(Xs[ys==-1,0], Xs[ys==-1,1],
                color='red',label='Vecteurs de support -1',marker='o',edgecolors='k',s=150)
    # Classe +1
    plt.scatter(X[y==1,0], X[y==1,1],color='blue', label='Classe +1',marker='o',edgecolor='k')
    plt.scatter(Xs[ys==1,0], Xs[ys==1,1], 
                color='blue',label='Vecteurs de support +1',marker='o',edgecolors='k',s=150)
    # Points dans la marge (0 < xi < 1)
    in_margin = (Xi_e > 0) & (Xi_e < 1)
    plt.scatter(Xe[in_margin,0], Xe[in_margin,1], facecolors='none', edgecolors='orange', 
                    s=150, linewidths=2, label='Dans la marge')
    # Points mal class√©s (xi > 1)
    misclassified = Xi_e >= 1
    plt.scatter(Xe[misclassified,0], Xe[misclassified,1], facecolors='none', edgecolors='purple', 
                    s=150, linewidths=2, label='Mal class√©')   
    # Hyperplan optimal
    xmin = X[:,0].min()-0.5
    xmax = X[:,0].max()+0.5
    x_vals = np.linspace(xmin, xmax, 200)
    y_vals = -(w_star[0]*x_vals+b_star)/w_star[1]
    plt.plot(x_vals, y_vals, 'k-', label='Hyperplan optimal')
    # Hyperplans passant par les vecteurs de support (w.x+b=¬±1)
    y_vals_support1 = -(w_star[0]*x_vals+(b_star-1))/w_star[1]
    y_vals_support2 = -(w_star[0]*x_vals+(b_star+1))/w_star[1]
    plt.plot(x_vals, y_vals_support1, 'k--', label='Hyperplan +1')
    plt.plot(x_vals, y_vals_support2, 'k-.', label='Hyperplan -1')
    # Titre, labels et l√©gende
    plt.xlabel('$x_1$')
    plt.ylabel('$x_2$')
    plt.title('Hyperplan optimal et vecteurs de support ' + label)
    plt.legend()
    plt.show()

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

Affichez la solution que vous avez trouv√© pour le SVM. Si celle-ci est correcte, la figure devrait faire sens...  

In [None]:
plot_svm(X,y,Xs,ys,Xe,ye,Xi_e,w_sp,b_sp,label='(scipy)')

## R√©solution du SVM avec marge souple en utilisant `cvxopt`

Il est maintenant temps de passer √† la r√©solution du SVM √† marge souple gr√¢ce √† la fonction `qp` de `cvxopt`. Le probl√®me dual √©tant toujours un probl√®me QP, vous allez pouvoir appliquer la m√™me d√©marche que pour le SVM √† marge dure.

Pour rappel, le format du programme quadratique r√©solu par la fonction `qp` est 
$$\begin{aligned}
& \text{minimiser} & \frac{1}{2} \mathbf{x}^T \mathbf{P} \mathbf{x} + \mathbf{q}^T \mathbf{x} \\
& \text{sous les contraintes} & \mathbf{G}\mathbf{x} \leq \mathbf{h} \\
& & \mathbf{A}\mathbf{x} = \mathbf{b}
\end{aligned}
$$

Il faut donc sp√©cifier au solveur `qp` les diff√©rentes matrices $\mathbf{P}, \mathbf{G}, \mathbf{A}$ et vecteurs $\mathbf{q}, \mathbf{h}, \mathbf{b}$ au format `matrix`.

In [None]:
import cvxopt
from cvxopt import printing
cvxopt.matrix_repr = printing.matrix_str_default
from cvxopt import matrix
from cvxopt.solvers import qp

La formulation du probl√®me dual du SVM √† marge souple diff√®re de celle du SVM √† marge dure uniquement au niveau des contraintes d'in√©galit√©s $0 \leq \alpha_i$, transform√©es en $0 \leq \alpha_i \leq C \ \ \forall i = 1,\dots,n$. La d√©finition des matrices $\mathbf{P}$ et $\mathbf{A}$ et des vecteurs $\mathbf{q}$ et $\mathbf{b}$ est donc en tout point similaire √† ce que vous avez fait dans l'[exercice pr√©c√©dent](TP_SVM_exo2.ipynb).

En ce qui concerne les contraintes d'in√©galit√© $\mathbf{G}\mathbf{x} \leq \mathbf{h}$, c'est en revanche un peu plus subtil ici...

Pour le SMV √† marge dure, vous avez (normalement) mis les contraintes $0 \leq \alpha_i \ \ \forall i = 1,\dots,n$ sous la forme $\, -\alpha_i \leq 0 \ \ \forall i = 1, \dots, n$ √©crit sous forme matricielle comme $-\mathbf{I}_n \boldsymbol \alpha \leq \mathbf{0}$ avec $\mathbf{I}_n \in \mathbb{R}^{n \times n}$ la matrice identit√© de taille $n\times n$ et $\mathbf{0}$ un vecteur de $\mathbb{R}^n$ rempli de 0.

Pour le SVM √† marge souple en revanche, √©crire les contraintes d'in√©galit√©s $0 \leq \alpha_i \leq C \ \ \forall i = 1,\dots,n$ sous la forme standard $\mathbf{G} \mathbf{x} \leq \mathbf{h}$ attendue par `qp` requiert une petite manipulation :

* <u>Cas d'une seule contrainte</u> : $0 \leq \alpha \leq C$ <br>
Cette contrainte peut se r√©√©crire $ - \alpha \leq 0$ et $\alpha \leq C$ $\Leftrightarrow$ $\left\{\begin{align} - \alpha & \leq 0 \\ \alpha &\leq C\end{align}\right.$ $\Leftrightarrow$ $\begin{pmatrix} -1 \\ 1 \end{pmatrix} \alpha \leq \begin{pmatrix} 0 \\ C \end{pmatrix}$ $\rightarrow$. Dans ce cas, on identifie $\mathbf{G} = \begin{pmatrix} -1 \\ 1 \end{pmatrix}$ et $\mathbf{h} = \begin{pmatrix} 0 \\ C \end{pmatrix}$.<br>
<br>
* <u>Cas de deux contraintes</u> : $0 \leq \alpha_1 \leq C$ et $0 \leq \alpha_2 \leq C$<br>
En appliquant la m√™me id√©e, on a $\left\{\begin{align} - \alpha_1 & \leq 0 \\ - \alpha_2 & \leq 0 \\ \alpha_1 &\leq C \\ \alpha_2 & \leq C\end{align}\right.$ $\ \Leftrightarrow \ $ $\begin{pmatrix} -1  & 0 \\ 0 & -1 \\ 1 & 0 \\ 0 & 1\end{pmatrix} \begin{pmatrix} \alpha_1 \\ \alpha_2 \end{pmatrix} \leq \begin{pmatrix} 0 \\ 0 \\ C \\ C\end{pmatrix}$, ce qui permet l√† encore d'identifier la matrice $\mathbf{G}$ et le vecteur $\mathbf{h}$ attendus par `qp`.<br><br>
* <u> Cas de $n$ contraintes</u> : $0 \leq \alpha_i \leq C \ \ \forall i=1,\dots,n$<br>
√Ä vous de g√©n√©raliser la relation pr√©c√©dente au cas de $n$ contraintes...

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

R√©solvez le probl√®me dual du SVM √† marge souple gr√¢ce au solveur `qp` de `cvxopt` en utilisant la m√™me d√©marche que le SVM √† marge dure (rappel√©e ici) :
1. La reformulation du probl√®me dual $(D)$ comme un probl√®me de **minimisation** pour pouvoir appliquer `minimize` reste valable dans le cas de `qp`, qui attend √©galement de **minimiser** une fonction quadratique donn√©e.
2. Identifiez les matrices $\mathbf{P}$, $\mathbf{G}$ et $\mathbf{A}$ et les vecteurs $\mathbf{q}$, $\mathbf{h}$, $\mathbf{b}$ de la forme standard attendue par `qp` √† partir de la formulation du probl√®me dual, et en utilisant la manipulation pr√©sent√©e ci-dessus pour $\mathbf{G}$ et $\mathbf{h}$) et d√©finissez les au format `matrix` de `cvxopt`.<br>
3. R√©solvez num√©riquement le probl√®me dual gr√¢ce √† `qp`.

In [None]:
# d√©finition des matrices du probl√®me QP
C = ??? # FIXME ‚ö†Ô∏è Hyperparam√®tre C
P = ??? # FIXME ‚ö†Ô∏è
q = ??? # FIXME ‚ö†Ô∏è
G = ??? # FIXME ‚ö†Ô∏è
h = ??? # FIXME ‚ö†Ô∏è
A = ??? # FIXME ‚ö†Ô∏è
b = ??? # FIXME ‚ö†Ô∏è

In [None]:
# R√©solution du probl√®me dual
result_cvxopt = qp(???) # FIXME ‚ö†Ô∏è

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

Une fois le probl√®me dual r√©solu par `qp` et le multiplicateur de Lagrange optimal $\boldsymbol \alpha^\star$ obtenu, d√©terminez :
1. Le vecteur normal $\mathbf{w}^\star$ √† l'hyperplan optimal : $\displaystyle \mathbf{w}^\star = \sum_{i=1}^{n} \alpha_i^\star y_i \mathbf{x}_i$
2. Les vecteurs de support $\mathbf{x}_s$ (tels que $0 < \alpha_s^\star < C$).
3. Le biais $ b^\star$ de l'hyperplan optimal $y_i \big( (\mathbf{w}^\star)^T \mathbf{x}_i + b^\star)\big) = 1$ calcul√© √† partir d'un vecteur de support. 
4. Les √©chantillons $\mathbf{x}_i$ √† l'int√©rieur de la marge ou mal class√©s (tels que $\alpha_i^\star = C $) et leur variable de rel√¢chement associ√©e $\xi_i^\star = 1 - y_i\big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big)$.

In [None]:
alpha = np.array(result_cvxopt['x']).flatten()

# Calcul des vecteurs de support
Xs_indices = ??? # FIXME ‚ö†Ô∏è indices (bool√©en) des vecteurs de support
ys = ??? # FIXME ‚ö†Ô∏è labels des vecteurs de support
Xs = ??? # FIXME ‚ö†Ô∏è coordonn√©es de vecteurs de support

In [None]:
# Calcul des param√®tres de l'hyperplan optimal
w_cvxopt = ??? # FIXME ‚ö†Ô∏è vecteur normal √† l'hyperplan
b_cvxopt = ??? # FIXME ‚ö†Ô∏è biais de l'hyperplan

In [None]:
# Calcul des variables de rel√¢chement
Xe_indices = ??? # FIXME ‚ö†Ô∏è indices (bool√©en) des √©chantillons dans la marge ou mal class√©s
ye = ??? # FIXME ‚ö†Ô∏è labels de ces √©chantillons erronn√©s
Xe = ??? # FIXME ‚ö†Ô∏è coordonn√©es de ces √©chantillons erronn√©s
Xi_e = ??? # FIXME ‚ö†Ô∏è variables de rel√¢chement associ√©es √† ces √©chantillons erronn√©s

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

Pour finir, affichez la solution que vous avez trouv√© pour le SVM avec le dual r√©solu par `qp`. Si celle-ci est correcte, la figure devrait donc √™tre identique √† celle obtenue pour `minimize` (sous r√©serve que celle-ci aussi soit correcte bien sur...)

In [None]:
plot_svm(X,y,Xs,ys,Xe,ye,Xi_e,w_cvxopt,b_cvxopt,label='(cvxopt)')

## Un peu de lecture üìñ : r√©solution du SVM √† marge souple en utilisant `scikit-learn`

Quand on parle de SVM (donc d'un probl√®me de classification), on pense en g√©n√©ral √† `scikit-learn`. Votre biblioth√®que favorite de _machine learning_ impl√©mente √©videmment le SVM. Il serait logique que le r√©sultat de `scikit-learn` soit identique √† ceux de `minimize` et `qp`.

L'API de `scikit-learn` est bien diff√©rente de celles de `minimize` et `qp` puisqu'elle se focalise sur les aspects de _machine learning_ (en m√™me temps, c'est ce qu'on attend d'elle) plut√¥t que les aspects d'optimisation. On peut malgr√© tout s'en sortir en fouillant un peu les diff√©rents attributs du mod√®le de SVM impl√©ment√© dans `scikit-learn` : c'est ce qu'il vous est propos√© de lire dans cette partie (votre prof a fait le boulot √† votre place üòâ)

In [None]:
from sklearn.svm import SVC

D√©finition du mod√®le de SVM lin√©aire (_aka_ pas la version noyau ici) avec l'hyperparam√®tre $C$ d√©fini √† la m√™me valeur que pour `minimize` et `qp`.

In [None]:
SVM = SVC(kernel='linear',C=C)

Entra√Ænement du SVM sur l'int√©gralit√© du jeu de donn√©es (pas besoin de train/test split ici puisqu'on ne va pas tester les performances en pr√©diction du mod√®le).

In [None]:
SVM.fit(X,y)

Une fois l'entra√Ænement r√©alis√©, on peut r√©cup√©rer le vecteur normal √† l'hyperplan optimal gr√¢ce √† l'attribut `coef_` et le biais de l'hyperplan gr√¢ce √† l'attribut `intercept_`

In [None]:
print("Vecteur normal √† l'hyperplan optimal :",SVM.coef_.flatten()) # flatten() pour avoir une shape (2,)
print("Biais de l'hyperplan optimal :",SVM.intercept_)

In [None]:
w_sk = SVM.coef_.flatten()
b_sk = SVM.intercept_

L'API de `scikit-learn` ne permet pas d'acc√©der aux multiplicateurs de Lagrange optimaux $\alpha_i^\star$ (puisqu'encore une fois, ils n'ont pas d'int√©r√™t en soit pour des op√©rations pratiques de _machine learning_). Elle permet en revanche d'acc√©der aux indices des vecteurs de support par l'attribut `support_` et √† leurs coordonn√©es `support_vectors_`.

In [None]:
print("Indice des vecteurs de support :",SVM.support_)
print("Coordonn√©es des vecteurs de support :\n",SVM.support_vectors_)

‚ö†Ô∏è Pour `scikit-learn`, les vecteurs de support ne sont pas uniquement les √©chantillons qui v√©rifient $y_i(\mathbf{w}^T \mathbf{x}_i + b) = 1$ (donc sur les hyperplans $\pm 1$), mais √©galement ceux qui tombent dans la marge ou du mauvais c√¥t√© de l'hyperplan optimal : en bref, pour `scikit-learn`, les vecteurs de support sont ceux dont le multiplicateur de Lagrange associ√© est strictement positif $\alpha_i^\star > 0$.

In [None]:
Xs_indices_all = SVM.support_ # indice de tous les vecteurs de support pour scikit-learn
ys_all = y[Xs_indices_all] # labels de ces vecteurs de support
Xs_all = X[Xs_indices_all,:] # coordonn√©es de ces vecteurs de support

In [None]:
plt.figure(figsize=(10, 6))
plt.grid(True)
# Classe -1
plt.scatter(Xs_all[ys_all==-1,0], Xs_all[ys_all==-1,1],
            color='red',label='Classe -1',marker='o',edgecolor='k')
# Classe +1
plt.scatter(Xs_all[ys_all==1,0], Xs_all[ys_all==1,1],
            color='blue', label='Classe +1',marker='o',edgecolor='k')
# Hyperplan optimal
xmin = Xs_all[:,0].min()-0.25
xmax = Xs_all[:,0].max()+0.25
x_vals = np.linspace(xmin, xmax, 200)
y_vals = -(w_sk[0]*x_vals+b_sk)/w_sk[1]
plt.plot(x_vals, y_vals, 'k-', label='Hyperplan optimal')
# Hyperplans passant par les vecteurs de support (w.x+b=¬±1)
y_vals_support1 = -(w_sk[0]*x_vals+(b_sk-1))/w_sk[1]
y_vals_support2 = -(w_sk[0]*x_vals+(b_sk+1))/w_sk[1]
plt.plot(x_vals, y_vals_support1, 'k--', label='Hyperplan +1')
plt.plot(x_vals, y_vals_support2, 'k-.', label='Hyperplan -1')
# Titre, labels et l√©gende
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.title('Hyperplan optimal et vecteurs de support de scikit-learn')
plt.legend()
plt.show()

Pour identifier les "vrais" vecteurs de support au sens o√π on l'entend depuis le d√©but, √† savoir ceux dont le multiplicateur de Lagrange optimal est $0 < \alpha_i^\star < C$, il suffit donc de chercher parmis ces points ceux qui v√©rifient l'√©quation $y_i(\mathbf{w}^T \mathbf{x}_i + b) = 1$ :

In [None]:
ys_all*(np.dot(Xs_all,w_sk) + b_sk)

‚ö†Ô∏è La pr√©cision num√©rique du calcul pr√©c√©dent est telle qu'un seuil dur `== 1` est vou√© √† l'√©chec. En revanche, une tol√©rance de $10^{-3}$ fera l'affaire.

In [None]:
Xs_indices = np.isclose(ys_all*(np.dot(Xs_all,w_sk) + b_sk),1,atol=1e-3)
ys = ys_all[Xs_indices]
Xs = Xs_all[Xs_indices,:]

In [None]:
print("Coordonn√©es des 'vrais' vecteurs de support :\n",Xs)

Ne reste qu'√† r√©cup√©rer les coordonn√©es `Xe` des vecteurs dans la marge ou mal class√©s, leur label `ye` ainsi que la variable de rel√¢chement `Xi_e` qui leur est associ√©e.

Cette derni√®re se calcule via la relation $\xi_i^\star = 1 - y_i\big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big)$

In [None]:
Xe = Xs_all[~Xs_indices,:]
ye = ys_all[~Xs_indices]
Xi_e = 1 - ye*(np.dot(Xe, w_sk)+b_sk)

In [None]:
print("Variables de rel√¢chement pour les √©chantillons dans la marge / mal class√©s :\n",Xi_e)

On peut d'ailleurs v√©rifier num√©riquement que ces variables de rel√¢chement $\xi_i^\star$ sont toutes strictement positives (encore heureux puisque c'√©tait l'une des contraintes du probl√®me primal...).<br>
Les √©chantillons pour lesquels $0 < \xi_i^\star < 1$ sont dans la marge mais du bon c√¥t√© de l'hyperplan s√©parateur. Ceux pour lesquels $\xi_i^\star > 1$ sont du mauvais c√¥t√© de l'hyperplan s√©parateur.


Pour finir, on peut afficher le scatterplot des √©chantillons avec la solution du SVM √† marge souple calcul√©e par `scikit-learn`

In [None]:
plot_svm(X,y,Xs,ys,Xe,ye,Xi_e,w_sk,b_sk,label='(scikit-learn)')

Cette derni√®re concorde bien visuellement avec les solution trouv√©es par `minimize` et `qp` (√©videmment sous r√©serve que ce que vous avez fait est correct...).

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

Pour finir, v√©rifiez que les param√®tres $\mathbf{w}^\star$ et $b^\star$ trouv√©s par `minimize`, `qp` et `scikit-learn` concordent bien num√©riquement : 
- est-ce vraiment le cas ?
- que pouvez vous en conclure ?

In [None]:
w_sp ??? w_cvxopt # FIXME ‚ö†Ô∏è est-ce que les vecteurs normaux aux hyperplans concordent ?
w_sp ??? w_sk # FIXME ‚ö†Ô∏è
w_sk ??? w_cvxopt # FIXME ‚ö†Ô∏è
b_sp ??? b_cvxopt # FIXME ‚ö†Ô∏è est-ce que les biais des hyperplans concodent ?
b_sp ??? b_sk # FIXME ‚ö†Ô∏è
b_sk ??? b_cvxopt # FIXME ‚ö†Ô∏è

On peut donc en conclude que ‚ö†Ô∏è FIXME

## BENCH BENCH BENCH !

### üõ†Ô∏è üöß üë∑  √Ä vous de jouer !

Il ne vous aura sans doute pas √©chapp√© que dans cet exercice, vous avez r√©solu le SVM √† marge souple pour une seule configuration donn√©e d'√©chantillons "presque lin√©airement s√©parables", et pour une seule valeur de l'hyperparam√®tre $C=1$.

S'il vous reste encore du temps (et de l'√©nergie), vous pouvez maintenant benchmarker (comme √† vos plus belles heures d'OCVX1) le comportement du SVM √† marge souple en faisant varier la s√©parabilit√© du jeu de donn√©es (en modifiant la valeur de `classe_sep` et de `scale`) et/ou la valeur de l'hyperparam√®tre $C$ pour voir leur influence sur les crit√®res de votre choix, comme par exemple :
- la valeur de la marge normalis√©e $\frac{2}{\| \mathbf{w} \|}$
- la valeur de la p√©nalisation $\displaystyle \sum_{i= 1}^n \xi_i$ de la fonction objective
- la valeur de la fonction objective elle m√™me $\frac{1}{2} \| \mathbf{w} \|^2 + C \sum_{i=1}^{n} \xi_i$
- le nombre d'√©chantillons tombant dans la marge ou mal classifi√©s
- le nombre d'it√©rations n√©cessaires au solveur pour converger vers la solution
- etc


In [None]:
# FIXME ‚ö†Ô∏è BENCH BENCH BENCH !

# Bravo ! üëèüçæ

Et b√© ! Vous en √™tes arriv√©s au bout, c'√©tait quand m√™me un sacr√© morceau ce TP ! Bravo √† vous üçª