# Les _support vector machines_

In [None]:
## Les imports de base
import numpy as np
import matplotlib.pyplot as plt

## SVM à marge souple

Le **SVM à marge souple** (Soft margin SVM) est une extension du SVM à marge dure qui permet de gérer les jeux de données où les classes ne sont pas parfaitement linéairement séparables. En effet, dans de nombreux cas réels, les données sont bruitées ou contiennent des erreurs de classification, rendant une séparation linéaire parfaite impossible, et l'échec par la même occasion d'une tentative de résolution par un SVM à marge dure.

Dans le cas du SVM à marge souple, la formulation du problème permet à certains échantillons de se retrouver "dans la marge" (entre l'hyperplan optimal $\mathbf{w}^T \mathbf{x} + b = 0$ et l'hyperplan $\mathbf{w}^T \mathbf{x} + b = \pm 1$ selon leur classe), voir du mauvais côté de la marge, comme l'illustre la figure ci-dessous $\downarrow$

<img src="https://miro.medium.com/v2/resize:fit:552/1*CD08yESKvYgyM7pJhCnQeQ.png" width="600"/>

L'objectif (géométrique) reste toujours de maximiser la marge, mais en intégrant ces erreurs potentielles. Pour cela, des **variables de relâchement** $\xi_i$ (associées à chaque échantillon $\mathbf{x}_i$) sont introduites dans la formulation du problème pour relacher les contraintes de séparabilité linéaire.

Ainsi, les $n$ contraintes $ y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 \ \ \forall i = 1,\dots,n $ se transforment dans le cas du SVM à marge souple en :

$$ \begin{aligned}
y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i, \quad \forall i = 1, \dots, n \\
\xi_i \geq 0, \quad \forall i = 1, \dots, n
\end{aligned} $$

où les variables de relâchement $\xi_i$ s'interprètent de la manière suivante :

- $\xi_i = 0$ : L'échantillon est correctement classé et se situe à l'extérieur ou sur la frontière de marge.
- $0 < \xi_i < 1$ : L'échantillon est correctement classé, mais il est à l'intérieur de la marge. Il est donc plus proche de l'hyperplan de séparation que les vecteurs de support.
- $\xi_i \geq 1$ : L'échantillon est mal classé, car il se trouve du mauvais côté de l'hyperplan de séparation. Plus $\xi_i$ est grand, plus le point est loin de l'hyperplan de son côté incorrect.

<img src="https://machinelearningcoban.com/assets/20_softmarginsvm/ssvm3.png" width="600"/>

Dans l'illustration ci-dessus $\uparrow$, $\xi_1 > 1$ et $\xi_3 > 1$ puisque les échantillons $\mathbf{x}_1$ et $\mathbf{x}_3$ sont du mauvais côté de la marge. En revanche, $0 < \xi_2 <1$ puisque $\mathbf{x}_2$ est dans la marge, mais du bon côté de celle ci.

## Formulation du problème primal avec marge souple

Les variables de relâchement $\xi_i$ étant toutes positives, elles jouent le rôle de coûts additionnels qui doivent être pris en compte dans la définition de la fonction objective à minimiser. Ainsi, la formulation du problème primal $(P)$ du SVM à marge souple s'écrit :

$$
\begin{align}
\min_{\mathbf{w} \in \mathbb{R}^p, \ b \in \mathbb{R}, \ \boldsymbol \xi \in \mathbb{R}^n} \quad & \frac{1}{2} \| \mathbf{w} \|^2 + C \sum_{i=1}^{n} \xi_i & (P)\\
\text{tel que} \quad & y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i, & \forall i = 1, \dots, n \\
& \xi_i \geq 0, & \forall i = 1, \dots, n
\end{align}
$$

L'hyperparamètre $C$ contrôle la pénalisation des points mal classés. Un $C$ élevé donne plus de poids à la minimisation des erreurs de classification, tandis qu'un $C$ faible favorise une marge plus large, mais permet potentiellement plus d'erreurs de classification.

## Formulation du problème dual

Tout comme pour le SVM à marge dure, la formulation du problème dual passe par l'écriture des conditions KKT. Le problème primal $(P)$ diffère un peu de celui du SVM à marge dure puisque de nouvelles variables $\xi_i$ et de nouvelles contraintes $\xi_i \geq 0, \ \ \forall i =1, \dots, n$ ont été introduites. Le Lagrangien va donc les incorporer dans sa formulation, associées à de nouveaux multiplicateurs de Lagrange : 

$$ \mathcal{L}(\mathbf{w},b, \boldsymbol \xi, \boldsymbol \alpha, \boldsymbol \beta) \mapsto \frac{1}{2} \| \mathbf{w} \|^2 + C \sum_{i=1}^{n} \xi_i  - \sum_{i=1}^n \alpha_i \big(y_i (w^T \mathbf{x}_i + b) - 1 + \xi_i \big) - \sum_{i=1}^n \beta_i \xi_i$$

ou
- $(\mathbf{w}$, b, $\boldsymbol \xi) \in \mathbb{R}^p \times \mathbb{R} \times \mathbb{R}^n$ sont les variables primales.
- $\boldsymbol \alpha \in \mathbb{R}^n$ est le vecteur de multiplicateurs de Lagrange associé aux $n$ contraintes $y_i (w^T \mathbf{x}_i + b) \geq 1 - \xi_i$
- $\boldsymbol \beta \in \mathbb{R}^n$ est le vecteur de multiplicateurs de Lagrange associé aux $n$ contraintes $\xi_i \geq 0$.

La stationnarité du Lagrangien donne :
- $\nabla_\mathbf{w} \mathcal{L}(\mathbf{w},b, \boldsymbol \xi, \boldsymbol \alpha, \boldsymbol \beta) = 0 \Rightarrow$ $\mathbf{w}^\star = \displaystyle \sum_{i=1}^{n} \alpha_i^\star y_i \mathbf{x}_i$ : le vecteur normal à l'hyperplan optimal est défini comme pour le SVM à marge dure.
- $\displaystyle \frac{\partial \mathcal{L}}{\partial b}(\mathbf{w},b, \boldsymbol \xi, \boldsymbol \alpha, \boldsymbol \beta) = 0 \Rightarrow$ $\displaystyle \sum_{i=1}^n \alpha_i^\star y_i = 0$ : cette contrainte reste également valable pour la formulation du problème dual.
- $\nabla_{\boldsymbol \xi} \mathcal{L}(\mathbf{w},b, \boldsymbol \xi, \boldsymbol \alpha, \boldsymbol \beta) = 0 \Rightarrow$ $\forall i = 1,\dots,n \ \ \beta_i^\star = C - \alpha_i^\star \Leftrightarrow \alpha_i^\star \leq C$ puisque $\beta_i^\star \geq 0$ (admissibilité duale).

Cette dernière relation permet d'exprimer $\boldsymbol \beta = C - \boldsymbol \alpha$ et donc de tout reformuler en fonction de $\boldsymbol \alpha$ seulement pour obtenir le problème dual $(D)$ du SVM à marge souple :

$$\begin{align}
\max_{\boldsymbol \alpha \in \mathbb{R}^{n}} \quad & \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i=1}^n \sum_{j=1}^n \alpha_i \alpha_j y_i y_j (\mathbf{x}_i^T \mathbf{x}_j) \qquad (D) \\
\text{tel que} \quad & 0 \leq \alpha_i \leq C \ \ \forall i = 1, \dots, n \\
& \sum_{i=1}^n \alpha_i y_i = 0
\end{align}
$$

L'expression du dual du SVM à marge souple est ainsi très similaire à celle du SVM à marge dure, la seule différence étant que la contrainte de positivité des multiplicateurs de Lagrange $\alpha_i \geq 0 \ \ \forall i = 1, \dots, n$ se transforme en $0 \leq \alpha_i \leq C \ \  \forall i = 1, \dots, n$ :
- Les multiplicateurs de Lagrange $\alpha_i$ se retrouvent bornés supérieurement par la valeur de l'hyperparamètre $C$, ce qui veut dire que les vecteurs de support ne peuvent pas "repousser" l'hyperplan optimal avec une force supérieure à $C$.
- Si $C = +\infty$, on retrouve le SVM à marge dure, pour lequel il ne peut y avoir de points mal classés !


L'écriture sous forme vectorielle du problème dual est donc similaire à celle du SVM à marge dure : 

$$\begin{align}
\max_{\boldsymbol \alpha \in \mathbb{R}^{n}} \quad & \mathbf{1}^T \boldsymbol \alpha - \frac{1}{2} \boldsymbol \alpha^T \mathbf{Q} \boldsymbol \alpha \qquad (D)\\
\text{tel que} \quad & 0 \leq \alpha_i \leq C \ \ \forall i = 1, \dots, n \\
& \mathbf{y}^T \boldsymbol \alpha = 0
\end{align}
$$

avec les mêmes notations que celles de l'[exercice 2](TP_SVM_exo2.ipynb) :
- $ \mathbf{1} \in \mathbb{R}^n $ est un vecteur de 1.
- $ \mathbf{Q} \in \mathbb{R}^{n \times n} $ est la matrice des produits scalaires des vecteurs d'entrée multipliés par le produit de leur classe $ Q_{ij} = y_i y_j \mathbf{x}_i^T \mathbf{x}_j $.
- $ \mathbf{y} \in \mathbb{R}^n $ est le vecteur des labels de classe, avec $ y_i \in \{-1, 1\} $.
- $C \geq 0$ est l'hyperparamètre de régularisation.

## Solution du problème primal

Une fois la solution optimale $ \boldsymbol \alpha^\star $ du problème dual trouvée, on peut en déduire la solution optimale du problème primal de la manière suivante :

- **Vecteur normal à l'hyperplan optimal $ \mathbf{w}^\star $** (idem que pour le SVM à marge dure) : $$ \mathbf{w}^\star = \sum_{i=1}^{n} \alpha_i^\star y_i \mathbf{x}_i $$
- **Vecteurs de support et variables de relâchement $\xi_i$** : contrairement au SVM à marge dure où il suffisait de seuiller $\boldsymbol \alpha^\star$ pour récupérer les vecteurs de support ($\alpha_i^\star > 0 \Leftrightarrow \mathbf{x}_i$ est vecteur de support), il est nécessaire de prendre une précaution supplémentaire dans le cas du SVM à marge souple :
   - $\alpha_i^\star = 0 \Leftrightarrow$ $\mathbf{x}_i$ n'est pas vecteur de support $\Leftrightarrow$ $y_i \big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big) > 1$ $\Leftrightarrow$ $\xi_i^\star = 0$
   - $0 < \alpha_i^\star < C \Leftrightarrow$ $\mathbf{x}_i$ est vecteur de support $\Leftrightarrow$ $y_i \big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big) = 1$ $\Leftrightarrow$ $\xi_i^\star = 0$
   - $\alpha_i^\star = C \Leftrightarrow$ $\mathbf{x}_i$ n'est pas vecteur de support $\Leftrightarrow$ $y_i \big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big) < 1$ $\Leftrightarrow$ $\xi_i^\star = 1 - y_i\big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big)$
       - Si $0 < \xi_i < 1$ : $\mathbf{x}_i$ est dans la marge, mais du bon côté de l'hyperplan séparateur (donc bien classé).
       - Si $\xi_i = 1$ : $\mathbf{x}_i$ est sur l'hyperplan séparateur.
       - Si $\xi_i > 1$ : $\mathbf{x}_i$ est du mauvais côté de l'hyperplan séparateur (donc mal classé).
- **Biais de l'hyperplan optimal $ b^\star $** : Le biais optimal peut être calculé à partir des vecteurs de support (⚠️ à partir de n'importe quel $ \mathbf{x}_i $ tel que $0 < \alpha_i^\star < C $) en utilisant l'équation :
  $$
  y_i \big( (\mathbf{w}^\star)^T \mathbf{x}_i + b^\star)\big) = 1
  $$


## Génération d'un jeu de données presque linéairement séparable

In [None]:
from sklearn.datasets import make_classification

On reprend la génération d'un jeu de données en dimension $2$ de l'exercice précédent, en le modifiant pour qu'il soit cette fois-ci **presque linéairement séparable**.

Pour le moment, vous pouvez laisser les deux paramètres `class_sep` (séparation entre les deux classes) et `scale` (écart-type du bruit gaussien rajouté) à leur valeur par défaut.

In [None]:
def generate_dataset(class_sep=2, scale=1, display=True):
    # Génération d'un jeu de données linéairement séparable
    X, y = make_classification(n_samples=100, n_features=2, n_informative=2, n_redundant=0,
                               n_clusters_per_class=1, flip_y=0, class_sep=class_sep, random_state=42)
    # Ajout d'un bruit aux données pour qu'elles ne soient plus séparables
    np.random.seed(seed=42)
    noise = np.random.normal(scale=scale, size=X.shape)
    X += noise
    # Relabellisation de la classe 0 → -1
    y[y==0] = -1
    
    # Affichage des données
    if display:
        plt.figure(figsize=(8, 6))
        plt.scatter(X[y==-1,0], X[y==-1,1], color='red', label='Classe -1', edgecolor='k')
        plt.scatter(X[y==1,0], X[y==1,1], color='blue', label='Classe +1', edgecolor='k')
        plt.xlabel('$x_1$')
        plt.ylabel('$x_2$')
        plt.title('Jeu de données presque linéairement séparable')
        plt.legend()
        plt.grid(True)
        plt.show()
    
    return X,y

In [None]:
X,y = generate_dataset()

## Résolution du SVM avec marge souple en utilisant `scipy.optimize.minimize`

Et c'est parti pour la résolution du problème dual du SVM à marge souple avec la fonction `minimize` de `scipy.optimize` !

In [None]:
from scipy.optimize import minimize

### 🛠️ 🚧 👷  À vous de jouer !

Résolvez le problème dual du SVM à marge souple grâce à `minimize`, en utilisant la même démarche que le SVM à marge dure (rappelée ici) :
1. Le problème dual $(D)$ étant un problème de **maximisation**, et la fonction `minimize` étant (comme son nom l'indique), une routine permettant de **minimiser** une fonction objective, reformulez tout d'abord le problème dual pour l'écrire comme un problème de minimisation.
2. Définissez explicitement la matrice $\mathbf{Q} \in \mathbb{R}^{n \times n}$ de terme général $ Q_{ij} = y_i y_j \mathbf{x}_i^T \mathbf{x}_j $.
3. Définissez la fonction objective à minimiser selon le format attendu par `minimize`.
4. Définissez les fonctions de contraintes du problème dual selon le format attendu par `minimize`.<br>
<u>Note</u> : la contrainte $0 \leq \alpha_i \leq C$ peut être définie soit via deux contraintes d'inégalité ($0 \leq \alpha_i$ et $\alpha_i \leq C$), soit grâce à l'argument `bounds`.
5. Résolvez numériquement le problème dual grâce à `minimize`.


Pour le moment, vous pouvez régler l'hyperparamètre $C = 1$

In [None]:
# définition de la matrice Q de l'objective duale
Q = ??? # # FIXME ⚠️

In [None]:
# définition de la fonction objective duale
def objective_function(x):
    ??? # FIXME ⚠️

In [None]:
# definition des contraintes
def eq_constraint:
    ??? # FIXME ⚠️

def ineq_constraint_0:
    ??? # FIXME ⚠️
    
def ineq_constraint_C:
    ??? # FIXME ⚠️
    
constraints = ??? # FIXME ⚠️

In [None]:
C = ??? # FIXME ⚠️ Valeur de l'hyperparamètre C
result_sp = minimize(???) # FIXME ⚠️

# Affichage des résultats
print("Variable duale optimale :", result_sp.x)
print("Valeur optimale de la fonction objective :", result_sp.fun)
print("Succès de l'optimisation :", result_sp.success)
print("Message :", result_sp.message)

### 🛠️ 🚧 👷  À vous de jouer !

Une fois le problème dual résolu et le multiplicateur de Lagrange optimal $\boldsymbol \alpha^\star$ obtenu, déterminez :
1. Le vecteur normal $\mathbf{w}^\star$ à l'hyperplan optimal : $\displaystyle \mathbf{w}^\star = \sum_{i=1}^{n} \alpha_i^\star y_i \mathbf{x}_i$
2. Les vecteurs de support $\mathbf{x}_s$ (tels que $0 < \alpha_s^\star < C$).
3. Le biais $ b^\star$ de l'hyperplan optimal $y_i \big( (\mathbf{w}^\star)^T \mathbf{x}_i + b^\star)\big) = 1$ calculé à partir d'un vecteur de support. 
4. Les échantillons $\mathbf{x}_i$ à l'intérieur de la marge ou mal classés (tels que $\alpha_i^\star = C $) et leur variable de relâchement associée $\xi_i^\star = 1 - y_i\big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big)$

In [None]:
alpha = result_sp.x

# Calcul des vecteurs de support
Xs_indices = ??? # FIXME ⚠️ indices (booléen) des vecteurs de support
ys = ??? # FIXME ⚠️ labels des vecteurs de support
Xs = ??? # FIXME ⚠️ coordonnées de vecteurs de support

In [None]:
# Calcul des paramètres de l'hyperplan optimal
w_sp = ??? # FIXME ⚠️ vecteur normal à l'hyperplan
b_sp = ??? # FIXME ⚠️ biais de l'hyperplan

In [None]:
# Calcul des variables de relâchement
Xe_indices = ??? # FIXME ⚠️ indices (booléen) des échantillons dans la marge ou mal classés
ye = ??? # FIXME ⚠️ labels de ces échantillons erronnés
Xe = ??? # FIXME ⚠️ coordonnées de ces échantillons erronnés
Xi_e = ??? # FIXME ⚠️ variables de relâchement associées à ces échantillons erronnés

### Affichage de l'hyperplan optimal

Pour finir, on reprend et complète la fonction d'affichage de l'exercice précédent, pour afficher cette fois-ci :
- les vecteurs de supports `Xs` et leur classe associée `ys`.
- les échantillons dans la marge ou mal classifiés `Xe` et leur classe associée `ye` (la fonction attend également les variables de relâchement `Xi_e` associées).
- l'hyperplan optimal du SVM de paramètres $\mathbf{w}^\star$ et $b^\star$.
- les hyperplans passant par les vecteurs de support des deux classes (d'équation ${(\mathbf{w}^\star)}^T \mathbf{x} + b^\star = \pm 1$).

In [None]:
def plot_svm(X, y, Xs, ys, Xe, ye, Xi_e, w_star, b_star, label=''):
    
    plt.figure(figsize=(10, 6))
    plt.grid(True)
    # Classe -1
    plt.scatter(X[y==-1,0], X[y==-1,1],
                color='red',label='Classe -1',marker='o',edgecolor='k')
    plt.scatter(Xs[ys==-1,0], Xs[ys==-1,1],
                color='red',label='Vecteurs de support -1',marker='o',edgecolors='k',s=150)
    # Classe +1
    plt.scatter(X[y==1,0], X[y==1,1],color='blue', label='Classe +1',marker='o',edgecolor='k')
    plt.scatter(Xs[ys==1,0], Xs[ys==1,1], 
                color='blue',label='Vecteurs de support +1',marker='o',edgecolors='k',s=150)
    # Points dans la marge (0 < xi < 1)
    in_margin = (Xi_e > 0) & (Xi_e < 1)
    plt.scatter(Xe[in_margin,0], Xe[in_margin,1], facecolors='none', edgecolors='orange', 
                    s=150, linewidths=2, label='Dans la marge')
    # Points mal classés (xi > 1)
    misclassified = Xi_e >= 1
    plt.scatter(Xe[misclassified,0], Xe[misclassified,1], facecolors='none', edgecolors='purple', 
                    s=150, linewidths=2, label='Mal classé')   
    # Hyperplan optimal
    xmin = X[:,0].min()-0.5
    xmax = X[:,0].max()+0.5
    x_vals = np.linspace(xmin, xmax, 200)
    y_vals = -(w_star[0]*x_vals+b_star)/w_star[1]
    plt.plot(x_vals, y_vals, 'k-', label='Hyperplan optimal')
    # Hyperplans passant par les vecteurs de support (w.x+b=±1)
    y_vals_support1 = -(w_star[0]*x_vals+(b_star-1))/w_star[1]
    y_vals_support2 = -(w_star[0]*x_vals+(b_star+1))/w_star[1]
    plt.plot(x_vals, y_vals_support1, 'k--', label='Hyperplan +1')
    plt.plot(x_vals, y_vals_support2, 'k-.', label='Hyperplan -1')
    # Titre, labels et légende
    plt.xlabel('$x_1$')
    plt.ylabel('$x_2$')
    plt.title('Hyperplan optimal et vecteurs de support ' + label)
    plt.legend()
    plt.show()

### 🛠️ 🚧 👷  À vous de jouer !

Affichez la solution que vous avez trouvé pour le SVM. Si celle-ci est correcte, la figure devrait faire sens...  

In [None]:
plot_svm(X,y,Xs,ys,Xe,ye,Xi_e,w_sp,b_sp,label='(scipy)')

## Résolution du SVM avec marge souple en utilisant `cvxopt`

Il est maintenant temps de passer à la résolution du SVM à marge souple grâce à la fonction `qp` de `cvxopt`. Le problème dual étant toujours un problème QP, vous allez pouvoir appliquer la même démarche que pour le SVM à marge dure.

Pour rappel, le format du programme quadratique résolu par la fonction `qp` est 
$$\begin{aligned}
& \text{minimiser} & \frac{1}{2} \mathbf{x}^T \mathbf{P} \mathbf{x} + \mathbf{q}^T \mathbf{x} \\
& \text{sous les contraintes} & \mathbf{G}\mathbf{x} \leq \mathbf{h} \\
& & \mathbf{A}\mathbf{x} = \mathbf{b}
\end{aligned}
$$

Il faut donc spécifier au solveur `qp` les différentes matrices $\mathbf{P}, \mathbf{G}, \mathbf{A}$ et vecteurs $\mathbf{q}, \mathbf{h}, \mathbf{b}$ au format `matrix`.

In [None]:
import cvxopt
from cvxopt import printing
cvxopt.matrix_repr = printing.matrix_str_default
from cvxopt import matrix
from cvxopt.solvers import qp

La formulation du problème dual du SVM à marge souple diffère de celle du SVM à marge dure uniquement au niveau des contraintes d'inégalités $0 \leq \alpha_i$, transformées en $0 \leq \alpha_i \leq C \ \ \forall i = 1,\dots,n$. La définition des matrices $\mathbf{P}$ et $\mathbf{A}$ et des vecteurs $\mathbf{q}$ et $\mathbf{b}$ est donc en tout point similaire à ce que vous avez fait dans l'[exercice précédent](TP_SVM_exo2.ipynb).

En ce qui concerne les contraintes d'inégalité $\mathbf{G}\mathbf{x} \leq \mathbf{h}$, c'est en revanche un peu plus subtil ici...

Pour le SMV à marge dure, vous avez (normalement) mis les contraintes $0 \leq \alpha_i \ \ \forall i = 1,\dots,n$ sous la forme $\, -\alpha_i \leq 0 \ \ \forall i = 1, \dots, n$ écrit sous forme matricielle comme $-\mathbf{I}_n \boldsymbol \alpha \leq \mathbf{0}$ avec $\mathbf{I}_n \in \mathbb{R}^{n \times n}$ la matrice identité de taille $n\times n$ et $\mathbf{0}$ un vecteur de $\mathbb{R}^n$ rempli de 0.

Pour le SVM à marge souple en revanche, écrire les contraintes d'inégalités $0 \leq \alpha_i \leq C \ \ \forall i = 1,\dots,n$ sous la forme standard $\mathbf{G} \mathbf{x} \leq \mathbf{h}$ attendue par `qp` requiert une petite manipulation :

* <u>Cas d'une seule contrainte</u> : $0 \leq \alpha \leq C$ <br>
Cette contrainte peut se réécrire $ - \alpha \leq 0$ et $\alpha \leq C$ $\Leftrightarrow$ $\left\{\begin{align} - \alpha & \leq 0 \\ \alpha &\leq C\end{align}\right.$ $\Leftrightarrow$ $\begin{pmatrix} -1 \\ 1 \end{pmatrix} \alpha \leq \begin{pmatrix} 0 \\ C \end{pmatrix}$ $\rightarrow$. Dans ce cas, on identifie $\mathbf{G} = \begin{pmatrix} -1 \\ 1 \end{pmatrix}$ et $\mathbf{h} = \begin{pmatrix} 0 \\ C \end{pmatrix}$.<br>
<br>
* <u>Cas de deux contraintes</u> : $0 \leq \alpha_1 \leq C$ et $0 \leq \alpha_2 \leq C$<br>
En appliquant la même idée, on a $\left\{\begin{align} - \alpha_1 & \leq 0 \\ - \alpha_2 & \leq 0 \\ \alpha_1 &\leq C \\ \alpha_2 & \leq C\end{align}\right.$ $\ \Leftrightarrow \ $ $\begin{pmatrix} -1  & 0 \\ 0 & -1 \\ 1 & 0 \\ 0 & 1\end{pmatrix} \begin{pmatrix} \alpha_1 \\ \alpha_2 \end{pmatrix} \leq \begin{pmatrix} 0 \\ 0 \\ C \\ C\end{pmatrix}$, ce qui permet là encore d'identifier la matrice $\mathbf{G}$ et le vecteur $\mathbf{h}$ attendus par `qp`.<br><br>
* <u> Cas de $n$ contraintes</u> : $0 \leq \alpha_i \leq C \ \ \forall i=1,\dots,n$<br>
À vous de généraliser la relation précédente au cas de $n$ contraintes...

### 🛠️ 🚧 👷  À vous de jouer !

Résolvez le problème dual du SVM à marge souple grâce au solveur `qp` de `cvxopt` en utilisant la même démarche que le SVM à marge dure (rappelée ici) :
1. La reformulation du problème dual $(D)$ comme un problème de **minimisation** pour pouvoir appliquer `minimize` reste valable dans le cas de `qp`, qui attend également de **minimiser** une fonction quadratique donnée.
2. Identifiez les matrices $\mathbf{P}$, $\mathbf{G}$ et $\mathbf{A}$ et les vecteurs $\mathbf{q}$, $\mathbf{h}$, $\mathbf{b}$ de la forme standard attendue par `qp` à partir de la formulation du problème dual, et en utilisant la manipulation présentée ci-dessus pour $\mathbf{G}$ et $\mathbf{h}$) et définissez les au format `matrix` de `cvxopt`.<br>
3. Résolvez numériquement le problème dual grâce à `qp`.

In [None]:
# définition des matrices du problème QP
C = ??? # FIXME ⚠️ Hyperparamètre C
P = ??? # FIXME ⚠️
q = ??? # FIXME ⚠️
G = ??? # FIXME ⚠️
h = ??? # FIXME ⚠️
A = ??? # FIXME ⚠️
b = ??? # FIXME ⚠️

In [None]:
# Résolution du problème dual
result_cvxopt = qp(???) # FIXME ⚠️

### 🛠️ 🚧 👷  À vous de jouer !

Une fois le problème dual résolu par `qp` et le multiplicateur de Lagrange optimal $\boldsymbol \alpha^\star$ obtenu, déterminez :
1. Le vecteur normal $\mathbf{w}^\star$ à l'hyperplan optimal : $\displaystyle \mathbf{w}^\star = \sum_{i=1}^{n} \alpha_i^\star y_i \mathbf{x}_i$
2. Les vecteurs de support $\mathbf{x}_s$ (tels que $0 < \alpha_s^\star < C$).
3. Le biais $ b^\star$ de l'hyperplan optimal $y_i \big( (\mathbf{w}^\star)^T \mathbf{x}_i + b^\star)\big) = 1$ calculé à partir d'un vecteur de support. 
4. Les échantillons $\mathbf{x}_i$ à l'intérieur de la marge ou mal classés (tels que $\alpha_i^\star = C $) et leur variable de relâchement associée $\xi_i^\star = 1 - y_i\big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big)$.

In [None]:
alpha = np.array(result_cvxopt['x']).flatten()

# Calcul des vecteurs de support
Xs_indices = ??? # FIXME ⚠️ indices (booléen) des vecteurs de support
ys = ??? # FIXME ⚠️ labels des vecteurs de support
Xs = ??? # FIXME ⚠️ coordonnées de vecteurs de support

In [None]:
# Calcul des paramètres de l'hyperplan optimal
w_cvxopt = ??? # FIXME ⚠️ vecteur normal à l'hyperplan
b_cvxopt = ??? # FIXME ⚠️ biais de l'hyperplan

In [None]:
# Calcul des variables de relâchement
Xe_indices = ??? # FIXME ⚠️ indices (booléen) des échantillons dans la marge ou mal classés
ye = ??? # FIXME ⚠️ labels de ces échantillons erronnés
Xe = ??? # FIXME ⚠️ coordonnées de ces échantillons erronnés
Xi_e = ??? # FIXME ⚠️ variables de relâchement associées à ces échantillons erronnés

### 🛠️ 🚧 👷  À vous de jouer !

Pour finir, affichez la solution que vous avez trouvé pour le SVM avec le dual résolu par `qp`. Si celle-ci est correcte, la figure devrait donc être identique à celle obtenue pour `minimize` (sous réserve que celle-ci aussi soit correcte bien sur...)

In [None]:
plot_svm(X,y,Xs,ys,Xe,ye,Xi_e,w_cvxopt,b_cvxopt,label='(cvxopt)')

## Un peu de lecture 📖 : résolution du SVM à marge souple en utilisant `scikit-learn`

Quand on parle de SVM (donc d'un problème de classification), on pense en général à `scikit-learn`. Votre bibliothèque favorite de _machine learning_ implémente évidemment le SVM. Il serait logique que le résultat de `scikit-learn` soit identique à ceux de `minimize` et `qp`.

L'API de `scikit-learn` est bien différente de celles de `minimize` et `qp` puisqu'elle se focalise sur les aspects de _machine learning_ (en même temps, c'est ce qu'on attend d'elle) plutôt que les aspects d'optimisation. On peut malgré tout s'en sortir en fouillant un peu les différents attributs du modèle de SVM implémenté dans `scikit-learn` : c'est ce qu'il vous est proposé de lire dans cette partie (votre prof a fait le boulot à votre place 😉)

In [None]:
from sklearn.svm import SVC

Définition du modèle de SVM linéaire (_aka_ pas la version noyau ici) avec l'hyperparamètre $C$ défini à la même valeur que pour `minimize` et `qp`.

In [None]:
SVM = SVC(kernel='linear',C=C)

Entraînement du SVM sur l'intégralité du jeu de données (pas besoin de train/test split ici puisqu'on ne va pas tester les performances en prédiction du modèle).

In [None]:
SVM.fit(X,y)

Une fois l'entraînement réalisé, on peut récupérer le vecteur normal à l'hyperplan optimal grâce à l'attribut `coef_` et le biais de l'hyperplan grâce à l'attribut `intercept_`

In [None]:
print("Vecteur normal à l'hyperplan optimal :",SVM.coef_.flatten()) # flatten() pour avoir une shape (2,)
print("Biais de l'hyperplan optimal :",SVM.intercept_)

In [None]:
w_sk = SVM.coef_.flatten()
b_sk = SVM.intercept_

L'API de `scikit-learn` ne permet pas d'accéder aux multiplicateurs de Lagrange optimaux $\alpha_i^\star$ (puisqu'encore une fois, ils n'ont pas d'intérêt en soit pour des opérations pratiques de _machine learning_). Elle permet en revanche d'accéder aux indices des vecteurs de support par l'attribut `support_` et à leurs coordonnées `support_vectors_`.

In [None]:
print("Indice des vecteurs de support :",SVM.support_)
print("Coordonnées des vecteurs de support :\n",SVM.support_vectors_)

⚠️ Pour `scikit-learn`, les vecteurs de support ne sont pas uniquement les échantillons qui vérifient $y_i(\mathbf{w}^T \mathbf{x}_i + b) = 1$ (donc sur les hyperplans $\pm 1$), mais également ceux qui tombent dans la marge ou du mauvais côté de l'hyperplan optimal : en bref, pour `scikit-learn`, les vecteurs de support sont ceux dont le multiplicateur de Lagrange associé est strictement positif $\alpha_i^\star > 0$.

In [None]:
Xs_indices_all = SVM.support_ # indice de tous les vecteurs de support pour scikit-learn
ys_all = y[Xs_indices_all] # labels de ces vecteurs de support
Xs_all = X[Xs_indices_all,:] # coordonnées de ces vecteurs de support

In [None]:
plt.figure(figsize=(10, 6))
plt.grid(True)
# Classe -1
plt.scatter(Xs_all[ys_all==-1,0], Xs_all[ys_all==-1,1],
            color='red',label='Classe -1',marker='o',edgecolor='k')
# Classe +1
plt.scatter(Xs_all[ys_all==1,0], Xs_all[ys_all==1,1],
            color='blue', label='Classe +1',marker='o',edgecolor='k')
# Hyperplan optimal
xmin = Xs_all[:,0].min()-0.25
xmax = Xs_all[:,0].max()+0.25
x_vals = np.linspace(xmin, xmax, 200)
y_vals = -(w_sk[0]*x_vals+b_sk)/w_sk[1]
plt.plot(x_vals, y_vals, 'k-', label='Hyperplan optimal')
# Hyperplans passant par les vecteurs de support (w.x+b=±1)
y_vals_support1 = -(w_sk[0]*x_vals+(b_sk-1))/w_sk[1]
y_vals_support2 = -(w_sk[0]*x_vals+(b_sk+1))/w_sk[1]
plt.plot(x_vals, y_vals_support1, 'k--', label='Hyperplan +1')
plt.plot(x_vals, y_vals_support2, 'k-.', label='Hyperplan -1')
# Titre, labels et légende
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.title('Hyperplan optimal et vecteurs de support de scikit-learn')
plt.legend()
plt.show()

Pour identifier les "vrais" vecteurs de support au sens où on l'entend depuis le début, à savoir ceux dont le multiplicateur de Lagrange optimal est $0 < \alpha_i^\star < C$, il suffit donc de chercher parmis ces points ceux qui vérifient l'équation $y_i(\mathbf{w}^T \mathbf{x}_i + b) = 1$ :

In [None]:
ys_all*(np.dot(Xs_all,w_sk) + b_sk)

⚠️ La précision numérique du calcul précédent est telle qu'un seuil dur `== 1` est voué à l'échec. En revanche, une tolérance de $10^{-3}$ fera l'affaire.

In [None]:
Xs_indices = np.isclose(ys_all*(np.dot(Xs_all,w_sk) + b_sk),1,atol=1e-3)
ys = ys_all[Xs_indices]
Xs = Xs_all[Xs_indices,:]

In [None]:
print("Coordonnées des 'vrais' vecteurs de support :\n",Xs)

Ne reste qu'à récupérer les coordonnées `Xe` des vecteurs dans la marge ou mal classés, leur label `ye` ainsi que la variable de relâchement `Xi_e` qui leur est associée.

Cette dernière se calcule via la relation $\xi_i^\star = 1 - y_i\big((\mathbf{w}^{\star})^T \mathbf{x}_i + b^\star \big)$

In [None]:
Xe = Xs_all[~Xs_indices,:]
ye = ys_all[~Xs_indices]
Xi_e = 1 - ye*(np.dot(Xe, w_sk)+b_sk)

In [None]:
print("Variables de relâchement pour les échantillons dans la marge / mal classés :\n",Xi_e)

On peut d'ailleurs vérifier numériquement que ces variables de relâchement $\xi_i^\star$ sont toutes strictement positives (encore heureux puisque c'était l'une des contraintes du problème primal...).<br>
Les échantillons pour lesquels $0 < \xi_i^\star < 1$ sont dans la marge mais du bon côté de l'hyperplan séparateur. Ceux pour lesquels $\xi_i^\star > 1$ sont du mauvais côté de l'hyperplan séparateur.


Pour finir, on peut afficher le scatterplot des échantillons avec la solution du SVM à marge souple calculée par `scikit-learn`

In [None]:
plot_svm(X,y,Xs,ys,Xe,ye,Xi_e,w_sk,b_sk,label='(scikit-learn)')

Cette dernière concorde bien visuellement avec les solution trouvées par `minimize` et `qp` (évidemment sous réserve que ce que vous avez fait est correct...).

### 🛠️ 🚧 👷  À vous de jouer !

Pour finir, vérifiez que les paramètres $\mathbf{w}^\star$ et $b^\star$ trouvés par `minimize`, `qp` et `scikit-learn` concordent bien numériquement : 
- est-ce vraiment le cas ?
- que pouvez vous en conclure ?

In [None]:
w_sp ??? w_cvxopt # FIXME ⚠️ est-ce que les vecteurs normaux aux hyperplans concordent ?
w_sp ??? w_sk # FIXME ⚠️
w_sk ??? w_cvxopt # FIXME ⚠️
b_sp ??? b_cvxopt # FIXME ⚠️ est-ce que les biais des hyperplans concodent ?
b_sp ??? b_sk # FIXME ⚠️
b_sk ??? b_cvxopt # FIXME ⚠️

On peut donc en conclude que ⚠️ FIXME

## BENCH BENCH BENCH !

### 🛠️ 🚧 👷  À vous de jouer !

Il ne vous aura sans doute pas échappé que dans cet exercice, vous avez résolu le SVM à marge souple pour une seule configuration donnée d'échantillons "presque linéairement séparables", et pour une seule valeur de l'hyperparamètre $C=1$.

S'il vous reste encore du temps (et de l'énergie), vous pouvez maintenant benchmarker (comme à vos plus belles heures d'OCVX1) le comportement du SVM à marge souple en faisant varier la séparabilité du jeu de données (en modifiant la valeur de `classe_sep` et de `scale`) et/ou la valeur de l'hyperparamètre $C$ pour voir leur influence sur les critères de votre choix, comme par exemple :
- la valeur de la marge normalisée $\frac{2}{\| \mathbf{w} \|}$
- la valeur de la pénalisation $\displaystyle \sum_{i= 1}^n \xi_i$ de la fonction objective
- la valeur de la fonction objective elle même $\frac{1}{2} \| \mathbf{w} \|^2 + C \sum_{i=1}^{n} \xi_i$
- le nombre d'échantillons tombant dans la marge ou mal classifiés
- le nombre d'itérations nécessaires au solveur pour converger vers la solution
- etc


In [None]:
# FIXME ⚠️ BENCH BENCH BENCH !

# Bravo ! 👏🍾

Et bé ! Vous en êtes arrivés au bout, c'était quand même un sacré morceau ce TP ! Bravo à vous 🍻