#  Les modèles max-margin ☕️☕️

Quelques liens pour plus de détails :
* [Overfitting](https://github.com/maximiliense/lmpirp/blob/main/Notes/Overfitting.pdf)
* [SVM](https://github.com/maximiliense/lmpirp/blob/main/Notes/SVM.pdf)

# Machine à vecteurs de support ou l'hypothèse du *max-margin*

L'hypothèse implicite derrière le *max-margin* est qu'entre deux frontières de même complexité, la plus robuste aux perturbations (dans le sens où si on perturbe un élément du train la probabilité qu'il change de classe est la plus faible) est la meilleure. L'idée fait sens car on peut supposer que les échantillons nouveaux peuvent être vus comme des perturbations des échantillons du jeu d'apprentissage. 

La frontière la plus robuste aux perturbations est celle qui maximise la distance entre le point le plus proche et elle-même. C'est l'hypothèse du *max-margin*.

Le SVM, ou machine à vecteurs de support adopte cette stratégie. Une présentation plus détaillée du SVM est disponible à l'adresse suivante : [SVM](https://github.com/maximiliense/lmpirp/blob/main/Notes/SVM.pdf).

## Introduction

### Un problème de classification linéaire

Le SVM est un classifieur linéaire. Soit $\mathcal{X}\subset\mathbb{R}^d$ nos variables d'entrées et $\mathcal{Y}=\{-1,+1\}$ nos variable à prédire. Un classifieur linéaire sépare les éléments de notre jeu de données par un hyperplan. Comme vous avez pu le voir dans le TP précédent, un hyperplan décrit par le vecteur normal $w$ est défini par les solutions de l'équations suivantes :

$$\langle w, x\rangle = 0$$


Si le produit scalaire est positif, on dira que notre échantillon $x$ appartient à la classe positive et inversement.

Un classifieur linéaire peut donc être décrit de la manière suivante :


$$\begin{aligned}
h_w:\mathcal{X}&\mapsto\mathcal{Y}=\{-1,+1\}\\
x&\rightarrow \text{sign}(\langle w, x\rangle)
\end{aligned}$$


De la même manière que pour les TPs précédents, on peut introduire la notion de biais en rajoutant une dimension de $1$ aux vecteurs $x$.

---
<span style="color:blue">**Petite question d'algèbre :**</span> **Trouvez le projecteur orthogonal de $\mathcal{X}$ sur l'hyperplan décrit par le vecteur $w$, noté $\text{proj}_w(x)$. Démontrez que $\forall x\in\mathcal{X},\ \text{proj}_w(x)\in\{z:\langle w, z\rangle=0\}$ (autrement dit, démontrez que la projection de $x$ sur la frontière est bien sur la frontière).**

<span style="color:green">**Réponse :**</span> 

On suppose que $||w||=1$ (on normalisera si besoin).

$$\text{proj}_w(x)=x-\langle w, x\rangle w$$

Et pour la démonstration :

$$\langle w, \text{proj}_w(x)\rangle=\langle w, x-\langle w, x\rangle w\rangle=\langle w, x\rangle -\langle w, x\rangle\langle w, w\rangle = 0$$

<span style="color:blue">**Petite question d'algèbre 2 :**</span> **Montrer que $\text{proj}_w^2=\text{proj}_w$ (le carré est pris dans le sens de la composition). Cela vous semble-t-il logique ?**

<span style="color:green">**Réponse :**</span> 


$$\begin{aligned}
\text{proj}^2_w(x)&=x-\langle w, x\rangle w-\langle w, x-\langle w, x\rangle w\rangle w\\
&=x-\langle w, x\rangle w-(\langle w, x\rangle - \langle w, x\rangle \langle w, w \rangle)w=x-\langle w, x\rangle w
\end{aligned}$$


La projection sur l'hyperplan défini par le vecteur normal $w$ d'un vecteur $x$ déjà sur ce dernier n'a aucune effet (puisqu'il est déjà sur l'hyperplan). Ainsi, projeter une fois ou deux fois revient à la même chose.


---

### Le primal

Comme dit plus haut, on ne cherche pas n'importe quel hyperplan, mais bien celui qui rang la marge maximale. La marge est définie par la plus patite distance entre un point du jeu de données et la frontière de décision.

La distance d'un point à la frontière est donnée par $|\langle x_i, w\rangle|$ ($w$ unitaire). La quantité $y_i\langle x_i, w\rangle$ est positive et indique la distance à la frontière si le point est bien classé et donne la distance négative si le point est mal classé. Ainsi $\min_{i\leq m} y_i\langle x_i, w\rangle$ nous donne le point la plus petite distance (négative si mal classé).

On souhaite donc trouver $w$ tel que cette distance soit maximale (i.e. le point le plus proche est le plus loin possible de la frontière) :

$$\hat{w}=\text{argmax}_{w, ||w||=1}\min_{i\leq m}y_i\langle x_i, w\rangle$$


Il est possible de montrer que le vecteur $w=w_0/||w_0||$ tel que :

$$w_0=\text{argmin}_{w}||w||^2_2,\ s.t. \forall i\leq m,\ y_i\langle x_i, w\rangle \geq 1$$

est solution de ce problème de minimisation.

Remarquez que cela fait penser à la régularisation : parmi toutes les solutions possibles, on cherche celle de norme minimale.

### Le dual (optionnel)

Le problème d'optimisation si dessus est ce qu'on appelle un problème d'optimisation sous contrainte. Un tel problème est associé à ce qu'on appelle un Lagrangien :

$$\mathcal{L}(w, \alpha)=||w||_2^2+\sum_{i=1}^m\alpha_i(1-y_i\langle x_i, w\rangle),\ \alpha_j\geq 0, j\leq m$$

Notons $g(w)=\max_{\alpha,\alpha\geq 0}\mathcal{L}(w,\alpha)$. On observe assez rapidement que $g(w)=\infty$ si une des contraintes n'est pas satisfaite et vaut $||w||^2_2$ sinon.

Ainsi, minimiser $g(w)$ revient à minimiser la norme du vecteur $w$ en respectant les contraintes. C'est ce qu'on appelle le *primal* qu'on note $p^\star$ :

$$p^\star=\min_w\max_{\alpha,\alpha\geq 0}\mathcal{L}(w,\alpha)$$

Le passage au dual permet d'inverser la minimisation et la maximisation. Il n'est pas évident de montrer que les deux problèmes sont équivalents. C'est ici le cas et on note $d^\star$ le dual (on parle donc de dualité forte) :

$$d^\star=\max_{\alpha,\alpha\geq 0}\min_w\mathcal{L}(w,\alpha).$$

Quelques éléments de calculs plus loin (le minimum est un point critique, on annule les dérivées partielles, etc.), on reformule le dual de la manière suivante :

$$\max_{\alpha,\alpha\geq 0}\sum_i\alpha_i-\frac{1}{2}\sum_i\sum_j\alpha_i\alpha_jy_iy_j\langle x_i, x_j\rangle$$

et

$$w=\frac{1}{2}\sum_i \alpha_iy_ix_i$$

Ainsi, notre modèle prédictif prend la forme suivante :


$$\begin{aligned}
h:\mathcal{X}&\mapsto\mathcal{Y}\\
x&\rightarrow\text{sign}(\sum_i\alpha_iy_i\langle x_i, x\rangle)
\end{aligned}$$

### L'astuce du noyau (optionnel, suite du dual)

L'astuce du noyau découle de la formation duale et notamment du fait que celle-ci n'est liée aux données qu'au travers du produit $y_iy_i$ et du produit scalaire $\langle x_i, x_j\rangle$. Si le problème de classification est non linéaire, il est possible de passer par une transformation non linéaire $\phi:\mathcal{X}\mapsto\mathcal{F}$ de nos données d'entrées. Le problème devient donc :

$$\max_{\alpha,\alpha\geq 0}\sum_i\alpha_i-\frac{1}{2}\sum_i\sum_j\alpha_i\alpha_jy_iy_j\langle \phi(x_i), \phi(x_j)\rangle$$

Sans rentrer dans les détails, l'astuce du noyau vient de l'existence de fonctions :

$$\begin{aligned}
k:\mathcal{X}\times\mathcal{X}&\mapsto\mathbb{R}\\
x_i,x_j&\rightarrow k(x_i,x_j)=\langle\phi(x_i),\phi(x_j)\rangle.
\end{aligned}$$


Ces fonctions $k$ ne nécessitent pas de projeter les $x$ dans un espace de plus grande dimension et permettent d'obtenir le résultat du produit scalaire directement dans l'espace d'origine. Ainsi, on peut même calculer le produit scalaire dans des espaces de dimensions infinies.

Par exemple le noyau :

$$k(x_i, x_j)=(\langle x_i, x_j\rangle+c)^n,$$

nous permet de faire une transformations polynomiales de degré $n$ directement dans l'espace d'origine ; on remarque que la puissance $n$ est calculée sur le résultat du produit scalaire ($+c$) qui est donc un sclaire.

## Visualisation de la frontière de décision

L'objectif de ce premier exercice est de visualiser la frontière de décision d'un SVM en jouant sur un exemple simple avec les noyaux offerts par la librairie $\texttt{scikit-learn}$.

La visualisation suivante permet d'observer la marge et notamment les vecteurs de supports.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
np.random.seed(0)

dataset_size = 20

X = np.r_[np.random.randn(dataset_size, 2) - [2, 2], np.random.randn(dataset_size, 2) + [2, 2]]
Y = [0] * dataset_size + [1] * dataset_size

# figure number
fignum = 1

kernel = 'linear'
clf = svm.SVC(kernel=kernel)
clf.fit(X, Y)

# get the separating hyperplane
w = clf.coef_[0]
a = -w[0] / w[1]
xx = np.linspace(-5, 5)
yy = a * xx - (clf.intercept_[0]) / w[1]

# plot the parallels to the separating hyperplane that pass through the
# support vectors (margin away from hyperplane in direction
# perpendicular to hyperplane). This is sqrt(1+a^2) away vertically in
# 2-d.
margin = 1 / np.sqrt(np.sum(clf.coef_ ** 2))
yy_down = yy - np.sqrt(1 + a ** 2) * margin
yy_up = yy + np.sqrt(1 + a ** 2) * margin

# plot the line, the points, and the nearest vectors to the plane
plt.figure(figsize=(14, 8))
plt.clf()
plt.plot(xx, yy, 'k-')
plt.plot(xx, yy_down, 'k--')
plt.plot(xx, yy_up, 'k--')

plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=80,
            facecolors='none', zorder=10, edgecolors='k')

plt.scatter(X[:, 0], X[:, 1], c=Y, zorder=10, cmap=plt.cm.Paired,
            edgecolors='k')

plt.axis('tight')
x_min = -4.8
x_max = 4.2
y_min = -6
y_max = 6

XX, YY = np.mgrid[x_min:x_max:500j, y_min:y_max:500j]
Z = clf.predict(np.c_[XX.ravel(), YY.ravel()])

# Put the result into a color plot
Z = Z.reshape(XX.shape)
plt.pcolormesh(XX, YY, Z, cmap=plt.cm.Paired, shading='auto')

plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)

plt.xticks(())
plt.yticks(())
plt.show()


In [None]:
def sample_data(size=200):
    X = np.random.uniform(-1, 1, size=(size, 2))
    y = X[:, 0]**3 < X[:, 1]
    return X, y
X, y = sample_data()

In [None]:
def plot(X, y, clf=None):
    plt.figure(figsize=(14, 8))
    plt.xticks(())
    plt.yticks(())
    if clf is not None:

        XX, YY = np.mgrid[-1:1:500j, -1:1:500j]
        Z = clf.predict(np.c_[XX.ravel(), YY.ravel()])

        # Put the result into a color plot
        Z = Z.reshape(XX.shape)
        plt.pcolormesh(XX, YY, Z, cmap=plt.cm.Paired, shading='auto')

    plt.xlim(-1, 1)
    plt.ylim(-1, 1)

    plt.scatter(X[:, 0], X[:, 1], c=y)

    plt.show()

In [None]:
plot(X, y)

Voici la visualisation d'un SVM avec un noyau linéaire (un produit scalaire $\langle\cdot,\cdot\rangle$).

In [None]:
kernel = 'linear'
clf = svm.SVC(kernel=kernel)
clf.fit(X, y)

plot(X, y, clf)

Comme vous avez pu le voir, si vous avez lu la section concernant le dual, le SVM permet de remplacer les comparaisons linéaires (i.e. le produit scalaire), par des comparaisons non-linéaires (i.e. produit scalaire dans un espace où les données sont projetées non linéairement). La librairie $\texttt{scikir-learn}$ permet de jouer avec ce paramètre.

---
<span style="color:blue">**Exercice 4 :**</span> **Jouez avec plusieurs noyaux et observez la forme de la frontière de décision.**

---

In [None]:
####### Complete this part ######## or die ####################
kernels = ['poly', 'rbf', 'sigmoid']
params = [{'degree': 4, 'coef0': 5, 'gamma': 'auto'}, {'gamma': 'scale'}, {'gamma': 'auto', 'coef0': 1.}]
for k, p in zip(kernels, params):
    print('SVM with kernel: ' + k)
    clf = svm.SVC(kernel=k, **p)
    clf.fit(X, y)
    plot(X, y, clf)
###############################################################

---
<span style="color:blue">**Question :**</span> **Comparez la robustesse d'un SVM par rapport à un 1NN relativement à la dimension du problème. Le SVM est-il plus ou moins robuste que le 1NN ?**

<span style="color:green">**Réponse :**</span>

---

In [None]:
####### Complete this part ######## or die ####################
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
import numpy as np

def sample_data(n, k=3, d=3, mu=1):
    y = np.random.randint(0, 2, size=(n, 1))
    
    X = np.random.normal(mu, 1, size=(n, k))
    X = y*X-(1-y)*X # positive have mean mu and negative, -mu
    noise = np.random.normal(0, 1, size=(n, d-k))
    X = np.concatenate([X, noise], axis=1)
    
    return X, y

scores_svm = []
scores = []
redo = 5
max_dim = 5000
first_dim = 10
steps = 100

for d in range(first_dim, max_dim, steps):
    s_svm = 0
    s = 0
    for _ in range(redo):
        X, y = sample_data(100, d=d)
        X_test, y_test = sample_data(200, d=d)
        
        model = SVC(kernel='linear', C=1.)
        model.fit(X, y.reshape((y.shape[0],)))
        s_svm += model.score(X_test, y_test.reshape((y_test.shape[0],)))/redo
        
        c = KNeighborsClassifier()
        c.fit(X, y.reshape((y.shape[0],)))
        s += c.score(X_test, y_test.reshape((y_test.shape[0],)))/redo
    scores.append(s)
    scores_svm.append(s_svm)
    
plt.plot(list(range(first_dim, max_dim, steps)), scores_svm, label='SVM')
plt.plot(list(range(first_dim, max_dim, steps)), scores, label='KNN')
plt.legend()
plt.show()
###############################################################

## Sur de vrais données

---
<span style="color:blue">**Exercice 5 :**</span> **Utilisez le SVM, la régression logistique ou encore le KNN pour résoudre les problèmes ci-dessous.**

---

### Iris dataset

In [None]:
from sklearn import datasets
iris = datasets.load_iris()

X = iris['data']
y = iris['target']

In [None]:
####### Complete this part ######## or die ####################
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn import svm

Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.1)

kernels = ['poly', 'rbf', 'sigmoid']
params = [
    {'kernel': ['linear']},
    {'kernel': ['poly'], 'degree': [1, 2, 3, 4, 5], 'coef0': [1, 2, 3, 4, 5], 'gamma': ['auto']}, 
    {'kernel': ['rbf'], 'gamma': ['scale']}, 
    {'kernel': ['sigmoid'], 'gamma': ['auto'], 'coef0': [0.1, 1., 10.]}
]

search = GridSearchCV(svm.SVC(), params, cv=5)
search.fit(Xtrain, ytrain)
print('Train ' + '*' * 50)
print(classification_report(ytrain.reshape((ytrain.shape[0], 1)), search.predict(Xtrain)))
print('Test ' + '*' * 50)
print(classification_report(ytest.reshape((ytest.shape[0], 1)), search.predict(Xtest)))
###############################################################

<span style="color:orange">**On observe ci-dessous qu'un modèle qui ne fait aucune erreur n'est pas nécessairement un bon modèle.**</span>

In [None]:
####### Complementary answer ###############################################################
model = svm.SVC(kernel = 'rbf', gamma=2000.)
model.fit(Xtrain, ytrain)
print('Train ' + '*' * 50)
print(classification_report(ytrain.reshape((ytrain.shape[0], 1)), model.predict(Xtrain)))
print('Test ' + '*' * 50)
print(classification_report(ytest.reshape((ytest.shape[0], 1)), model.predict(Xtest), zero_division=0))
############################################################################################

### Digits dataset

In [None]:
from sklearn import datasets
digit = datasets.load_digits()

X = digit['data']
Y = digit['target']

In [None]:
import matplotlib.pyplot as plt
fig, axes = plt.subplots(nrows=2, ncols=5, figsize=(14, 8))
fig.tight_layout()
for i in range(10):
    plt.subplot(2, 5, i+1)
    img = X[i].reshape((8, 8))
    plt.gca().set_axis_off()
    
    plt.imshow(img, cmap=plt.cm.gray_r, interpolation='nearest')
    plt.title('Label: '+str(Y[i]))
plt.show()

In [None]:
####### Complete this part ######## or die ####################
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
from sklearn import svm

Xtrain, Xtest, ytrain, ytest = train_test_split(X, Y, test_size=0.3)

kernels = ['poly', 'rbf', 'sigmoid']
params = [
    {'kernel': ['poly'], 'degree': [1, 2, 3, 4, 5], 'coef0': [1, 2, 3, 4, 5], 'gamma': ['auto']}, 
    {'kernel': ['rbf'], 'gamma': ['scale', 0.01, 1., 10., 100., 1000.]}, 
    {'kernel': ['sigmoid'], 'gamma': ['auto'], 'coef0': [0.1, 1., 10.]}
]

from sklearn.model_selection import GridSearchCV
from sklearn import svm

search = GridSearchCV(svm.SVC(), params, cv=5)
search.fit(Xtrain, ytrain)

print('Train ' + '*' * 50)
print(classification_report(ytrain.reshape((ytrain.shape[0], 1)), search.predict(Xtrain)))
print('Test ' + '*' * 50)
print(classification_report(ytest.reshape((ytest.shape[0], 1)), search.predict(Xtest)))
###############################################################

<span style="color:orange">**On observe ci-dessous qu'un modèle qui ne fait aucune erreur n'est pas nécessairement un bon modèle.**</span>

In [None]:
####### Complementary answer ###############################################################
model = svm.SVC(kernel = 'rbf', gamma=2000.)
model.fit(Xtrain, ytrain)
print('Train ' + '*' * 50)
print(classification_report(ytrain.reshape((ytrain.shape[0], 1)), model.predict(Xtrain)))
print('Test ' + '*' * 50)
print(classification_report(ytest.reshape((ytest.shape[0], 1)), model.predict(Xtest), zero_division=0))
############################################################################################

### Wine dataset

In [None]:
from sklearn import datasets
wine = datasets.load_wine()

X = wine['data']
Y = wine['target']

In [None]:
####### Complete this part ######## or die ####################
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
from sklearn import svm

Xtrain, Xtest, ytrain, ytest = train_test_split(X, Y, test_size=0.3)
kernels = ['poly', 'rbf', 'sigmoid']
params = [
    {'kernel': ['poly'], 'degree': [1, 2, 3, 4, 5], 'coef0': [1, 2, 3, 4, 5], 'gamma': ['auto']}, 
    {'kernel': ['rbf'], 'gamma': ['scale', 0.01, 1., 10., 100., 1000.]}, 
    {'kernel': ['sigmoid'], 'gamma': ['auto'], 'coef0': [0.1, 1., 10.]}
]

search = GridSearchCV(svm.SVC(), params, cv=5)
search.fit(Xtrain, ytrain)

print('Train ' + '*' * 50)
print(classification_report(ytrain.reshape((ytrain.shape[0], 1)), search.predict(Xtrain)))
print('Test ' + '*' * 50)
print(classification_report(ytest.reshape((ytest.shape[0], 1)), search.predict(Xtest)))
###############################################################

<span style="color:orange">**On observe ci-dessous qu'un modèle qui ne fait aucune erreur n'est pas nécessairement un bon modèle.**</span>

In [None]:
####### Complementary answer ###############################################################
model = svm.SVC(kernel = 'rbf', gamma=2000.)
model.fit(Xtrain, ytrain)
print('Train ' + '*' * 50)
print(classification_report(ytrain.reshape((ytrain.shape[0], 1)), model.predict(Xtrain)))
print('Test ' + '*' * 50)
print(classification_report(ytest.reshape((ytest.shape[0], 1)), model.predict(Xtest), zero_division=0))
############################################################################################