# Les SVM : première rencontre

## 1 - Cas linéaire

In [None]:
import numpy as np
import matplotlib.pyplot as plt

- Simuler un ensemble d’entraînement de dimension 2 linéairement séparable, c'est-à-dire que l'on peut séparer par une droite. Il devra être composé de 100 observations avec 2 caractéristiques chacune (*indication : on peut prendre par exemple y=1 pour x1 > 0.5*)
- Afficher cet ensemble en colorant par label.

In [None]:
np.random.seed(0)
X = np.random.rand(100,2)
y = X[:,0] > 0.5
plt.scatter(X[:,0],X[:,1], c = y, s = 100);

- Entrainer un classifieur SVM linéaire (LinearSVC) et calculer l'accuracy

In [None]:
from sklearn.svm import LinearSVC
svc = LinearSVC()
svc.fit(X,y)
print("accuracy:",svc.score(X,y))

- Faire varier le paramètre C pour voir son effet sur le modèle 

In [None]:
for C in [10**x for x in range(-5,5)]:
    svc = LinearSVC(C=C)
    svc.fit(X,y)
    plt.title('C = ' + str(C) + ' et score = ' + str(svc.score(X,y)))
    print("accuracy:",svc.score(X,y))

- Faire un graphique avec l'ensemble de décision en utilisant une fonction `frontiere` à définir (le graphique doit donc représenter les points et les 2 espaces séparés par la frontière de décision)

In [None]:
def frontiere(clf, X, y):
    h = 0.002
    x_min, x_max = X[:, 0].min() - .1, X[:, 0].max() + .1
    y_min, y_max = X[:, 1].min() - .1, X[:, 1].max() + .1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    plt.figure()
    plt.contourf(xx, yy, Z, cmap=plt.cm.Paired, alpha=0.8)

    plt.scatter(X[:, 0], X[:, 1], c=y, s = 100)
    plt.title('score : ' + str(clf.score(X,y)))
    plt.xlabel('$x_1$')
    plt.ylabel('$x_2$')

In [None]:
frontiere(svc,X,y)

- Sur cet ensemble, ajouter du bruit aux y (par exemple avec une probabilité p, yi = 1-yi)
- Afficher l'ensemble, entrainer un SVM linéaire (LinearSVC) et faire varier le paramètre C.

In [None]:
np.random.seed(0)
X = np.random.rand(100,2)
y = X[:,0] > 0.5

lignes_bruitees = np.random.choice(range(len(y)), 10)
y[lignes_bruitees] = 1 - y[lignes_bruitees]

plt.scatter(X[:,0],X[:,1], c = y, s = 100);

In [None]:
for C in [10**x for x in range(-5,5)]:
    svc = LinearSVC(C=C)
    svc.fit(X,y)
    frontiere(svc,X,y)
    plt.title('C = ' + str(C) + ' et score = ' + str(svc.score(X,y)))

# 2- Cas non linéaire : 

- Générer des données d'entrainement non linéairement séparable puis les afficher avec les couleurs. On peut utiliser : 
>- from sklearn.datasets import make_moons 
>- X, y = make_moons(noise = 0.1)

In [None]:
from sklearn.datasets import make_moons
X, y = make_moons(noise = 0.1, random_state=1)
plt.scatter(X[:,0],X[:,1], c = y, s = 100);

- Générer de la même manière un échantillon de données de test

In [None]:
X_test, y_test = make_moons(noise = 0.1, random_state=321)
plt.scatter(X_test[:,0],X_test[:,1], c = y_test, s = 100);

- Entraîner un SVM avec les différents noyaux possibles et avec différentes valeurs de $C$.

In [None]:
from sklearn.svm import SVC 

In [None]:
#kernel = 'linear'
for C in [10**x for x in range(-3,5)]:
    svc = SVC(C=C, kernel='linear')
    svc.fit(X,y)
    print("score entrainement:",svc.score(X,y), "et score test:", svc.score(X_test,y_test))
    frontiere(svc,X,y)
    plt.scatter(svc.support_vectors_[:,0],svc.support_vectors_[:,1], c = 'green', s = 200, marker='*')

In [None]:
#kernel = 'poly'
for C in [10**x for x in range(-3,5)]:
    svc = SVC(C=C, kernel='poly', degree = 3, coef0 = 1)
    svc.fit(X,y)
    print("score entrainement:",svc.score(X,y), "et score test:", svc.score(X_test,y_test))
    frontiere(svc,X,y)
    plt.scatter(svc.support_vectors_[:,0],svc.support_vectors_[:,1], c = 'green', s = 200, marker='*')

In [None]:
#kernel = 'rbf'
for C in [10**x for x in range(-3,5)]:
    svc = SVC(C=C, kernel='rbf')
    svc.fit(X,y)
    print("score d'entrainement:",svc.score(X,y), ". score de test:", svc.score(X_test,y_test))
    frontiere(svc,X,y)
    plt.scatter(svc.support_vectors_[:,0],svc.support_vectors_[:,1], c = 'green', s = 200, marker='*')

In [None]:
#kernel = 'sigmoid'
for C in [10**x for x in range(-3,5)]:
    svc = SVC(C=C, kernel='sigmoid', coef0 = 1, gamma = 0.01)
    svc.fit(X,y)
    print("score d'entrainement:",svc.score(X,y), ". score de test:", svc.score(X_test,y_test))
    frontiere(svc,X,y)
    plt.scatter(svc.support_vectors_[:,0],svc.support_vectors_[:,1], c = 'green', s = 200, marker='*')

In [None]:
X_train = X[n_samples / 2:]
y_train = y[n_samples / 2:]

X_valid = X[:n_samples / 2]
y_valid = y[:n_samples / 2]

print("X_train : {} exemples, avec 8*8 = {} features.".format(X_train.shape[0], X_train.shape[1]))

## 3. Une petite application sur les données de digits 

- Charger le jeu de données digits disponible dans sklearn
>- utiliser la fonction load_digits
>- regarder ce que contient le dataset
>- enregistrer les images dans une variables images
>- créer la matrice X à l'aide d'un reshape
>- créer le vecteur y à partir de l'attribut targets du dataset
- Afficher 8 images prises au hasard dans le jeu de données

In [None]:
from sklearn import datasets

digits = datasets.load_digits()
images = digits.images
n_samples = len(digits.images)

X = images.reshape((n_samples, -1))
y = digits.target

plt.figure(figsize=(20,8))
idx_plt=1
for image in images[np.random.choice(range(n_samples),8)]:
    plt.subplot(2,4,idx_plt)
    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
    idx_plt+=1

- Découper le dataset en échantillons d'entraînement et de test
- Entrainer un kNN, une régression logistique et un SVM
- Comparer ces modèles
- Utiliser GridSearchCV pour affiner le choix des hyperparamètres

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

In [None]:
models = {
    'knn': KNeighborsClassifier(3),
    'reglog': LogisticRegression(),
    'svc': SVC(gamma=0.001, C=1, kernel='rbf')
}

for k,v in models.items():
    model = v
    model.fit(X_train,y_train)
    print('score de',k,model.score(X_test,y_test))