# Introduction à l'apprentissage automatique - TP4 exercice 3 - <font color=red> CORRECTION </font>

### SVM sur données réelles

<br> 

On considère le jeu de données `breast-cancer` décrit __[ici](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html)__ et __[là](https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic))__. 

__Questions__.  Que contient ce jeu de données? Combien d'observations et d'attributs par observation? Que cherche-t-on à prédire?

<font color=red>

Une observation correspond à une image d'un groupe de cellules. 
Pour chaque cellule, 10 caractéristiques sont calculées. 
Pour une observation, les moyennes, écarts-types, et maximum des 10 caractéristiques associées aux cellules visibles dans l'image sont calculées.

Chacune des 569 observations est donc décrite par 30 caractéristiques.
    
Les étiquettes sont 1 (tumeur bénigne) et 0 (tumeur maligne)

</font>

Réservez 20% des observations pour former une base de test.

__Travail à faire__. Mettez en oeuvre la classification par une SVM à noyau gaussien (gardez la valeur par défaut "scale" pour le paramètre `gamma`) et une SVM linéaire ainsi que les autres méthodes de classification que vous connaissez bien à présent.

Vous comparerez les scores de classification avec et sans normalisation ( _standardisation_ : les caractéristiques sont centrées et réduites). Vous fixerez les hyperparamètres de ces méthodes par validation croisée sur la base d'apprentissage, et vous comparerez les performances des méthodes sur la base de test.

In [None]:
from sklearn import datasets, metrics, model_selection, preprocessing, neighbors, naive_bayes, linear_model, svm
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# on charge le jeu de données et on garde 30% comme base test:
dataset = datasets.load_breast_cancer()
X_dataset = dataset.data
y_dataset = dataset.target
X_train, X_test, y_train, y_test = model_selection.train_test_split(X_dataset,y_dataset,test_size=.2,random_state=1)

print("Les 3 premières observations (non normalisées):")
print(X_train[:3,:])

print("et les étiquettes:")
print(y_train[:3])

# normalisation:
X_train_n = preprocessing.StandardScaler().fit_transform(X_train)
X_test_n = preprocessing.StandardScaler().fit(X_train).transform(X_test)

print("\nLes 3 premières observations (normalisées):")
print(X_train_n[:3,:])

In [None]:
# choix de C pour SVM et noyau gaussien  
# on garde le coef gamma fixé par défaut
C_range=10**(np.arange(-6.,6.5,1))   
parameters = { 'C':C_range }
SVM = svm.SVC(kernel='rbf')

gridsearch = model_selection.GridSearchCV(SVM, parameters,n_jobs=-1)

# sans normalisation:
print('données non normalisées\n')
%time gridsearch.fit(X_train,y_train)
plt.figure()
plt.semilogx(C_range,gridsearch.cv_results_['mean_test_score'])  
plt.grid()
plt.show()
# on voit sur ce graphique qu'on aurait pu prendre C=10^3 ou C=10^5 sans changer beaucoup le score
# (une autre séparation train/test de la base aurait pu conduire à sélectionner ces valeurs)
print("Meilleur estimateur trouvé:")
print(gridsearch.best_estimator_)
print("Meilleurs paramètres:")
print(gridsearch.best_params_)

print("\n")

# avec normalisation:
print('données normalisées\n')
%time gridsearch.fit(X_train_n,y_train)
plt.figure()
plt.semilogx(C_range,gridsearch.cv_results_['mean_test_score'])  
plt.grid()
plt.show()
# même remarque: C=10 aurait pu être choisi
print("Avec normalisation, meilleur estimateur trouvé:")
print(gridsearch.best_estimator_)
print("Avec normalisation, meilleurs paramètres:")
print(gridsearch.best_params_)


In [None]:
# choix de C pour SVM linéaire
C_range=10**(np.arange(-6.,6.5,1))   
parameters = { 'C':C_range }
SVM2 = svm.SVC(kernel='linear')

gridsearch = model_selection.GridSearchCV(SVM2, parameters,n_jobs=-1)

# sans normalisation:
print('données non normalisées\n')
%time gridsearch.fit(X_train,y_train)
plt.figure()
plt.semilogx(C_range,gridsearch.cv_results_['mean_test_score'])  
plt.grid()
plt.show()
# on voit sur ce graphique qu'on aurait pu prendre C=10^3 ou C=10^5 sans changer beaucoup le score
# (une autre séparation train/test de la base aurait pu conduire à sélectionner ces valeurs)
print("Meilleur estimateur trouvé:")
print(gridsearch.best_estimator_)
print("Meilleurs paramètres:")
print(gridsearch.best_params_)

print("\n")

# avec normalisation:
print('données normalisées\n')
%time gridsearch.fit(X_train_n,y_train)
plt.figure()
plt.semilogx(C_range,gridsearch.cv_results_['mean_test_score'])  
plt.grid()
plt.show()
# même remarque: C=10 aurait pu être choisi
print("Avec normalisation, meilleur estimateur trouvé:")
print(gridsearch.best_estimator_)
print("Avec normalisation, meilleurs paramètres:")
print(gridsearch.best_params_)


In [None]:
K_range=[1, 2, 5, 10, 15, 20, 25]
parameters = {'n_neighbors': K_range}
KNN = neighbors.KNeighborsClassifier()
gridsearch = model_selection.GridSearchCV(KNN, parameters, n_jobs=-1)

# sans normalisation:
print('données non normalisées\n')
%time gridsearch.fit(X_train,y_train)
plt.figure()
plt.semilogx(K_range,gridsearch.cv_results_['mean_test_score'])  
plt.grid()
plt.show()
# on voit que le score moyen varie très peu, la sélection est assez arbitraire
print("Meilleur estimateur trouvé:")
print(gridsearch.best_estimator_)
print("Meilleurs paramètres:")
print(gridsearch.best_params_)

print("\n")

# avec normalisation:
print('données normalisées\n')
%time gridsearch.fit(X_train_n,y_train)
plt.figure()
plt.semilogx(K_range,gridsearch.cv_results_['mean_test_score'])  
plt.grid()
plt.show()
# idem
print("Avec normalisation, meilleur estimateur trouvé:")
print(gridsearch.best_estimator_)
print("Avec normalisation, meilleurs paramètres:")
print(gridsearch.best_params_)


In [None]:
C_range=10**(np.arange(-6.,6.5,1))   
parameters = {'C': C_range}
LR = linear_model.LogisticRegression()
gridsearch = model_selection.GridSearchCV(LR, parameters, n_jobs=-1)

# sans normalisation:
print('données non normalisées\n')
%time gridsearch.fit(X_train,y_train)
plt.figure()
plt.semilogx(C_range,gridsearch.cv_results_['mean_test_score'])  
plt.grid()
plt.show()
print("Meilleur estimateur trouvé:")
print(gridsearch.best_estimator_)
print("Meilleurs paramètres:")
print(gridsearch.best_params_)

print("\n")

# avec normalisation:
print('données normalisées\n')
%time gridsearch.fit(X_train_n,y_train)
plt.figure()
plt.semilogx(C_range,gridsearch.cv_results_['mean_test_score'])  
plt.grid()
plt.show()
print("Avec normalisation, meilleur estimateur trouvé:")
print(gridsearch.best_estimator_)
print("Avec normalisation, meilleurs paramètres:")
print(gridsearch.best_params_)


In [None]:
# remarque: les valeurs des hyperparamètres sélectionnés peuvent varier d'une exécution à l'autre
# ce n'est pas étonnant vu que plusieurs valeurs sont proches du maximum dans les graphes précédents
# et que ces graphes varient d'une exécution à l'autre de la validation croisée (choix aléatoire des plis)

print("Scores sur la base test:\n")

print("Sans normalisation:")

print("SVM-gaussian")
SVM=svm.SVC(kernel='rbf',C=10000)  
SVM.fit(X_train,y_train)
print("score SVM-gaussien %.3f" % SVM.score(X_test, y_test) )

print("SVM-linear")
SVM2=svm.SVC(kernel='linear',C=0.01)  
SVM2.fit(X_train,y_train)
print("score SVM-linear %.3f" % SVM2.score(X_test, y_test) )

print("15-NN")
NN10 = neighbors.KNeighborsClassifier(n_neighbors=15)   
NN10.fit(X_train,y_train)
print("score NN15 %.3f" % NN10.score(X_test, y_test) )

print("NB")
NB = naive_bayes.GaussianNB()
NB.fit(X_train,y_train)
print("score NB %.3f" % NB.score(X_test, y_test) )

print("LR")
LR = linear_model.LogisticRegression(C=10,max_iter=5000)
LR.fit(X_train,y_train)
print("score LR %.3f" % LR.score(X_test, y_test) )

print("\n")
print("Avec normalisation:")

print("SVM-gaussian")
SVM=svm.SVC(kernel='rbf',C=1)  
SVM.fit(X_train_n,y_train)
print("score SVM-gaussian %.3f" % SVM.score(X_test_n, y_test) )

print("SVM-linear")
SVM2=svm.SVC(kernel='linear',C=0.1)  
SVM2.fit(X_train_n,y_train)
print("score SVM-linear %.3f" % SVM2.score(X_test_n, y_test) )

print("5-NN")
NN10 = neighbors.KNeighborsClassifier(n_neighbors=10)   
NN10.fit(X_train_n,y_train)
print("score NN5 %.3f" % NN10.score(X_test_n, y_test) )

print("NB")
NB = naive_bayes.GaussianNB()
NB.fit(X_train_n,y_train)
print("score NB %.3f" % NB.score(X_test_n, y_test) )

print("LR")
LR = linear_model.LogisticRegression(C=0.1)
LR.fit(X_train_n,y_train)
print("score LR %.3f" % LR.score(X_test_n, y_test) )

# meilleur prédiction pour LR (ou SVM) + normalisation:

print("\n\nmeilleures prédictions:")
print("\nmatrice de confusion LR + normalisation:")
print(metrics.confusion_matrix(y_test, LR.predict(X_test_n))) 
# attention au codage 0/1 des classes: 3 observations ont été classées comme 1 (tumeur bénigne à tort)
# La documentation parle de faux positif pour cet élément de la matrice de confusion, 
# mais cela dépend du point de vue et de ce qu'on considère comme "positif": 
# ici on ne détecte pas le cancer, mais le caractère bénin (classe 1)
print("\nmatrice de confusion SVM RBF + normalisation:")
print(metrics.confusion_matrix(y_test, SVM.predict(X_test_n)))


<font color=red>

_Remarque_: la standardisation améliore les performance des classifieurs, mais aussi les temps d'apprentissage et prédiction.  Standardiser les données améliore le comportement des algorithmes d'optimisation numérique ou de recherche de plus proche voisin.

</font>