# Scikit-learn

Scikit-learn est une librairie d'apprentissage automatique couvrant l'ensemble de la discipline:

- Les types d'apprentissage : supervisé, non supervisé, par renforcement, par transfert


- Les algorithmes : 
Decision Tree,
SVM,
Naive Bayes,
KNN,
Dimensionality Reduction Algorithms,
Réseaux de neuronnes,etc.

# Jeu de données


Généralement, les données adoptent une représentation tabulaire (tableau à 2 dimensions) où :

- les lignes représentent les exemples (instances ou enregistrements).

- les colonnes représentent les descripteurs (attributs), comme par exemple hauteur, longueur et couleur.

Typiquement, des tableaux Numpy ou Pandas 


# Prédiction


Nous appelerons un algorithme de prédiction : prédicteur/classifieur/estimator 

Les algorithmes sont définis comme des classes en Python. 

Vous précisez ses éventuels paramètres, appelés hyperparamètres en instanciant la classe

Vous l'alimentez avec la fonction "fit" dans le cas d'un apprentissage supervisé

Vous lancez la prédiction sur un ensemble de valeurs via la fonction "predict" parfois appelée "transform" dans le cas de l'apprentissage non supervisé

# Exercice n°1

### Iris

Nous allons utiliser la base de données d'Iris de la librairie scikit-learn

###### Tâche demandée : Classer une fleur selon des critères observables



## 1. Chargement du jeu de données iris

## 2. Découverte du contenu du jeu de données

##### Afficher la description de la base de donnée Iris

##### Afficher les noms des caractéristiques des enregistrements

##### Afficher la taille de la base de données

##### Créer une variable data qui contient la liste des enregistrements 

##### Afficher les 5 premiers enregistrements:  

##### Créer une variable target qui contient les labels associés à chaque enregistrement

##### Afficher le nombre d'enregistrements pour chaque target (classe)

## 3. Visualisation des données

In [None]:
import matplotlib.pyplot as plt  #plt est un alias vers le module « matplotlib.pyplot ».
import matplotlib as mpl
import numpy as np

fig = plt.figure(figsize=(10, 4))
fig.subplots_adjust(hspace=0.4, wspace=0.4)
ax1 = plt.subplot(1,2,1)

clist = ['violet', 'yellow', 'blue']
colors = [clist[c] for c in iris.target]

ax1.scatter(data[:, 0], data[:, 1], c=colors)
plt.xlabel('Longueur du sepal (cm)')
plt.ylabel('Largueur du sepal (cm)')

'''
ax2 = plt.subplot(1,2,2)

ax2.scatter(data[:, 2], data[:, 3], color=colors)

plt.xlabel('Longueur du petal (cm)')
plt.ylabel('Largueur du petal (cm)')
'''
# Légende
for ind, s in enumerate(iris.target_names):
    # on dessine de faux points, car la légende n'affiche que les points ayant un label
    plt.scatter([], [], label=s, color=clist[ind])

plt.legend(scatterpoints=1, frameon=False, labelspacing=1
           , bbox_to_anchor=(1.8, .5) , loc="center right", title='Espèces')
plt.plot();

#### Visualisation avec Seaborn

La séparation des groupes entre les longueurs et largeurs de pétales semble très nette et déterminante !


Nous pourrions aussi le faire entre les longueurs de pétales et largeurs de sépales et inversement même si cela semble moins naturel.


La librairie Seaborn propose une matrice prête à l'emploi via le graphique Scatterplot Matrix pour réaliser ce type de graphique:

In [None]:
import seaborn as sns
import pandas as pd
sns.set()
df = pd.DataFrame(iris.data, columns=iris['feature_names'] )
df['target'] = target
df['label'] = df.apply(lambda x: iris['target_names'][int(x.target)], axis=1)

df.head()

Il ne reste plus qu'à dessiner le graphique avec Seaborn...

In [None]:
sns.pairplot(df, hue='label', vars=iris['feature_names'], height=2);

## 4. SVM 

D'un point de vue méthodologique, la base de donnée doit être divisée en deux parties disjointes. L'une est dédiée pour l'apprentissage (70%) et l'autre pour le test (30%).

##### Préparation de données

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size = 0.30)

##### Apprentissage

##### Prédiction

##### Evaluation de la prédiction

l'algorithme SVM essaye de trouver un classement intelligent mais ne se contente pas de comparer les valeurs d'origines aux valeurs prédites.


==> Pour mesurer la qualité de la prédiction, La bibliothèque Scikit-Learn propose des mesures:
- La matrice de confusion
- la précision : prédit en colonnes ; correctement attribuées/ attribuées à la classe i
- le rappel : réel en lignes ; correctement attribuées/ appartenant à la classe i
- F-score F1 : 2 * P * R/ (R+P)

Scikits-Learn contient les méthodes classification_report et confusion_matrix qui peuvent être facilement utilisées pour trouver les valeurs de ces métriques importantes.



In [None]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

acc = accuracy_score(y_pred, y_test) 
print(acc)

conf = confusion_matrix(y_test,y_pred)
print(conf)

print(classification_report(y_test,y_pred))

Et Seaborn permet de la représenter avec le Heatmap

In [None]:
import seaborn as sns
sns.heatmap(conf, square=True, annot=True, cbar=False
            , xticklabels=list(iris.target_names)
            , yticklabels=list(iris.target_names))
plt.xlabel('valeurs prédites')
plt.ylabel('valeurs réelles');

## Les differents kernel

Nous allons appliquer les differents kernel :

- Linear kernal

- Polynomial kernel

- Gaussian kernel


### - Linear Kernel

##### Apprentissage

##### Prédiction

##### Evaluation de la prédiction


### - Polynomial Kernel

##### Apprentissage

##### Prédiction

##### Evaluation de la prédiction


### - Gaussian Kernel  Radial Basis Function Kernel

##### Apprentissage

##### Prédiction


##### Evaluation de la prédiction

### - Sigmoid Kernel

##### Apprentissage


##### Prédiction


##### Evaluation de la prédiction


### Interprétation

In [None]:
X = data
y = target
# Pour afficher la surface de décision on va discrétiser l'espace avec un pas h
h = .02

# Créer la surface de décision discretisée
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
titles = ['LinearSVC (linear kernel)', 'SVC with linear kernel', 'SVC with polynomial kernel', 'SVC with gaussien kernel']

plt.figure(figsize=(14, 4))
for i, clf in enumerate((svclassifier, svcLin, svcPoly, svcRbf)):
    plt.subplot(1, 4, i + 1)
    plt.subplots_adjust(wspace=0.4, hspace=0.4)
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    # Utiliser une palette de couleurs
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, cmap=plt.cm.coolwarm, alpha=0.8)
    # Afficher aussi les points d'apprentissage
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.coolwarm)
    plt.xlabel('Sepal length')
    plt.ylabel('Sepal width')
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.xticks(())
    plt.yticks(())
    plt.title(titles[i])

plt.show()

##### ==> Vos interprétations .... 

### Grid search (parameter optimization)

In [None]:
from sklearn.model_selection import GridSearchCV

parameters = {'C':[0.9,0.01],'kernel':['rbf','linear'], 'gamma':[0,0.1,'auto'],'degree':[3,4,10]}

grid = GridSearchCV(estimator = SVC(), param_grid = parameters, cv = 10, 
                        scoring = 'accuracy')
grid.fit(X_train, y_train)

print(grid.best_score_)

print(grid.best_estimator_.get_params())
    