# Initiation au Machine Learning - Classification des iris

### Objectifs d'apprentissage
+ Manipulation de notebooks python (*calepins électroniques*).
+ Découverte de librairies de fonctions python pour le calcul scientifique, les statistiques, la visualisation de données et l'apprentissage statistique.
+ Utilisation de quelques algorithmes de machine learning.

### Objectifs du TP
+ Charger et observer un jeu de données classique de l'apprentissage statistique (base de données des iris).
+ Utiliser la regression logistique pour la classification des iris.
+ Découvrir et implémenter seul un nouveau classifieur (bayésien).

### Consignes
+ Un compte-rendu de ce TP vous sera demandé. Merci d'utiliser pour cela ce calepin python, que vous completerez, commenterez, annoterez... Les réponses aux questions seront à ajouter dans des blocs indentés (que l'on crée avec un chevron > en début de ligne) si il s'agit de texte. Les blocs de codes ajoutés seront commentés.



# Chargement et visualisation des données

In [None]:
# import and load dataset
from sklearn import datasets
iris = datasets.load_iris()

# define data and labels
data = iris.data
target = iris.target

Q1) Qu'est-ce que ***sklearn*** dans la première ligne du bloc de code ci-dessus ? Que contient cette librairie ?


In [None]:
# load matplotlib and numpy
%matplotlib inline
import matplotlib.pyplot as plt
import matplotlib as mpl
import numpy as np

Q2) Qu'est-ce que ***matplotlib*** ? Qu'est-ce que ***numpy*** ? En quoi ***numpy*** est-elle importante pour le machine learning ?

In [None]:
fig = plt.figure(figsize=(8, 4))
fig.subplots_adjust(hspace=0.4, wspace=0.4)

# left plot
ax1 = plt.subplot(1,2,1)

clist = ['violet', 'yellow', 'blue']
colors = [clist[c] for c in iris.target]

ax1.scatter(data[:, 0], data[:, 1], c=colors)
plt.xlabel('Longueur du sépal (cm)')
plt.ylabel('Largueur du sépal (cm)')

# right plot
ax2 = plt.subplot(1,2,2)

ax2.scatter(data[:, 2], data[:, 3], color=colors)

plt.xlabel('Longueur du pétal (cm)')
plt.ylabel('Largueur du pétal (cm)')

# legend
for ind, s in enumerate(iris.target_names):
    plt.scatter([], [], label=s, color=clist[ind])

plt.legend(scatterpoints=1, frameon=False, labelspacing=1
           , bbox_to_anchor=(1.8, .5) , loc="center right", title='Espèces')
plt.plot();

In [None]:
import pandas as pd
df = pd.DataFrame(data, columns=iris['feature_names'] )
df['target'] = target
df['label'] = df.apply(lambda x: iris['target_names'][int(x.target)], axis=1)
df.head()

In [None]:
import seaborn as sns
sns.set()
sns.pairplot(df, hue='label', vars=iris['feature_names'], height=2);

Q3) A quoi servent ***pandas*** et ***seaborn*** ?

Q4) Décrire le jeu de données ***iris***. Combien contient-il d'exemples ? Quelles sont les variables d'entrées ? Que va t-on chercher à prédire ?

Q5) A quoi correspondent les ***pairplot*** ? Que vous inspirent t-ils vis-à-vis de la classification des iris ?

# Regression logistique

In [None]:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()
clf.fit(data, target)
result = clf.predict(data)

Q6) Expliquer chacune des quatre lignes du bloc de code ci-dessus. Si l'exécution du code donne un message d'erreur ou un avertissement, l'expliquer et le résoudre.

In [None]:
errors = sum(result != target)
print("Nombre d'erreurs :", errors)
print("Pourcentage de prédiction juste :", (result.size-errors)*100/result.size)

In [None]:
from sklearn.metrics import accuracy_score
print("Précision :", accuracy_score(result, target))

Q7) Les deux blocs précédents remplissent le même rôle. Expliquer.

In [None]:
from sklearn.metrics import confusion_matrix
conf = confusion_matrix(target, result)
sns.heatmap(conf, square=True, annot=True, cbar=False
            , xticklabels=list(iris.target_names)
            , yticklabels=list(iris.target_names))
plt.xlabel('valeurs prédites')
plt.ylabel('valeurs réelles');

Q8) Le bloc précédent affiche la matrice de confusion du classifieur. Qu'est-ce qu'une matrice de confusion ? Que nous apprend-t-elle ? Cela vous semble-t-il cohérent avec ce qui était visible sur les pairplot ?

In [None]:
from sklearn.model_selection import train_test_split
data_split = train_test_split(data, target, random_state=0, train_size=0.5)
data_train, data_test, target_train, target_test = data_split

Q9) A quoi sert la fonction ***train_test_split*** ? Le paramètre ***train_size*** ? Entrainer un classifieur de type regression logistique pour différentes valeurs de ce paramètre et commenter les résultats obtenus. Pourquoi n'utilise t-on pas d'ensemble de validation ?


# Classification naïve bayésienne
Utilisons maintenant un autre classifieur que la regression logistique : la classification naïve bayésienne (*naive bayes classification*).

Q10) Qu'est-ce que la classification naïve bayésienne ?

Q11) Essayer ce classifieur et comparer les résultats obtenus avec la regression logistique.