# Chapitre 2 : Premiers pas avec Scikit-learn avec le dataset Iris
Email : <a href='mailto:madani.a@ucd.ac.ma'>madani.a@ucd.ac.ma</a>
<img src='images/robot.png'>
## Introduction
<p>
Scikit-learn fournit un environnement riche avec des implémentations de pointe de nombreux algorithmes de machine learning bien connus, tout en maintenant une interface étroitement intégrée au langage Python et facile à utiliser. Pour commencer avec scikit-learn, visitez http://scikit-learn.org/stable/index.html.
</p>
<p>
Pour faire de l’entrainement, scikit-learn intègre plusieurs datasets (ensemble de données de test). Un exemple des datasets les plus utilisé est celui qui correspond aux espèces de fleurs d'iris (voir http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html). Les données comprennent les caractéristiques des fleurs Iris: longueur du sépale en cm, largeur du sépale en cm, longueur du pétale en cm et largeur du pétale. Les classes cibles à prédire sont l'iris setosa, l'iris versicolour et la virginica.
</p>
<img src="images/iris.png">
<p>
Le dataset Iris, composé de 150 échantillons (samples, exemples) et 4 caractéristiques (features). On peut alors la représenter comme une matrice 150 x 4, comme le montre la figure ci-dessous :
</p>
<img src="images/matrice.png">
<p>
De la même manière, le vecteur de classes (labels) peut être représenté comme-suit :
</p>
<img src="images/labels.png">
<p>
Puisque le machine learning génère des modèles à partir de données, nous commencerons par voir comment les données peuvent être représentées pour être comprises par l'ordinateur.
</p>
<p>
La plupart des algorithmes de machine learning mis en œuvre dans scikit-learn s'attendent à ce que les données soient stockées dans un tableau bidimensionnel ou dans une matrice. Les tableaux peuvent être des tableaux numpy ou, dans certains cas, des matrices scipy.sparse. La taille du tableau devrait être [n<sub>samples</sub>, n<sub>features</sub>] avec:
</p>
<p>
<ul>
<li><b>n<sub>samples</sub> :</b> indique le nombre d'échantillons (nombres d’exemples). Chaque échantillon est un élément à traiter (par exemple, classifier). Un échantillon peut être un document, une image, un son, une vidéo, un objet astronomique, une ligne dans une base de données ou un fichier CSV, ou tout ce que vous pouvez décrire avec un ensemble fixe de traits quantitatifs.</li>

<li><b>n<sub>features</sub> :</b> indique le nombre de features (caractéristiques) ou de labels distincts qui peuvent être utilisés pour décrire chaque élément d'une manière quantitative. Les features sont généralement réelles, mais peuvent être booléennes ou discrètes dans certains cas. Le nombre de features doit être fixé à l'avance. Cependant, il peut être très élevé (par exemple des millions de features), la plupart d'entre eux étant des zéros pour un échantillon donné. Dans ce cas, les matrices scipy sparse sont plus efficaces en mémoire que les matrices numpy.</li>
</ul>
</p>
<p>
Quel que soit le classificateur, scikit-learn propose certaines méthodes communes pour traiter les données:
</p>
<p>
<ul>
<li><b>model.fit () :</b> fait l'entraînement du modèle. Pour les applications d'apprentissage supervisé, il accepte deux arguments : les données X et les étiquettes y (par exemple model.fit (X, y)). Pour les applications d'apprentissage non supervisées, il n'accepte qu'un seul argument, la donnée X (par exemple model.fit (X)).</li>

<li><b>model.predict () :</b> à partir d’un modèle entraîné, cette fonction sert à prédire la classe (label) d'une nouvelle données. Cette méthode accepte un argument, la nouvelle donnée X_new (par exemple model.predict (X_new)), et renvoie la classe correspondante.</li>

<li><b>model.predict_proba () :</b> Pour les problèmes de classification, certains estimateurs fournissent également cette méthode, qui renvoie la probabilité qu'une nouvelle observation appartient à une catégorique donnée. Dans ce cas, la classe avec la plus grande probabilité est retournée par model.predict ().</li>

<li><b>model.score () : </b> Pour les problèmes de classification ou de régression, la plupart des estimateurs implémentent une méthode de score. Les scores sont compris entre 0 et 1. Un score plus élevé indique un meilleur ajustement.</li>
</ul>
</p>
<p>

## Manipuler le dataset Iris avec Scikit-learn

Maintenant que nous avons vu la structure des données du dataset <strong>Iris</strong>, passons à quelques opérations de manipulation de ce dataset en utilisant Scikit-learn de Python :

In [2]:
# importer la fonction load_iris à partir du module datasets
from sklearn.datasets import load_iris

In [3]:
# Sauvegarder les données dans un objet iris
iris = load_iris()
type(iris)

sklearn.utils.Bunch

In [8]:
# afficher les données de iris
print(iris.data.shape)

(150, 4)


Le dataset ainsi chargé est constituée de 150 exemples, chacun possède 4 caractéristiques. Il est représenté par une matrice 150 x 4 :
<ul>
<li>chaque ligne est une observation (connue aussi sous le nom : sample, example, instance, record)</li>
<li>Chaque colonne est une caractéristique (connue aussi sous le nom : feature predictor, attribute, independent variable, input, regressor, covariate)</li>
</ul>

In [7]:
# afficher les noms des quatres features
print(iris.feature_names)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [9]:
# afficher les entiers représentant les espèces de chaque observation
print(iris.target)# afficher le code de chaque espèce : 0 = setosa, 1 = versicolor, 2 = virginica
print(iris.target_names)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['setosa' 'versicolor' 'virginica']


### Remarques
Les conditions requises pour travailler avec des données dans scikit-learn : 
<ol>
<li>Les features et les classes sont des objets séparés</li>
<li>Les features et les classes doivent être numériques</li>
<li>Les features et les classes doivent être des tableaux NumPy</li>
<li>Les features et les classes doivent avoir des formes spécifiques</li>
</ol>

In [10]:
# afficher le type chaque feature et chaque classe
print(type(iris.data))
print(type(iris.target))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [11]:
# la structure (forme) des features (première dimension = nombre d'observations, deuxième dimension = nombre de features)
print(iris.data.shape)

(150, 4)


In [12]:
# la structure (forme) des classes (vecteur contenant les classes des observations)
print(iris.target.shape)

(150,)


In [None]:
# stocker la matrice des features dans "X"
X = iris.data
print(X)

# stocker le vecteur de classes dans "y"
y = iris.target
print(y)