# Premiers pas avec Scikit-learn

Pour la réalisation des projets et TP d'IA, il est nécessaire de disposer d'une installation de scikit-learn.

Scikit-learn est une bibliothèque open source polyvalente pour l'analyse de données écrite en python. Elle contient des jeux de données et des implémentations pour la plupart des algorithmes classiques d'apprentissage automatique.

Différentes méthodes d'installation selon votre système d'exploitation sont disponibles ici :
https://scikit-learn.org/stable/install.html

Sous linux en TP, il devrait vous suffire de taper dans une console ou directement sur Jupyter Notebook :

pip3 install scikit-learn

In [1]:
import sklearn

Il vous est par ailleurs conseillé de découvrir le site de description de scikit-learn :

https://scikit-learn.org/stable/index.html

Merci à Joris d'avoir déniché cet ebook de découverte de scikit-learn :
https://riptutorial.com/Download/scikit-learn-fr.pdf
N'hésitez pas à partager vos découvertes de ce type sur discord.


Scikit-learn est basé sur d'autres bibliothèques python: NumPy, SciPy et matplotlib notamment qu'il sera également nécessaire d'importer et de découvrir. Par exemple là :

https://cedric.cnam.fr/vertigo/Cours/ml/tpIntroductionScikitLearn.html
 
NumPy est une bibliothèque de calcul scientifique. Elle nous intéressera surtout pour ses fonctionnalités pour la manipulation de matrices et de tableaux en multiple dimensions. 
https://numpy.org/doc/stable/user/index.html

In [2]:
import numpy as np

SciPy est un package contenant de très nombreuses fonctions dédiées aux calculs scientifiques. Il est inutile d’importer SciPy en entier (avec import scipy) mais préférable de se limiter aux fonctionnalités utilisées, par exemple from scipy import linalg pour faire de l'algèbre linéaire.

Pandas est la librairie python d'analyse de données, basée sur sur une structure de donnée appelée DataFrame.

In [3]:
import pandas as pd

Enfin, nous utiliserons Matplotlib pour effectuer tous nos tracés scientifiques.
https://matplotlib.org

Nous nous servirons principalement de matplotlib.pyplot, à importer en début de session.
https://matplotlib.org/stable/api/pyplot_summary.html
http://www.python-simple.com/python-matplotlib/pyplot.php

Avec Jupyter, on peut afficher directement les graphiques dans la fenêtre du navigateur à l'aide de la commande : %matplotlib notebook

In [9]:
import matplotlib
import matplotlib.pyplot as plt
%matplotlib notebook

In [10]:
x=np.linspace(-10,10,100)
y=np.sin(x)
plt.plot(x,y,marker='o')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7fb94fad8a30>]

## Visualisation d'un jeu de donnée

In [6]:
from sklearn import datasets
# On importe le jeu de donnée de scikit-learn sur la classification des iris 
# d'Amérique du nord
iris = datasets.load_iris()

In [7]:
X = iris.data[:, :2]  # we only take the first two features.
Y = iris.target
#print(iris)

Pour la visualisation des jeux de données, nous utiliserons essentiellement la fonction scatter permettant la représentation des nuages de points :

In [11]:
x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
plt.figure(2, figsize=(8, 6))
plt.clf()
plt.scatter(X[:, 0], X[:, 1],c=Y,cmap=plt.cm.Set1)
plt.xlabel('Longueur des sépales')
plt.ylabel('Largeur des sépales')
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())

<IPython.core.display.Javascript object>

([], <a list of 0 Text yticklabel objects>)

ou en 3D...

In [12]:
X = iris.data
y = iris.target

from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure(3, figsize=(4, 3))
plt.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)
plt.cla()
for name, label in [('Setosa', 0),
                ('Versicolour', 1),
                ('Virginica', 2)]:
    ax.text3D(X[y == label, 3].mean(),
              X[y == label, 0].mean() + 1.5,
              X[y == label, 2].mean(), name,
              horizontalalignment='center',
              bbox=dict(alpha=.5, edgecolor='w', facecolor='w'))

y = np.choose(y, [1, 2, 0]).astype(np.float)
ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=y)
ax.w_xaxis.set_ticklabels([])
ax.w_yaxis.set_ticklabels([])
ax.w_zaxis.set_ticklabels([])
ax.set_xlabel('Petal width')
ax.set_ylabel('Sepal length')
ax.set_zlabel('Petal length')

<IPython.core.display.Javascript object>

Text(0.5, 0, 'Petal length')