# Construire un classifieur avec sklearn


## 1. Les données : le dataset digits 


On récupère un des datasets nativement présents dans sklearn : le dataset digits
Il comprend 1797 images de résolution 8x8, représentant chacune un chiffre manuscrit.

In [7]:
from sklearn.datasets import load_digits
digits = load_digits()


Les données sont divisées en 2 parties : 

- les images d'une part : digits.data
- les chiffres représentés sur les images : digits.target

digits.data est un tableau numpy 2D. On peut afficher une ligne (une image) au hasard : la ligne 56

In [8]:
type(digits.data)

numpy.ndarray

In [9]:
digits.data[56]

array([ 0.,  0.,  0.,  0., 12., 13.,  1.,  0.,  0.,  0.,  0.,  8., 16.,
       15.,  2.,  0.,  0.,  0., 10., 16., 16., 12.,  0.,  0.,  0.,  4.,
       16., 16., 16., 13.,  0.,  0.,  0.,  4.,  7.,  4., 16.,  6.,  0.,
        0.,  0.,  0.,  0.,  1., 16.,  8.,  0.,  0.,  0.,  0.,  0.,  1.,
       16.,  8.,  0.,  0.,  0.,  0.,  0.,  0., 12., 12.,  0.,  0.])

Le dataset contient également des figures. 
Remarque : dans les tableaux data, target et images, les indices sont alignés

In [10]:
import matplotlib.pyplot as plt 
plt.gray() 
plt.matshow(digits.images[56]) 
plt.show() 

<Figure size 640x480 with 0 Axes>

<Figure size 480x480 with 1 Axes>

On vérifie qu'il s'agit bien officiellement d'un 1 

In [11]:
digits.target[56]

1

On peut ensuite récupérer plusieurs informations. Par exemple, l'ensemble des chiffres représentés (l'ensemble des classes)

In [12]:
digits.target_names

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Pour le nombre d'exemples et la résolution : 

In [13]:
 digits.data.shape

(1797, 64)

In [14]:
digits.target.shape

(1797,)

Exercice : combien y a t il d'exemples de chaque classe présents dans la base ?

In [15]:
digits.target[:100]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1,
       2, 3, 4, 5, 6, 7, 8, 9, 0, 9, 5, 5, 6, 5, 0, 9, 8, 9, 8, 4, 1, 7,
       7, 3, 5, 1, 0, 0, 2, 2, 7, 8, 2, 0, 1, 2, 6, 3, 3, 7, 3, 3, 4, 6,
       6, 6, 4, 9, 1, 5, 0, 9, 5, 2, 8, 2, 0, 0, 1, 7, 6, 3, 2, 1, 7, 4,
       6, 3, 1, 3, 9, 1, 7, 6, 8, 4, 3, 1])

SOLUTION 0

In [16]:
res=[0]*10
#print(res)
for i in range(digits.target.size):
    res[digits.target[i]]+=1
print(res)

[178, 182, 177, 183, 181, 182, 181, 179, 174, 180]


SOLUTION 1

In [18]:
[print('classe ',i,' : ',sum(digits.target==i)) for i in range(digits.target.size)]



SyntaxError: invalid syntax (<ipython-input-18-36718a62a141>, line 1)

SOLUTION 2

In [19]:
from collections import Counter 
dict=Counter(digits.target)
dict

Counter({0: 178,
         1: 182,
         2: 177,
         3: 183,
         4: 181,
         5: 182,
         6: 181,
         7: 179,
         8: 174,
         9: 180})

### 2. Construire le classifieur

Tous les classifieurs se construisent de la même façon : le classifieur est appris par la fonction fit(.).
Traditionnellement, x désigne les exemples tandis que y désigne les classes (ou target, ou label, ou étiquette)

In [None]:
from sklearn.tree import DecisionTreeClassifier

x=digits.data
y=digits.target
 
clf = DecisionTreeClassifier().fit(x,y)
 


### 3. Utiliser le classifieur pour prédire une classe

On veut prédire la classe d'une "nouvelle image", c'est à dire une image non vue = non présente dans la base dans le dataset. 

Créer une nouvelle image 

In [None]:
new = digits.data[56]
 
#sur cette image, le 4eme pixel est blanc :
print(new[3])
#on modifie ce pixel
new[3]=10

#on obtient la même image que celle du début avec le 4eme pixel gris foncé
print(new[3])
  

In [None]:
import matplotlib.pyplot as plt 
plt.gray() 
plt.matshow(new.reshape(8,8)) 
plt.show() 

In [None]:
clf.predict([new])  

Le résultat de la prédiction est 1 : il s'agit également d'un 1

On peut comparer les prédictions de différents classifieurs. Ici le perceptron multi couche (multi layered perceptron)

In [None]:
from sklearn.neural_network import MLPClassifier
clf2 = MLPClassifier().fit(x,y)


clf2.predict([new])

In [None]:
digits.images[56]

In [None]:
type(digits.images[56])