# Python pour la science des données -- Partie 2: La librairie scikit-learn

Matériel de cours rédigé par Pascal Germain, 2018
*********************

In [None]:
import numpy as np
from matplotlib import pyplot as plt

## Exercice

Cet exercice vise à vous donner l'occasion d'explorer les fonctionalités de la librairie `scikit-learn` par vous-même. 

Nous travaillerons à classifier un sous-ensemble de l'ensemble **CIFAR-10** (l'ensemble complet se trouve [ici](http://www.cs.toronto.edu/~kriz/cifar.html)). Ce sous-ensemble contient des images d'oiseaux et des images d'avions. Télécharger d'abord ces données à partir du lien suivant:

https://drive.google.com/drive/folders/1SW6Q9x4QOVcOZ57THpc2sM5ZsdCMMjyV?usp=sharing

Indiquez le (sous-)répertoire où se trouvent les fichiers sur votre ordinateur à l'aide de la variable suivante.

In [None]:
repertoire_cifar = 'cifar/' # Modifier le répertoire au besoin

Chargeons les données en mémoire.

In [None]:
data_x = np.loadtxt(repertoire_cifar + 'planes_vs_birds.data.gz')
data_y = np.loadtxt(repertoire_cifar + 'planes_vs_birds.labels')
print('data_x:', data_x.shape)
print('data_y:', data_y.shape)

Chaque élément de l'ensemble est un vecteur de niveau de gris (encodés par des entiers $0$ à $255$) de taille $1024$. Ceci correspond à une image de taille $32\times 32$ pixels. Notez que les images de l'ensemble *CIFAR-10* sont originellement en couleur, nous les avons convertis en niveau de gris pour cet exercice.

In [None]:
data_x[0,:]

Les images d'avions sont étiquettées `0` et les images d'oiseaux sont étiquettées `1`.

In [None]:
data_y[0:100]

In [None]:
i = 0
image = data_x[i].reshape(32,32)
plt.imshow(image, cmap=plt.cm.gray)
plt.colorbar()

Séparons les données en un ensemble d'apprentissage et un ensemble de test (1000 images chacun).

In [None]:
from sklearn.model_selection import train_test_split
train_x, test_x, train_y, test_y = train_test_split(data_x, data_y, test_size=1000, random_state=42)
print('train_x:', train_x.shape)
print('test_x:', test_x.shape)
print('train_y:', train_y.shape)
print('test_y:', test_y.shape)

Exécutons un premier algorithme d'apprentissage: la régression logistique, en utilisant les paramètres par défaut.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

predicteur = LogisticRegression()
predicteur.fit(train_x, train_y)
train_pred = predicteur.predict(train_x)
test_pred = predicteur.predict(test_x)
print('Précision train:', accuracy_score(train_y, train_pred))
print('Précision test :', accuracy_score(test_y, test_pred))

Ouf, ce prédicteur est à peine mieux qu'un prédicteur aléatoire. Autrement dit, tirer à pile ou face pour prédire si chaque image représente un oiseau ou un avion serait une méthode presque aussi précise!

## À vous de jouer...

On vous demande d'utiliser les outils de `scikit-learn` (algorithmes d'apprentissage, pré-traitement des données, outils de sélection de modèles, ...) pour améliorer, au meilleurs de votre capacité, la précision de prédiction sur l'ensemble test.

Libre à vous d'utiliser les algorithmes et méthodes que nous n'avons pas couvert jusqu'à maintenant (vous y êtes mêmes encouragés). N'hésitez pas à consulter la documentation, les tutoriels et exemples de code qui abondent sur le site de *scikit-learn*: http://scikit-learn.org