## Manipulation de données avec Python et Numpy

    Alexandre Gramfort : alexandre.gramfort@inria.fr

L'objectif de ce notebook est la prise en main de Python et Numpy en manipulant un célèbre jeu de données de machine learning.

Les données sont fournies par la librarie Python Scikit-Learn.

Vous travaillerez sur des données de chiffres manuscrits pour la classification (données `digits`)

# I - Manipulation et visualisation des *digits*

## Imports et intialisation

In [None]:
%matplotlib inline                      

import numpy as np                      # charge un package pour le numérique
import matplotlib.pyplot as plt         # charge un package pour les graphiques

## Description du jeu de données

On charge le jeu de données *digits* disponible dans le package scikit-learn (nom d'import sklearn). Ce jeu de données contient des images de chiffres numérisés.

In [None]:
# Chargement des données disponible dans le package sklearn
from sklearn.datasets import load_digits

digits = load_digits()
X, y = digits.data, digits.target

In [None]:
X

In [None]:
X.shape

In [None]:
X.ndim

In [None]:
y.shape

In [None]:
y.size

In [None]:
X.size, 1797*64

In [None]:
X[0, :].size

In [None]:
y

In [None]:
y.max(), y.min()

In [None]:
np.unique(y)

In [None]:
print("Nombre de pixels :      {}".format(X.shape[1]))
print("Nombre d'observations : {}".format(X.shape[0]))
print("Nombre de classes :     {}".format(len(np.unique(y))))

In [None]:
# Choix d'une observation quelconque de la base
idx_to_test = 15

print("Affichage d'une ligne de la matrice / image:")
print(X[idx_to_test, :])
print("Affichage de la classe / chiffre associé:")
print(y[idx_to_test])

<div class="alert alert-success">
    <b>EXERCISE:</b>
     <ul>
      <li>Quel est le dtype de X? y?</li>
      <li>Faites varier de `idx_to_test`. Sans afficher y[idx_to_test] arrivez-vous à reconnaitre le chiffre représenté?</li>
    </ul>
</div>

## Visualisation des observations:

Les images scannées sont de taille  8 x 8 et comportent donc 64 pixels chacune. Elles sont stockées sous la forme de vecteurs ligne, qu'il faut remettre dans un ordre lisible pour les identifier. L'affichage graphique est proposé avec les commandes qui suivent. On utilise la commande `np.reshape` pour passer d'un array 1d à un array 2d de 8x8 valeurs.

In [None]:
# Utilisation de la fonction imshow pour l'affichage de l'image
# numéro idx_to_test:
plt.imshow(np.reshape(X[0, :], (8, 8)));

In [None]:
# Amélioration de la visualisation (niveau de gris) et de la légende:
plt.imshow(np.reshape(X[idx_to_test, :], (8, 8)),
           cmap='gray', aspect='equal', interpolation='nearest')
plt.colorbar()
# Attention aux accents: ne pas oublier le u (Unicode) ci-dessous
plt.title(u'Le chiffre d\'indice %s est un %s' % (idx_to_test, y[idx_to_test]));

<div class="alert alert-success">
    <b>EXERCICE:</b>
     <ul>
      <li>Afficher une image avec une ligne et une colonne sur 2</li>
      <li>Afficher l'image ci-dessus après avoir enlevé un pixel de chaque bord?</li>
      <li>Afficher l'histogramme des valeurs des pixels (fonction `plt.hist`)</li>
    </ul>
</div>


## Statistiques élementaires :
Pour mieux comprendre la base de données on va s'intéresser à quelques statistiques. 
On commence par calculer les moyennes et variances par classes pour chacun des chiffres. La moyenne par classe se visualise comme une image qui est une représentantion moyenne pour chaque chiffre de zéro à neuf. Idem pour la variance, ce qui permet alors de voir les parties avec les plus grandes variations entre les membres d'une même classe.


In [None]:
classes_list = np.unique(y).astype(int)
print(u"Liste des classes en présence: ", classes_list)

<div class="alert alert-success">
    <b>EXERCICE:</b>
     <ul>
      <li>Calculer un représentant moyen du chiffre 0 (l'image qui en pixel i,j contient la valeur moyenne du pixel i,j parmis tous les 0)</li>
      <li>Avec une boucle `for` calculer le représentant moyen pour chaque chiffre</li>
      <li>Faire la même chose en remplaçant la moyenne par l'écart type</li>
      <li>Afficher toutes les images sur une grille à l'aide de la fonction `plt.subplots`</li>
    </ul>
</div>


# II - Classification par plus proche centroide

Le but de cette partie est de vous faire implémenter votre propre classifieur
basé sur une idée très simple. Pour un nouveau chiffre, on prédit la classe
dont le chiffre moyen est le plus proche.

<div class="alert alert-success">
    <b>EXERCISE:</b>
     <ul>
      <li>Partager la base de données en 2. On notera la première partie X_train, y_train et la deuxième partie X_test et y_test.</li>
      <li>Pour chaque chiffre calculer sur l'ensemble de train le chiffre moyen. On notera la variable contenant les moyennes `centroids_train`</li>
      <li>Pour chaque chiffre de l'ensemble de test, calculer le centroide le plus proche. Vous évaluerez si le chiffre ainsi obtenu correspond au vrai chiffre et en déduirez une estimation du pourcentage de bonnes prédictions.</li>
    </ul>
</div>

In [None]:
n_samples, n_features = X.shape

n_samples_train = n_samples // 2

X_train = X[:n_samples_train]
y_train = y[:n_samples_train]

X_test = X[n_samples_train:]
y_test = y[n_samples_train:]

# centroids_train = ...