# Exercice: Introduction à Numpy

Inspiré par les travaux d'Alexandre Gramfort (INRIA)

L'objectif principal de ce notebook est de se familiariser avec Python et NumPy en manipulant un jeu de données célèbre dans le domaine de l'apprentissage automatique.

Les données sont intégrées dans la bibliothèque `scikit-learn`.

Ce jeu de données est connu sous le nom de digits et contient des images de chiffres écrits à la main avec leurs étiquettes associées.

# Manipulations et visualisation du jeu de données `digtits`.

## Imports et intialisation

In [None]:
%matplotlib inline                      

import numpy as np                      # charge un package pour le numérique
import matplotlib.pyplot as plt         # charge un package pour les graphiques

## Description

Nous allons charger le jeu de données `digits` disponible dans `scikit-learn` (le nom de l'importation est `sklearn`). Ce jeu de données contient des images de chiffres écrits à la main.

In [None]:
# Load the dataset from scikit-learn
from sklearn.datasets import load_digits

digits = load_digits()
X, y = digits.data, digits.target

In [None]:
X

In [None]:
X.shape

In [None]:
X.ndim

In [None]:
y.shape

In [None]:
y.size

In [None]:
X.size, 1797*64

In [None]:
X[0, :].size

In [None]:
y

In [None]:
y.max(), y.min()

In [None]:
np.unique(y)

In [None]:
print(f"Nombre de pixels (features):      {X.shape[1]}")
print(f"Nombre d'images (samples):       {X.shape[0]}")
print(f"Nombre de classes:                {len(np.unique(y))}")

In [None]:
# Choix d'une image.
idx_to_test = 15

print("Une ligne du tableau (i.e., image):")
print(X[idx_to_test, :])
print("Classe associée :")
print(y[idx_to_test])

Exercice:
* Type de X ? y ?
* Changez idx_to_test. Sans regarder y[idx_to_test], pouvez vous reconnaitre le chiffre ?

## Visualisation des données :

Les images numérisées ont une taille de 8 x 8, soit un total de 64 pixels. Elles sont stockées dans un vecteur de lignes qui doit être remodelé pour être visualisé en tant qu'image. Vous pouvez utiliser la fonction `numpy.reshape` pour transformer le tableau 1D en un tableau 2D de 8 x 8 valeurs.

In [None]:
# Nous utilisons `imshow` pour visualiser l'image
plt.imshow(np.reshape(X[0, :], (8, 8)));

In [None]:
# Utilisez une carte de couleurs en niveaux de gris pour une meilleure visualisation
plt.imshow(np.reshape(X[idx_to_test, :], (8, 8)),
           cmap='gray', aspect='equal', interpolation='nearest')
plt.colorbar()
plt.title(f"La classe liée à l'image {idx_to_test} est {y[idx_to_test]}")

Exercice :
* Montrer une image avec 1 ligne et 1 colonne sur 2 (*Indication*: qu'est ce qui en Python pourrait faire ça ?)
* Montrer la distribution des pixels en utilisant `plt.hist`).


## Statistiques Basiques

Pour mieux comprendre la base de données on va s'intéresser à quelques statistiques. 
On commence par calculer les moyennes et variances par classes pour chacun des chiffres. La moyenne par classe se visualise comme une image qui est une représentantion moyenne pour chaque chiffre de zéro à neuf. Idem pour la variance, ce qui permet alors de voir les parties avec les plus grandes variations entre les membres d'une même classe.

Pour mieux comprendre la base de données, nous allons vérifier quelques statistiques.
Nous pouvons commencer par examiner la moyenne et la variance de chaque chiffre de la classe.
Nous pouvons représenter la moyenne et la variance sous la forme d'une image de 8 x 8.

* Quelle est la représentation des images de la moyenne et de la variance ?

In [None]:
classes_list = np.unique(y).astype(int)
print("Liste des classes en présence: ", classes_list)

Exercice :
* Calculer un représentant moyen du chiffre 0 (l'image qui en pixel i,j contient la valeur moyenne du pixel i,j parmis tous les 0)
* Avec une boucle `for` calculer le représentant moyen pour chaque chiffre
* Faire la même chose en remplaçant la moyenne par l'écart type
* Afficher toutes les images sur une grille à l'aide de la fonction `plt.subplots`

# Classification par centroïdes les plus proches

Le but de cet exercice est d'implémenter votre propre classificateur basé sur une idée intuitive.
Pour une nouvelle image, nous allons prédire la classe pour laquelle le chiffre moyen est le plus proche (dans l'espace des caractéristiques).

Exercice:
* diviser l'ensemble de données en deux parties. Les variables X_train, y_train, X_test et y_test représentent respectivement les données d'apprentissage et les étiquettes, ainsi que les données de test et les étiquettes.
* Pour chaque classe, calculez l'image digitale moyenne sur l'ensemble d'apprentissage. Nous appellerons la variable résultante `centroids_train`.
* Pour chaque échantillon de l'ensemble de test, calculez les centroïdes les plus proches. Calculez le pourcentage de bonnes prédictions pour évaluer les performances de votre classificateur.