## Manipulation de données avec Python et Numpy

    Laurent Morelli

L'objectif de ce notebook est la prise en main de Python et Numpy en manipulant un célèbre jeu de données de machine learning.

Les données sont fournies par la librarie Python Scikit-Learn.

Vous travaillerez sur des données de chiffres manuscrits pour la classification (données `digits`)

# I - Manipulation et visualisation des *digits*

## Imports et intialisation

In [None]:
%matplotlib inline

import numpy as np                      # charge un package pour le numérique
import matplotlib.pyplot as plt         # charge un package pour les graphiques

## Description du jeu de données

On charge le jeu de données *digits* disponible dans le package scikit-learn (nom d'import sklearn). Ce jeu de données contient des images de chiffres numérisés.

In [None]:
# Chargement des données disponible dans le package sklearn
from sklearn.datasets import load_digits

digits = load_digits()
X, y = digits.data, digits.target


## EXERCICE:

   - Quel est le dtype de X? y?
   - Combien y a t il de pixels par image ? combien d'observations ? combien de classes ?
   - Affichez une observation au hasard à partir d'un index `idx_to_test`
   - Faites varier de `idx_to_test`. Sans afficher y[idx_to_test] arrivez-vous à reconnaitre le chiffre représenté?

In [None]:
print(X.dtype)
print(X.shape)
print(y.shape)


print("Nombre de pixels : ")
#code
print("Nombre d'observations : ")
#code
print("Nombre de classes : ")
#code


idx_to_test = 532
#affichage de la ligne correspondante
#code
#affichage de la classe
#code


## Visualisation des observations:

Les images scannées sont de taille  8 x 8 et comportent donc 64 pixels chacune. Elles sont stockées sous la forme de vecteurs ligne, qu'il faut remettre dans un ordre lisible pour les identifier. L'affichage graphique est proposé avec les commandes qui suivent. On utilise la commande `np.reshape` pour passer d'un array 1d à un array 2d de 8x8 valeurs.

In [None]:
# Utilisation de la fonction imshow pour l'affichage de l'image numéro idx_to_test:
plt.imshow(np.reshape(X[idx_to_test, :], (8, 8)));

In [None]:
# Amélioration de la visualisation (niveau de gris) et de la légende:
plt.imshow(np.reshape(X[idx_to_test, :], (8, 8)),
           cmap='gray', aspect='equal', interpolation='nearest')

# Attention aux accents: ne pas oublier le u (Unicode) ci-dessous
plt.title(u'Le chiffre d\'indice %s est un %s' % (idx_to_test, y[idx_to_test]));


## Statistiques élementaires :
Pour mieux comprendre la base de données on va s'intéresser à quelques statistiques.
On commence par calculer les moyennes et variances par classes pour chacun des chiffres. La moyenne par classe se visualise comme une image qui est une représentantion moyenne pour chaque chiffre de zéro à neuf. Idem pour la variance, ce qui permet alors de voir les parties avec les plus grandes variations entre les membres d'une même classe.


In [None]:
classes_list = np.unique(y).astype(int)
print(u"Liste des classes en présence: ", classes_list)

## EXERCICE:

- Calculer un représentant moyen du chiffre 0 (l'image qui en pixel i,j contient la valeur moyenne du pixel i,j parmis tous les 0)
- Avec une boucle `for` calculer le représentant moyen pour chaque chiffre


In [None]:
#rappel
print(y==0)

In [None]:
#récupérer dans une variable X_zero tous les vecteur de cette classe
#code
#afficher le nombre de vecteur
#code
#calculer dans une variable X_zero_mean le vecteur moyen
#code

#img = np.reshape(X_zero_mean, (8,8))

#plt.imshow(img,
#           cmap='gray', aspect='equal', interpolation='nearest')

In [None]:
#afficher dans une boucle for toutes les images de classe moyenne

# II - Classification par plus proche centroide

Le but de cette partie est de vous faire implémenter votre propre classifieur
basé sur une idée très simple. Pour un nouveau chiffre, on prédit la classe
dont le chiffre moyen est le plus proche.

#### Questions:

- Partager la base de données en 2. On notera la première partie X_train, y_train et la deuxième partie X_test et y_test.
- Pour chaque chiffre calculer sur l'ensemble de train le chiffre moyen. On notera la variable contenant les moyennes `centroids_train`
- Pour chaque chiffre de l'ensemble de test, calculer le centroide le plus proche. Vous évaluerez si le chiffre ainsi obtenu correspond au vrai chiffre et en déduirez une estimation du pourcentage de bonnes prédictions.

In [None]:
n_samples , n_feature = X.shape
n_samples_train = 0.3 * n_samples
print(int(n_samples_train))

X_train = X[int(n_samples_train):]
y_train = y[int(n_samples_train):]
X_test =  X[:int(n_samples_train)]
y_test = y[:int(n_samples_train)]

print(X_train.shape,y_train.shape, X_test.shape, y_test.shape )


In [None]:
#prenons deux éléments
X1, X2 = X[100], X[1000]
#écrire une fonction qui renvoie la distance l2 de deux éléments


In [None]:
#stocker dans un vecteur centroids_train les centroids pour les 10 classes à partir des X_train


In [None]:
#ok nous allons maintenant faire une prediction en se basant sur notre distance pour tous les éléments de X_Test
#initialisons y_pred
y_pred = np.zeros(len(y_test), dtype=int)

#faisons les prédiction
for i in range(X_test.shape[0]):
    x = X_test[i]
    #code
    #y_pred[i] = ...

print(y_pred)
print(y_test)
#notre % de réussite est le nombre moyen d'occurence commune
print('score :')
print(np.mean(y_pred == y_test))

Vous avez réussis à implémenter l'algorithme des NeaerestCentroid

Bravo !

Vous pouvez le retrouver sur https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.NearestCentroid.html

In [None]:
from sklearn.neighbors import NearestCentroid

classifier = NearestCentroid()
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)

In [None]:
print(np.mean(y_pred == y_test))

Par curiosité, testez un autre classifier parmi

Logistic Regression : https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

Neural net : https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html

Random Forest : https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

Nearest kneighbors : https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
