In [1]:
%matplotlib inline

In [2]:
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec

from sklearn.neural_network import MLPClassifier

# Utilisation d’un PMC pour la classification de Chiffres Manuscrits
# Notion d'optimisation d'une architecture

## Jeux d'apprentissage

### Choix de l'entrée du classifieur
Ici, on choisit le codage binaire (i.e. représenté par des -1 et des 1) que l'on va mettre en entrée du perceptron multicouches. Chaque représentation du chiffre manuscrit correspond à un vecteur.  
On peut utiliser le codage brut chiffre manuscrit avec son codage d'un 1 pour les pixels sur lesquels le stylo est passé et -1 là où il n'est pas passé. (L'imagette est mise sous forme de vecteur en mettant les lignes les unes à la suite des autres.)  

In [3]:
x = np.loadtxt("x.txt")

On peut aussi l'une des multiples variantes de codages associées à la représentation du nombre proposées.

In [4]:
hx = np.loadtxt("hx.txt")
hx_hy = np.loadtxt("hx_hy.txt")
pb_ph = np.loadtxt("pb_ph.txt")
pg_pd = np.loadtxt("pg_pd.txt")

On peut aussi choisir d'utiliser une combinaison.

In [5]:
hx_hy_pb_ph = np.loadtxt("hx_hy_pb_ph.txt")
hx_hy_pg_pd = np.loadtxt("hx_hy_pg_pd.txt")

Parmi, toutes ces possibilités, on en garde une comme entrée du réseau `X`.  
Pour la suite, on supprime les autres.

In [6]:
X = x.T
del x, hx, hx_hy, pb_ph, pg_pd, hx_hy_pb_ph, hx_hy_pg_pd

Pour ce qui est de la sortie, il s'agit d'un vecteur codant la classe  associée au chiffre manuscrit.  
La sortie désirée (`t` pour target) est, comme les entrées, un vecteur binaire (i.e. représenté par des -1 et des 1) de 10 colonnes (une pour chaque classe). Tous les éléments sont à -1 à l'exception de l'élément dont l'indice correspondant à la classe.   
Ainsi une représentation manuscrite des nombres 0, 3 et 9 auront tous leurs éléments à -1 à l'exception de leur, respectivement, premier, quatrième et dixième élément qui lui vaudra 1.  

In [7]:
t = np.loadtxt("t.txt").T
t_label_num = np.where(t==1)[1]
class_label = ['zero','un','deux','trois','quatre','cinq','six','sept','huit','neuf']
t_label_str = [ class_label[i] for i in t_label_num]

**Pour la suite on à décider de remplacer les -1 par des 0.**  
Ainsi pour chaque chiffre on a neuf 0 et un 1. 
On a donc les probabilités d'appartenance aux classes de chiffres comme sorties désirées.  
La sortie fournit par le PMC correspondra ainsi à la probabilité estimée par le réseau.  
(Attention, un PMC n'a pas par défaut de contrainte pour respecter les axiomes des probabilités.  
Il pourra fournir des sorties inférieures à 0, supérieures à 1 ainsi qu'une somme des dix sorties elle aussi inférieure à 0 ou supérieure à 1.)

In [8]:
t[np.where(t==-1)] = 0

Il nous reste à réaliser nos ensembles d'apprentissage.  
On a $48 \times 10$ chiffres manuscrits qui correspondent à $48$ séries de $10$ chiffres ordonnés allant de $0$ à $9$.  
On va grossièrement prendre les premières séries pour l'apprentissage et les dernières pour le test.

In [10]:
n_train = 28*10
# rescale the data, use the traditional train/test split
X_appVal, X_test = X[:200,:], X[200:,:]
t_appVal, t_test = t[:200,:], t[200:,:]

In [12]:
mlp = MLPClassifier(hidden_layer_sizes=(100, 100), max_iter=4000,
                    alpha=1e-4,
                    validation_fraction=.7,
                    #solver='sgd', 
                    tol=1e-6, 
                    solver='lbfgs', learning_rate = 'adaptive',
                    random_state=1)
#mlp = MLPClassifier(hidden_layer_sizes=(50,), max_iter=10, alpha=1e-4,
#                    solver='sgd', verbose=10, tol=1e-4, random_state=1,
#                    learning_rate_init=.1)

mlp.fit(X_appVal, t_appVal)
print("Training set score: %f" % mlp.score(X_appVal, t_appVal))
print("Test set score: %f" % mlp.score(X_test, t_test))

Training set score: 1.000000
Test set score: 0.764286


## Apprentissage 

Dans cette partie, dans un cadre contraint, on va chercher à déterminer une architecture optimale.
Dans la suite, on s'intéressara à trois types d’architectures.
Pour cette architecture optimale, avec un jeu de poids associés, on calculera les performances en apprentissage validation et test.


### Optimisation de la première architecure 

Ici, on s'intéresse à un réseau linéaire entièrement connecté sans couche cachée.
On effectue donc une régression multilinéaire.

In [14]:
mlp = MLPClassifier(hidden_layer_sizes=(1,), max_iter=4000,
                    alpha=1e-4,
                    activation='identity',
                    validation_fraction=.7,
                    #solver='sgd', 
                    tol=1e-6, 
                    solver='lbfgs', learning_rate = 'adaptive',
                    random_state=1)

mlp.fit(X_appVal, t_appVal)
print("Training set score: %f" % mlp.score(X_appVal, t_appVal))
print("Test set score: %f" % mlp.score(X_test, t_test))

Training set score: 0.100000
Test set score: 0.028571


### Optimisation de la seconde architecure 

Ici, on s'intéresse à un réseau Sigmoïdal entièrement connecté sans couche cachée.
On effectue donc une transformation non linéaire à la réponse fournie par une régression multilinéaire.

In [15]:
mlp = MLPClassifier(hidden_layer_sizes=(20,), max_iter=4000,
                    alpha=1e-4,
                    activation='identity',
                    validation_fraction=.7,
                    #solver='sgd', 
                    tol=1e-6, 
                    solver='lbfgs', learning_rate = 'adaptive',
                    random_state=1)

mlp.fit(X_appVal, t_appVal)
print("Training set score: %f" % mlp.score(X_appVal, t_appVal))
print("Test set score: %f" % mlp.score(X_test, t_test))

Training set score: 1.000000
Test set score: 0.664286


### Optimisation de la troisième architecure 

Ici, on s'intéresse à un réseau entièrement connecté à une couche caché.
Cela est éqiuvalent à utiliser une combinaison linéaires des réseaux sigmaodïdaux de la question précédente.

In [16]:
mlp = MLPClassifier(hidden_layer_sizes=(20,), max_iter=4000,
                    alpha=1e-4,
                    activation='tanh',
                    validation_fraction=.7,
                    #solver='sgd', 
                    tol=1e-6, 
                    solver='lbfgs', learning_rate = 'adaptive',
                    random_state=1)

mlp.fit(X_appVal, t_appVal)
print("Training set score: %f" % mlp.score(X_appVal, t_appVal))
print("Test set score: %f" % mlp.score(X_test, t_test))

Training set score: 1.000000
Test set score: 0.771429
