On a vu le cadre général en cours. On va pratiquer en jouant un peu avec les limites de ce qu'on a vu.
* On commence avec un réseau très simple comprenant une couche de sortie sigmoide.
* Puis on découvre un problème canonique qui justifie l'existence d'une couche cachée.
* Puis on chargera les données MNIST, bibliothèque TensorFlow et on essaiera d'apprendre à lire.

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

## Un problème trivial

Considérons les données suivantes. On veut prédire $y$ à partir de $x$.

In [None]:
# input dataset
X = np.array([  [0,0,1],
                [0,1,1],
                [1,0,1],
                [1,1,1] ])
    
# output dataset            
y = np.array([[0,0,1,1]]).T

print(X)
print(y)

<div class="alert alert-warning">
**Exercice**: Que peut-on remarquer sans aucun calcul ?
</div>

<div class="alert alert-danger">
**Réponse :** La première variable $x_1$ prédit exactement la variable de sortie $y$.
</div>

On va définir un réseau de neurones avec 3 entrées, 1 neurone caché et 1 neurone de sortie. Faites un dessin en notant où se situent $X$, $Z$, $Y$, $\alpha$ et $\beta$ pour faciliter le raisonnement.

<div class="alert alert-warning">
**Exercice**: Faites un dessin en notant où se situent $X$, $Z$, $Y$, $\alpha$ et $\beta$ pour faciliter le raisonnement.
</div>

In [None]:
# sigmoid function
def sigmoid(x):
    """Renvoie la fonction sigmoide évaluée en x."""
    return 1/(1+np.exp(-x))

def sigmoid_der(x):
    """Renvoie la dérivée de la fonction sigmoide en x."""
    y = 1/(1+np.exp(-x))
    return y*(1-y)

# seed random numbers to make calculation
# deterministic (just a good practice)
np.random.seed(1)

# initialize weights randomly with mean 0
alpha = 2*np.random.random((3,1)) - 1

Le cours s'est concentré sur l'application de la rétro-propagation *exemple par exemple* en calculant les $R_i$ et les $\frac{\partial R_i}{\partial \alpha}$ un par un. <br>
Ici, on dispose de toute la base d'apprentissage d'un coup, on peut donc calculer $R$ et $\frac{\partial R}{\partial \alpha}$ en une passe.

<div class="alert alert-warning">
**Exercice**: Reprenez les équations du cours pour effectuer le calcul de mise à jour des poids au format *batch*.
</div>
<div class="alert alert-warning">
**Exercice**: Ecrivez l'algorithme de rétro-propagation avec un pas de descente de 1.
</div>

In [None]:
# EMPTY CELL FOR STUDENTS
nb_steps = 10000
error = np.zeros(nb_steps)
for t in range(nb_steps):
    # forward propagation
    Zinput = np.dot(X,alpha)
    Z = sigmoid(Zinput)
    Y = Z

    # error backpropagation
    Y_error = y - Y
    error[t] = np.linalg.norm(Y_error)
    delta = -2.*Y_error 
    s = sigmoid_der(Zinput)*delta

    # update weights dR/dalpha = s X^T
    alpha -= np.dot(X.T,s)
print("Output After Training:")
print(Y)
print("Weights (alpha):")
print(alpha)
print("Error:")
print(error[-1])
plt.plot(error)
plt.yscale('log')

## Le problème XOR

Un problème un peu plus difficile maintenant. Observons les données ci-dessous. 

In [None]:
# input dataset
X = np.array([  [0,0,1],
                [0,1,1],
                [1,0,1],
                [1,1,1] ])
    
# output dataset            
y = np.array([[0,1,1,0]]).T

print(X)
print(y)

<div class="alert alert-warning">
**Exercice**: La corrélation entre $x_1$ et $y$ n'est plus aussi évidente. Que peut-on remarquer cependant ?
</div>

<div class="alert alert-danger">
**Réponse :** $y$ = XOR($x_1$, $x_2$)
</div>

Le réseau précédent à un neurone caché et un neurone de sortie est équivalent, en fait, à un réseau sans couche cachée et dont on utilise la fonction sigmoïde pour ramener la combinaison linéaire des $x_i$ entre zéro et un. Il ne peut donc approcher correctement la sortie que si on peut approximativement estimer cette dernière avec une combinaison linéaire des entrées. 

<div class="alert alert-warning">
**Exercice**: Qu'en déduisez-vous sur ce qu'on peut attendre du réseau précédent sur notre nouveau problème ?
</div>

<div class="alert alert-danger">
**Réponse :** Une combinaison linéaire qui approche correctement la fonction XOR n'existe pas. On va avoir besoin d'une architecture d'approximation plus riche.
</div>

Pour se donner un peu plus de pouvoir de représentation, on va se donner 4 neurones sur la couche cachée de façon à pouvoir représenter les quatre combinaisons de $x_1$ et $x_2$ (dont on suppose qu'elles sous-tendent notre problème).
Comme on sait également que notre sortie est entre zéro et un, on va passer une fonction sigmoïde sur la sortie, donc $Y_k=g_k(T) = \texttt{sigmoid}(T_k)$.

<div class="alert alert-warning">
**Exercice**: A vous d'écrire l'apprentissage des poids de ce réseau !
</div>

In [None]:
# EMPTY CELL FOR STUDENTS
# Il y a un bug dans ma correction...
alpha = 2*np.random.random((3,4)) - 1
beta = 2*np.random.random((4,1))-1

nb_steps = 100000
error = np.zeros(nb_steps)
for t in range(nb_steps):
    # forward propagation
    Zinput = np.dot(X,alpha)
    Z = sigmoid(Zinput) # lines=examples, columns=neurons
    Yinput = np.dot(Z,beta)
    Y = sigmoid(Yinput) # lines=examples

    # error backpropagation
    Y_error = y - Y
    error[t] = np.linalg.norm(Y_error)
    delta = -2*Y_error*sigmoid_der(Yinput) # lines=examples
    s = sigmoid_der(Zinput)*delta # lines=examples, columns=neurons

    # update weights dR/dbeta = delta Z^T  dR/dalpha = s X^T
    beta -= np.dot(Z.T,delta)
    alpha -= np.dot(X.T,s)
print("Output After Training:")
print(Y)
print("Weights:")
print(alpha)
print(beta)
print("Error:")
print(error[-1])
plt.plot(error)
plt.yscale('log')

## Caractères manuscrits

On va travailler avec la célèbre base d'apprentissage [MNIST](https://en.wikipedia.org/wiki/MNIST_database) comprenant des chiffres manuscrits extraits de différentes sources. Le but est de construire un classifieur indiquant la valeur du chiffre inscrit dans chaque imagette.<br>
On va profiter de cet exercice pour s'initier à l'usage de la bibliothèque [TensorFlow](https://www.tensorflow.org).<br>
<br>
Ce qu'il faut savoir pour démarrer avec TensorFlow :
<ul>
<li> Les dimensions des données d'entrée et de sortie d'un calcul sont définies via des `tf.placeholder`.
<li> Les paramètres manipulées dans le programme sont appelés `tf.Variables` et sont représentées sous formes de tableaux multidimensionnels appelés tenseurs.
<li> Les opérations sur les `tf.Variables` forment les noeuds d'un graphe de calcul. Ces opérations correspondent pour nous au flux des opérations effectuées lors d'une traversée du réseau de neurones et de sa mise à jour.
<li> L'exécution d'un graphe de calculs se fait au sein d'une session.
<li> La méthode `run(x)` d'une session permet d'exectuer l'opération `x` ou de récupérer la valeur de la variable `x`.
</ul>
<br>
Un petit exemple pour démarrer doucement :

In [1]:
import tensorflow as tf
# On crée une variable initialisée à 0
state = tf.Variable(0, name="counter")

# On crée une opération qui ajoute 1 à la variable.
one = tf.constant(1)
new_value = tf.add(state, one)
update = tf.assign(state, new_value)

# Les variables doivent être initialisées. 
# Avant d'exécuter d'autres opérations il faut donc 
# ajouter cette opération d'initialisation au graphe.
init_op = tf.initialize_all_variables()

# On crée la session et exécute les opérations.
sess = tf.Session()
sess.run(init_op)
# run(state) permet de récupérer la valeur de la variable.
print(sess.run(state))
# run(update) permet d'exécuter l'opération update
for _ in range(3):
    sess.run(update)
    print(sess.run(state))

# On ferme la session
sess.close()

0
1
2
3




De façon pratique, TensorFlow fournit plusieurs bases d'apprentissage standard. On charge les données MNIST.

In [2]:
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets('MNIST_data', one_hot=True)
print(mnist.train.images.shape)
print(mnist.train.labels.shape)
print(mnist.train.labels[0])

Successfully downloaded train-images-idx3-ubyte.gz 9912422 bytes.
Extracting MNIST_data/train-images-idx3-ubyte.gz
Successfully downloaded train-labels-idx1-ubyte.gz 28881 bytes.
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Successfully downloaded t10k-images-idx3-ubyte.gz 1648877 bytes.
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Successfully downloaded t10k-labels-idx1-ubyte.gz 4542 bytes.
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz
(55000, 784)
(55000, 10)
[ 0.  0.  0.  0.  0.  0.  0.  1.  0.  0.]


Chaque image est un carré de 28x28 pixels en noir et blanc (784 valeurs entre 0 et 1) et on dispose de 55000 exemples d'apprentissage.<br>
On commence par déclarer à TensorFlow quelles seront les entrées et sorties.

In [3]:
x = tf.placeholder(tf.float32, shape=[None, 784])
y = tf.placeholder(tf.float32, shape=[None, 10])

On va à présent considérer une unique couche cachée dans notre réseaux, comportant $M=15$ neurones. Pour cela, on va déclarer les poids du réseau comme des `tf.variables` (donc l'état de notre réseau à un moment donné est fourni par les valeurs de toutes ces variables).

In [4]:
M = 15
w1 = tf.Variable(tf.truncated_normal([784, M])) # alpha
b1 = tf.Variable(tf.truncated_normal([1, M])) # alpha_0
w2 = tf.Variable(tf.truncated_normal([M, 10])) # beta
b2 = tf.Variable(tf.truncated_normal([1, 10])) # beta_0

TensorFlow fournit un certain nombre de fonctions d'activation, dont la fonction sigmoïde. On aurait pu réutiliser celle plus haut, ou encore la reconstruire à partir des blocs de base de TensorFlow (tf.div, tf.add, tf.constant, tf.exp, etc.) mais pourquoi ne pas utiliser la fonction directement fournie ?<br>

In [5]:
# forward pass
Zinput  = tf.add(tf.matmul(x, w1), b1)
Z       = tf.sigmoid(Zinput)
Yinput  = tf.add(tf.matmul(Z, w2), b2)
Y       = tf.sigmoid(Yinput)

TensorFlow implémente une propriété très utile : la différentiation automatique. Cela permet à la bibliothèque d'effectuer directement les calculs de gradients. Ainsi, la rétro-propagation s'écrit simplement en écrivant la fonction `cost` puis en créant comme opération `step` une descente de gradient à pas donné (0.5 ici) :

In [7]:
import numpy as np

In [12]:
mnist.train.images.dtype

dtype('float32')

In [21]:
Y_error = tf.sub(Y,y)
cost = tf.reduce_sum(tf.mul(Y_error, Y_error))
step = tf.train.GradientDescentOptimizer(0.5).minimize(cost)
print(cost)

sess = tf.InteractiveSession()
sess.run(tf.initialize_all_variables())
sess.run(step, feed_dict = {x: mnist.train.images, y : mnist.train.labels})

error = np.zeros(nb_steps)
for t in range(nb_steps):
    sess.run(step, feed_dict = {x: mnist.train.images, y : mnist.train.labels})
    #Previously, error[t] = sess.run(cost)
    # En general pour eviter des erreurs de mémoire, on le decompose en batch du type
    # error[t] = sess.run(cost, feed_dict = {x: mnist.train.images[:50,:,:,:], y : mnist.train.labels[:50,:]})
    # A verifier mais je sais pas si la il ne fait une descente exacte de gradient...
    error[t] = sess.run(cost, feed_dict = {x: mnist.train.images, y : mnist.train.labels})

Tensor("Sum_11:0", shape=(), dtype=float32)


Histoire de se faire la main avec TensorFlow, on va ignorer la possibilité ci-dessus et définir les opérations de mise à jour des poids du réseau nous-mêmes.

<div class="alert alert-warning">
**Exercice**: dans le cours on s'était débarassés de $b_1$ et $b_2$ pour simplifier les notations. Que valent $\frac{\partial R}{\partial b_2}$ et $\frac{\partial R}{\partial b_1}$ ici ?<br>
On se resservira de ce résultat dans la prochaine cellule.
</div>

Pour l'exercice, on va reconstruire la dérivée de la fonction sigmoïde à partir de la fonction sigmoïde elle-même.
On peut ainsi définir le flux d'opérations correspondant aux paramètres de notre réseau et à la rétropropagation.

In [51]:
def tfsigmoid_der(x):
    """Calcule la dérivée de la fonction sigmoide en x (utilise les blocs de base de tensorflow)"""
    return tf.mul(tf.sigmoid(x), tf.sub(tf.constant(1.0), tf.sigmoid(x)))

# back propagation
delta   = tf.mul(tf.constant(-2.), tf.mul(Y_error, tfsigmoid_der(Yinput)))
d_w2 = tf.matmul(tf.transpose(Z), delta)
d_b2 = tf.reduce_mean(delta,0) # Erreur de dimension delta=(55000,10) d_b2=(1,10): j'ai mis une moyenne parce qu'il fallait que j'y aille mais il faut mettre la vrai formule =)
s = tf.mul(tfsigmoid_der(Zinput), tf.matmul(delta, tf.transpose(w2)))
d_w1 = tf.matmul(tf.transpose(x), s) # Idem
d_b1 = tf.reduce_mean(s,0)

L'ensemble des opérations définissant les calculs étant définies, on peut enfin définir l'opération de mise à jour des poids du réseau. Par souci de lisibilité, TensorFlow permet de passer à la fonction `run()` une liste d'opérations à exécuter ce que l'on fait ci-dessous avec la liste `step`.

In [52]:
gamma = tf.constant(0.5)
step = [
    tf.assign(w1, tf.sub(w1, tf.mul(gamma, d_w1))),
    tf.assign(b1, tf.sub(b1, tf.mul(gamma, d_b1))),
    tf.assign(w2, tf.sub(w2, tf.mul(gamma, d_w2))),
    tf.assign(b2, tf.sub(b2, tf.mul(gamma, d_b2)))
]

In [53]:
sess = tf.InteractiveSession()
sess.run(tf.initialize_all_variables())
sess.run(step, feed_dict = {x: mnist.train.images, y: mnist.train.labels})

Exception AssertionError: AssertionError() in <bound method InteractiveSession.__del__ of <tensorflow.python.client.session.InteractiveSession object at 0x7feeca1bfe90>> ignored


[array([[ 0.39105713,  0.9464646 , -1.6174078 , ...,  0.20392275,
         -0.84285444, -0.19466877],
        [-1.18967962,  1.53323662, -0.82223296, ...,  0.53770059,
         -0.48112175, -1.74261248],
        [-0.39739576, -1.16136229,  0.60007823, ..., -0.39757511,
          0.55096483,  0.63800848],
        ..., 
        [ 0.4417989 ,  0.16537434,  1.46516907, ...,  1.53321171,
          0.8441987 , -1.55418003],
        [-1.40307224,  1.89231539, -0.03533609, ...,  0.80907506,
         -1.23361552,  1.73714483],
        [ 1.26243794, -0.00199339,  0.90219289, ..., -0.18337925,
         -0.5475055 , -0.19386891]], dtype=float32),
 array([[ 1.57779908,  0.28157753, -1.17512202, -0.95733321, -1.30810094,
         -0.03279183, -0.21226141, -0.74065417, -0.19090405, -1.89197791,
         -0.05389735, -1.94149005,  0.80892378,  1.0173471 ,  0.71864992]], dtype=float32),
 array([[ 3087.51318359,  1325.39465332,   511.47457886,  1606.13781738,
          1253.70556641,  2724.30859375,  24