## TP2:

Au cours du TP1, nous avons étudié le modèle *Softmax* pour traiter le problème de classification probabiliste. Le but était de présenter deux étapes importantes de l'entraînement : la forward propagation et la mise à jour des paramètres. Le TP2 reprend le modèle Softmax dans un cadre plus général, celui des réseaux de neurones avec couches cachèes.
Dans ce cadre, on peut considérer le modèle Softmax comme un "module" qui prend en entrèe des "features", e.g. les pixels d'une image, et qui donne en sortie une loi de probabilité sur les étiquettes.
Un réseau de neurones est composé de plusieurs modules, transformant simplement les features d'un espace à un autre en fonction des valeurs courantes des paramètres. Ainsi, le but de l'entraînement est d'apprendre les transformations pertinentes, i.e., en modifiant les paramètres, qui permettront de réaliser la tâche associée au module de sortie. En augmentant le nombre de modules (mais aussi de fonctions non-linéaires), on augmente ainsi la complexité du modèle.

Le premier but du TP2 est de programmer les trois étapes essentielles à l'entraînement d'un réseau de neurones : la *forward propagation*, la *backpropagation* et la *mise à jour des paramètres*. Vérifiez que votre modèle fonctionne. Ensuite, vous pourrez comparer les performances de votre réseau de neurones avec celles de votre modèle Softmax de la semaine dernière.

Une fois ces bases réalisées, on va pouvoir ajouter plusieurs fonctions d'activations en plus de la classique *sigmoïde*: les *tanh* et *relu*. Vous pourrez comparer la sigmoïde et la tanh avec la relu, notamment lorsque l'on utilise 2 couches cachées ou plus. Vous pourrez aussi mettre en évidence le phénomène de sur-apprentissage (travaillez avec une petite sous partie des données si nécessaire).
Pour rappel, les fonctions sont:

$$ tanh(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}}$$

$$ relu(x) = max(0, x) $$

Remarque: La fonction relu est plus instable numériquement que les deux autres. Il est possible qu'il soit nécessaire de réduire le taux d'apprentissage (ou de l'apapter, en le réduisant au fur et à mesure que l'apprentissage progresse) ou de forcer les valeurs de la relu à rester en dessous d'une limite que l'on choisit (*clipping*).

Enfin, on va implémenter la *régularisation*: on ajoutera à la fonction de mise à jour des paramètres les méthodes de régularisation *L1* et *L2*. Il s'agira ensuite de vérifier leur influence sur les courbes d'apprentissage en faisant varier le paramètre $\lambda$.

A faire: 
- Compléter les fonctions:
    - getDimDataset
    - sigmoid
    - forward
    - backward
    - update
    - softmax
    - computeLoss
    - getMiniBatch
- Compléter les fonctions:
    - tanh
    - relu
    - et faire les expériences demandées.
- Compléter les fonctions:
    - updateParams
    - et faire les expériences demandées.
- Envoyer le notebook avec le code complété avant le **13 décembre 2017** à l'adresse **labeau@limsi.fr** accompagné d'un résumé d'un maximum de 6 pages contenant des figures et des analyses rapides des expériences demandées.
- Le résumé doit être succinct et se focaliser uniquement sur les points essentiels reliés à l'entraînement des réseaux de neurones. En plus des résultats, ce document doit décrire les difficultés que vous avez rencontrées et, dans le cas échéant, les solutions utilisées pour les résoudre. Vous pouvez aussi y décrire vos questions ouvertes et proposer une expérience sur MNIST afin d'y répondre.



In [1]:
%matplotlib inline
import os
import sys
import numpy as np
import matplotlib.pyplot as plt
import math
import time
from IPython.display import clear_output

if("mnist.pkl.gz" not in os.listdir(".")):
    !wget http://deeplearning.net/data/mnist/mnist.pkl.gz

#####################
# Gestion des données
#####################  
import dataset_loader
train_set, valid_set, test_set = dataset_loader.load_cifar10()

def getDimDataset(train_set):
    n_training = len(train_set[0])
    n_feature = len(train_set[0][0])
    label = []
    for index in train_set[1]:
        label.append(index)
    label = list(set(label))
    n_label=len(label)
    return n_training, n_feature, n_label

n_training, n_feature, n_label = getDimDataset(train_set)

########################
# Gestion des paramètres
########################

# Taille de la couche cachée: sous forme de liste, il est possible
# d'utiliser plusieurs couches cachées, avec par exemple [128, 64]
n_hidden = [100]

# Fonction d'activation: à choisir parmi 'sigmoid', 'tanh' et 'relu'
act_func = 'sigmoid'

# Taille du batch
batch_size = 50

# Taux d'apprentissage:
eta = 1.0

# Nombre d'époques:
n_epoch = 20

In [2]:
def initNetwork(nn_arch, act_func_name):
    """
    Initialize the neural network weights, activation function and return the number of parameters
    Inputs: nn_arch: the number of units per hidden layer -  list of int
          : act_func_name: the activation function name (sigmoid, tanh or relu) - str
    Outputs: W: a list of weights for each hidden layer - list of ndarray
           : B: a list of bias for each hidden layer - list of ndarray
           : act_func: the activation function - function
           : nb_params: the number of parameters  - int
    """

    W,B = [],[]
    sigma = 1.0
    act_func = globals()[act_func_name] # Cast the string to a function
    nb_params = 0

    if act_func_name=='sigmoid':
        sigma = 4.0

    for i in range(np.size(nn_arch)-1):
        w = np.random.normal(loc=0.0, scale=sigma/np.sqrt(nn_arch[i]), size=(nn_arch[i+1],nn_arch[i]))
        W.append(w)
        b = np.zeros((w.shape[0],1))
        if act_func_name=='sigmoid':
            b = np.sum(w,1).reshape(-1,1)/-2.0
        B.append(b)
        nb_params += nn_arch[i+1] * nn_arch[i] + nn_arch[i+1]

    return W,B,act_func,nb_params

In [3]:
########################
# Fonctions d'activation
########################

def sigmoid(z, grad_flag=True):
    """
    Perform the sigmoid transformation to the pre-activation values
    Inputs: z: the pre-activation values - ndarray
          : grad_flag: flag for computing the derivatives w.r.t. z - boolean
    Outputs: y: the activation values - ndarray
           : yp: the derivatives w.r.t. z - ndarray
    """
    y = 1.0/(1.0+np.exp(-z))    
    if grad_flag:
        yp = y*(1-y)
        return y, yp
    else:
        return y

# A compléter une fois que la première partie du TP finie:

def tanh(z, grad_flag=True):
    """
    Perform the tanh transformation to the pre-activation values
    Inputs: z: the pre-activation values - ndarray
          : grad_flag: flag for computing the derivatives w.r.t. z - boolean
    Outputs: y: the activation values - ndarray
    """
    y = (np.exp(2.0*z)-1.0)/(np.exp(2.0*z)+1.0)
    if grad_flag:
        yp = 1-y*y
        return y, yp
    else:
        return y
   

def relu(z, grad_flag=True):
    """
    Perform the relu transformation to the pre-activation values
    Inputs: z: the pre-activation values - ndarray
          : grad_flag: flag for computing the derivatives w.r.t. z - boolean
    Outputs: y: the activation values - ndarray
    """
    y = np.zeros(z.shape)
    index = z>0
    y[index] = z[index]
    if grad_flag:
        yp = np.zeros(z.shape)
        yp[index] = 1
        return y, yp
    else:
        return y

In [4]:
####################
# Création du réseau
####################

### Network Architecture
nn_arch = np.array([n_feature] + n_hidden + [n_label])

### Create the neural network
W, B, act_func, nb_params = initNetwork(nn_arch, act_func)

In [5]:
print (nn_arch)
print (W[0].shape)
print (W[1].shape)
print (B[0].shape)
print (B[1].shape)
print (nb_params)

[3072  100   10]
(100, 3072)
(10, 100)
(100, 1)
(10, 1)
308310


In [6]:
def forward(act_func, W, B, X):
    """
    Perform the forward propagation
    Inputs: act_func: the activation function - function
          : W: the weights - list of ndarray
          : B: the bias - list of ndarray
          : X: the batch - ndarray
    Outputs: Y: a list of activation values - list of ndarray
           : Yp: a list of the derivatives w.r.t. the pre-activation of the activation values - list of ndarray
    """
    
    Y,Yp = [np.transpose(X)],[]
    #####################
    for i in range(len(W)):
        #print (i)
        #print (W[i].shape)
        #print (Y[-1].shape)
        temp = np.mat(W[i])*np.mat(Y[-1]) + B[i]
        y,yp=act_func(np.array(temp))
        Y.append(y)
        Yp.append(yp)
    #Y.append(np.mat(W[len(W)-1])*np.mat(Y[-1]) + B[len(W)-1])
    #####################    
    return Y, Yp

In [7]:
def backward(error, W, Yp):
    """
    Perform the backward propagation
    Inputs: error: the gradient w.r.t. to the last layer - ndarray
          : W: the weights - list of ndarray
          : Yp: the derivatives w.r.t. the pre-activation of the activation functions - list of ndarray
    Outputs: gradb: a list of gradient w.r.t. the pre-activation with this order [gradb_layer1, ..., error] - list of ndarray
    """
    #print (W[-2].shape)
    #print (gradB[-1].shape)
    #print (error.shape)
    #print (Yp[-1].shape)
    gradB = [error]
    gradB.append(np.array(Yp[-1])*np.array(error))
    #####################
    for i in range(len(W)-1):
        temp1 = (np.mat(W[-1-i]).T)*np.mat(gradB[-1])
        temp2 = np.array(Yp[-2-i])*np.array(temp1)
        gradB.append(temp2)
    #####################
    return list(reversed(gradB))  

In [8]:
def updateParams(theta, dtheta, eta, regularizer=None, lamda=0.0002):
    """
    Perform the update of the parameters
    Inputs: theta: the network parameters - ndarray
          : dtheta: the updates of the parameters - ndarray
          : eta: the step-size of the gradient descent - float
          : regularizer: choice of the regularizer: None, 'L1', or 'L2'
          : lambda: hyperparamater giving the importance of the regularizer - float
    Outputs: the parameters updated - ndarray
    """
    if regularizer==None:
        return theta - eta * dtheta
    elif regularizer=='L1':
        return theta - eta * dtheta - eta * lamda * np.array((2.0*(theta>0)-1))
    elif regularizer=='L2':
        return theta - eta * dtheta - eta * lamda * np.array(theta)

In [9]:
def update(eta, batch_size, W, B, gradB, Y, regularizer, lamda):
    """
    Perform the update of the parameters
    Inputs: eta: the step-size of the gradient descent - float 
          : batch_size: number of examples in the batch (for normalizing) - int
          : W: the weights - list of ndarray
          : B: the bias -  list of ndarray
          : gradB: the gradient of the activations w.r.t. to the loss -  list of ndarray
          : Y: the activation values -  list of ndarray
    Outputs: W: the weights updated -  list of ndarray
           : B: the bias updated -  list of ndarray
    """
    #####################
    # Use updateParams(W[k], grad_w, eta) and updateParams(B[k], grad_b, eta)
    # grad_b should be a vector: object.reshape(-1,1) can be useful
    for i in range(len(W)):
        grad_w = np.mat(gradB[i]) * (np.mat(Y[i]).T)/(float(batch_size))
        grad_b = (np.sum(gradB[i],axis=1)/(float(batch_size))).reshape(B[i].shape)
        #print ("in update")
        #print (grad_w.shape)
        #print (grad_b.shape)
        W[i]=updateParams(W[i], grad_w, eta)
        B[i]=updateParams(B[i], grad_b, eta)
        #print (W[i].shape)
        #print (B[i].shape)
        
    #####################
    return W, B

In [10]:
def softmax(z):
    """
    Perform the softmax transformation to the pre-activation values
    Inputs: z: the pre-activation values - ndarray
    Outputs: out: the activation values - ndarray
    """
    z = z.T
    for i in range(z.shape[0]):
        constant = max(z[i])
        z[i] = z[i] - constant
        temp = np.exp(z[i])
        z[i] = temp/sum(temp)
    return z.T

In [11]:
def computeLoss(act_func, W, B, X, labels):
    """
    Compute the loss value of the current network on the full batch
    Inputs: act_func: the activation function - function
          : W: the weights - list of ndarray
          : B: the bias - list of ndarray
          : X: the batch - ndarray
          : labels: the labels corresponding to the batch
    Outputs: loss: the negative log-likelihood - float
           : accuracy: the ratio of examples that are well-classified - float
    """ 
    ### Forward propagation
    Y, Yp = forward(act_func, W, B, X)
 
    ### Compute the softmax and the prediction
    out = softmax(Y[-1])
    pred = np.argmax(out,axis=0)
    
    loss = 0
    accuracy = 0  
    temp = np.amax(out, axis=1)
    accuracy = sum(1.0*(pred.T==labels))/float(X.shape[0])
    #print ((pred.T==labels)[0:100])
    loss = sum(-np.log(temp))    
    return loss, accuracy

In [12]:
def getMiniBatch(i, batch_size, train_set, one_hot):
    """
    Return a minibatch from the training set and the associated labels
    Inputs: i: the identifier of the minibatch - int
          : batch_size: the number of training examples - int
          : train_set: the training set - ndarray
          : one_hot: the one-hot representation of the labels - ndarray
    Outputs: the minibatch of examples - ndarray
           : the minibatch of labels - ndarray
           : the number of examples in the minibatch - int
    """
    n_training = train_set[0].shape[0]
    ####################
    # TO BE COMPLETED
    # compute the begin and end indexes, and the batch size
    n_training = train_set[0].shape[0]
    idx_begin = 0
    idx_end = 0
    mini_batch_size = batch_size
    
    batch = np.zeros([batch_size,n_feature])
    one_hot_batch = np.zeros([n_label,batch_size])
   
    idx_begin = i*batch_size
    idx_end = (i+1)*batch_size
    #####################

    batch = train_set[0][idx_begin:idx_end]
    one_hot_batch = one_hot[:,idx_begin:idx_end]

    return np.asfortranarray(batch), one_hot_batch, mini_batch_size

In [None]:
act_func_name = "sigmoid"
# Data structures for plotting
g_i = []
g_train_loss=[]
g_train_acc=[]
g_valid_loss=[]
g_valid_acc=[]

#############################
### Auxiliary variables
#############################
cumul_time = 0.
n_batch = int(math.ceil(float(n_training)/batch_size))
regularizer = None
lamda = 0.

# Convert the labels to one-hot vector
one_hot = np.zeros((n_label,n_training))
one_hot[train_set[1],np.arange(n_training)]=1.

print("Bprop", eta, nn_arch, act_func_name, batch_size, nb_params)
print("epoch time(s) train_loss train_accuracy valid_loss valid_accuracy eta") 

#############################
### Learning process
#############################
np.seterr(invalid='raise')
for i in range(n_epoch):
    for j in range(n_batch):

        ### Mini-batch creation
        batch, one_hot_batch, mini_batch_size = getMiniBatch(j, batch_size, train_set, one_hot)

        prev_time = time.clock()
        #print ("start 1")
        ### Forward propagation
        Y, Yp = forward(act_func, W, B, batch)
        #print ("start 2")
        ### Compute the softmax
        out = softmax(Y[-1])
        #print ("start 3")
        ### Compute the gradient at the top layer
        derror = out - one_hot_batch
        #print (j)
        #print (derror)
        #print ("start 4")
        ### Backpropagation
        gradB = backward(derror, W, Yp)
        #print ("start 5")
        ### Update the parameters
        W, B = update(eta, batch_size, W, B, gradB, Y, regularizer, lamda)

        curr_time = time.clock()
        cumul_time += curr_time - prev_time

    ### Training accuracy
    #print (W[0].shape)
    #print (W[1].shape)
    #print (B[0].shape)
    #print (B[1].shape)
    train_loss, train_accuracy = computeLoss(act_func, W, B, train_set[0], train_set[1]) 

    ### Valid accuracy
    valid_loss, valid_accuracy = computeLoss(act_func,W, B, valid_set[0], valid_set[1]) 

    g_i = np.append(g_i, i)
    g_train_loss = np.append(g_train_loss, train_loss)
    g_train_acc = np.append(g_train_acc, train_accuracy)
    g_valid_loss = np.append(g_valid_loss, valid_loss)
    g_valid_acc = np.append(g_valid_acc, valid_accuracy)
    result_line = str(i) + " " + str(cumul_time) + " " + str(train_loss) + " " + str(train_accuracy) + " " + str(valid_loss) + " " + str(valid_accuracy) + " " + str(eta)

    print(result_line)
    sys.stdout.flush() # Force emptying the stdout buffer

Bprop 1.0 [3072  100   10] sigmoid 50 308310
epoch time(s) train_loss train_accuracy valid_loss valid_accuracy eta
0 5.132003999999973 15.5325881173 0.3572 15.6030394396 0.3549 1.0
1 10.467168999999894 15.2543592932 0.37712 15.3649606727 0.3734 1.0
2 15.636632999999952 15.2570960996 0.39638 15.3448138104 0.3922 1.0
3 21.06192799999984 15.1437295214 0.41242 15.2976375362 0.4065 1.0
4 26.162737000000043 15.0633233839 0.41786 15.2122534085 0.4167 1.0
5 31.583623999999915 14.8865178904 0.429 15.1207937198 0.419 1.0
6 37.092428000000076 14.9480145495 0.4343 15.0777354896 0.4201 1.0
7 42.40463500000001 14.8784396785 0.43878 15.0511550572 0.428 1.0
8 47.974223999999765 14.8397449927 0.43798 15.0124048721 0.4283 1.0
9 53.29767599999974 14.8099986761 0.44296 14.9557867241 0.4342 1.0
10 58.4540099999999 14.8166425185 0.44482 14.9288525656 0.4327 1.0
11 63.573704999999805 14.8093472517 0.4396 15.0249906227 0.4318 1.0
12 69.07127599999949 14.7844583614 0.44744 14.9166919907 0.4341 1.0
13 74.559863

In [None]:
plt.plot(g_i,g_train_loss,label='train_loss')
plt.plot(g_i,g_valid_loss,label='valid_loss')
plt.xlabel("epoch")
plt.ylabel("Negative log-likelihood")
plt.legend()

In [None]:
plt.plot(g_i,1.0-g_train_acc,label='train_acc')
plt.plot(g_i,1.0-g_valid_acc,label='valid_acc')
plt.xlabel("epoch")
plt.ylabel("Classification error")
plt.ylim([0.,1.])
plt.legend()

The standard way to avoid overfitting is called L2 regularization. It consists of appropriately modifying your cost function, from: $$J = -\frac{1}{m} \sum\limits_{i = 1}^{m} \large{(}\small y^{(i)}\log\left(a^{[L](i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right) \large{)} \tag{1}$$ To: $$J_{regularized} = \small \underbrace{-\frac{1}{m} \sum\limits_{i = 1}^{m} \large{(}\small y^{(i)}\log\left(a^{[L](i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right) \large{)} }_\text{cross-entropy cost} + \underbrace{\frac{1}{m} \frac{\lambda}{2} \sum\limits_l\sum\limits_k\sum\limits_j W_{k,j}^{[l]2} }_\text{L2 regularization cost} \tag{2}$$