## TP2:

Au cours du TP1, nous avons étudié le modèle *Softmax* pour traiter le problème de classification probabiliste. Le but était de présenter deux étapes importantes de l'entraînement : la forward propagation et la mise à jour des paramètres. Le TP2 reprend le modèle Softmax dans un cadre plus général, celui des réseaux de neurones avec couches cachèes.
Dans ce cadre, on peut considérer le modèle Softmax comme un "module" qui prend en entrèe des "features", e.g. les pixels d'une image, et qui donne en sortie une loi de probabilité sur les étiquettes.
Un réseau de neurones est composé de plusieurs modules, transformant simplement les features d'un espace à un autre en fonction des valeurs courantes des paramètres. Ainsi, le but de l'entraînement est d'apprendre les transformations pertinentes, i.e., en modifiant les paramètres, qui permettront de réaliser la tâche associée au module de sortie. En augmentant le nombre de modules (mais aussi de fonctions non-linéaires), on augmente ainsi la complexité du modèle.

Le premier but du TP2 est de programmer les trois étapes essentielles à l'entraînement d'un réseau de neurones : la *forward propagation*, la *backpropagation* et la *mise à jour des paramètres*. Vérifiez que votre modèle fonctionne. Ensuite, vous pourrez comparer les performances de votre réseau de neurones avec celles de votre modèle Softmax de la semaine dernière.

Une fois ces bases réalisées, on va pouvoir ajouter plusieurs fonctions d'activations en plus de la classique *sigmoïde*: les *tanh* et *relu*. Vous pourrez comparer la sigmoïde et la tanh avec la relu, notamment lorsque l'on utilise 2 couches cachées ou plus. Vous pourrez aussi mettre en évidence le phénomène de sur-apprentissage (travaillez avec une petite sous partie des données si nécessaire).
Pour rappel, les fonctions sont:

$$ tanh(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}}$$

$$ relu(x) = max(0, x) $$

Remarque: La fonction relu est plus instable numériquement que les deux autres. Il est possible qu'il soit nécessaire de réduire le taux d'apprentissage (ou de l'apapter, en le réduisant au fur et à mesure que l'apprentissage progresse) ou de forcer les valeurs de la relu à rester en dessous d'une limite que l'on choisit (*clipping*).

Enfin, on va implémenter la *régularisation*: on ajoutera à la fonction de mise à jour des paramètres les méthodes de régularisation *L1* et *L2*. Il s'agira ensuite de vérifier leur influence sur les courbes d'apprentissage en faisant varier le paramètre $\lambda$.

A faire: 
- Compléter les fonctions:
    - getDimDataset
    - sigmoid
    - forward
    - backward
    - update
    - softmax
    - computeLoss
    - getMiniBatch
- Compléter les fonctions:
    - tanh
    - relu
    - et faire les expériences demandées.
- Compléter les fonctions:
    - updateParams
    - et faire les expériences demandées.
- Envoyer le notebook avec le code complété avant le **13 décembre 2017** à l'adresse **labeau@limsi.fr** accompagné d'un résumé d'un maximum de 6 pages contenant des figures et des analyses rapides des expériences demandées.
- Le résumé doit être succinct et se focaliser uniquement sur les points essentiels reliés à l'entraînement des réseaux de neurones. En plus des résultats, ce document doit décrire les difficultés que vous avez rencontrées et, dans le cas échéant, les solutions utilisées pour les résoudre. Vous pouvez aussi y décrire vos questions ouvertes et proposer une expérience sur MNIST afin d'y répondre.



In [1]:
%matplotlib inline
import os
import sys
import numpy as np
import matplotlib.pyplot as plt
import math
import time
from IPython.display import clear_output

if("mnist.pkl.gz" not in os.listdir(".")):
    !wget http://deeplearning.net/data/mnist/mnist.pkl.gz

#####################
# Gestion des données
#####################  
import dataset_loader
train_set, valid_set, test_set = dataset_loader.load_mnist()

def getDimDataset(train_set):
    #####################
    # TO BE COMPLETED
    n_training = len(train_set[0])
    n_feature = len(train_set[0][0])
    n_label = len(set(train_set[1]))
    #assert(False),"getDimDataset must be completed before testing"
    #####################   
    return n_training, n_feature, n_label

n_training, n_feature, n_label = getDimDataset(train_set)

########################
# Gestion des paramètres
########################

# Taille de la couche cachée: sous forme de liste, il est possible
# d'utiliser plusieurs couches cachées, avec par exemple [128, 64]
n_hidden = [100]

# Fonction d'activation: à choisir parmi 'sigmoid', 'tanh' et 'relu'
act_func = 'sigmoid'

# Taille du batch
batch_size = 50

# Taux d'apprentissage:
eta = 1.0

# Nombre d'époques:
n_epoch = 20

In [2]:
def initNetwork(nn_arch, act_func_name):
    """
    Initialize the neural network weights, activation function and return the number of parameters
    Inputs: nn_arch: the number of units per hidden layer -  list of int
          : act_func_name: the activation function name (sigmoid, tanh or relu) - str
    Outputs: W: a list of weights for each hidden layer - list of ndarray
           : B: a list of bias for each hidden layer - list of ndarray
           : act_func: the activation function - function
           : nb_params: the number of parameters  - int
    """

    W,B = [],[]
    sigma = 1.0
    act_func = globals()[act_func_name] # Cast the string to a function
    nb_params = 0

    if act_func_name=='sigmoid':
        sigma = 4.0

    for i in range(np.size(nn_arch)-1):
        w = np.random.normal(loc=0.0, scale=sigma/np.sqrt(nn_arch[i]), size=(nn_arch[i+1],nn_arch[i]))
        W.append(w)
        b = np.zeros((w.shape[0],1))
        if act_func_name=='sigmoid':
            b = np.sum(w,1).reshape(-1,1)/-2.0
        B.append(b)
        nb_params += nn_arch[i+1] * nn_arch[i] + nn_arch[i+1]

    return W,B,act_func,nb_params

In [3]:
########################
# Fonctions d'activation
########################

def sigmoid(z, grad_flag=True):
    """
    Perform the sigmoid transformation to the pre-activation values
    Inputs: z: the pre-activation values - ndarray
          : grad_flag: flag for computing the derivatives w.r.t. z - boolean
    Outputs: y: the activation values - ndarray
           : yp: the derivatives w.r.t. z - ndarray
    """
    #####################
    # TO BE COMPLETED
    #####################
    # compute the sigmoid y and its derivative yp
    y = np.exp(z.T) / (np.exp(z.T) + np.ones(z.T.shape)) #get activation values of sigmoide function
    y = y.T #remain the same shape as input z
    
    yp = y * (np.ones(y.shape) - y)
    #####################
    return y, yp

# A compléter une fois que la première partie du TP finie:

def tanh(z, grad_flag=True):
    """
    Perform the tanh transformation to the pre-activation values
    Inputs: z: the pre-activation values - ndarray
          : grad_flag: flag for computing the derivatives w.r.t. z - boolean
    Outputs: y: the activation values - ndarray
    """
    #####################
    # TO BE COMPLETED
    #####################
    # compute the tanh y and its derivative yp
    exp_z = np.exp(z.T)
    exp_minus_z = np.ones(z.T) / np.exp(z.T) # calculate the two composants of tanh function 
    
    y = (exp_z - exp_minus_z) / (exp_z + exp_minus_z)#tanh function
    y = y.T
    
    yp = np.ones(y.shape) - y * y
    #####################
    return y, yp

def relu(z, grad_flag=True):
    """
    Perform the relu transformation to the pre-activation values
    Inputs: z: the pre-activation values - ndarray
          : grad_flag: flag for computing the derivatives w.r.t. z - boolean
    Outputs: y: the activation values - ndarray
    """
    #####################
    # TO BE COMPLETED
    #####################
    # compute the relu y and its derivative yp
    y = z.clip(0,None)
    
    yp = (y > 0).astype(int)
    #####################
    return y, yp

In [4]:
####################
# Création du réseau
####################

### Network Architecture
nn_arch = np.array([n_feature] + n_hidden + [n_label])

### Create the neural network
W, B, act_func, nb_params = initNetwork(nn_arch, act_func)

In [5]:
B[0].shape

(100, 1)

In [6]:
def forward(act_func, W, B, X):
    """
    Perform the forward propagation
    Inputs: act_func: the activation function - function
          : W: the weights - list of ndarray
          : B: the bias - list of ndarray
          : X: the batch - ndarray
    Outputs: Y: a list of activation values - list of ndarray
           : Yp: a list of the derivatives w.r.t. the pre-activation of the activation values - list of ndarray
    """
    Y,Yp = [np.transpose(X)],[[]]
        
    #####################
    # TO BE COMPLETED
    for i in range (len(W)):
        Y.append(np.zeros((W[i].shape[0],Y[i].shape[1]))) #define the shape of Y in current layer
        Yp.append(np.zeros((W[i].shape[0],Y[i].shape[1])))
        z = np.dot(W[i], Y[i]) + np.tile(B[i].reshape(W[i].shape[0],1),(1,Y[i].shape[1])) #calculate the output of current layer
        Y[i+1], Yp[i+1] = act_func(z) #execute activation function and get activation values and derivatives
    
    #####################    
    return Y, Yp

In [7]:
def backward(error, W, Yp):
    """
    Perform the backward propagation
    Inputs: error: the gradient w.r.t. to the last layer - ndarray
          : W: the weights - list of ndarray
          : Yp: the derivatives w.r.t. the pre-activation of the activation functions - list of ndarray
    Outputs: gradb: a list of gradient w.r.t. the pre-activation with this order [gradb_layer1, ..., error] - list of ndarray
    """
    gradB = [error]
    #####################
    # TO BE COMPLETED
    
    for i in range(len(W)):
        if i == 0:
            delta = gradB[i] * Yp[-(i+1)] # if calculating the gradient of the last layer, use this formular
        else:
            delta = np.dot(W[-i].T, gradB[i]) * Yp[-(i+1)]# any other condition, use this formnular
        gradB.append(delta)
    
    gradB = gradB.reverse() # get the blist of gradient in the order of [gradb_layer1, ..., error]
    
    #####################
    return gradB

In [8]:
def updateParams(theta, dtheta, eta, regularizer=None, lamda=0.):
    """
    Perform the update of the parameters
    Inputs: theta: the network parameters - ndarray
          : dtheta: the updates of the parameters - ndarray
          : eta: the step-size of the gradient descent - float
          : regularizer: choice of the regularizer: None, 'L1', or 'L2'
          : lambda: hyperparamater giving the importance of the regularizer - float
    Outputs: the parameters updated - ndarray
    """
    if regularizer==None:
        return theta - eta * dtheta
    elif regularizer=='L1':
        #####################
        # TO BE COMPLETED
        assert(False),"updateParams must be completed before testing"
        #####################
        return theta - eta * dtheta
    elif regularizer=='L2':
        #####################
        # TO BE COMPLETED
        assert(False),"updateParams must be completed before testing"
        #####################
        return theta - eta * dtheta

In [9]:
def update(eta, batch_size, W, B, gradB, Y, regularizer, lamda):
    """
    Perform the update of the parameters
    Inputs: eta: the step-size of the gradient descent - float 
          : batch_size: number of examples in the batch (for normalizing) - int
          : W: the weights - list of ndarray
          : B: the bias -  list of ndarray
          : gradB: the gradient of the activations w.r.t. to the loss -  list of ndarray
          : Y: the activation values -  list of ndarray
    Outputs: W: the weights updated -  list of ndarray
           : B: the bias updated -  list of ndarray
    """
    #####################
    # TO BE COMPLETED
    # Use updateParams(W[k], grad_w, eta) and updateParams(B[k], grad_b, eta)
    # grad_b should be a vector: object.reshape(-1,1) can be useful
    
    for i in range(len(W)):
        grad_w = np.dot(gradB[i], Y[i])
        W[i] = updateParams(W[i], grad_w, eta)
        
        grad_b= (np.sum(gradB[i], axis = 1) / batch_size).reshape(-1,1)
        B[i] = updateParams(B[i], grad_b, eta)
    
    #####################
    return W, B

In [10]:
def softmax(z):
    """
    Perform the softmax transformation to the pre-activation values
    Inputs: z: the pre-activation values - ndarray
    Outputs: out: the activation values - ndarray
    """
    #####################
    # TO BE COMPLETED
    # compute the output of the softmax 
    
    nb_examples = z.shape[1]
    z = np.clip(z,-500,500) # set maximum value for array z to avoid overflow
    exp_z = np.exp(z.T) # transpose matrix z, then calculate the exponential of all elements in the input array. 
    z_sum = np.sum(np.exp(z.T),axis=1).reshape(nb_examples,1) #Accumulate all values of exp_z along verticle axis
    z_sum = np.tile(z_sum,(1,10)) # duplicate single colomn into multiple colomns, the purpose of this step is to exceute the division for matrix in the next step
    out = exp_z / z_sum # get array of sigma
    out = out.T #transpose the array to make sure that it has the same shape as input array
    
    
    #####################
    return out

In [11]:
def computeLoss(act_func, W, B, X, labels):
    """
    Compute the loss value of the current network on the full batch
    Inputs: act_func: the activation function - function
          : W: the weights - list of ndarray
          : B: the bias - list of ndarray
          : X: the batch - ndarray
          : labels: the labels corresponding to the batch
    Outputs: loss: the negative log-likelihood - float
           : accuracy: the ratio of examples that are well-classified - float
    """ 
    ### Forward propagation
    Y, Yp = forward(act_func, W, B, X)
 
    ### Compute the softmax and the prediction
    out = softmax(Y[-1]) # get values of output layer
    label_predict = (out.T == out.T.max(axis=1, keepdims=True)) #get True or False in each position, where True will be predicted label 
    label_predict = label_predict.astype(int) # transform into int value
    
    #####################
    # TO BE COMPLETED
    # compute the loss and accuracy 
    loss_mat = -np.log(out) * one_hot #the negative log-likelihood
    loss = np.sum(loss_mat) / nb_examples # return float type loss
    
    nb_well_classified = np.sum(label_predict * one_hot.T) # get total number of well classified examples
    accuracy =  nb_well_classified / nb_examples # calculate accuracy
    #####################
       
           
    return loss, accuracy

In [12]:
def getMiniBatch(i, batch_size, train_set, one_hot):
    """
    Return a minibatch from the training set and the associated labels
    Inputs: i: the identifier of the minibatch - int
          : batch_size: the number of training examples - int
          : train_set: the training set - ndarray
          : one_hot: the one-hot representation of the labels - ndarray
    Outputs: the minibatch of examples - ndarray
           : the minibatch of labels - ndarray
           : the number of examples in the minibatch - int
    """
    
    ####################
    # TO BE COMPLETED
    # compute the begin and end indexes, and the batch size
    n_training = train_set[0].shape[0]
    idx_begin = 0
    idx_end = 0
    mini_batch_size = 0

    batch = 0
    one_hot_batch = 0
    
    mini_batch_size=batch_size
    mini_batch=train_set[0][i*batch_size:(i+1)*batch_size]
    one_hot_batch=one_hot.T[i*batch_size:(i+1)*batch_size]
    #####################

    

    return mini_batch, one_hot_batch, mini_batch_size

In [14]:
# Data structures for plotting
g_i = []
g_train_loss=[]
g_train_acc=[]
g_valid_loss=[]
g_valid_acc=[]

#############################
### Auxiliary variables
#############################
cumul_time = 0.
n_batch = int(math.ceil(float(n_training)/batch_size))
regularizer = None
lamda = 0.

# Convert the labels to one-hot vector
one_hot = np.zeros((n_label,n_training))
one_hot[train_set[1],np.arange(n_training)]=1.

#printDescription("Bprop", eta, nn_arch, act_func_name, batch_size, nb_params)
print("epoch time(s) train_loss train_accuracy valid_loss valid_accuracy eta") 

epoch time(s) train_loss train_accuracy valid_loss valid_accuracy eta


In [None]:
batch, one_hot_batch, mini_batch_size = getMiniBatch(j, batch_size, train_set, one_hot)

In [18]:
Y, Yp = forward(act_func, W, B, batch)

In [13]:
# Data structures for plotting
g_i = []
g_train_loss=[]
g_train_acc=[]
g_valid_loss=[]
g_valid_acc=[]

#############################
### Auxiliary variables
#############################
cumul_time = 0.
n_batch = int(math.ceil(float(n_training)/batch_size))
regularizer = None
lamda = 0.

# Convert the labels to one-hot vector
one_hot = np.zeros((n_label,n_training))
one_hot[train_set[1],np.arange(n_training)]=1.

#printDescription("Bprop", eta, nn_arch, act_func_name, batch_size, nb_params)
print("epoch time(s) train_loss train_accuracy valid_loss valid_accuracy eta") 

#############################
### Learning process
#############################
for i in range(n_epoch):
    for j in range(n_batch):

        ### Mini-batch creation
        batch, one_hot_batch, mini_batch_size = getMiniBatch(j, batch_size, train_set, one_hot)

        prev_time = time.clock()

        ### Forward propagation
        Y, Yp = forward(act_func, W, B, batch)

        ### Compute the softmax
        out = softmax(Y[-1])
        
        ### Compute the gradient at the top layer
        derror = out - one_hot_batch.T

        ### Backpropagation
        gradB = backward(derror, W, Yp)

        ### Update the parameters
        W, B = update(eta, batch_size, W, B, gradB, Y, regularizer, lamda)

        curr_time = time.clock()
        cumul_time += curr_time - prev_time

    ### Training accuracy
    train_loss, train_accuracy = computeLoss(W, B, train_set[0], train_set[1], act_func) 

    ### Valid accuracy
    valid_loss, valid_accuracy = computeLoss(W, B, valid_set[0], valid_set[1], act_func) 

    g_i = np.append(g_i, i)
    g_train_loss = np.append(g_train_loss, train_loss)
    g_train_acc = np.append(g_train_acc, train_accuracy)
    g_valid_loss = np.append(g_valid_loss, valid_loss)
    g_valid_acc = np.append(g_valid_acc, valid_accuracy)
    result_line = str(i) + " " + str(cumul_time) + " " + str(train_loss) + " " + str(train_accuracy) + " " + str(valid_loss) + " " + str(valid_accuracy) + " " + str(eta)

    print(result_line)
    sys.stdout.flush() # Force emptying the stdout buffer

epoch time(s) train_loss train_accuracy valid_loss valid_accuracy eta


TypeError: 'NoneType' object is not subscriptable

In [None]:
plt.plot(g_i,g_train_loss,label='train_loss')
plt.plot(g_i,g_valid_loss,label='valid_loss')
plt.xlabel("epoch")
plt.ylabel("Negative log-likelihood")
plt.legend()

In [None]:
plt.plot(g_i,1.0-g_train_acc,label='train_acc')
plt.plot(g_i,1.0-g_valid_acc,label='valid_acc')
plt.xlabel("epoch")
plt.ylabel("Classification error")
plt.ylim([0.,1.])
plt.legend()