# TP1: Classifieur linéaire, fonction de perte **Entropie croisée**

In [1]:
import random
import numpy as np
from utils.data_utils import load_CIFAR10
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) # set default size of plots
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

# pour automatiquement recharger les modules externes
# voir http://stackoverflow.com/questions/1907993/autoreload-of-modules-in-ipython
%load_ext autoreload
%autoreload 2

## CIFAR-10 Chargement des données et prétraitement

### **TODO** assurez-vous d'exécuter le script *./get_datasets.sh* au moins une fois dans un terminal.

In [2]:
def get_CIFAR10_data(num_training=49000, num_validation=1000, num_test=1000, num_dev=500, num_batch=200):
    """
    Charger la banque de données CIFAR-10, prétraiter les images et ajouter une dimension pour le biais.
    
    Input :
    - num_training : nombre d'images à mettre dans l'ensemble d'entrainement
    - num_validation : nombre d'images à mettre dans l'ensemble de validation
    - num_test : nombre d'images à mettre dans l'ensemble de test
    - num_dev : d'images à mettre dans l'ensemble dev
    
    Output :
    - X_train, y_train : données et cibles d'entrainement
    - X_val, y_val: données et cibles de validation
    - X_test y_test: données et cibles de test 
    - X_dev, y_dev: données et cibles dev
    - X_batch, y_batch: batch de données et de cibles 
    """
    # Charger les données CIFAR-10
    cifar10_dir = 'datasets/cifar-10-batches-py'
    X_train, y_train, X_test, y_test = load_CIFAR10(cifar10_dir)
  
    # Séparer en ensembles d'entraînement, de validation, de test et de dev
    mask = range(num_training, num_training + num_validation)
    X_val = X_train[mask]
    y_val = y_train[mask]
    mask = range(num_training)
    X_train = X_train[mask]
    y_train = y_train[mask]
    mask = range(num_test)
    X_test = X_test[mask]
    y_test = y_test[mask]
    mask = np.random.choice(num_training, num_dev, replace=False)
    X_dev = X_train[mask]
    y_dev = y_train[mask]
    mask = range(num_batch)
    X_batch = X_train[mask]
    y_batch = y_train[mask]
    
    X_train = np.reshape(X_train, (X_train.shape[0], -1))
    X_val = np.reshape(X_val, (X_val.shape[0], -1))
    X_test = np.reshape(X_test, (X_test.shape[0], -1))
    X_dev = np.reshape(X_dev, (X_dev.shape[0], -1))
    X_batch = np.reshape(X_batch, (X_batch.shape[0], -1))

    # Normalisation
    X_train -= np.mean(X_train, axis = 0)
    X_val -= np.mean(X_val, axis = 0)
    X_test -= np.mean(X_test, axis = 0)
    X_dev -= np.mean(X_dev, axis = 0)
    X_batch -= np.mean(X_batch, axis = 0)

    # Ajout du biais
    X_train = np.hstack([X_train, np.ones((X_train.shape[0], 1))])
    X_val = np.hstack([X_val, np.ones((X_val.shape[0], 1))])
    X_test = np.hstack([X_test, np.ones((X_test.shape[0], 1))])
    X_dev = np.hstack([X_dev, np.ones((X_dev.shape[0], 1))])
    X_batch = np.hstack([X_batch, np.ones((X_batch.shape[0], 1))])
    
    return X_train, y_train, X_val, y_val, X_test, y_test, X_dev, y_dev, X_batch, y_batch

In [3]:
X_train, y_train, X_val, y_val, X_test, y_test, X_dev, y_dev, X_batch, y_batch = get_CIFAR10_data()
print('Train data shape: ', X_train.shape)
print('Train labels shape: ', y_train.shape)
print('Validation data shape: ', X_val.shape)
print('Validation labels shape: ', y_val.shape)
print('Test data shape: ', X_test.shape)
print('Test labels shape: ', y_test.shape)
print('dev data shape: ', X_dev.shape)
print('dev labels shape: ', y_dev.shape)
print('batch data shape: ', X_batch.shape)
print('batch labels shape: ', y_batch.shape)

Train data shape:  (49000, 3073)
Train labels shape:  (49000,)
Validation data shape:  (1000, 3073)
Validation labels shape:  (1000,)
Test data shape:  (1000, 3073)
Test labels shape:  (1000,)
dev data shape:  (500, 3073)
dev labels shape:  (500,)
batch data shape:  (200, 3073)
batch labels shape:  (200,)


## Question 1

Les prochaines étapes consistent à implanter le calcul de **l'entropie croisée** et de son **gradient**.   Vous commencerez avec une version naïve impliquant une boucle *for* sur l'ensemble des éléments d'une batch pour ensuite implanter une version vectorisée.   Mais avant de commencer à coder, veuillez donner ici la formule de l'entropie croisée et du gradient pour une mini-batch de 500 données contenue dans le tableau

$$X \in R^{500\times 3073}$$

et une matrice de poids $$W \in R^{3073\times 10}$$ 

où 3073 est la dimensionnalité des données et 10 est le nombre de classes.

**Votre Réponse:** 

$$Loss = -ln(S) + lamb*norm(W,2) avec S = exp(X.W) / sum(exp(X.W), 1)$$

$$dW = [(S - t)*X].T + 2*lamb*W$$

**NOTE IMPORTANT** : la réponse à cette question ne contient aucune boucle, seulement des multiplications matricielles et vectorielles

## Classifieur linéaire SOFTMAX

Le code pour cette section est dans le fichier **utils/loss.py**. 

La fonction `softmax_ce_naive_forward_backward` estime la perte (et le gradient) à l'aide de boucles `for` qui itèrent sur chaque donnée de la mini-batch.  


Commençons par tester la **forward pass + l'entropie croisée**.  Pour l'instant, ignorons la rétro-propagation.

In [4]:
##############################################################################
# TODO: Implémenter le calcul de perte de façon naive avec des boucles dans  #
#  la fonction softmax_ce_naive_forward_backward située dans le fichier      #
#  utils.loss.                                                               #
#  On commence par UNE image et UNE cible                                    #
##############################################################################

from utils.loss import softmax_ce_naive_forward_backward
import time

# Matrice de poids aléatoires + 1 donnée à tester
np.random.seed(0)
W = np.random.randn(3073, 10) * 5e-4
X_rnd = np.random.randn(1, 3073) * 5
y_rnd = np.uint32(np.ones(1))
loss, _ = softmax_ce_naive_forward_backward(X_rnd, W, y_rnd, 0.0)

# La loss suivante est celle que vous devriez obtenir
target_loss = 2.276854
loss_error = np.abs(loss - target_loss)
if loss_error < 1e-5:
    print("Bravo!")
else:
    print("Il y a un bug...")
print('loss error: %f' % loss_error)

[[-0.55585138  5.77349909 -0.61236922 ... -0.67253637 -0.87537157
  -0.6617125 ]
 [ 0.17387348 -1.80598346  0.19155258 ...  0.21037321  0.27382122
   0.20698745]
 [-0.28636859  2.97444401 -0.31548597 ... -0.34648343 -0.45098192
  -0.34090709]
 ...
 [-0.61429695  6.38055963 -0.67675741 ... -0.7432509  -0.96741342
  -0.73128895]
 [ 0.04694006 -0.48755546  0.05171283 ...  0.05679377  0.07392262
   0.05587973]
 [ 0.30834142 -3.20267064  0.33969294 ...  0.37306882  0.48558539
   0.36706461]]
Bravo!
loss error: 0.000000


In [5]:
##############################################################################
# TODO: Implémenter le calcul de perte de façon naive avec des boucles dans  #
#  la fonction softmax_ce_naive_forward_backward située dans le fichier      #
#  utils.loss.                                                               #
#  Maintenant on test avec N=200 images et autant de cibles                  #
##############################################################################

from utils.loss import softmax_ce_naive_forward_backward
import time

# Matrice de poids aléatoires + 500 données 
np.random.seed(0)
W = np.random.randn(3073, 10) * 1e-4
loss, _ = softmax_ce_naive_forward_backward(X_batch, W, y_batch, 0.0)

target_loss = 2.356459
loss_error = np.abs(loss - target_loss)
if loss_error < 1e-5:
    print("Bravo!")
else:
    print("Il y a un bug...")
print('loss error: %f' % loss_error)


[[-1.63553662 -0.45649559 -1.05686044 ...  0.86572232 -2.16513188
  -2.27858858]
 [-2.1048624   0.28366624 -1.39517522 ...  0.52994945 -3.74530299
  -3.17648768]
 [-2.93143808 -0.49561605  0.06348929 ...  0.40347084 -5.83713235
  -4.95945962]
 ...
 [ 0.28318078  2.29331036  0.42042742 ... -0.80513258 -0.17775923
  -2.32193285]
 [ 0.17581504  2.03569961  0.67592454 ...  1.3667073  -1.99752957
  -2.84210116]
 [ 0.02817192 -0.0407199  -0.01173696 ... -0.00808671  0.02431986
  -0.00981905]]
Bravo!
loss error: 0.000000


## Question 2:
Pourquoi s'attend-on que la loss soit approximativement -np.log(1/nb_classes))?

**Votre réponse:** Lorsque l'on initialise aléatoirement les poids, nous savons que l'entropie sera maximale. Pour cela, la prédiction (correspondant ici à une probabilité) associée à chaque classe sera de 1/nb_classes. Vu différemment, nous pouvons voir que, si le modèle n'est pas entraîné, il va prédire de façon égale chaque classe.


In [6]:
###################################################################################
#  Vérification simple: s'assurer que l'entropie-croisée soit proche de           #
#  -log(1/nb_classes)                                                             #
###################################################################################

from utils.loss import softmax_ce_naive_forward_backward
import time

# Matrice de poids aléatoires + 500 données 
W = np.random.randn(3073, 10) * 1e-4
loss, _ = softmax_ce_naive_forward_backward(X_batch, W, y_batch, 0.0)

# La loss d'un modèle non-entrainé devrait s'approcher de -log(0.1).
print('Softmax loss: %f' % loss)
print('Sanity check: %f' % (-np.log(0.1)))

[[-2.43098977e+00 -1.20913328e+00 -6.81027658e-01 ...  6.86160793e-01
  -1.24796336e-01 -3.19055346e+00]
 [-2.81695360e+00 -5.80283642e-01 -1.11202598e+00 ...  4.46219742e-01
  -1.48431681e+00 -4.08483887e+00]
 [-3.79122796e+00 -1.28590230e+00  3.25074256e-01 ...  5.54251616e-01
  -3.36434630e+00 -6.11138620e+00]
 ...
 [-4.60994269e-01  1.33338845e+00  8.34242035e-01 ... -1.34774259e+00
   1.31663061e+00 -9.06365651e-01]
 [-6.58748327e-01  1.08145126e+00  9.29722438e-01 ...  1.07841747e+00
  -3.09743356e-01 -1.59750900e+00]
 [ 3.00797539e-02 -4.02401683e-02 -1.10506968e-02 ... -6.03864912e-03
   2.59833688e-02 -1.36873808e-02]]
Softmax loss: 2.339132
Sanity check: 2.302585


## Rétro-propagation

Maintenant, passons à la **rétro-propagation**!

In [7]:
##############################################################################
# TODO: Implémenter le calcul de perte ET DE LA RÉTROPROPAGATION de façon    #
#       naive avec des boucles dans la fonction                              #
#       softmax_ce_naive_forward_backward située dans le fichier utils.loss  #
#                                                                            #
#  On commence par UNE image et UNE cible                                    #
##############################################################################

from utils.loss import softmax_ce_naive_forward_backward
import time

# Matrice de poids aléatoires + une donnée
np.random.seed(0)
W = np.random.randn(3073, 10) * 1e-4
X_rnd = np.random.randn(1, 3073)
y_rnd = np.uint32(np.ones(1))
loss, dW = softmax_ce_naive_forward_backward(X_rnd, W, y_rnd, 0.0)

# La loss suivante est celle que vous devriez obtenir
target_loss = 2.30114875
loss_error = np.abs(loss - target_loss)
if loss_error < 1e-5:
    print("Bravo pour la loss!")
else:
    print("Il y a un bug au niveau de la loss...")
print('loss error: %f' % loss_error)

# Le gradient suivant est celui que vous devriez obtenir pour les 3 premiers poids
target_dW = np.array([-0.1279744 ,  1.15786877, -0.12847105])
dW_error = np.mean(np.abs(dW[0,0:3]-target_dW))
if dW_error < 1e-7:
    print("Bravo pour le gradient!")
else:
    print("Il y a un bug au niveau du gradient...")
print('gradient error %f' % dW_error)

[[-0.1279744   1.15786877 -0.12847105 ... -0.12895357 -0.13032041
  -0.12886991]
 [ 0.04003112 -0.36218796  0.04018648 ...  0.04033741  0.04076497
   0.04031124]
 [-0.06593102  0.59652141 -0.06618689 ... -0.06643548 -0.06713966
  -0.06639238]
 ...
 [-0.1414304   1.27961408 -0.14197927 ... -0.14251253 -0.14402308
  -0.14242007]
 [ 0.01080707 -0.0977787   0.01084901 ...  0.01088976  0.01100519
   0.01088269]
 [ 0.07098985 -0.64229201  0.07126535 ...  0.07153302  0.07229123
   0.07148661]]
Bravo pour la loss!
loss error: 0.000000
Bravo pour le gradient!
gradient error 0.000000


In [8]:
##############################################################################
# TODO: Implémenter le calcul de perte ET DE LA RÉTROPROPAGATION de façon    #
#       naive avec des boucles dans la fonction                              #
#       softmax_ce_naive_forward_backward située dans le fichier utils.loss  #
#                                                                            #
#  Maintenant on test avec N=200 images et autant de cibles                  #
##############################################################################

from utils.loss import softmax_ce_naive_forward_backward
import time

# Matrice de poids aléatoires + 500 données
np.random.seed(1)
W = np.random.randn(3073, 10) * 1e-4
loss, dW = softmax_ce_naive_forward_backward(X_batch, W, y_batch, 0.0)
print(dW[0,0:4])
# La loss suivante est celle que vous devriez obtenir
target_loss = 2.35680883
loss_error = np.abs(loss - target_loss)
if loss_error < 1e-5:
    print("Bravo pour la loss!")
else:
    print("Il y a un bug au niveau de la loss...")
print('loss error: %f' % loss_error)

# Le gradient suivant est celui que vous devriez obtenir pour les 3 premiers poids
target_dW = np.array([-1.68817739, -1.37204569, -0.46158773, 1.9206649])
dW_error = np.mean(np.abs(dW[0,0:4]-target_dW))
if dW_error < 1e-7:
    print("Bravo pour le gradient!")
else:
    print("Il y a un bug au niveau du gradient...")
print('gradient error %f' % dW_error)

[[-1.68817739e+00 -1.37204569e+00 -4.61587730e-01 ...  8.34288820e-01
  -9.34764094e-01 -4.93670879e+00]
 [-2.06141741e+00 -9.99790842e-01 -7.64298623e-01 ...  5.35426798e-01
  -2.35436909e+00 -6.23144698e+00]
 [-2.86517804e+00 -1.82217642e+00  7.03969046e-01 ...  4.17467420e-01
  -4.13619756e+00 -8.48146735e+00]
 ...
 [ 2.33613191e-01  1.53139723e+00  2.61028583e-01 ... -1.30382203e+00
   5.89147437e-01 -2.84850674e+00]
 [ 1.22175450e-01  1.20625036e+00  4.12379388e-01 ...  7.80103824e-01
  -9.49227030e-01 -3.60700249e+00]
 [ 2.80292466e-02 -4.27386483e-02 -1.21210217e-02 ... -7.08090406e-03
   2.31554188e-02 -1.50200384e-02]]
[-1.68817739 -1.37204569 -0.46158773  1.9206649 ]
Bravo pour la loss!
loss error: 0.000000
Bravo pour le gradient!
gradient error 0.000000


### Encore quelques vérifications d'usage
En principe, à ce point-ci, le calcul de l'entropie croisée (et de son gradient) via la fonction *softmax_ce_naive_forward_backward* devrait fonctionner.  Mais avant de passer à la prochaine étape il nous reste deux vérifications à faire : s'assurer que la **régularisation** fonctionne et passer le teste du **gradient numérique**

In [9]:
##############################################################################
# Vérifions que le fait d'augmenter le terme de régularisation L2            #
# augmente la loss...                                                        #
##############################################################################
success = True

# Matrice de poids aléatoires + 500 données
np.random.seed(1)
W = np.random.randn(3073, 10) * 1e-4
prev_loss, _ = softmax_ce_naive_forward_backward(X_dev, W, y_dev, 0.0)

reg = 1e2
for i in range(10):
    loss, _ = softmax_ce_naive_forward_backward(X_dev, W, y_dev, reg)
    print(loss)
    if loss <= prev_loss:
        success = False
    prev_loss = loss
    reg *= 1.2
    
if success:
    print("Bravo!")
else:
    print('Erreur!')


[[-1.20889157e+00  8.55946783e-01  4.33642890e-01 ... -2.30310464e+00
  -7.39824397e-01 -5.40602462e+00]
 [-2.33256154e+00  1.18290672e+00 -3.43496299e-01 ... -1.62099142e+00
  -2.14529413e+00 -5.69620283e+00]
 [-4.29754230e+00  1.57679042e+00  1.35943946e+00 ... -1.65769056e+00
  -4.24488399e+00 -7.26521658e+00]
 ...
 [ 2.87871036e-01 -1.00032530e+00 -1.10916642e+00 ... -7.64116247e-01
   2.00131136e+00 -2.51598538e+00]
 [-1.04512376e+00 -1.10959924e+00 -3.83294753e-01 ...  3.43349189e-02
   5.74772718e-01 -3.38503665e+00]
 [ 2.78182276e-02  5.32359514e-03 -2.18825315e-02 ...  9.49655403e-03
  -5.95555110e-03 -2.82670427e-02]]
[[-1.17640466e+00  8.43711654e-01  4.23079455e-01 ... -2.31832878e+00
  -7.33443615e-01 -5.41101203e+00]
 [-2.30331938e+00  1.14170391e+00 -3.49944643e-01 ... -1.63854859e+00
  -2.14444985e+00 -5.68454653e+00]
 [-4.31955468e+00  1.59968489e+00  1.37747127e+00 ... -1.67640595e+00
  -4.25024175e+00 -7.25460947e+00]
 ...
 [ 2.95951942e-01 -9.82564743e-01 -1.1376825

In [10]:
##############################################################################
# Maintenant testons le gradient numérique avec et sans régularisation       #
# Les erreurs relatives devraient être inférieures à 1e-6                    #
##############################################################################
from utils.gradients import check_gradient_sparse

print("\n------------\nGradient check : reg=0\n------------\n")
check_gradient_sparse(softmax_ce_naive_forward_backward, W, X_dev, y_dev, 0.0)

# Faire un autre test de gradients avec régularisation 
print("\n------------\nGradient check : reg=1e-2\n------------\n")
check_gradient_sparse(softmax_ce_naive_forward_backward, W, X_dev, y_dev, 1e2)


------------
Gradient check : reg=0
------------

[[-1.20889157e+00  8.55946783e-01  4.33642890e-01 ... -2.30310464e+00
  -7.39824397e-01 -5.40602462e+00]
 [-2.33256154e+00  1.18290672e+00 -3.43496299e-01 ... -1.62099142e+00
  -2.14529413e+00 -5.69620283e+00]
 [-4.29754230e+00  1.57679042e+00  1.35943946e+00 ... -1.65769056e+00
  -4.24488399e+00 -7.26521658e+00]
 ...
 [ 2.87871036e-01 -1.00032530e+00 -1.10916642e+00 ... -7.64116247e-01
   2.00131136e+00 -2.51598538e+00]
 [-1.04512376e+00 -1.10959924e+00 -3.83294753e-01 ...  3.43349189e-02
   5.74772718e-01 -3.38503665e+00]
 [ 2.78182276e-02  5.32359514e-03 -2.18825315e-02 ...  9.49655403e-03
  -5.95555110e-03 -2.82670427e-02]]
[[-1.20889085e+00  8.55948076e-01  4.33635381e-01 ... -2.30310288e+00
  -7.39823943e-01 -5.40602332e+00]
 [-2.33256156e+00  1.18290715e+00 -3.43498568e-01 ... -1.62099015e+00
  -2.14529408e+00 -5.69620220e+00]
 [-4.29754378e+00  1.57678940e+00  1.35945058e+00 ... -1.65769063e+00
  -4.24488523e+00 -7.26521747e+00

[[-1.20890933e+00  8.55929121e-01  4.33625017e-01 ... -2.30294091e+00
  -7.39842587e-01 -5.40604168e+00]
 [-2.33258209e+00  1.18288578e+00 -3.43517489e-01 ... -1.62079840e+00
  -2.14531498e+00 -5.69622378e+00]
 [-4.29756941e+00  1.57676272e+00  1.35941134e+00 ... -1.65743574e+00
  -4.24491108e+00 -7.26524465e+00]
 ...
 [ 2.87865174e-01 -1.00033114e+00 -1.10917187e+00 ... -7.64062438e-01
   2.00130604e+00 -2.51599184e+00]
 [-1.04513348e+00 -1.10960897e+00 -3.83304669e-01 ...  3.44259073e-02
   5.74763850e-01 -3.38504764e+00]
 [ 2.78182637e-02  5.32362754e-03 -2.18825320e-02 ...  9.49654974e-03
  -5.95562268e-03 -2.82669621e-02]]
[[-1.20887380e+00  8.55964445e-01  4.33660762e-01 ... -2.30326837e+00
  -7.39806209e-01 -5.40600755e+00]
 [-2.33254099e+00  1.18292766e+00 -3.43475109e-01 ... -1.62118444e+00
  -2.14527328e+00 -5.69618189e+00]
 [-4.29751518e+00  1.57681812e+00  1.35946757e+00 ... -1.65794538e+00
  -4.24485689e+00 -7.26518851e+00]
 ...
 [ 2.87876898e-01 -1.00031945e+00 -1.1091609

   7.02293523e-03 -3.56952004e-02]]
numerical: 0.084971, analytic 0.073991, relative error: 6.907225e-02
[[-1.17642457e+00  8.43692738e-01  4.23056971e-01 ... -2.31834978e+00
  -7.33468525e-01 -5.41103075e+00]
 [-2.30333656e+00  1.14168750e+00 -3.49963714e-01 ... -1.63856706e+00
  -2.14447176e+00 -5.68456271e+00]
 [-4.31957137e+00  1.59966882e+00  1.37745325e+00 ... -1.67642386e+00
  -4.25026300e+00 -7.25462508e+00]
 ...
 [ 2.95941055e-01 -9.82573172e-01 -1.13769238e+00 ... -7.48512159e-01
   2.02339288e+00 -2.50541459e+00]
 [-1.04894540e+00 -1.11570133e+00 -4.06968519e-01 ...  3.98453588e-03
   5.69116674e-01 -3.37747391e+00]
 [ 3.87287902e-02  3.37016711e-02 -3.70181192e-02 ... -1.86726006e-03
   7.02269696e-03 -3.56952005e-02]]
[[-1.17638475e+00  8.43730570e-01  4.23101937e-01 ... -2.31830778e+00
  -7.33418707e-01 -5.41099330e+00]
 [-2.30330220e+00  1.14172032e+00 -3.49925573e-01 ... -1.63853013e+00
  -2.14442794e+00 -5.68453035e+00]
 [-4.31953799e+00  1.59970096e+00  1.37748929e+00

[[-1.17640337e+00  8.43713802e-01  4.23079592e-01 ... -2.31832795e+00
  -7.33443042e-01 -5.41101085e+00]
 [-2.30331409e+00  1.14171042e+00 -3.49939427e-01 ... -1.63854347e+00
  -2.14444458e+00 -5.68454034e+00]
 [-4.31954474e+00  1.59969619e+00  1.37748198e+00 ... -1.67639576e+00
  -4.25023093e+00 -7.25459795e+00]
 ...
 [ 2.95951772e-01 -9.82563737e-01 -1.13768231e+00 ... -7.48503724e-01
   2.02340568e+00 -2.50540631e+00]
 [-1.04893231e+00 -1.11568938e+00 -4.06955592e-01 ...  3.99554718e-03
   5.69132559e-01 -3.37746275e+00]
 [ 3.87288379e-02  3.37017321e-02 -3.70180274e-02 ... -1.86717512e-03
   7.02288570e-03 -3.56951809e-02]]
numerical: 2.105342, analytic 2.098960, relative error: 1.517985e-03
[[-1.17643628e+00  8.43679003e-01  4.23044490e-01 ... -2.31802138e+00
  -7.33477670e-01 -5.41104601e+00]
 [-2.30334853e+00  1.14167348e+00 -3.49976771e-01 ... -1.63826503e+00
  -2.14448119e+00 -5.68457809e+00]
 [-4.31958355e+00  1.59965465e+00  1.37743978e+00 ... -1.67612563e+00
  -4.25027281e+

## Softmax et gradients vectorisés
Passons maintenant aux choses sérieuses. Vous devez ici coder la version vectorisée de l'entropie croisée et du gradient dans la fonction **softmax_ce_forward_backward**.  Ce code s'apparente à la réponse que vous avec donné au début.

In [11]:
##############################################################################
# TODO: Implémenter le calcul de perte et du gradient de façon vectorielle   #
# dans la fonction softmax_ce_forward_backward située dans le fichier        #
# utils.loss.                                                                #
# Les deux versions devraient calculer les mêmes résultats, mais la version  #
# vectorielle devrait être BEAUCOUP PLUS RAPIDE.                             #
##############################################################################
start = time.time()
loss_naive, grad_naive = softmax_ce_naive_forward_backward(X_dev, W, y_dev, 0.00001)
end = time.time()
print('naive loss: %e computed in %fs' % (loss_naive, end - start))

from utils.loss import softmax_ce_forward_backward
start = time.time()
loss_vectorized, grad_vectorized = softmax_ce_forward_backward(X_dev, W, y_dev, 0.00001)
end = time.time()
print('vectorized loss: %e computed in %fs' % (loss_vectorized, end - start))

grad_difference = np.linalg.norm(grad_naive - grad_vectorized, ord='fro')
loss_diff = np.abs(loss_naive - loss_vectorized)
if loss_diff < 1e-7:
    print('bravo pour la loss!')
else:
    print('il y a un bug au niveau de la loss')
print('Loss difference: %f' % np.abs(loss_naive - loss_vectorized))

if grad_difference < 1e-7:
    print('bravo pour le gradient !')
else:
    print('il y a un bug au niveau du gradient')
print('Gradient difference: %f' % grad_difference)

[[-1.20889156e+00  8.55946781e-01  4.33642889e-01 ... -2.30310464e+00
  -7.39824397e-01 -5.40602462e+00]
 [-2.33256153e+00  1.18290672e+00 -3.43496300e-01 ... -1.62099142e+00
  -2.14529413e+00 -5.69620283e+00]
 [-4.29754230e+00  1.57679042e+00  1.35943946e+00 ... -1.65769056e+00
  -4.24488399e+00 -7.26521658e+00]
 ...
 [ 2.87871037e-01 -1.00032529e+00 -1.10916643e+00 ... -7.64116245e-01
   2.00131136e+00 -2.51598538e+00]
 [-1.04512376e+00 -1.10959924e+00 -3.83294755e-01 ...  3.43349159e-02
   5.74772717e-01 -3.38503665e+00]
 [ 2.78182287e-02  5.32359798e-03 -2.18825330e-02 ...  9.49655290e-03
  -5.95554980e-03 -2.82670434e-02]]
naive loss: 2.374742e+00 computed in 0.176996s
vectorized loss: 2.374742e+00 computed in 0.006005s
bravo pour la loss!
Loss difference: 0.000000
il y a un bug au niveau du gradient
Gradient difference: 0.000000


## Entraînement
À l'aide de la classe **LinearClassifier** ainsi que de la fonction vectorisée **softmax_ce_forward_backward** que vous venez de coder, vous devez maintenant entraîner un réseau de neurones multiclasses linéaire à l'aide d'une **descente de gradient**.

In [None]:
from model.LinearClassifier import LinearClassifier
from visualization.utils import visualize_loss
import itertools as it
lr = 1e-7
reg = 1

classifier = LinearClassifier(softmax_ce_forward_backward)
#
# TODO : ajouter code à la fonction train.  Si tout fonctionne bien, la courbe de la loss devrait décroitre
#
train_loss_history = classifier.train(X_train, y_train, learning_rate=lr, reg=reg, num_iter=3000, verbose = False)

y_train_pred = classifier.predict(X_train)
y_val_pred = classifier.predict(X_val)

acc_train = np.mean(y_train == y_train_pred)
acc_val = np.mean(y_val == y_val_pred)

print('train vs val acc %f / %f' %(acc_train, acc_val))

visualize_loss(train_loss_history)

verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose


verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose
verbose


## Recherche d'hyper-paramètres

In [None]:
from model.LinearClassifier import LinearClassifier
from visualization.utils import visualize_loss
import itertools as it
results = {}
best_val = -1
best_softmax = None
learning_rates = np.linspace(1e-7, 1e-5, 5)
regularization_strengths = np.linspace(1e3, 1e7, 5)
best_loss_history = None
best_classifier = None

##############################################################################
# TODO: Utilisez l'ensemble de validation pour régler les hyper-paramètres   #
#  (force de régularisation et vitesse d'apprentissage). Vous devez          #
#  expérimenter différentes plages de valeurs pour les taux d'apprentissage  #
#  et les forces de régularisation; si tout va bien, avec num_iter = 1000    #
#  vous devriez obtenir une précision de classification supérieur à 0.38 sur #
#  l'ensemble de validation, et de 0.37 sur l'ensemble de test.              #
#  Mettre les résultats des meilleurs hyper-paramètres dans les variables    #
#  best_XYZ ci haut.                                                         #
##############################################################################


################################################################################
#                             FIN DE VOTRE CODE                                #
################################################################################
    
print('best validation accuracy achieved during cross-validation: %f' % best_val)

visualize_loss(best_loss_history)

In [None]:
# On évalue le modèle sur l'ensemble de test
y_test_pred = best_classifier.predict(X_test)
test_accuracy = np.mean(y_test == y_test_pred)
print('Test set accuracy: %f' % (test_accuracy) )

In [None]:
# Visualisation des poids appris pour chaque classe
w = best_classifier.W[:-1,:] # retire le biais
w = w.reshape(32, 32, 3, 10)

w_min, w_max = np.min(w), np.max(w)

classes = ['plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
for i in range(10):
    plt.subplot(2, 5, i + 1)

    # Redimensionne les poids pour qu'ils soient entre 0 et 255
    wimg = 255.0 * (w[:, :, :, i].squeeze() - w_min) / (w_max - w_min)
    plt.imshow(wimg.astype('uint8'))
    plt.axis('off')
    plt.title(classes[i])