# Récupération d'une base de donnée

Dans ce notebook, nous allons récupérer les données issues de la BDD d'image de chiffre réalisé par Yann Lecun

In [1]:
%lsmagic #liste des commandes 'magic'

Available line magics:
%alias  %alias_magic  %autoawait  %autocall  %automagic  %autosave  %bookmark  %cd  %clear  %cls  %colors  %conda  %config  %connect_info  %copy  %ddir  %debug  %dhist  %dirs  %doctest_mode  %echo  %ed  %edit  %env  %gui  %hist  %history  %killbgscripts  %ldir  %less  %load  %load_ext  %loadpy  %logoff  %logon  %logstart  %logstate  %logstop  %ls  %lsmagic  %macro  %magic  %matplotlib  %mkdir  %more  %notebook  %page  %pastebin  %pdb  %pdef  %pdoc  %pfile  %pinfo  %pinfo2  %pip  %popd  %pprint  %precision  %prun  %psearch  %psource  %pushd  %pwd  %pycat  %pylab  %qtconsole  %quickref  %recall  %rehashx  %reload_ext  %ren  %rep  %rerun  %reset  %reset_selective  %rmdir  %run  %save  %sc  %set_env  %store  %sx  %system  %tb  %time  %timeit  %unalias  %unload_ext  %who  %who_ls  %whos  %xdel  %xmode

Available cell magics:
%%!  %%HTML  %%SVG  %%bash  %%capture  %%cmd  %%debug  %%file  %%html  %%javascript  %%js  %%latex  %%markdown  %%perl  %%prun  %%pypy  %%python 

In [2]:
import gzip
import numpy as np

file_image_train = gzip.open('bdd/t10k-images-idx3-ubyte.gz','r')

image_size = 28
num_images = 10000

file_image_train.read(16)
buf = file_image_train.read(image_size * image_size * num_images)
data = np.frombuffer(buf, dtype=np.uint8).astype(np.float32)
vdata = data.reshape(num_images, image_size*image_size, 1)
data = data.reshape(num_images, image_size, image_size, 1)

file_label_train = gzip.open('bdd/t10k-labels-idx1-ubyte.gz','r')
file_label_train.read(8)
labels = []
for i in range(0,num_images):   
    buf = file_label_train.read(1)
    label = np.frombuffer(buf, dtype=np.uint8).astype(np.int64)
    labels.append(label)
    
vdata.shape

(10000, 784, 1)

In [3]:
%matplotlib notebook 
import matplotlib.pyplot as plt

image = np.asarray(data[0]).squeeze()
plt.imshow(image, interpolation='none')
plt.show()

<IPython.core.display.Javascript object>

Afin d'éviter d'entrainer le réseau sur les mauvais paramètres, on va appliquer un filtre sur les images afin de les normaliser, dans un 1er temps cela consitera ne pas prendre en compte les niveaux de gris. (seulement 0 ou 255)

# Définition de l'algorithme

On commence par un réseau à 3 couches de 784 neurones pour les entrées, 15 dans la couche cachée et 10 en sortie
De plus, on définit les valeurs avec une loi gaussienne afin préparer la descente de gradiant

## Définition du réseaux : 

In [4]:
import numpy as np
import random

num_layers = 3  #3 couches
sizes = [784, 15, 10] #taille de chaque couche

biases = [np.random.randn(y, 1) for y in sizes[1:]] 
#génération des biais initiés à une valeur aléatoire suivant une loi gaussienne de moyenne 0 et variance 1
weights = [np.random.randn(y, x) for x, y in zip(sizes[:-1], sizes[1:])]
#génération des poids initiés à une valeur aléatoire suivant une loi gaussienne de moyenne 0 et variance 1

## Définition de la fonction d'activation et d'autres

In [5]:
#On commence par utiliser la fonction sigmoide comment fonction d'activation f(z) = 1/(1+e^-z)
def sigmoid(z):
    return 1.0/(1.0+np.exp(-z))

In [6]:
def sigmoid_prime(z):
    """Derivative of the sigmoid function."""
    return sigmoid(z)*(1-sigmoid(z))

In [7]:
#Retourne la sortie du réseau avec 'a' comme vecteur d'entrée
def feedforward(a):
        """Return the output of the network if ``a`` is input."""
        for b, w in zip(biases, weights):
            a = sigmoid(np.dot(w, a)+b)
        return a

## Définition des ensembles de données 

On adapte les données décompressées sous forme de matrice afin de les interpréter

In [8]:
#Cette fonction permet de redéfinir les labels en tant que vecteur correspondant on nombre de sortie du système,
#Chacune des 10 sorties représente un chiffre possible (0,1,2,3...,9)
def vectorized_result(j):
    e = np.zeros((10, 1))
    e[j] = 1.0
    return e

In [9]:
#On commence par l'ensemble d'entrainement
#training_data = np.concatenate((data, labels),0)

training_data = []
for i in range(0,num_images):
    training_data.append((vdata[i],vectorized_result(labels[i])))

## Apprentissage

Nous allons effectuer la descente de gradient à l'aide de la méthode stochastique sur plusieurs parties

In [10]:
def cost_derivative(output_activations, y):
        "Retourne la derivée partielle du coût par rapport aux activations"
        return (output_activations-y)

La fonction de backpropagation permet de trouver la variation nécessaire aux poids et biais du réseaux afin de se rapprocher des données d'entrainement. 
Elle fait 2 hypothèses :
La fonction de cout dépend des poids et biais du réseaux (ce qui est le cas pour le coût quadratique)
La fonction étant calculé par des dérivées partielles pour des entrainements différents se retrouve en faisant la moyenne de ces entrainements

L'objectif est donc de calculer les dérivées partielles de la fonction de coût en fonction des poids et des biais. 
Pour commencer on définit les activations de chaque couche en faisant les calculs matriciels. 
On obtient alors les activations de la derniere couche. 
Ensuite on calcul le vecteur d'erreur de la couche des sorties. 
Puis on utilise les formules de backpropagation pour faire propager cette erreur dans tout les poids du réseau jusqu'au 1er. 

In [11]:
def backprop(x, y, bpbiases, bpweights):
        """Return a tuple ``(nabla_b, nabla_w)`` representing the
        gradient for the cost function C_x.  ``nabla_b`` and
        ``nabla_w`` are layer-by-layer lists of numpy arrays, similar
        to ``self.biases`` and ``self.weights``."""
        # en sortie : le gradient de la fonction de cout, pour les poids et biais
        # pour chaque couche
        nabla_b = [np.zeros(b.shape) for b in bpbiases]
        nabla_w = [np.zeros(w.shape) for w in bpweights]
        # on calcul les activations du réseau (notamment pour avoir la dernier couche d'activation)
        activation = x
        activations = [x] # on enregistre toutes les activations couche par couche
        zs = [] # on enregistre tout les valeurs de neurone (sans fonction d'activation) couche par couche
        for b, w in zip(bpbiases, bpweights):
            z = np.dot(w, activation)+b
            zs.append(z)
            activation = sigmoid(z)
            activations.append(activation)
        # on calcul l'erreur delta pour la dernière couche en multipliant sur les composantes la derivée partielle de
        # cout par rapport à l'activation et la derivée d'activation de la dernière couche (formule backpropagation n°1)
        delta = cost_derivative(activations[-1], y) * \
            sigmoid_prime(zs[-1])
        nabla_b[-1] = delta
        nabla_w[-1] = np.dot(delta, activations[-2].transpose())
        # on utilise la retropropagation pour trouver les erreurs des autres couches
        for l in range(2, num_layers):
            z = zs[-l]
            sp = sigmoid_prime(z)
            delta = np.dot(weights[-l+1].transpose(), delta) * sp
            nabla_b[-l] = delta
            nabla_w[-l] = np.dot(delta, activations[-l-1].transpose())
        return (nabla_b, nabla_w)

In [12]:
def update_mini_batch(mini_batch, eta, umbbiases, umbweights):
        """Update the network's weights and biases by applying
        gradient descent using backpropagation to a single mini batch.
        The "mini_batch" is a list of tuples "(x, y)", and "eta"
        is the learning rate."""
        nabla_b = [np.zeros(b.shape) for b in umbbiases]
        nabla_w = [np.zeros(w.shape) for w in umbweights]
        for x, y in mini_batch:
            delta_nabla_b, delta_nabla_w = backprop(x, y, biases, weights)
            nabla_b = [nb+dnb for nb, dnb in zip(nabla_b, delta_nabla_b)]
            nabla_w = [nw+dnw for nw, dnw in zip(nabla_w, delta_nabla_w)]
        umbweights = [w-(eta/len(mini_batch))*nw 
                        for w, nw in zip(umbweights, nabla_w)]
        umbbiases = [b-(eta/len(mini_batch))*nb 
                       for b, nb in zip(umbbiases, nabla_b)]

In [13]:
def evaluate(test_data):
        """Return the number of test inputs for which the neural
        network outputs the correct result. Note that the neural
        network's output is assumed to be the index of whichever
        neuron in the final layer has the highest activation."""
        test_results = [(np.argmax(feedforward(x)), y)
                        for (x, y) in test_data]
        return sum(int(x == y) for (x, y) in test_results)

In [14]:
def SGD(training_data, epochs, mini_batch_size, eta, test_data=None):
        """Train the neural network using mini-batch stochastic
        gradient descent.  The "training_data" is a list of tuples
        "(x, y)" representing the training inputs and the desired
        outputs.  The other non-optional parameters are
        self-explanatory.  If "test_data" is provided then the
        network will be evaluated against the test data after each
        epoch, and partial progress printed out.  This is useful for
        tracking progress, but slows things down substantially."""
        if test_data: n_test = len(test_data)
        n = len(training_data)
        for j in range(epochs):
            random.shuffle(training_data)
            mini_batches = [training_data[k:k+mini_batch_size]
                for k in range(0, n, mini_batch_size)]
            for mini_batch in mini_batches:
                update_mini_batch(mini_batch, eta, biases, weights)

In [15]:
SGD(training_data, 30, 10, 3.0, test_data=training_data)

  This is separate from the ipykernel package so we can avoid doing imports until


In [16]:
vdata[0]

array([[   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [   0.],
       [

In [17]:
labels[0]

array([7], dtype=int64)

In [18]:
feedforward(vdata[0])

  This is separate from the ipykernel package so we can avoid doing imports until


array([[ 0.35351275],
       [ 0.99751517],
       [ 0.27537777],
       [ 0.06452062],
       [ 0.90758749],
       [ 0.14614377],
       [ 0.98184138],
       [ 0.58434323],
       [ 0.66164637],
       [ 0.00329115]])