<h1>Rapport de Deep Learning</h1>
<h2>Implémentation d'un réseau de neurones pour classifier des chiffres en écriture manuscrite</h2>
<h3> Yannis Amirat - Cyril Lagelée - ESIEE Paris 2021 - E4FI</h3>



Dans ce projet, nous suivons les instructions d'un livre numérique situé à l'adresse http://neuralnetworksanddeeplearning.com afin de comprendre comment est implémenté un réseau de neurones de Deep Learning afin de classifier des chiffres en écriture manuscrite. 
Nous allons transcrire notre progression au cours de ce projet dans ce jupyter notebook afin que le lecteur puisse reproduire notre parcours.



Au cours de ce livre, après une introduction à la structure des réseaux de neurones et à une implémentation de descente de gradient, l'auteur nous redirige vers son git contenant les codes afin de suivre le déroulement de cette lecture.

<h3>Importation des codes fournies pour le projet</h3>

In [6]:
import numpy as np
import random
import mnist_loader
import network
import mnist_svm
import network2 as n2

Numpy est une bibliothèque d'outils mathématiques commune à Python. 

Random est un outil permettant de générer des éléments pseudo-aléatoire. 

mnist_loader est un outil permettant de charger les données avec laquelle on va travailler provenant de Mixed National Institute of Standards and Technology. Ces données sont des scans de chiffres écrits à la main de 784 pixels.

Network est une classe représentant une première forme d'implémentation d'un réseau de neurone. Dans cette classe est présent une implémentation d'un algorithme de descente de gradient stochastique avec un poids et un biais initialisés aléatoirement au démarrage de l'algorithme. 

<h3>Initiation au réseau de neurones</h3>

Afin de nous faire comprendre comment fonctionne cette implémentation de réseau de neurones, l'auteur nous fait construire un réseau de neurone en guise d'exemple.

In [7]:
input_layer=784 #Le nombre de neurones dans la couche d'entrée du réseau (784 pour le nombre de pixels des images)
hidden_layer1=30 #nombre de neurones dans la 1ère couche cachée
output_layer=10 #nombre de neurones dans la couche de sortie du réseau (10 pour les chiffres de 0 à 9)

epoch=30 #nombre de fois que l'algorithme travaille sur le dataset d'entrainement
size_batch=10 #nombre d'échantillons à traiter avant de mettre à jour le modèle interne du réseau
learning_rate=3.0 #distance parcourut à chaque étape pour la descente de gradient

#Chargement des données du MNIST 
training_data, validation_data, test_data =mnist_loader.load_data_wrapper() 

#Création du réseau de neurones avec nos paramètres
net = network.Network([input_layer, hidden_layer1, output_layer])

#Application de la descente de gradient stochastique 
# sur notre réseau de neurones avec comparaison sur des données de test pour évaluer la précision du réseau 
net.SGD(training_data, epoch, size_batch, learning_rate, test_data=test_data) 

Epoch 0: 9080 / 10000
Epoch 1: 9192 / 10000
Epoch 2: 9334 / 10000
Epoch 3: 9368 / 10000
Epoch 4: 9393 / 10000
Epoch 5: 9402 / 10000
Epoch 6: 9426 / 10000
Epoch 7: 9467 / 10000
Epoch 8: 9451 / 10000
Epoch 9: 9434 / 10000
Epoch 10: 9479 / 10000
Epoch 11: 9473 / 10000
Epoch 12: 9415 / 10000
Epoch 13: 9460 / 10000
Epoch 14: 9468 / 10000
Epoch 15: 9480 / 10000
Epoch 16: 9434 / 10000
Epoch 17: 9486 / 10000
Epoch 18: 9478 / 10000
Epoch 19: 9482 / 10000
Epoch 20: 9499 / 10000
Epoch 21: 9505 / 10000
Epoch 22: 9479 / 10000
Epoch 23: 9461 / 10000
Epoch 24: 9511 / 10000
Epoch 25: 9416 / 10000
Epoch 26: 9502 / 10000
Epoch 27: 9501 / 10000
Epoch 28: 9490 / 10000
Epoch 29: 9503 / 10000


Dans le livre, l'auteur obtient un pourcentage de 95,42% à son meilleur epoch qu'il trouve prometteur. De notre côté, nous obtenons un résultat légèrement différent en raison des biais et des poids aléatoires à l'initialisation. 
A l'epoch 22, on obtient 94.71% ce qui représente en effet un bon résultat de reconnaissance de chiffres.
Suite à cela, l'auteur nous propose de tester avec 100 neurones sur la couche cachée et différents learning rate afin d'en observer les résultats. 

Nous commençons avec un learning rate de 0.001 que l'on va progressivement faire augmenter.


In [8]:
hidden_layer1=100 #nombre de neurones dans la 1ère couche cachée
learning_rate=0.001 #distance parcourut à chaque étape pour la descente de gradient

#Rechargement des données du MNIST, afin de repartir sur un état brute 
training_data, validation_data, test_data =mnist_loader.load_data_wrapper() 

#Création du réseau de neurones avec nos paramètres
net = network.Network([input_layer, hidden_layer1, output_layer])
net.SGD(training_data, epoch, size_batch, learning_rate, test_data=test_data) 

Epoch 0: 1211 / 10000
Epoch 1: 1189 / 10000
Epoch 2: 1201 / 10000
Epoch 3: 1220 / 10000
Epoch 4: 1253 / 10000
Epoch 5: 1288 / 10000
Epoch 6: 1322 / 10000
Epoch 7: 1375 / 10000
Epoch 8: 1415 / 10000
Epoch 9: 1450 / 10000
Epoch 10: 1483 / 10000
Epoch 11: 1509 / 10000
Epoch 12: 1520 / 10000
Epoch 13: 1552 / 10000
Epoch 14: 1583 / 10000
Epoch 15: 1599 / 10000
Epoch 16: 1622 / 10000
Epoch 17: 1644 / 10000
Epoch 18: 1668 / 10000
Epoch 19: 1694 / 10000
Epoch 20: 1737 / 10000
Epoch 21: 1767 / 10000
Epoch 22: 1798 / 10000
Epoch 23: 1823 / 10000
Epoch 24: 1870 / 10000
Epoch 25: 1898 / 10000
Epoch 26: 1939 / 10000
Epoch 27: 1974 / 10000
Epoch 28: 2016 / 10000
Epoch 29: 2062 / 10000


Cependant des paramètres incorrectement défini peuvent causer une lenteur de l'exécution mais aussi de très mauvais résultat. 
Malgré l'ajout de 70 neurones à notre couche cachée, le meilleur résultat qu'on a obtenu est de l'ordre de 20,62% avec un learning rate de 0.001. 
L'auteur suggère que notre learning rate est en effet la source de nos faibles résultats et suggère d'effectuer plusieurs exécutions en augmentant le learning rate et d'observer les résultats. 

In [9]:
hidden_layer1=100 #nombre de neurones dans la 1ère couche cachée
learning_rate=0.01 #distance parcourut à chaque étape pour la descente de gradient

#Rechargement des données du MNIST, afin de repartir sur un état brute 
training_data, validation_data, test_data =mnist_loader.load_data_wrapper() 

#Création du réseau de neurones avec nos paramètres
net = network.Network([input_layer, hidden_layer1, output_layer])
net.SGD(training_data, epoch, size_batch, learning_rate, test_data=test_data) 

Epoch 0: 1313 / 10000
Epoch 1: 1518 / 10000
Epoch 2: 1668 / 10000
Epoch 3: 1773 / 10000
Epoch 4: 1869 / 10000
Epoch 5: 1929 / 10000
Epoch 6: 1976 / 10000
Epoch 7: 2012 / 10000
Epoch 8: 2056 / 10000
Epoch 9: 2086 / 10000
Epoch 10: 2117 / 10000
Epoch 11: 2160 / 10000
Epoch 12: 2202 / 10000
Epoch 13: 2248 / 10000
Epoch 14: 2316 / 10000
Epoch 15: 2438 / 10000
Epoch 16: 2745 / 10000
Epoch 17: 2945 / 10000
Epoch 18: 3022 / 10000
Epoch 19: 3086 / 10000
Epoch 20: 3148 / 10000
Epoch 21: 3199 / 10000
Epoch 22: 3252 / 10000
Epoch 23: 3311 / 10000
Epoch 24: 3361 / 10000
Epoch 25: 3427 / 10000
Epoch 26: 3483 / 10000
Epoch 27: 3553 / 10000
Epoch 28: 3624 / 10000
Epoch 29: 3693 / 10000


En changeant le learning rate de 0.001 à 0.01, nous observons une progression de notre pourcentage d'environ 16.31% qui est dorénavant de 36,93%. Nous supposons qu'une augmentation du learning rate augmentera ce pourcentage de nouveau. 

In [10]:
hidden_layer1=100 #nombre de neurones dans la 1ère couche cachée
learning_rate=0.1 #distance parcourut à chaque étape pour la descente de gradient

#Rechargement des données du MNIST, afin de repartir sur un état brute 
training_data, validation_data, test_data =mnist_loader.load_data_wrapper() 

#Création du réseau de neurones avec nos paramètres
net = network.Network([input_layer, hidden_layer1, output_layer])
net.SGD(training_data, epoch, size_batch, learning_rate, test_data=test_data)

Epoch 0: 4528 / 10000
Epoch 1: 6135 / 10000
Epoch 2: 6960 / 10000
Epoch 3: 7203 / 10000
Epoch 4: 7310 / 10000
Epoch 5: 7395 / 10000
Epoch 6: 7426 / 10000
Epoch 7: 7451 / 10000
Epoch 8: 7489 / 10000
Epoch 9: 7503 / 10000
Epoch 10: 7523 / 10000
Epoch 11: 7544 / 10000
Epoch 12: 7551 / 10000
Epoch 13: 7567 / 10000
Epoch 14: 7572 / 10000
Epoch 15: 7601 / 10000
Epoch 16: 7605 / 10000
Epoch 17: 7614 / 10000
Epoch 18: 7623 / 10000
Epoch 19: 7630 / 10000
Epoch 20: 7640 / 10000
Epoch 21: 7647 / 10000
Epoch 22: 7656 / 10000
Epoch 23: 7663 / 10000
Epoch 24: 7662 / 10000
Epoch 25: 7670 / 10000
Epoch 26: 7675 / 10000
Epoch 27: 7679 / 10000
Epoch 28: 7684 / 10000
Epoch 29: 7694 / 10000


En changeant le learning rate de 0.01 à 0.1, nous observons encore une progression significative de notre pourcentage d'environ 28% qui est dorénavant de 74.96%.

In [11]:
hidden_layer1=100 #nombre de neurones dans la 1ère couche cachée
learning_rate=1.0 #distance parcourut à chaque étape pour la descente de gradient

#Rechargement des données du MNIST, afin de repartir sur un état brute 
training_data, validation_data, test_data =mnist_loader.load_data_wrapper() 

#Création du réseau de neurones avec nos paramètres
net = network.Network([input_layer, hidden_layer1, output_layer])
net.SGD(training_data, epoch, size_batch, learning_rate, test_data=test_data)

Epoch 0: 7688 / 10000
Epoch 1: 8248 / 10000
Epoch 2: 8376 / 10000
Epoch 3: 9233 / 10000
Epoch 4: 9336 / 10000
Epoch 5: 9390 / 10000
Epoch 6: 9403 / 10000
Epoch 7: 9435 / 10000
Epoch 8: 9440 / 10000
Epoch 9: 9452 / 10000
Epoch 10: 9477 / 10000
Epoch 11: 9494 / 10000
Epoch 12: 9512 / 10000
Epoch 13: 9526 / 10000
Epoch 14: 9516 / 10000
Epoch 15: 9528 / 10000
Epoch 16: 9521 / 10000
Epoch 17: 9539 / 10000
Epoch 18: 9542 / 10000
Epoch 19: 9563 / 10000
Epoch 20: 9562 / 10000
Epoch 21: 9554 / 10000
Epoch 22: 9561 / 10000
Epoch 23: 9559 / 10000
Epoch 24: 9575 / 10000
Epoch 25: 9567 / 10000
Epoch 26: 9570 / 10000
Epoch 27: 9562 / 10000
Epoch 28: 9566 / 10000
Epoch 29: 9566 / 10000


En changeant le learning rate de 0.1 à 1.0, nous observons de nouveau une progression de notre pourcentage d'environ 18.81% qui est dorénavant de 95.75%.

In [12]:
hidden_layer1=100 #nombre de neurones dans la 1ère couche cachée
learning_rate=2.0 #distance parcourut à chaque étape pour la descente de gradient

#Rechargement des données du MNIST, afin de repartir sur un état brute 
training_data, validation_data, test_data =mnist_loader.load_data_wrapper() 

#Création du réseau de neurones avec nos paramètres
net = network.Network([input_layer, hidden_layer1, output_layer])
net.SGD(training_data, epoch, size_batch, learning_rate, test_data=test_data)

Epoch 0: 6481 / 10000
Epoch 1: 7499 / 10000
Epoch 2: 7584 / 10000
Epoch 3: 7632 / 10000
Epoch 4: 7726 / 10000
Epoch 5: 8508 / 10000
Epoch 6: 8560 / 10000
Epoch 7: 8585 / 10000
Epoch 8: 8600 / 10000
Epoch 9: 8615 / 10000
Epoch 10: 8634 / 10000
Epoch 11: 8634 / 10000
Epoch 12: 8649 / 10000
Epoch 13: 8663 / 10000
Epoch 14: 8671 / 10000
Epoch 15: 8662 / 10000
Epoch 16: 8677 / 10000
Epoch 17: 8715 / 10000
Epoch 18: 9580 / 10000
Epoch 19: 9586 / 10000
Epoch 20: 9592 / 10000
Epoch 21: 9584 / 10000
Epoch 22: 9581 / 10000
Epoch 23: 9596 / 10000
Epoch 24: 9593 / 10000
Epoch 25: 9606 / 10000
Epoch 26: 9598 / 10000
Epoch 27: 9609 / 10000
Epoch 28: 9614 / 10000
Epoch 29: 9603 / 10000


En changeant le learning rate de 1.0 à 2.0, nous observons une nouvelle fois une progression légère de notre pourcentage de moins de 1% qui est dorénavant de 96.14%.

In [13]:
hidden_layer1=100 #nombre de neurones dans la 1ère couche cachée
learning_rate=3.0 #distance parcourut à chaque étape pour la descente de gradient

#Rechargement des données du MNIST, afin de repartir sur un état brute 
training_data, validation_data, test_data =mnist_loader.load_data_wrapper() 

#Création du réseau de neurones avec nos paramètres
net = network.Network([input_layer, hidden_layer1, output_layer])
net.SGD(training_data, epoch, size_batch, learning_rate, test_data=test_data)

Epoch 0: 5575 / 10000
Epoch 1: 6628 / 10000
Epoch 2: 6704 / 10000
Epoch 3: 6773 / 10000
Epoch 4: 7508 / 10000
Epoch 5: 7617 / 10000
Epoch 6: 7691 / 10000
Epoch 7: 7716 / 10000
Epoch 8: 7720 / 10000
Epoch 9: 7780 / 10000
Epoch 10: 7779 / 10000
Epoch 11: 7743 / 10000
Epoch 12: 7840 / 10000
Epoch 13: 7943 / 10000
Epoch 14: 7855 / 10000
Epoch 15: 7887 / 10000
Epoch 16: 8131 / 10000
Epoch 17: 8676 / 10000
Epoch 18: 8679 / 10000
Epoch 19: 8680 / 10000
Epoch 20: 8685 / 10000
Epoch 21: 8685 / 10000
Epoch 22: 8687 / 10000
Epoch 23: 8683 / 10000
Epoch 24: 8686 / 10000
Epoch 25: 8682 / 10000
Epoch 26: 8697 / 10000
Epoch 27: 8689 / 10000
Epoch 28: 8693 / 10000
Epoch 29: 8705 / 10000


En changeant le learning rate de 2.0 à 3.0, nous observons une régression de notre pourcentage d'environ 9% qui est dorénavant de 87.05%. 


L'hypothèse que l'on peut émettre sur ces résultats est que les variations de learning rate, de poids aléatoire et de biais aléatoire peuvent avoir un impact significatif sur les résultats.

-------------------------------------------------------------------------------------------------------------------
# Exercice

Essayez de crée un réseau avec deux layers, un input et un output sans réseau cacher avec 784 et 10 neurones chacun. Entrainez le réseau avec la descente de gradient stocastique. Quelle précision de classification pouvez-vous obtenir ?

In [14]:
hidden_layer1=100 #nombre de neurones dans la 1ère couche cachée
learning_rate=2.0 #distance parcourut à chaque étape pour la descente de gradient

#Rechargement des données du MNIST, afin de repartir sur un état brute 
training_data, validation_data, test_data =mnist_loader.load_data_wrapper() 

#Création du réseau de neurones avec nos paramètres
net = network.Network([input_layer, output_layer])
net.SGD(training_data, epoch, size_batch, learning_rate, test_data=test_data)

Epoch 0: 6070 / 10000
Epoch 1: 6263 / 10000
Epoch 2: 6276 / 10000
Epoch 3: 6309 / 10000
Epoch 4: 6308 / 10000
Epoch 5: 6326 / 10000
Epoch 6: 6325 / 10000
Epoch 7: 6315 / 10000
Epoch 8: 6341 / 10000
Epoch 9: 6332 / 10000
Epoch 10: 6349 / 10000
Epoch 11: 6361 / 10000
Epoch 12: 6341 / 10000
Epoch 13: 6386 / 10000
Epoch 14: 7257 / 10000
Epoch 15: 7295 / 10000
Epoch 16: 8375 / 10000
Epoch 17: 8401 / 10000
Epoch 18: 8397 / 10000
Epoch 19: 8387 / 10000
Epoch 20: 8385 / 10000
Epoch 21: 8373 / 10000
Epoch 22: 8390 / 10000
Epoch 23: 8386 / 10000
Epoch 24: 8412 / 10000
Epoch 25: 8411 / 10000
Epoch 26: 8403 / 10000
Epoch 27: 8425 / 10000
Epoch 28: 8400 / 10000
Epoch 29: 9017 / 10000


Nous obtenons un résultat de 90.17% ce qui est un score plutôt bon pour un réseau composer de deux couches.

-------------------------------------------------------------------------------------------------------------------

<h1>Vers des méthodes moins naïves</h1>

Dans la suite du livre, l'auteur nous présente l'implémentation de mnist_loader qui est en plus chargé de données, ce programme structure les données afin d'être correctement interprété par le réseau de neurones.

Ensuite ce dernier, nous rappelle que notre méthode est naïve et qu'elle manque de méthodologie pour comparer nos résultats. En effet nous pouvons comparer avec notre propre réseau mais l'idéal serait de pouvoir comparer avec d'autres méthodes qui ne sont pas basé sur les réseaux de neurones. Pour cela, il suggère d'utiliser une implémentation d'un des algorithmes les plus connue avec ses paramètres par défauts : support vector machine ou SVM afin de comparer.

Ce dernier devrait avoir un résultat d’environ 94.35% par défaut et environ 98.5% lorsque qu'il est bien paramétré.

In [15]:
mnist_svm.svm_baseline()



Baseline classifier using an SVM.
9435 of 10000 values correct.


Comme annoncer par l'auteur, avec SVM, nous obtenons un très bon résultat de 97,85%. Un réseau de neurones de 2013 fût capable de battre ce score avec 99.79%.

<h2>Deep learning</h2>
    
Comme le signale l'auteur, le fait que l'on ne connaisse pas les poids et les biais donnés à nos algorithmes crée un phénomène souvent reprocher aux méthodes de machine learning avec l'aspect de boite noire qui prend des données et qui en renvoie d'autre, diminuant ainsi notre compréhension que l'on peut en tirer.

Afin de nous permettre de visualiser le concept de "réseau de neurones profond", il nous présente l'idée de comment on pourrait chercher a résoudre la question "l'image contient-elle un visage ?" par un réseau de neurone. 
Ainsi le problème pourrait être découpé en de nombreuses sous-questions tel que "un nez est-il présent?" et donc pour chacune de ses sous-question un sous-réseau pour y répondre au sein de grand réseau composés de nombreuses couches.

Avant de poursuivre l'auteur a souhaité permettre aux lecteurs la possibilité d'ouvrir cette "boite noire" afin d'aider et d'accompagner le lecteur dans la compréhension de l'algorithme de rétropropagation d'un des piliers permettant d'avoir des réseaux plus rapides, plus larges et donc plus puissant. 
Cependant nous n'allons pas tenter ce chapitre qui bien qu’intéressant, il est beaucoup orienter mathématiques pour être expliqué aussi aisément que l'auteur.

<h2>Importation de Network2, une amélioration de la précédente classe</h2>

Avec cette nouvelle classe, l'auteur apporte des modifications à la classe network précédente pour intégrer des données associées à la rétropropagation avec une classe associée à la fonction de Cout et une modification de comment sont initialisés les poids ainsi que les biais.

Afin de nous présenter sa nouvelle classe, l'auteur nous propose d'expérimenter une situation où on souhaite résoudre un nouveau problème depuis le début sans qu'on ait les pistes initiales sur la structure de notre réseau et de ses paramètres. Pour cela, il nous propose de commencer simplement avec un réseau sans couche caché et une petite quantité de données.

In [16]:

input_layer=784 #Le nombre de neurones dans la couche d'entrée du réseau (784 pour le nombre de pixels des images)
hidden_layer1=20 #nombre de neurones dans la 1ère couche cachée
output_layer=10 #nombre de neurones dans la couche de sortie du réseau (10 pour les chiffres de 0 à 9)

epoch=30 #nombre de fois que l'algorithme travaille sur le dataset d'entrainement
size_batch=10 #nombre d'échantillons à traiter avant de mettre à jour le modèle interne du réseau
learning_rate=1.0 #distance parcourut à chaque étape pour la descente de gradient

lmbda2 = 10.0

#Chargement des données du MNIST 
training_data, validation_data, test_data = mnist_loader.load_data_wrapper()

#Création du réseau de neurones avec nos paramètres
net2 = n2.Network([input_layer,hidden_layer1, output_layer],cost=n2.CrossEntropyCost)
net2.large_weight_initializer()
#Application de la descente de gradient stochastique 
# sur notre réseau de neurones avec comparaison sur des données de test pour évaluer la précision du réseau 
evaluation_cost, evaluation_accuracy, training_cost, training_accuracy = net2.SGD(training_data[:1000], epoch, size_batch, learning_rate, lmbda = lmbda2,evaluation_data=validation_data[:100],monitor_evaluation_accuracy=True)


Epoch 0 training complete
Accuracy on evaluation data: 58 / 100

Epoch 1 training complete
Accuracy on evaluation data: 62 / 100

Epoch 2 training complete
Accuracy on evaluation data: 70 / 100

Epoch 3 training complete
Accuracy on evaluation data: 75 / 100

Epoch 4 training complete
Accuracy on evaluation data: 73 / 100

Epoch 5 training complete
Accuracy on evaluation data: 69 / 100

Epoch 6 training complete
Accuracy on evaluation data: 69 / 100

Epoch 7 training complete
Accuracy on evaluation data: 74 / 100

Epoch 8 training complete
Accuracy on evaluation data: 68 / 100

Epoch 9 training complete
Accuracy on evaluation data: 66 / 100

Epoch 10 training complete
Accuracy on evaluation data: 70 / 100

Epoch 11 training complete
Accuracy on evaluation data: 74 / 100

Epoch 12 training complete
Accuracy on evaluation data: 69 / 100

Epoch 13 training complete
Accuracy on evaluation data: 79 / 100

Epoch 14 training complete
Accuracy on evaluation data: 66 / 100

Epoch 15 training co

Suite à des tests d'altérations des hyper-paramètre selon les consignes de l'auteur, nous pouvons obtenir plus rapidement des résultats sur les changements de nos paramètres mais cependant cela ne nous oriente pas encore suffisamment vers des résultats optimaux.

<img src="../fig/multiple_eta.png" alt="Drawing" style="width: 400px;height: 400px;"/>

En observant le graphique généré ci-dessus, on peut remarquer que les learning rate 0.025 et 0.25 offre une bonne approche et pourrait servir de base pour la suite de nos expérimentations. 
Par la suite, l'auteur nous conseille d'ajuster notre learning_rate en reproduisant cette même logique afin d'observer les résultats de l'évolution du cout. Ces recherches l'ont mené a des valeurs de l'ordre de 0.25 et 0.5 qui fonctionnaient bien. 

Suite à cela, nous étions libres d'expérimenter davantage avec les différentes pistes pour les hyper paramètre afin de viser le score de 99%.
Pour cela, nous avons répétés un nouvel apprentissage en altérant progressivement nos valeur sur le learning_rate (0.25, ... , 0.15), le lambda(10.0, ..., 0.4), les size_batch (1,10,100), les epoch(30,60,90) ainsi que l'early_stopping et le learnin_schedule.

In [5]:

input_layer=784 #Le nombre de neurones dans la couche d'entrée du réseau (784 pour le nombre de pixels des images)
hidden_layer1=100 #nombre de neurones dans la 1ère couche cachée
output_layer=10 #nombre de neurones dans la couche de sortie du réseau (10 pour les chiffres de 0 à 9)

epoch=90 #nombre de fois que l'algorithme travaille sur le dataset d'entrainement
size_batch=10 #nombre d'échantillons à traiter avant de mettre à jour le modèle interne du réseau
learning_rate=0.16 #distance parcourut à chaque étape pour la descente de gradient

lmbda2 = 5.0

#Chargement des données du MNIST 
training_data, validation_data, test_data = mnist_loader.load_data_wrapper()

#Création du réseau de neurones avec nos paramètres
net2 = n2.Network([input_layer,hidden_layer1, output_layer],cost=n2.CrossEntropyCost)
net2.large_weight_initializer()
#Application de la descente de gradient stochastique 
# sur notre réseau de neurones avec comparaison sur des données de test pour évaluer la précision du réseau 
evaluation_cost, evaluation_accuracy, training_cost, training_accuracy = net2.SGD(training_data, epoch, size_batch, learning_rate, lmbda = lmbda2,evaluation_data=validation_data,monitor_evaluation_accuracy=True,early_stopping_n=10,learning_schedule=True)


Epoch 0 training complete
Accuracy on evaluation data: 9199 / 10000

Early-stopping: Best so far 9199
Epoch 1 training complete
Accuracy on evaluation data: 9351 / 10000

Early-stopping: Best so far 9351
Epoch 2 training complete
Accuracy on evaluation data: 9439 / 10000

Early-stopping: Best so far 9439
Epoch 3 training complete
Accuracy on evaluation data: 9484 / 10000

Early-stopping: Best so far 9484
Epoch 4 training complete
Accuracy on evaluation data: 9563 / 10000

Early-stopping: Best so far 9563
Epoch 5 training complete
Accuracy on evaluation data: 9571 / 10000

Early-stopping: Best so far 9571
Epoch 6 training complete
Accuracy on evaluation data: 9613 / 10000

Early-stopping: Best so far 9613
Epoch 7 training complete
Accuracy on evaluation data: 9641 / 10000

Early-stopping: Best so far 9641
Epoch 8 training complete
Accuracy on evaluation data: 9652 / 10000

Early-stopping: Best so far 9652
Epoch 9 training complete
Accuracy on evaluation data: 9674 / 10000

Early-stoppin

Malgré nos essais répétés, nous n'avons pu atteindre au grand maximum un score de <b>98.14%</b>, avec les valeurs suivantes : epoch ~= 60 , learning_rate ~= 15-16 , lambda ~=0.5. , early=stopping ~= 5-10 , learning_schedule = True.

<h1>Conclusion</h1>
Pour conclure, nos expérimentations nous ont mené à un score de <b>98.14%</b> qui est une valeur proche des 99% espérés, avec un réseau de neurone à 3 couches [784,100,20] ce qui correspond à la fin du chapitre 3. 
Nous avons appris beaucoup sur la construction des réseaux de neurones. En effet, malgré l'accompagnement de l'auteur et de ses explications sur le fonctionnement du deep learning, nous pouvons facilement reconnaitre la complexité que peut représenter la construction d'un réseau de neurones adapté en fonction de sa structure, ses algorithmes ou encore ses hyper paramètres.