# Sujet : implémentation d'un réseau de neurones

Ce sujet vous guide dans l'implémentation d'un réseau de neurones à partir de zéro. On utilisera uniquement la biliothèque numpy et en aucun cas un réseau de neurone tout fait, sauf éventuellement pour comparer les résultats.

Je préfère si cela vous semble difficile, que vous n'implémentiez qu'un réseau avec 2 couches de 2 neurones, mais en faisant tout vous même dans les détails, plutôt que d'utiliser une bibliothèque ou un code tout fait, ce qui n'a pas d'intérêt pédagogique.

Il est important que vous essayiez de respecter au maximum les notations du cours pour toutes les composantes du réseau de neurone : matrices W, b, z, a, etc.

**Modalités:** Par groupes de 1 ou 2 étudiants, on rendra une feuille de calcul jupyter prête à l'emploi. Elle doit contenir du texte expliquant votre démarche ainsi que votre implémentation (si possible sans autres bibliothèques que celles utilisées dans le cours).

**Conseil:** si cela vous paraît difficile, commencez par implémenter un réseau simple où les dimensions sont fixées, par exemple avec 2 en entrée, 1 couche cachée de 2 neurones avec activation relu, puis 1 neurone en sortie. Pensez à tout tester au fur et à mesure.

## réviser numpy
Ce projet repose sur numpy donc il est important d'en connaître les bases. Allez voir dans les documentations pour bien être certains de ce que font les lignes suivantes. 

In [2]:
import numpy as np

In [4]:
a = np.random.normal(size = (3,2))

In [5]:
a.shape

(3, 2)

In [12]:
b = a.T ; b

array([[-1.57084827,  0.34263375, -1.37271195],
       [ 0.60814683, -1.00302277, -1.13787347]])

In [9]:
b.shape

(2, 3)

In [11]:
b.reshape(6,1)

array([[-1.57084827],
       [ 0.34263375],
       [-1.37271195],
       [ 0.60814683],
       [-1.00302277],
       [-1.13787347]])

In [14]:
b**2

array([[2.46756428, 0.11739789, 1.88433808],
       [0.36984256, 1.00605468, 1.29475604]])

In [27]:
b.dot(a)

array([[4.46930026, 0.26299666],
       [0.26299666, 2.67065328]])

In [28]:
f = lambda x: 1 if x>0 else -1

In [29]:
f(b)  #va faire une erreur

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [30]:
f = np.vectorize(f)

In [31]:
f(b)

array([[-1,  1, -1],
       [ 1, -1, -1]])

## définir une classe pour votre réseau

Commencez par créer une classe initialisant un reseau de neurone. A vous de voir comment seront stockées les informations mais il est important de pouvoir stocker :
- la taille de l'entrée
- les matrices W, b de chaque couche
- les fonctions d'activation f de chaque couche

Il faut aussi pouvoir ajouter des couches. Par exemple (mais on peut faire autrement) on 
peut procéder créer des méthodes ou fonctions permettant de créer ainsi un R.N :

**rn = ReseauNeurones(5)  # 5 taille de l'entree   
rn.ajouter_couche(nb_neurones, f_activation, derivee_f_activation)**

Dans l'exemple ci-dessus la fonction d'activation et sa derivee sont des fonctions (ou lambda fonctions) python correspondant à une fonction d'activation de R dans R, qui seront appliquées sur chaque composante (il faudra donc implémenter "relu" ou "identité" et leurs dérivées)

On pourra initialiser tous les poids du reseau de Neurones avec une loi normale au moment où ils sont ajoutés.

## propagation avant
Dans un premier temps, il faut implémenter la propagation avant et s'assurer que votre réseau de neurones donne les bonnes valeurs. Changez à la main la valeur des matrices W, b de sorte à créer un réseau de neurones avec les valeurs suivantes :
- deux couches cachéés et une couche de sortie
- entrée de dimension 2
- couches suivantes :
    - couche 1 : 3 neurones, activation relu
    - couche 2 : 2 neurones, activation relu
    - couche 3 : 1 neurone, activation identité
- $W^{(1)} = [[0, -1],[ 2, -3],[ 1, -1]]$
- $W^{(2)} = [[ 0,  1,  -1], [ 2, -2, 1]]$
- $W^{(3)} = [[2, -1]]$
- $b^{(1)} = [[0],[ 1],[-1]]$
- $b^{(2)} = [[1],[-2]]$
- $b^{(3)} = [[0]]$
 

Sur l'entrée $x$ valant le vecteur $[[1],[-2]]$, faites les calculs et la main et comparer aux résultats obtenus afin de tester votre réseau (on peut corriger en classe le calcul à la main). Regardez bien
les valeurs de toutes les activations, pre-activations, etc.

## propagation arrière : calcul du gradient

Pour l'implémentation de la propagation arrière,  il faudra commencer par stocker d'une façon ou d'une autre la valeur des activations ou préactivations. Une possibilité (non obligatoire) est de donner le choix lors de la propagation avant de stocker ou non ces valeurs (dans des champs de la classe). Par exemple

**rn.propagation_avant(vecteur_entree, stockage)      
#stockage a une valeur booléenne**

Reste à implémenter alors les formules du cours. Pour implémenter l'algorithme, il faut donner la dérivée de la fonction de coût. De même, on comparera au valeurs obtenus par calcul sur la même entrée que précédemment.

**rn.retropropagation(nabla_C)**

où **nabla_C** contient le vecteur gradient du coût considéré par rapport à l'activation de sortie (ce qui permet d'initialiser l'algorithme), pour une valeur cible $y$ choisie.

## Gradient stochastique

Une fois ces fonctions écrites et testées (et validées !) écrivez une méthode pour effectuer un pas de gradient sur une donnée $(x,y)$ où $y$ est la valeur cible. Par exemple:

**rn.pas_gradient(taux_apprentissage)**

Ici **taux_apprentissage** est la valeur $\alpha$ qui vient multiplier le gradient lors de la mise à jour. Bien entendu, cette méthode doit être appelée uniquement après avoir fait une propagation avant puis une rétropropagation (et stocké tous les gradients calculés).



## Quelques tests

Voici quelques tests à effectuer sur votre réseau. On se place dans un cadre d'approximation uniquement, il ne s'agit pas d'apprentisage supervisé donc on ne se souciera pas des problèmes de suradaptation. Attention, n'oubliez pas que tous ces algorithmes sont très sensibles aux hyperparamètres choisis (notamment le taux d'apprentissage).

- Si vous ne mettez qu'un seul neurone, avec une activation linéaire et un coût quadratique, vous vous retrouverez dans le cadre de la régression linéaire. Vous pouvez donc facilement générer des données autour d'une droite bruitée et comparer vos résultats (erreur quadratique moyenne, par exemple) à ce qui est obtenu
par une méthode de regression linéaire. Pensez à faire des graphiques.

- Sur ces mêmes données essayez avec une couche cachée ou deux, pour voir si vous pouvez mieux approximer les données.

- essayez maintenant d'approcher par un réseau multicouche des données quadratiques. A titre indicatif, avec juste une couche cachée de 3 neurones et activation relu, j'obtiens une approximation ressemblant à ceci :

<img src="images/rn_quad.png" width=300 alt="schéma à venir">

- classification : la fonction XOR peut être définie par :


In [38]:
xor = lambda x : 1 if x[0][0]*x[1][0] >= 0 else -1

En générant 1000 points aléatoires dans $[-5,5]^2$ et en effectuant une descente de gradient j'obtiens des zones de valeurs qui ressemblent à ceci
<img src="images/rn_xor.png" width=300 alt="schéma à venir">

Il faut plusieurs couches cachées pour obtenir ça. A vous de voir quel coût mettre en sortie.
Dans le cas ci-dessus ce n'est pas parfait mais le taux d'erreur est de 2% environ

Essayez de reproduire ces résultats ou mieux, améliorez-les.

## Et ensuite ?
Si vous avez d'autres idées de jeux de données ou d'applications sur lesquels utiliser votre réseau, n'hésitez pas, mettez tout dans le document ! N'oubliez pas d'expliquer toujours votre démarche et à quoi correspondent les différents programmes, fonctions, graphiques, etc.