# Les Réseaux de Neurones Artificiels (RNA)

## Généralités

Le réseau de neurones artificiel est l'un des alogorithmes de l'IA les plus sophistiqués. A la base inspiré des neuronnes biologiques, il est capable d'apprendre à réaliser n'importe quelle tâche (conduire une voiture, reconnaître et classer des photos, ...)

 ---

Le machine learning est un domaine de l'intelligence articiel qui consiste à programmer une machine pour que celle-ci apprenne à réaliser des tâches en étudiant des exemples (données) de ses derniers.

Quelques modèles de machine learning et leurs algorithmes:

1. Les modèles linéaires: algorithmes de descente de gradient

2. Les arbres de décision : algorithme CART

3. Les support vector machine : algorithme de marge maximum

---

Le deep learning est un domaine du machine learning et sous-domaine de l'IA où au lieu de d'entrainer la machine avec des modèles, on developpe des réseaux de neurones articiels. Un RNA est un ensemble de fonctions interconnéctées.

Plus le RNA est profond (contient plusieurs fonctions), plus la machine apprend à réaliser des tâches complexes.

---

En biologie, les neurones sont des cellules excitables connectées les unes aux autre ayant pour rôles de transmettre des informations dans notre système nerveux. Chaque neuronnes comprend:

1. Des dendrites terminées par des synapses qui sont des portes d'entrée de l'information ou signal en provenance du neurone précédent. Le signal entrant peut être excitateur (+1) ou inhibiteur (-1). Lorsque l'accumulation de ces signaux dépassent un certain seuil, le neurone s'active et produit un signal électrique.

2. Un corps cellulaire: il sert de canal de circulation au signal électrique produit par le neurone suite à son activation.

3. Un axone qui est un ensemble de terminaisons par lesquelles le signal électrique est envoyé au neurone suivant. Ce dernier réagira de la même manière que ces prédécesseurs.

### Historique

1943: Invention des premiers neurones artificiels par Warren S. McCulloch et Walter Pitts

En machine learning, la modélisation de ces réseaux de neurones donne ce que l'on appelle réseaux de neurones articiels.
Un RNA comprend :

Des fonctions de transfert dont chacune correspond à un neuronne. Une fonction de transfert f prend en entrée des signaux x1, x2, ..., xn et fournit en sortie, un signal y.

La fonction de transfert y <- f(x1, ..., xn) renferme deux étapes: 

1. l'agrégation : somme pondérée des entrées de f. Les coefficients de pondération sont W1, ..., Wn. Chaque coef représente en fait, l'activité synaptique, c'est à dire la nature du signal (excitateur ou inhibiteur).

2. L'activation: y = 1 si f >=0, et y = 0 sinon

Faiblesses des premiers RNA:

1. Absence d'apprentissage automatique à partir de données.

2. Difficulté du choix des pondérations

---

1950 : Computing machinery and intelligence, by Alan Turing

---

1957 : Invention du perceptron par Frank Rosenblatt

Il s'agit d'une amélioration du premier neurone artificiel. Il a l'avantage de comporter:
Un algorithme d'apprentissage lui permettant de déterminer les différentes pondérations W1, ..., Wn.

Il est inspiré de la théorie de Donald Hebb qui stipule que : Lorsque 2 neurones sont excités conjointement, ils renforcent leurs liens synaptiques, c'est-à-dire leurs connections. En neuroscience, cela s'appelle la plasticité synaptique. C'est cette plasticité synaptique modélisée qui permet à la machine:

1. de construire sa mémoire;
2. d'apprendre de nouvelles choses;
3. d'effectuer des associations

Le perceptron permet donc d'entraîner un neurone artificiel sur des données de références (X, y) pour que celui-ci renforce ses paramètres W, à chaque fois qu'une entrée X est activée en même temps qu'une sortie y présente dans ces données.

La mise à jour des W est donnée par:

W = W + alpha * (y_true - y)*X

Où: y_true : sortie de référence
y : sortie produite apr le neurone
X : entrée du neurone
alpha : vitesse d'apprentissage

A chaque fois que les W sont renforcés, la fonction de transfert se trouvera renforcée également... Ce qui accélère l'atteinte du seuil d'activation.

Faiblesse du perceptron: il s'agit d'un modèle linéaire. Il ne peut donc pas résoudre certains problèmes (les problèmes non linéaires).

---

1986 : Invention du perceptron multicouche par Geoffrey Hinton.

Il s'agit du premier véritable réseau de neurones artificiels.

Le perceptron est un modèle linéaire, par ex : f = W1*X1 + W2*X2 + b, b étant le biais. Cette droite peut servir à séparer deux classes. Un seul perceptron ne saurait suffir pour la modélisation des phénomènes réels. On choisit donc de connecter ensemble plusieurs perceptrons. Example :

1. f1 = W11*X1 + W12*X2 + b1 avec y1 = 1 si f1 >=0 et y1 = 0 sinon

2. f2 = W21*X1 + W22*X2 + b2 avec y2 = 1 si f2 >=0 et y2 = 0 sinon

3. f3 = W31*y1 + W32*y2 + b3 avec y3 = 1 si f1 >=0 et y3 = 0 sinon

La représentation de la sortie finale en fonction des entrées n'est pas linéaire.
Nous venons de construire un perceptron multicouche constitué d'une première couche de 2 neurones et d'une dernière couche de 1 neurone.

On peut construire un réseau de neuronne avec autant de couche qu'on souhaite. 
Cependant une question se pose: Comment déterminer tous les coefficients du réseau de sorte à obtenir un bon réseau?

La détermination des coefficients du réseau de neurones se fait grâce à la technique de back-propagation. La back-propagation consiste à déterminer comment les sorties varient en fonction des paramètres (W, b) présents dans chaque couche. Pour ce faire, on calcule une chaine de gradients indiquant comment la sortie finale varie en fonction de la dernière couche, comment la dernière couche varie en fonction de l'avant dernière, et ainsi de suite jusqu'à comment la deuxième couche varie en fonction de la première. 

Exemple : ∂y_final/∂f4, ∂f4/∂f3, ∂f3/∂f2, ∂f2/∂f1 

où les fonctions f correspondent chacune à une couche et peuvent êtres à la valeurs dans Rn (ces valeurs constituent les fonctions de transfert de chaque couche). 

Grâce aux gradients on peut alors mettre à jour les paramètres (W, b) de chaque couche de telle sorte à ce qu'il minimsent l'erreur entre la sortie du modèle et la réponse espérée y_true. Pour cela, on utilise l'algorithme de descente de gradient:

W = W + alpha * ∂Erreur / ∂W

### Résumé

Développer un réseau de neurones passe par 4 étapes:

1. Le forward propagation qui consiste à faire circuler les donneées de l'entrée du réseau jusqu'à sa sortie.

2. Cost function (fonction coût) qui évalue l'erreur entre la sortie y et celle que l'on désire avoir, y_true.

3. Backward propagation qui mesure la variation de la fonction coût en fonction des couches du modèles depuis la dernière à la première.

4. Gradient Descent pour Correction ou mise à jour de chaque paramètres W du modèle. 

Puis la boucle reprend...

### Le deep learning moderne

Le modèle de perceptron multicouche a continué son évolution jusqu'à l'apparition de nouvelles fonctions d'activation telles les fonctions logistique, tanh, ReLU (rectfied Linear Unit).

1990 : Invention des premières variantes des perceptrons multicouches, réseaux de neurones convolutifs par Yann LeCun.

Cette invention a permis de faire des reconnaissances d'images.

1997 : Invention d'une autre variance du perceptron multicouche appelée Réseaux de neurones récurrents LSTMs très pratique pour les séries temporelles.

Pour être entraîné, un réseau de neurone necessite une très grande quantité de données. Aussi un tel entrainement a besoin d'ordinateur ultra-puissant pour effectuer les calculs complexes. Toutes raisons expliquent le retard du développement du deep learning. 

2012 : Cette date correspond à la date où le deep learning a pris son envol suite à un concours dénommé ImageNet remporte par Geoffrey Hinton et son équipe.