<a href="https://colab.research.google.com/github/olgabernier/Machine-Learning/blob/master/Anatomie_dun_re%CC%81seau_de_neurones.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Anatomie d'un réseau de neurones


## Introduction

Les réseaux de neurones sont l'émanation du second des deux grands courants de l'**intelligence artificielle**, qui sont :

* L'IA symbolique (basée sur la logique formelle)
* L'IA connexionniste (basée sur les équations différentielles)

Ces deux voies sont nées très tôt dans l'histoire de l'informatique (si l'on excepte les articles d'Alan Turing). Dès la fin des années 1950, on voit apparaître des tentatives de modélisations de processus dits intelligents.

L'**IA symbolique** explore une piste linguistique et logique. En décrivant les règles qui définissent certains systèmes, il sera possible de déduire des conclusions à partir d'observations données, voire de découvrir de nouveaux “théorèmes” (c'est un peu la suite du programme de Hilbert).

L'**IA connexionniste** veut au contraire simuler (ou reproduire) les mécanismes de bas niveau de l'intelligence, c'est-à-dire qu'elle prend pour modèle la physiologie et la biologie.

Ce sont donc deux approches strictement inversées top-down (symbolique) et bottom-up (connexionnisme).

L'IA connexionniste a cherché (globalement) à résoudre trois grandes classes de problèmes :

* la **régression**, ou comment trouver une fonction qui approxime une solution d'un ensemble d'équations à *n* variables (e.g. la variation des prix d'un marché en fonction de certains critères)
* la **classification** d'échantillons suivant des similarités avec un ensemble de références (e.g. est-ce un chat que je vois sur cette photo ?)
* la **prédiction**, ou comment élaborer une réponse nouvelle dans une situation donnée (e.g. jouer aux échecs, traduire un texte)



## Qu'est-ce qu'un neurone ?

La perspective connexionniste cherche par conséquent à prendre comme modèle le cerveau et ses éléments les plus élémentaires (ou pensés tels) : les **neurones**.

Un neurone biologique est constitué grosso modo de trois parties :

* Le corps de la cellule
* les dendrites, qui permettent l'acheminement de signaux électriques vers le noyau de la cellule
* l'axone, qui permet au neurone de renvoyer un signal, s'il est activé.
* les neurones sont par ailleurs connectés entre eux par le biais de synapses, où ont lieu des échanges électriques complexes.

Le neurone artificiel reprend donc une version simple (voire simpliste) du modèle biologique, en affirmant qu'il constitue une *unité de calcul* comprenant:
 
 * un organe sommateur qui reçoit des données...
 * ... via un certain nombre d'entrées
 * ... redistribuant les résultats de cette somme via une sortie
 * ... et qui peut être actif ou inactif en fonction de la valeur qu'il a calculée (effet de seuil)
 
 Globalement, un neurone réalise une opération assez simple qui est un **produit scalaire**.
 
 **Référence** : [Produit scalaire](https://www.wikiwand.com/fr/Produit_scalaire)
 
 ![Neurones biologique et artificiel](http://localhost/images/neurones_2.png)
 
 
Comme on le voit sur l'image ci-dessus, le neurone reçoit des données d'entrée qu'il **pondère** par des **poids** associés à chaque canal d'entrée.
 
Au neurone est également associée une **fonction d'activation** qui décide si la valeur du résultat du produit scalaire doit être redistribué vers la sortie.
 
On remarque également que l'on peut associer au neurone un **biais**, destiné à assurer la stabilité des calculs.

Tel quel, nous avons donc un programme qui, en fonction de données d'entrée et d'un ensemble de valeurs de pondération (poids), produit une valeur (ou zéro).

Ça ne paraît pas très utile à première vue. Sauf que, en fait, ce qui nous intéresse ce n'est pas la sortie, mais bien les *conditions de production* de la sortie, c'est-à-dire l'ensemble des poids.

Le neurone a donc pour tâche de **trouver une solution** à une équation à *n* inconnues, dont on connaît le résultat.

```python
y = w1 * x1 + w2 * x2 + w3 * x3
```

Cette première architecture a été proposée par Frank Rosenblatt en 1957 sous le nom de [perceptron](https://www.wikiwand.com/fr/Perceptron)

Le fonctionnement du perceptron, qui reste aujourd'hui la pierre angulaire de l'apprentissage automatique (et/ou profond), consiste à minimiser une *erreur*, c'est-à-dire à trouver le minimum d'une fonction. Pour cela la technique est celle de la **descente du gradient**, très semblable à la méthode de Pascal pour trouver la solution des équations :

1. Partir d'une valeur arbitraire *x* et calculer une solution *y(1)*
1. Déplacer *x* d'une certaine quantité (appelée ici **pas d'apprentissage**) et calculer une nouvelle solution *y(2)*
1. Tant que `y(i+1) - y(i) > 0`, retourner en 2.

Dans le vocabulaire de l'apprentissage automatique, une itération de l'algorithme ci-dessus est appelée une **période** (ou “epoch” en anglais).

[Tutoriel d'implémentation du perceptron en Python]()

En réalité, le perceptron est équivalent à un algorithme de **régression linéaire** et on s'aperçoit assez vite des limitations :

1. on ne peut discriminer que des ensembles de points clairement séparés par des droites
1. idem pour les solutions de régression

Ces limites signent la fin du modèle


## Réseaux multi-couches

Les limites du perceptron sont dépassées lors de l'apparition des réseaux à couches multiples (ou cachées). On montre en effet qu'un réseau en trois couches (une couche d'entrée, une couche cachée,une couche de sortie) est capable d'approximer des fonctions (continues) arbitrairement complexes.

Une **couche** est un ensemble de neurones, tous reliés aux mêmes entrées et aux mêmes sorties. Dans les modèles classiques, les neurones d'une même couche sont *indépendants les uns des autres*. Mais ce n'est pas toujours le cas, comme dans les machines de Boltzmann ou les réseaux de Hopfield. Il peut arriver qu'un neurone rétro-agisse sur lui-même, comme les neurones LSTM, par exemple.

La deuxième grande innovation est l'introduction de l'algorithme de **rétropropagation de l'erreur** qui permet d'optimiser grandement la vitesse d'apprentissage. Dans les débits du connexionnisme, les réseaux sont « feedforward », c'est-à-dire que le calcul se fait toujours de la première couche vers la dernière, ce qui fait qu'à chaque échantillon d'apprentissage, on repart avec des poids qui ne tiennent pas compte de l'erreur précédente. On perd donc en précision. La rétropropagation, comme son nom l'indique consiste, une fois un exemple soumis à l'apprentissage, à répercuter l'erreur de la couche de sortie vers la couche d'entrée pour lisser les poids.

A la fin des années 199x, apparaissent de nouveaux types de neurones et d'architecture, voire d'algorithmes d'apprentissage.

* Les couches à convolution pour l'analyse d'images
* Les neurones LSTM pour les problèmes séquentiels (textes, jeux, séries temporelles, etc.)
* les couches d'enveloppement (“embedding”)

et

* l'apprentissage par renforcement
* l'apprentissage antagoniste

Il est donc probable que les architectures de réseaux se complexifient encore dans le futur.


## Composition

## Méthodologie

La méthodologie générale pour résoudre un problème avec des outils connexionnistes peut être résumée de la manière suivante :

### 1. Collecte de données

Dans un premier temps, comme dans tout problème, il faut partir d'un **jeu de données** qui répond à un  **modèle** identifié.

Dans le cas le plus courant, qui est l'apprentissage supervisé, chaque exemple du jeu de données est **étiqueté**, c'est-à-dire que l'on connaît la réponse associée aux valeurs des différentes dimensions du problème.

### 2. Préparation des données

Une fois le jeu de données constitué, il est souvent nécessaire de le pré-traiter, ce qui peut prendre plusieurs sens.

#### Changement de format

Les données peuvent être dans un format inexploitable pour le réseau de neurones. L'exemple le plus simple est celui du jeu de données MNIST pour la reconnaissance de caractères manuscrits. Les exemples sont dans une seule grande image et les étiquettes dans un fichier binaire. Il existe par ailleurs des jeux de données *compatibles* avec MNIST mais dont les données sont représentées sous d'autres formats.

Cette première manipulation concerne donc plutôt le décodage des données.

#### Changement de représentation

Dans de nombreux problèmes, on est confronté à des données textuelles, comme lorsque vous voulez prédire le prix d'un appartement en fonction de la ville. Les noms de ville ne peuvent pas être exploités directement ; il est indispensable de les transformer en valeurs numériques. La règle générale est d'utiliser pour cela une représentation appelée “**one hot**” qui correspond à une [matrice identité](https://www.wikiwand.com/fr/Matrice_identit%C3%A9).

#### Réduction de dimensionnalité

Le plus gros problème des réseaux de neurones, souvent appelé « *malédiction de la dimensionnalité* » se situe dans l'explosion combinatoire de l'exploration des solutions. Typiquement, chaque neurone est connecté à tous les neurones de la couche précédente et de la couche suivante. Chaque connexion est une dimension du problème à résoudre. Par conséquent, on se retrouve très rapidement à devoir gérer des systèmes à plusieurs centaines de milliers voire des millions d'inconnues (paramètres).

On essaiera donc de minimiser les caractéristiques. Une bonne solution peut être l'utilisation de l'**analyse en composantes principales** pour estimer le degré de corrélation entre les caractéristiques.

#### Nettoyage des données

Comme dans tous les cas que nous avons rencontrés auparavant, la clef du succès est la qualité du jeu de données initial. On se ramènera donc aux techniques vues précédemment pour vérifier celle-ci.

#### Mise en forme des données

La dernière étape du processus de préparation des données consiste à créer les *tenseurs* qui serviront à alimenter le réseau de neurones.

### 3. Construction du modèle

L'autre composante essentielle du système est l'architecture du réseau de neurones. Celle-ci peut se considérer à plusieurs niveaux.

1. L'architecture globale, qui est souvent liée à un type d'algorithmique particulier. En dehors des réseaux classiques, il existe toute une variété d'approches comme les réseaux de Hopfield, des machines de Boltzmann, les cartes de Kohonen, etc. qui sont des formes particulières de systèmes connexionnistes (fondés sur des « *neurones artificiels* ».
1. L'architecture fine, qui concernera l'ordonnancement des neurones en couches et des couches en structure de transfert entre lest entrées et les sorties. Là aussi, en fonction des types de problèmes, on voit apparaître des éléments différents (neurones LSTM, à convolution, etc.)
1. L'architectures stratégique, qui consistera à choisir un système de résolution en fonction de ce que l'on veut trouver. On parlera à ce moment d'apprentissage par renforcement, antagoniste, supervisé, non supervisé, etc.
1. L'urbanisme connexionniste, dans lequel on considérera le réseau de neurones comme *une partie* d'une architecture plus vaste pour la résolution de problèmes.


### 4. Entraînement du modèle

Une fois le modèle construit, on lui soumet un jeu d'apprentissage pour lequel chaque *exemple* a été *étiqueté* (dans la grande majorité des cas, hormis les cas d'apprentissage non supervisé). Globalement, on pose une question à la machine et on lui donne la réponse. On essaie donc de construire une mémoire associative entre une entrée et une sortie.

LA principale difficulté de cette phase est le réglage des **hyperparamètres** du réseau. On cherche à obtenir la réponse optimale, mais c'est un peu comme chercher ses clefs là où il n'y a pas de lampadaire. Ces hypermaramètres peuvent être nombreux :

* nombre de couches
* nombre de neurones par couche
* nombre d'itérations (*epochs*)
* pas d'apprentissage
* taille des lots
* etc.

On sera souvent obligé, dans les cas réels, de procéder par essais et erreurs jusqu'à parvenir à la meilleure solution.


### 5. Utilisation

Une fois le modèle entraîné, il devient autonome. On peut le sauvegarder dans un fichier externe et le rappeler pour soumettre de nouveaux cas.

Si le réseau a appris correctement, il pourra donner des réponses justes même dans des situations qu'il n'a jamais rencontrées auparavant.

* Dans le cas de la régression, on aura approximé une “courbe“ suffisamment précise et donc le point sera proche de la valeur correcte ;
* Dans le cas de la classification, le modèle aura trouvé des frontières suffisamment bonnes pour que chaque cas soit associé au bon ensemble.


## Glossaire

Vous pouvez sur le site de Google un glossaire très complet :

**Source** : [Glossaire de l'apprentissage automatique](https://developers.google.com/machine-learning/glossary/)

Les principaux termes sont :

### Fonction d'activation

> Fonction (par exemple ReLU ou sigmoïde) qui utilise la somme pondérée de toutes les entrées de la couche précédente pour générer une valeur de sortie (généralement non linéaire) et la transmettre à la couche suivante.

### Lot

> Ensemble d'exemples utilisés dans une itération (c'est-à-dire, une mise à jour du gradient) de l'entraînement du modèle.

### Biais

> Ordonnée à l'origine ou décalage par rapport à une origine. Le biais est noté b ou w0 dans les modèles de machine learning. Par exemple, b représente le biais dans la formule suivante

### Caractéristique catégorielle

> Caractéristiques avec un ensemble discret de valeurs possibles. Par exemple, une caractéristique catégorique nommée house style, avec l'ensemble discret de trois valeurs possibles suivant : Tudor, ranch, colonial. En représentant house style comme une donnée catégorielle, le modèle peut apprendre l'impact de chaque valeur Tudor, ranch et colonial sur la valeur immobilière.

> Parfois, les valeurs de l'ensemble discret s'excluent mutuellement, et une seule valeur peut être appliquée à un exemple donné. Par exemple, la caractéristique catégorique car maker n'autoriserait probablement qu'une seule valeur (Toyota) pour chaque exemple. Dans d'autres cas, plusieurs valeurs peuvent s'appliquer. Une voiture peut être peinte de différentes couleurs. Ainsi, la caractéristique catégorique car color autoriserait probablement plusieurs valeurs (par exemple, red et white) pour un exemple.

### Classe

> Un des ensembles de valeurs cibles énumérées pour une étiquette. Par exemple, dans un modèle de classification binaire de détection du spam, les deux classes sont spam et non-spam. Dans un modèle de classification à classes multiples qui identifie les races de chiens, les classes peuvent être caniche, beagle, carlin, etc.

### Matrice de confusion

> Table NxN qui résume la réussite des prédictions d'un modèle de classification, c'est-à-dire la corrélation entre les étiquettes et les classifications du modèle. L'un des axes d'une matrice de confusion est l'étiquette prédite par le modèle, et l'autre l'étiquette réelle. N correspond au nombre de classes. 

### Caractéristique continue

> Caractéristique à virgule flottante avec une plage infinie de valeurs possibles.

### Convergence

> Désigne familièrement un état atteint pendant l'apprentissage, dans lequel la perte d'apprentissage et la perte de validation varient peu ou pas du tout entre chaque itération, passé un certain nombre d'itérations. Autrement dit, un modèle atteint la convergence lorsque la poursuite de l'apprentissage sur les données actuelles n'améliore pas le modèle. Dans le deep learning, les valeurs de perte restent parfois constantes ou presque pendant de nombreuses itérations avant de finalement diminuer, faisant croire à tort, temporairement, que la convergence a été atteinte.

### Itération (epoch)

> Cycle d'apprentissage complet sur l'intégralité de l'ensemble de données de manière à ce que chaque exemple ait été vu une fois. Une itération représente ainsi N/taille du lot itérations d'apprentissage, où N est le nombre total d'exemples.

### Exemple 

> Ligne d'un ensemble de données. Un exemple contient une ou plusieurs caractéristiques, et éventuellement une étiquette. Voir aussi Exemple étiqueté et Exemple sans étiquette.

### Caractéristique (feature)

> Variable d'entrée utilisée pour effectuer des prédictions.

### Descente de gradient

> Technique de minimisation de la perte en calculant les gradients de la perte pour les paramètres du modèle, en fonction des données d'apprentissage. La descente de gradient ajuste de manière itérative les paramètres afin de trouver progressivement la meilleure combinaison de pondérations et de biais pour minimiser la perte.

### Couche cachée

> Couche synthétique d'un réseau de neurones entre la couche d'entrée (c'est-à-dire, les caractéristiques) et la couche de sortie (la prédiction). Un réseau de neurones se compose d'une ou plusieurs couches cachées.

### Etiquette

> Dans l'apprentissage supervisé, "réponse" ou "résultat" d'un exemple. Chaque exemple d'un ensemble de données étiqueté se compose d'au moins une caractéristique et d'une étiquette. Par exemple, les caractéristiques d'un ensemble de données sur des logements pourraient inclure le nombre de chambres, le nombre de salles de bain et l'âge du logement, et l'étiquette pourrait être le prix du logement. Dans un ensemble de données de détection de spam, les caractéristiques pourraient être l'objet, l'expéditeur et le message lui-même, et l'étiquette serait probablement "spam" ou "non spam."

### Taux (ou pas) d'apprentissage

> Grandeur scalaire utilisée pour entraîner le modèle via la descente de gradient. À chaque itération, l'algorithme de descente de gradient multiplie le taux d'apprentissage par le gradient. Le produit ainsi généré est appelé pas de gradient. Le taux d'apprentissage est un hyperparamètre clé.

### Hyperparamètre

> Les paramètres que vous réglez pendant les exécutions successives de l'entraînement du modèle. Le taux d'apprentissage, par exemple, est un hyperparamètre.

### Paramètre

> Variable d'un modèle que le système de machine learning entraîne tout seul. Par exemple, les pondérations sont des paramètres dont le système de machine learning apprend progressivement les valeurs via des itérations d'apprentissage successives.

### Encodage one-hot
> Vecteur creux caractérisé ainsi :
> * Un élément a la valeur 1.
> * Tous les autres éléments ont la valeur 0.
>
> L'encodage one-hot est couramment utilisé pour représenter des chaînes ou des identifiants qui ont un ensemble fini de valeurs possibles. Supposons qu'un ensemble de données botaniques donné répertorie 15 000 espèces différentes, chacune associée à un identifiant unique. Dans le cadre de l'extraction de caractéristiques, vous encoderez probablement ces identifiants sous forme de vecteurs one-hot, dont la taille est de 15 000.

### Modèle de régression

> Type de modèle qui génère des valeurs continues (à virgule flottante, généralement). À comparer aux modèles de classification, qui génèrent des valeurs discrètes, comme "hémérocalle" ou "lis tigré".

### Modèle de séquence

> Modèle dont les entrées présentent une dépendance séquentielle. Par exemple, prévision de la prochaine vidéo visionnée à partir d'une séquence de vidéos précédemment regardées.

### Modèle de classification

> Type de modèle de machine learning permettant de différencier deux classes discrètes ou plus. Par exemple, un modèle de classification par traitement du langage naturel pourrait déterminer si une phrase en entrée est en français, en espagnol ou en italien. À comparer au modèle de régression.



## Pour aller plus loin

Nous présentons ici les bases des réseaux de neurones, mais ces derniers sont loin d'être les seuls outils de résolution de problèmes complexes.

Beaucoup d'algorithmes connus peuvent être utilisés pour trouver des solutions, comme :

* k plus proches voisins
* random forests

Sans compter  :

* programmation logique
* programmation par contraintes