# Réseaux de neurones convolutifs 
#(CNN :Convolutional Neural Networks)

$x2$

- La construction de modèles pour la classification d'images a connu une avancée majeure avec la découverte qu'un réseau de neurones convolutif pouvait être utilisé pour extraire progressivement des représentations de niveau toujours plus élevé du contenu de l'image. 
- Au lieu de prétraiter les données pour obtenir des caractéristiques dérivées telles que la texture et la forme, un réseau de neurones convolutif utilise uniquement les données de pixel brutes de l'image comme entrée, "apprend" comment extraire ces caractéristiques et, enfin, infère l'objet qu'elles constituent.

- Pour commencer, le réseau de neurones convolutif reçoit une carte de caractéristiques d'entrée "**input feature map**", c'est-à-dire une matrice tridimensionnelle dont la taille des deux premières dimensions correspond à la longueur et à la largeur en pixels des images. La taille de la troisième dimension est 3 (correspondant aux 3 canaux d'une image couleur : rouge, vert et bleu). 

- Un réseau de neurones convolutif typique consiste en une combinaison des couches suivantes :

 - Couches convolutives
 - Couches de pooling
 - Couches denses





Les réseaux de neurones convolutifs ont eu beaucoup de succès pour certains types de problèmes, notamment la reconnaissance d'images.

### Convolution

En mathématiques, désigne dans le langage courant un mélange de deux fonctions. Dans le machine learning, une convolution mélange le filtre convolutif et la matrice d'entrée pour entraîner les pondérations.



Une convolution extrait les tuiles de la carte de caractéristiques d'entrée (**input feature map**)et leur applique des filtres pour calculer de nouvelles caractéristiques, produisant ainsi une carte de caractéristiques de sortie, ou caractéristique convoluée (**output feature map, or convolved feature**) (dont la taille et la profondeur peuvent être différentes de celles de la carte de caractéristiques d'entrée). Les convolutions sont définies par deux paramètres :

- Taille des tuiles extraites (**Size of the tiles that are extracted**) (généralement 3x3 ou 5x5 pixels).
- Profondeur de la carte de caractéristiques de sortie(**The depth of the output feature map**), qui correspond au nombre de filtres appliqués

Lors d'une convolution, les filtres (matrices de la même taille que la tuile) se déplacent horizontalement et verticalement sur la grille de la carte de caractéristiques d'entrée, un pixel à la fois, extrayant chaque tuile correspondante (voir figure 3).

Filtre convolutif (convolutional filter)

L'un des deux acteurs d'une opération convolutive. L'autre acteur est une fraction d'une matrice d'entrée. Un filtre convolutif est une matrice de même rang que la matrice d'entrée, mais de forme plus petite. Par exemple, dans le cas d'une matrice d'entrée de 28 x 28, le filtre pourrait être n'importe quelle matrice 2D de taille inférieure à 28 x 28.

Dans le machine learning, les filtres convolutifs sont généralement générés à partir de nombres aléatoires, puis le réseau "apprend" les valeurs idéales.

<figure>
<center>
<img src='https://docs.google.com/uc?export=download&id=1knpeR50esOSBKsuwJKYO0GscutWB5OlU'/>
    
<figcaption>Figure 3 : une convolution 3x3 de profondeur 1 effectuée sur une carte de caractéristiques d'entrée 5x5, également de profondeur 1. Comme il y a neuf emplacements 3x3 possibles pour extraire les tuiles de la carte de caractéristiques 5x5, cette convolution génère une carte de caractéristiques de sortie 3x3.
</figcaption></center>
</figure>

Dans la figure 3, la carte de caractéristiques de sortie (3x3) est plus petite que celle d'entrée (5x5). Pour que la carte de caractéristiques de sortie ait la même taille que celle d'entrée, vous pouvez ajouter une marge intérieure (lignes/colonnes vierges avec des valeurs nulles) de chaque côté de la carte de caractéristiques d'entrée, afin de générer une matrice 7x7 avec 5x5 emplacements possibles pour extraire une tuile 3x3.

Pour chaque paire filtre-tuile, le réseau de neurones convolutif multiplie la matrice de filtres par la matrice de tuiles au niveau des éléments, puis additionne tous les éléments de la matrice résultante pour obtenir une seule valeur. La valeur résultante de chaque paire filtre-tuile est ensuite insérée dans la matrice de caractéristique convoluée (voir les figures 4a et 4b).



<figure>
<center>
<img src='https://docs.google.com/uc?export=download&id=1g3yYQCKfHjgpCfDHGLgGnW9R3aHuBtdJ'/>
<figcaption>Figure 4a : À gauche : une carte de caractéristiques d'entrée 5x5 (profondeur 1). À droite : une convolution 3x3 (profondeur 1).
</figcaption></center>
</figure>

<figure>
<center>
<img src='https://docs.google.com/uc?export=download&id=1knpeR50esOSBKsuwJKYO0GscutWB5OlU'/>
    
<figcaption>Figure 4b. À gauche : la convolution 3x3 est appliquée à la carte de caractéristiques d'entrée 5x5. À droite : la caractéristique convoluée résultante. 
</figcaption></center>
</figure>

- Pendant l'apprentissage, le réseau de neurones convolutif "apprend" les valeurs optimales des matrices de filtre qui lui permettent d'extraire des caractéristiques significatives (textures, arêtes, formes) à partir de la carte de caractéristiques d'entrée. 
- Le nombre de caractéristiques que le réseau de neurones convolutif peut extraire augmente avec le nombre de filtres (profondeur de la carte de caractéristiques de sortie) appliqués à l'entrée. 
- Cependant, les filtres constituant la majorité des ressources déployées par le réseau de neurones convolutif, le temps d'apprentissage augmente aussi avec l'addition de filtres. 
- C'est pourquoi les ingénieurs cherchent à construire des réseaux qui utilisent le nombre minimal de filtres requis pour extraire les caractéristiques nécessaires à une classification précise des images.



### ReLU

Après chaque opération de convolution, le réseau de neurones convolutif applique une transformation ReLU (unité de rectification linéaire) à la fonction convoluée, afin d'introduire la non-linéarité dans le modèle. 

> > >  >  La fonction ReLU, $F(x)= max(0,x)$

renvoie x pour toutes les valeurs de x > 0 

et renvoie 0 pour toutes les valeurs de x ≤ 0.



### Pooling

La transformation ReLU est suivie d'une étape de pooling, dans laquelle le réseau de neurones convolutif sous-échantillonne la caractéristique convoluée (pour réduire le temps de traitement), diminuant ainsi le nombre de dimensions de la carte de caractéristiques tout en préservant les informations les plus critiques de la caractéristique. Un algorithme couramment utilisé pour ce processus est le pooling maximal.

Le pooling maximal fonctionne de la même manière que la convolution, c'est-à-dire par déplacement sur la carte de caractéristiques et extraction des tuiles d'une taille spécifiée. Pour chaque tuile, la valeur maximale est transférée vers une nouvelle carte de caractéristiques et toutes les autres valeurs sont supprimées. Le pooling maximal utilise deux paramètres :

- Taille du filtre de pooling maximal (généralement 2x2 pixels)
- Pas : distance, en pixels, séparant chaque tuile extraite. 
- Contrairement à la convolution, dans laquelle les filtres se déplacent sur la carte de caractéristiques pixel par pixel, dans le pooling maximal, le pas détermine les emplacements où chaque tuile est extraite. Dans le cas d'un filtre 2x2, un pas de 2 signifie que l'opération de pooling maximal extrait toutes les tuiles 2x2 de la carte de caractéristiques (voir la figure 5) qui ne se chevauchent pas.

<figure>
<center>
<img src='https://docs.google.com/uc?export=download&id=1AFBQ9riX-JxUP83WN1Y8CsN8Jz8tFtXe'/>
    
<figcaption>Figure 5 : À gauche : pooling maximal sur une carte de caractéristiques 4x4 avec un filtre 2x2 et un pas de 2. À droite : résultat de l'opération de pooling maximal. Notez que la carte de caractéristiques résultante est maintenant de 2x2, et ne conserve que les valeurs maximales de chaque tuile.
</figcaption></center>
</figure>

### Couches entièrement connectées (Fully Connected Layers)

- À la fin d'un réseau de neurones convolutif se trouvent une ou plusieurs couches entièrement connectées (lorsque deux couches sont "entièrement connectées", chaque nœud de la première couche est connecté à chaque nœud de la deuxième couche). Leur rôle est d'effectuer une classification basée sur les caractéristiques extraites par les convolutions. 
- Généralement, la couche entièrement connectée finale contient une fonction d'activation softmax, qui fournit une valeur de probabilité comprise entre 0 et 1 pour chacune des étiquettes de classification que le modèle tente de prédire.

<figure>
<center>
<img src='https://docs.google.com/uc?export=download&id=1zrktgyvIq2hM5BzYWTiJm4FminzQcCNx'/>
    
<figcaption>La figure 6 illustre la structure de bout en bout d'un réseau de neurones convolutif.
</figcaption></center>
</figure>

- Figure 6 : le réseau CNN représenté ici contient deux modules de convolution (convolution + ReLU + pooling) pour l'extraction de caractéristiques, et deux couches entièrement connectées pour la classification. 
- D'autres réseaux de neurones convolutifs peuvent contenir plus ou moins de modules convolutifs et de couches entièrement connectées. Les ingénieurs DL réalisent souvent des expériences pour déterminer la configuration qui produit les meilleurs résultats pour leur modèle.



---





## Exercice 1 : Construire un réseau de neurones convolutif pour la classification "chat ou chien"

Exercise 1: Building a Convnet

Dans cet exercice, vous allez faire l'expérience pratique et directe des réseaux de neurones convolutifs. Vous allez construire un classificateur d'images de A à Z permettant de distinguer les photos de chats des photos de chiens :



---


## Prévenir le surapprentissage

Surapprentissage (overfitting) :
C'est la création d'un modèle correspondant si étroitement aux données d'apprentissage qu'il ne parvient pas à effectuer des prédictions correctes avec de nouvelles données.

Comme c'est le cas pour tout modèle de machine learning, le surapprentissage constitue une préoccupation majeure lors de l'apprentissage d'un réseau de neurones convolutif. En fait, il arrive fréquemment qu'un modèle soit si bien adapté aux spécificités des données d'apprentissage que la généralisation à de nouveaux exemples est impossible. 

Deux techniques permettent de prévenir le surapprentissage lors de la construction d'un réseau de neurones convolutif :

- Augmentation des données : augmentation artificielle de la diversité et du nombre d'exemples d'apprentissage en appliquant des transformations aléatoires aux images existantes pour créer un ensemble de nouvelles variantes (voir figure 7). L'augmentation des données est particulièrement utile lorsque l'ensemble de données d'apprentissage d'origine est relativement petit.

- Régularisation par abandon : suppression aléatoire d'unités du réseau de neurones lors d'une étape de gradient d'apprentissage.

<figure>
<center>
<img src='https://docs.google.com/uc?export=download&id=1w9AXDGOZ5wpe2ZZAtJ-pVJXftuCp_k-S'/>
    
<figcaption>Figure 7 : Augmentation des données sur une seule image de chien (extraite de l'ensemble de données "Dogs vs. Cats" disponible sur Kaggle). À gauche : image de chien originale tirée de l'ensemble d'apprentissage. À droite : neuf nouvelles images générées à partir de l'image d'origine en utilisant des transformations aléatoires.

</figcaption></center>
</figure>


Le surapprentissage est surtout problématique avec les petits ensembles de données d'apprentissage. Lorsque vous travaillez avec des ensembles de données volumineux (par exemple, des millions d'images), il est inutile d'appliquer la régularisation par abandon ; la valeur d'augmentation des données est par ailleurs également réduite.

## Exercice 2 : Prévenir le surapprentissage

Exercise 2: Reducing Overfitting

Dans cet exercice, vous allez améliorer le modèle de réseau de neurones convolutif pour la classification "chat ou chien" que vous avez créé à l'exercice 1 en appliquant l'augmentation de données et la régularisation par abandon :



---



## Exploitation des modèles pré-entraînés

- L'apprentissage d'un réseau de neurones convolutif pour réaliser des tâches de classification d'images nécessite généralement une quantité considérable de données d'apprentissage, et peut prendre des jours, voire des semaines. 
- Est-il possible de tirer parti des modèles d'images existants entraînés sur des ensembles de données volumineux, tels qu'Inception, et de les adapter pour les utiliser dans vos propres tâches de classification ?

- Une technique courante pour tirer parti des modèles pré-entraînés est l'extraction de caractéristiques, c'est-à-dire la récupération des représentations intermédiaires produites par le modèle pré-entraîné, puis l'introduction de ces représentations en tant qu'entrée dans un nouveau modèle. 

- Par exemple, si vous entraînez un modèle de classification d'images pour différencier divers types de légumes, vous pouvez alimenter un modèle pré-entraîné avec des images de carottes, de céleri, etc., puis extraire les caractéristiques de la couche de convolution finale, qui capture toutes les informations que le modèle a appris concernant les attributs de niveau supérieur des images : couleur, texture, forme, etc. 

- Ensuite, lors de la construction de votre nouveau modèle de classification, vous pouvez utiliser en entrée ces caractéristiques extraites et ajouter vos couches de classification entièrement connectées par-dessus au lieu de commencer à partir des pixels bruts. Pour accroître les performances de l'extraction de caractéristiques avec un modèle pré-entraîné, on optimise souvent les paramètres de pondération appliqués aux caractéristiques extraites.

Pour une exploration plus approfondie de l'extraction de caractéristiques et de l'optimisation des paramètres lors de l'utilisation de modèles pré-entraînés, reportez-vous à l'exercice suivant.

## Exercice 3 : Extraction de caractéristiques et optimisation

Exercise 3: Feature Extraction and Fine-Tuning

Dans cet exercice, vous allez utiliser l'extraction de caractéristiques et l'optimisation pour tirer parti du modèle Inception v3 de Google et obtenir une précision encore meilleure pour le classificateur "chat ou chien" des exercices 1 et 2 :