<img src="https://datascientest.fr/train/assets/logo_datascientest.png" style="height:150px">

<hr style="border-width:2px;border-color:#75DFC1">
<center><h1> Introduction au Deep Learning avec Keras </h1></center>
<center><h2> Types de Couches </h2></center>
<hr style="border-width:2px;border-color:#75DFC1">

> L'objectif de ce module est de vous familiariser avec les types de couches les plus utilisés dans la construction de réseaux de neurones profonds.
>

## Rappel : Les couches *Dense*

> Les couches *Dense* ou *Fully-connected* correspondent aux couches que nous trouvons dans le modèle MLP vu dans le module théorique précédent.
>
> Chaque neurone de cette couche possède un vecteur de poids de la même taille que le vecteur qui lui est passé en entrée et un terme de biais.
>
> Les opérations effectuées par cette couche sont:
> * **Produit scalaire** entre les vecteur de poids de chaque neurone et le vecteur d'entrée **auquel on ajoute un terme de biais** spécifique à chaque neurone.
> * **Activation** des résultats des produits scalaires grâce par une fonction d'activation **non-linéaire** telle que $ReLU$, $tanh$ ou $sigmoid$. 
> * **Concaténation des activations** pour former un nouveau vecteur qui sera passé en **entrée de la couche suivante**.
>
> Dans l'animation intéractive suivante, nous avons illustré pour vous chaque étape de ces opérations:
> * La couche d'entrée contient 5 neurones, donc la taille du vecteur d'entrée et du vecteur de poids de chaque neurones de la couche dense suivante sera de 5.
> * La première couche dense contient 3 neurones, donc la taille de son vecteur de sortie sera de 3 et la taille du vecteur de poids de chaque neurone de la couche dense suivante sera de 3.
> * La deuxième couche dense contient 4 neurones, donc la taille de son vecteur de sortie sera de 4.

* Pour interagir avec la figure, cliquez sur le bouton *Next* pour aller à l'étape suivante et *Previous* pour revenir à l'étape précédente.

In [8]:
from interaction_cnn import show_dense
show_dense()

Figure(animation_duration=1000, background_style={'fill': 'white'}, fig_margin={'top': 60, 'bottom': 60, 'left…

HBox(children=(Button(description='Previous', disabled=True, style=ButtonStyle()), Button(description='Next', …

## Les couches de Convolution

> Les couches de convolution sont très utilisées pour la *classification d'images*. Avant d'aborder directement les opérations effectuées par une couche de convolution, il est important de comprendre l'opération à la base du neurone de cette couche, **le produit de convolution**.
>
> Le produit de convolution est une opération qui ressemble beaucoup au produit scalaire, sauf qu'il ne s'effectue pas sur un vecteur mais sur une matrice:
>
> D'un côté nous avons une matrice d'entrée, souvent appelée **tuile** ou ***convolution patch*** en anglais, et d'un autre nous avons une matrice de convolution, souvent appelée  **noyau de convolution**, **filtre** ou ***convolution kernel*** en anglais.
>
> Ces deux matrices **doivent absolument avoir les mêmes dimensions** pour calculer leur produit de convolution.
>
> Les étapes du produit de convolution sont les mêmes que celles du produit scalaire:
> * Produit terme à terme des deux matrices.
> * Somme des produits.
>
> Dans l'animation interactive suivante, nous illustrons le produit de convolution entre une tuile et un noyau de convolution de dimensions $3$x$3$.

* Pour interagir avec la figure, cliquez sur le bouton *Next* pour aller à l'étape suivante et *Reset* pour redémarrer l'animation.

In [2]:
from interaction_cnn import show_one_operation_conv
show_one_operation_conv()

Figure(animation_duration=1000, background_style={'fill': 'white'}, fig_margin={'top': 60, 'bottom': 60, 'left…

HBox(children=(Button(description='Reset', style=ButtonStyle()), Button(description='Next', style=ButtonStyle(…

> Une image est une matrice de pixels. Nous pouvons lui appliquer le produit de convolution.
>
> Pour effectuer cette opération sur une image entière, **il faut d'abord la découper en plusieurs tuiles de mêmes dimensions que le noyau de convolution que nous voulons utiliser.** 
>
> Ensuite, nous pouvons effectuer le produit de convolution entre chaque tuile et le noyau.
>
> Enfin, nous allons concaténer tous ces produits pour obtenir une nouvelle image dite *convolée* ou *filtrée*. Lorsque nous appliquons cette technique en *deep learning*, nous allons aussi utiliser une fonction d'activation non-linéaire pour les mêmes raisons que dans l'algorithme MLP.
>
> Dans la figure interactive suivante, nous illustrons la convolution d'une image de dimensions $4$x$4$ par un noyau de convolution de dimensions $3$x$3$:
> * Etape 1: Découpage de l'image en plusieurs tuiles convolables. Chaque tuile a une couleur différente.
> * Etape 2: Produits de convolutions entre chaque tuile et le noyau.
> * Etape 3: Activation et concaténation des produits en une nouvelle matrice.

* Executer la cellule suivante pour afficher l'interaction

In [3]:
from interaction_cnn import show_operation_conv
show_operation_conv()

Figure(animation_duration=1000, background_style={'fill': 'white'}, fig_margin={'top': 60, 'bottom': 60, 'left…

HBox(children=(Button(description='Previous', disabled=True, style=ButtonStyle()), Button(description='Next', …

> Pour quelle raison faisons-nous cette opération? Quels sont les avantages à utiliser cette technique?
>
> Comme vous allez le voir, la convolution d'une image est très facilement interprétable.
>
> Dans la figure interactive suivante, nous illustrons la convolution d'une photo du Taj-Mahal par un noyau de convolution de dimensions $3$x$3$. 
>
> La photo est en noir et blanc pour qu'elle correspondent à une matrice de pixels simple, mais l'opération peut être réalisée sur les matrices des composantes rouges, vertes et bleues d'une photo en couleur.

* Pour interagir avec cette figure, vous pouvez soit séléctionner un des noyaux de convolutions de la liste, soit modifier manuellement les coefficients du noyau.

In [4]:
from interaction_cnn import show_conv
show_conv()

HBox(children=(VBox(children=(Label(value='Convolution Kernel', layout=Layout(margin='10px')), HBox(children=(…

RadioButtons(options=('Identity', 'Contrast', 'Edge Detection', 'Vertical Edge Detection', 'Horizontal Edge De…

> La convolution d'une image peut être vue comme une extraction de features. Par exemple, les noyaux servant à détecter les bords pourraient être utiles pour classifier certaines formes géométriques.
>
> L'intêret des neurones de convolution est que par l'entraînement il pourront trouver eux mêmes les **meilleurs noyaux de convolution à utiliser pour extraire des features à partir d'une image**.

## Couches de Régularisation

> Les réseaux de neurones contiennent **énormément** de paramètres, en particulier les couches denses. C'est pour cette raison qu'**ils sont très susceptibles au surapprentissage**, c'est-à-dire qu'ils auront une très bonne performance sur l'échantillon d'entraînement, mais cette performance ne pourra pas se généraliser sur l'échantillon de test.
>
> De plus, dans certains problèmes comme la classification d'images ou de sons, le nombre de variables est tellement élevé que les données se retrouvent éparpillée dans un espace de très grande dimension. Il est alors très difficile d'entraîner un modèle sur des données ayant autant de variance. Ce problème est connu comme le **fléau** ou **la malédiction de la dimensionnalité** (*Curse of Dimensionality*).
>
> Pour cela il existe plusieurs techniques spécifiques au *deep learning* qui permettront de réduire simultanément le nombre de variables et le nombre de paramètres du modèle tout en préservant au maximum l'essentiel des caractéristiques des données et la performance du modèle.
>
> Ces techniques s'appellent des **techniques de régularisation**.
>
> Les opérations que nous verrons dans la suite sont souvent illustrées par des "couches" car elles se font sur la sortie d'une couche de neurones et le résultat sera transmis à la couche de neurones suivante.

## Couche de *Max-Pooling*

> La couche de *Max-Pooling* s'utilise lorsque les données sur lesquelles nous travaillons sont des matrices. Le concept du *max-pooling* est très simple:
> * La matrice est découpée en plusieurs petites tuiles contenant des valeurs de la matrice.
> * De chaque tuile on extrait la **valeur maximale**.
> * On recompose une matrice ne contenant que les valeurs maximales de chaque tuile.
>
> Nous avons illustré l'opération de ***max-pooling* avec une taille de tuile 2x2** dans la figure interactive suivante. La matrice contient des valeurs représentées par la couleur bleue. Plus la cellule de la matrice est claire, plus sa valeur est élevée.

* Pour interagir avec cette figure, cliquer sur le bouton *Next* pour aller à l'étape suivante et *Previous* pour aller à l'étape précédente. Le bouton *Shuffle Colors* vous permet de changer au hasard les valeurs de la matrice.

In [5]:
from interaction_cnn import show_maxpool
show_maxpool()

Figure(animation_duration=1000, background_style={'fill': 'white'}, fig_margin={'top': 60, 'bottom': 60, 'left…

HBox(children=(Button(description='Previous', disabled=True, style=ButtonStyle()), Button(description='Next', …

Button(description='Shuffle Colors', style=ButtonStyle())

## Couche de *Average-Pooling*

> Comme pour le *max-pooling*, l'*Average-Pooling* s'effectue sur des matrices. L'opération se déroule ainsi:
> * La matrice est découpée en plusieurs petites tuiles contenant des valeurs de la matrice.
> * De chaque tuile on extrait la **moyenne**.
> * On recompose une matrice ne contenant que les moyennes de chaque tuile.
>
> Comme pour la couche précédente, nous illustrons l'opération de *average-pooling* avec une taille de tuile 2x2 avec la figure interactive ci-dessous. Pour mieux illustrer le concept de moyenne, nous représentons les valeurs de la matrice par des couleurs de toutes les régions du spectre.

* Pour interagir avec cette figure, cliquer sur le bouton *Next* pour aller à l'étape suivante et *Previous* pour aller à l'étape précédente. Le bouton *Shuffle Colors* vous permet de changer au hasard les couleurs de la matrice.

In [6]:
from interaction_cnn import average_pool
average_pool()

Figure(animation_duration=1000, background_style={'fill': 'white'}, fig_margin={'top': 60, 'bottom': 60, 'left…

HBox(children=(Button(description='Previous', disabled=True, style=ButtonStyle()), Button(description='Next', …

Button(description='Shuffle Colors', style=ButtonStyle())

## Couche de *Dropout*

> La technique du *Dropout* (ou Abandon en français) consiste à couper certaines connections entre neurones de couches consécutives. Cette technique réduit considérablement la quantité de paramètres à entraîner et permet de "renforcer" les liens entre neurones consécutifs
>
> La quantité de connections conservées dépend d'un paramètre **p** qui définit la **proportions de connections à être gardées**. Chaque couche de *dropout* d'un modèle est définie par ce paramètre.
>
> Dans la figure interactive suivante, nous illustrons deux couches de dropout entre 3 couches denses. La première va garder 4/5 des connections tandis que la deuxième va en garder 2/3.

* Pour interagir avec cette figure, cliquer sur le bouton *Next* pour aller à l'étape suivante et *Previous* pour aller à l'étape précédente.

In [7]:
from interaction_cnn import show_dropout
show_dropout()

Figure(animation_duration=1000, background_style={'fill': 'white'}, fig_margin={'top': 60, 'bottom': 60, 'left…

HBox(children=(Button(description='Previous', disabled=True, style=ButtonStyle()), Button(description='Next', …

> Merci d'avoir suivi cet exercice introductif sur les différents types de couches utilisées dans le *deep learning*!
>
> Dans le prochain exercice, nous verrons comment créer et entraîner un réseau convolutionnel sur le problème de classification des chiffres manuscrits avec la package **keras**.