# Réseaux de neurones convolutifs
## Introduction
Les réseaux de neurones convolutifs, également appelés CNN (Convolutional Neural Networks) en anglais, sont une classe de réseaux de neurones artificiels qui ont été inspirés par la façon dont le cerveau traite les informations visuelles. Ces réseaux sont particulièrement efficaces pour la reconnaissance d'images, mais peuvent également être utilisés pour la reconnaissance de la parole, la classification de texte et d'autres tâches similaires.

Les premiers travaux dans ce domaine remontent aux années 1980, lorsque les chercheurs ont commencé à explorer les réseaux de neurones pour la reconnaissance de caractères manuscrits. Cependant, ces réseaux étaient relativement simples et peu profonds, et leur précision était limitée.

Au début des années 1990, **Yann LeCun** et ses collègues ont développé le **LeNet-5**, qui était un réseau de neurones convolutif plus complexe et profond. LeLeNet-5 a été utilisé pour la reconnaissance de chiffres manuscrits et a connu un grand succès, ouvrant la voie à des réseaux plus avancés pour la reconnaissance d'images.

Au cours des années suivantes, des chercheurs ont continué à améliorer les réseaux de neurones convolutifs, en explorant des techniques telles que l'utilisation de filtres plus larges, de couches de regroupement (*MaxPooling*, *AveragePooling*), et de couches de régularisation (*Dropout*). Ces techniques ont permis aux réseaux de neurones convolutifs de devenir plus profonds et plus précis.

Cependant, ce n'est que dans les années 2010 que les réseaux de neurones convolutifs ont vraiment pris leur envol, grâce à l'augmentation de la puissance de calcul et à l'abondance de données d'entraînement. En 2012, le réseau de neurones convolutif **AlexNet** a remporté le concours **ImageNet** (https://www.image-net.org/), qui était considéré comme le principal défi en reconnaissance d'images à l'époque. Depuis lors, les réseaux de neurones convolutifs ont été utilisés pour une variété de tâches, allant de la reconnaissance faciale à la conduite autonome.

Aujourd'hui, les réseaux de neurones convolutifs sont largement utilisés dans les domaines de la vision par ordinateur, de la reconnaissance de la parole, de la traduction automatique, et bien plus encore.

## La convolution

la convolution (discrète) est un moyen de faire passer un filtre (également appelé noyau ou kernel) sur le signal d'entrée en effectuant une multiplication point par point entre le filtre et une partie du signal d'entrée, puis en sommant les résultats (principe de la convolution de fonctions en mathématiques). Cette opération est effectuée à différentes positions du signal d'entrée pour produire une sortie convoluée.


### En dimension 1

Si on regarde un filtre de taille 3 avec les poids w1, w2 et w3 :
<p align="center" width="100%">
<img src=https://files.ai-pool.com/d/5UQz1zI.jpg>
</p>

On multiplie successivement chaque séquence d'ici 3 éléments d'entrée avec le filtre dont on fait la somme pour mettre sur le signal de sortie.

A remarquer ici l'ajout de 0 aux extrémités pour conserver la taille du signal. Sinon le signal aurait été de taille 6 en sortie suivant la formule **outputSize=(InputSize-KernelSize)+1**. D'une façon générale les fonctions de convolutions donne la possibilité de conserver ou pas la taille du signal.

Cette convolution peut correspondre à des opérations connues 
* [w1,w2]=[1/2,1/2] moyenne mobile sur 2 valeur
* [w1,w2]=[-1,1] dérivée (discrète) du signal (différences finies)
* [w1,w2,w3]=[1,-2,1]  dérivée seconde (discrète) du signal (différences finies)
* [w1,w2,w3]=[1/4,1/2,1/4] Filtre gaussien ou moyenne gaussienne
* etc... 

In [12]:
import numpy as np
from keras.models import Sequential
from keras.layers import Conv1D

# Créer un vecteur d'entrée aléatoire avec 10 valeurs
x = np.random.random((10, 1))

# Créer un modèle séquentiel
model = Sequential()

# Ajouter une couche de convolution 1D avec 8 filtres et une fenêtre de taille 3
model.add(Conv1D(filters=1, kernel_size=3, input_shape=(None, 1)))

# Faire une prédiction avec le modèle
y = model.predict(x.reshape(1, 10, 1))

# Afficher la forme de la sortie
print(x)
print(y)
print(y.shape)

[[0.21375505]
 [0.57626906]
 [0.76388313]
 [0.13166188]
 [0.27592543]
 [0.81902654]
 [0.04983511]
 [0.62186388]
 [0.70867088]
 [0.90780831]]
[[[-0.1788719 ]
  [-0.0051293 ]
  [-0.7386911 ]
  [-0.3663745 ]
  [ 0.3522581 ]
  [-1.0450151 ]
  [ 0.03398091]
  [-0.5240112 ]]]
(1, 8, 1)


### En dimension 2

Le principe se généralise en dimension supérieur, la filtre devient une matrice de taille nxp (3x3 sur l'illustration ci dessouse)

<p align="center" width="100%">
<img src="https://miro.medium.com/v2/resize:fit:1066/format:webp/1*un5WgQMwfLw9Pi_I4qWFqg.png">
</p>

De même qu'en 1d on peut retrouver des filtres connus en 2d
* $\left[\begin{array}{ccc}
1/4 & 1/4\\
1/4 & 1/4
\end{array}\right]$ Patch de moyenne sur 4 pixel
* $\left[\begin{array}{ccc}
-1 & 1\\
-1 & 1
\end{array}\right]$ dérivée en x
* $\left[\begin{array}{ccc}
0 & 1 & 0\\
1 & -4 & 1\\
0 & 1 &0
\end{array}\right]$ Opérateur du laplacien
* $\left[\begin{array}{ccc}
0 & 1/8 & 0\\
1/8 & 1/2 & 1/8\\
0 & 1/8 &0
\end{array}\right]$ Filtre gaussien
* etc ...

In [13]:
import numpy as np
from keras.models import Sequential
from keras.layers import Conv2D

# Créer une image d'entrée aléatoire avec 10 lignes, 10 colonnes et 1 canal
x = np.random.random((4, 4, 1))

# Créer un modèle séquentiel
model = Sequential()

# Ajouter une couche de convolution 2D avec 8 filtres, une fenêtre de taille 3x3 et une fonction d'activation ReLU
model.add(Conv2D(filters=1, kernel_size=(3, 3), activation='relu', input_shape=(None, None, 1)))

# Faire une prédiction avec le modèle
y = model.predict(x.reshape(1, 4, 4, 1))

# Afficher la forme de la sortie
print(x)
print(y)
print(y.shape)


[[[0.25883724]
  [0.71365534]
  [0.2063048 ]
  [0.5990372 ]]

 [[0.28229898]
  [0.77139276]
  [0.6513154 ]
  [0.26381664]]

 [[0.62325322]
  [0.31754893]
  [0.32703107]
  [0.91779997]]

 [[0.16236988]
  [0.50904034]
  [0.48776992]
  [0.05051329]]]
[[[[0.]
   [0.]]

  [[0.]
   [0.]]]]
(1, 2, 2, 1)


## Sous-échantillonnage par valeur maximale (max pooling) 

Cette opération à pour but de réduire la taille du signal d'entrée tout en conservant certaine caractéristiques de l'image (ou signal 1d)

<p align="center" width="100%">
<img width="50%" src="https://production-media.paperswithcode.com/methods/MaxpoolSample2.png">
</p>

## Régularisation (Dropout)

Le dropout est une technique de régularisation (ou troncature) qui est utilisée pour réduire le surapprentissage dans les réseaux de neurones. L'idée derrière le dropout est de désactiver aléatoirement un certain nombre de neurones dans une couche donnée pendant l'entraînement. Cela force le réseau à apprendre des caractéristiques plus robustes et généralisables, plutôt que de simplement mémoriser le jeu de données d'entraînement.

In [None]:
from keras.models import Sequential
from keras.layers import Dense, Dropout

# Créer un modèle séquentiel
model = Sequential()

# Ajouter une couche dense
model.add(Dense(units=64, activation='relu', input_dim=100))

# Ajouter une couche de dropout
model.add(Dropout(0.5))

# Ajouter une autre couche dense
model.add(Dense(units=10, activation='softmax'))

# Compiler le modèle
model.compile(loss='categorical_crossentropy',
              optimizer='sgd',
              metrics=['accuracy'])


# Deep Learning

L'utilisation de la convolution ainsi que du pooling, dropout permet de fabriquer des réseaux avec une capacité d'apprentissage extêment poussé. 

Voici un des premier réseau mis au point par **Yann LeCun** et son équipe pour faire un des premier réseau extrêment compétitif pour la reconnaissance de caractère manuscrits. Noté la taille ici de 32x32 pixel de l'image d'entrée (nous sommes en 1990).

<p align="center" width="100%">
<img width="90%" src="https://www.researchgate.net/profile/Pascal-Scalart/publication/317267407/figure/fig13/AS:667887685627913@1536248241501/Figure-Reseau-convolutionnel-LeNet-5-Le-nombre-de-couches-celui-des-cartes-ainsi-que.ppm">
</p>

In [18]:
from keras.models import Sequential
from keras.layers import Conv2D, AveragePooling2D, Flatten, Dense

model = Sequential()

model.add(Conv2D(filters=6, kernel_size=(3, 3), activation='relu', input_shape=(32,32,1)))
model.add(AveragePooling2D())

model.add(Conv2D(filters=16, kernel_size=(3, 3), activation='relu'))
model.add(AveragePooling2D())

model.add(Flatten())

model.add(Dense(units=120, activation='relu'))

model.add(Dense(units=84, activation='relu'))

model.add(Dense(units=10, activation = 'softmax'))

model.summary()

Model: "sequential_15"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv2d_7 (Conv2D)           (None, 30, 30, 6)         60        
                                                                 
 average_pooling2d_1 (Averag  (None, 15, 15, 6)        0         
 ePooling2D)                                                     
                                                                 
 conv2d_8 (Conv2D)           (None, 13, 13, 16)        880       
                                                                 
 average_pooling2d_2 (Averag  (None, 6, 6, 16)         0         
 ePooling2D)                                                     
                                                                 
 flatten (Flatten)           (None, 576)               0         
                                                                 
 dense (Dense)               (None, 120)             

Le principe est dans un premier temps d'encoder les images ou plus particulièrement d'en extraire les caractéristiques. En second lieu on finit par un réseau dense classique de classification.

<p align="center" width="100%">
<img width="90%" src="https://upload.wikimedia.org/wikipedia/commons/5/5b/Typical_cnn_fr.png">
</p>