Dans le cadre de la reconnaissance d'image, l'image est découpée en petites zones (appelées tuiles). Chaque tuile sera traitée individuellement par un neurone artificiel : il effectue une opération de filtrage en associant un poids à chaque pixel de la tuile. Tous les neurones ont les mêmes paramètres de réglage. Le fait d'avoir le même traitement (mêmes paramètres), légèrement décalé pour chaque champ récepteur, s'appelle une convolution. Cette strate de neurones avec les mêmes paramètres est appelée « noyau de convolution ».

Les pixels d'une tuile sont analysés globalement. Dans le cas d'une image en couleur, un pixel contient 3 entrées (rouge, vert et bleu), qui seront traitées globalement par chaque neurone. Donc l'image peut être considérée comme un volume, et notée par exemple 30 × 10 × 3 pour 30 pixels de largeur, 10 de hauteur et 3 de profondeur correspondant aux 3 canaux rouge, vert et bleu. De manière générale, on parlera de « volume d'entrée ».

Dans les faits, la zone analysée est légèrement plus grande que la tuile et est appelée « champ récepteur ». Les champs récepteurs se chevauchent donc, afin d'obtenir une meilleure représentation de l'image originale ainsi qu'une meilleure cohérence du traitement au fil des couches de traitement. Le chevauchement est défini par le pas (décalage entre deux champs récepteurs adjacents).

Un noyau de convolution va analyser une caractéristique de l'image d'entrée. Pour analyser plusieurs caractéristiques, on  empile des strates de noyaux de convolution indépendants, chaque strate analysant une caractéristique de l'image. L'ensemble des strates ainsi empilées forme la « couche de traitement convolutif », qu'il faut voir en fait comme un volume (souvent appelé « volume de sortie »). Le nombre de strates de traitement s'appelle la profondeur de la couche de convolution.

Une couche de convolution permet de traiter un volume d'entrée pour fournir un volume de sortie. On peut également assimiler le volume de sortie à une image intermédiaire.

Le problème est divisé en sous parties, et pour chaque partie, un «cluster» de neurones sera créer afin
d’étudier cette portion spécifique. Par exemple, pour une image en couleur, il est possible de
diviser l’image sur la largeur, la hauteur et la profondeur (les couleurs). 

Une architecture CNN est formée par un empilement de couches de traitement indépendantes :
La couche de convolution (CONV) qui traite les données d'un champ récepteur.
        La couche de convolution est le bloc de construction de base d'un CNN. Trois paramètres permettent de
        dimensionner le volume de la couche de convolution la profondeur (nombre de noyau de convolution), le pas et la marge.
La couche de pooling (POOL), qui permet de compresser l'information en réduisant la taille de
l'image intermédiaire (souvent par sous-échantillonnage).
        Un autre concept important des CNNs est le pooling, ce qui est une forme de sous-échantillonnage de
        l'image. L'image d'entrée est découpée en une série de rectangles de n pixels de côté ne se chevauchant
        pas (pooling). Chaque rectangle peut être vu comme une tuile. Le signal en sortie de tuile est défini en
        fonction des valeurs prises par les différents pixels de la tuile.
La couche de correction (ReLU), souvent appelée par abus 'ReLU' en référence à la fonction
d'activation (Unité de rectification linéaire).
        Il est possible d'améliorer l'efficacité du traitement en intercalant entre les couches de traitement une
        couche qui va opérer une fonction mathématique (fonction d'activation) sur les signaux de sortie.
La couche "entièrement connectée" (FC), qui est une couche de type perceptron.
        Après plusieurs couches de convolution et de max-pooling, le raisonnement de haut niveau dans le réseau
        neuronal se fait via des couches entièrement connectées. Les neurones dans une couche entièrement
        connectée ont des connexions vers toutes les sorties de la couche précédente. Leurs fonctions
        d'activations peuvent donc être calculées avec une multiplication matricielle suivie d'un décalage de
        polarisation
La couche de perte (LOSS).
        La couche de perte spécifie comment l'entrainement du réseau pénalise l'écart entre le signal prévu et réel. 



Pour classifier les images à partir de la bibliothèque keras
CNN1 : 
- temps de latence par epoch : 16s
- perte :  267
- precision : 0.68%

Entraînement : 


code:
CNN1 = keras.Sequential()
CNN1.add(keras.layers.Conv2D(a, kernel_size=(x,y), activation=b, strides=(c,d)))
CNN1.add(keras.layers.Flatten())
CNN1.add(keras.layers.Dense(64, activation=b))
CNN1.add(keras.layers.Dense(6, activation='softmax'))

CNN1.compile(optimizer=keras.optimizers.Adam(lr=1e-3), loss='sparse_categorical_crossentropy',metrics = 'accuracy')
CNN1.fit(x_train, y_train, epochs=10, batch_size=100)

CNN2 : 
- temps de latence par epoch : 18s
- perte : 8735
- precision : 0.40%

Entraînement : 


code:
CNN2 = keras.Sequential()
CNN2.add(keras.layers.Conv2D(a, kernel_size=(x,y), activation=b, strides=(c,d)))
CNN2.add(keras.layers.BatchNormalization())
CNN2.add(keras.layers.Flatten())
CNN2.add(keras.layers.Dense(64, activation=b))
CNN2.add(keras.layers.Dense(6, activation='softmax'))

CNN2.compile(optimizer=keras.optimizers.Adam(lr=1e-3), loss='sparse_categorical_crossentropy',metrics = 'accuracy')
 
CNN2.fit(x_train, y_train, epochs=10, batch_size=100)

CNN3 : 
- temps de latence par epoch : 18s
- perte : 349
- precision : 0.64%

Entraînement : 


code:
CNN3 = keras.Sequential()
CNN3.add(keras.layers.Conv2D(2a, kernel_size=(x,y), activation=b, strides=(c,d)))
CNN3.add(keras.layers.MaxPooling2D(2,2))
CNN3.add(keras.layers.Dropout(0.25))
CNN3.add(keras.layers.Flatten())
CNN3.add(keras.layers.Dense(64, activation=b))
CNN3.add(keras.layers.Dense(6, activation='softmax'))

CNN3.compile(optimizer=keras.optimizers.Adam(lr=1e-3), loss='sparse_categorical_crossentropy',metrics = 'accuracy')
 
CNN3.fit(x_train, y_train, epochs=10, batch_size=100)

CNN4 : 
- temps de latence par epoch : 11s
- perte : 251
- precision : 0.72%

Entraînement : 

code:
CNN4 = keras.Sequential()
CNN4.add(keras.layers.Conv2D(a, kernel_size=(x,y), activation=b, strides=(c,d)))
CNN4.add(keras.layers.MaxPooling2D(2,2))
CNN4.add(keras.layers.Conv2D(a, kernel_size=(x,y), activation=b, strides=(c,d)))
CNN4.add(keras.layers.MaxPooling2D(2,2))
CNN4.add(keras.layers.Dropout(0.25))
CNN4.add(keras.layers.Flatten())
CNN4.add(keras.layers.Dense(64, activation=b))
CNN4.add(keras.layers.Dense(6, activation='softmax'))

CNN4.compile(optimizer=keras.optimizers.Adam(lr=1e-3), loss='sparse_categorical_crossentropy',metrics = 'accuracy')
 
CNN4.fit(x_train, y_train, epochs=10, batch_size=100)