# Les réseaux de Convolution

Les réseaux de convolution ont été introduits dès la fin des années avec les travaux de Yann LeCun. 
Ces derniers sont destinés au traitement de l'information organisé sous une forme de tableau 2D. Cette topologie regroupe aussi bien les images que les séries temporelles.

Dans cette partie, nous rappellerons tout d'abord la définition mathématique de l'opération de convolution. Nous expliciterons ensuite l'analogie entre la convolution mathématique et la convolution des réseaux neuronaux. Nous présentenrons alors les spécificités et le formalisme de cette approche.

## L'opération de convolution

L'opération de convolution est une opération bien connue de la science du traitement du signal. Elle est notamment très utilisé dans les problèmes de détection.
On peut en effet montrer que le meilleur moyen de détecter une onde passée à un travers un milieu et de rechercher la même onde.

Mathématiquement, l'opération s'écrit comme suit :
$$ s(t) = \int x(a)\omega(t-a)da $$ 

Forme qu'on abrège le plus souvent par : 
$$ s(t) = (x*\omega)(t) $$

Dans l'ensemble de nos applications, nous travaillons dans le domaine discret, il convient donc d'adopter la notation :
    $$ s(t) = \sum_{a=-8}^{8}x(a)\omega(t-a)   $$

De plus, dans nous travaillerons sur des images, soit des données 2D. 
Il convient alors de préciser l'écriture précédente :

$$ S(i,j) = (I*K)(i,j) = \sum_{m} \sum_{n} I(m,n)K(i-m,j-n) $$ 


avec:
- $I$ l'entrée
- $K$ le kernel

Enfin, on peut remarquer que l'inversion réalisée par la convolution n'est utile que pour garantir la commutativité de l'opération. Or, en pratique, cette propriété n'est pas utile en Apprentissage Machine.
Par conséquent, un certain nombre de librairies ont plutôt implémenté la *cross-correlation* qui n'inverse pas le kernel. 

## Quelles motivations pour les réseaux de convolution ?

Le succès des réseaux de convolution s'explique par trois propriétés particulières.

### Sparse Interactions

Dans une couche d'un réseau de neurones traditionnels, toutes les unités de l'*input* sont prises en compte pour calculer l'*output*. C'est pourquoi on parle de connexions denses.

Dans les réseaux de convolution, la situation est différente. L'idée est ici d'utiliser des *kernels* plus petits que l'*input*. Ces derniers seront consacrés à des tâches bien particulières; ne nécessitant qu'une information locale. Ainsi, même si l'on s'intéresse à une image composée de millons de pixels, il pourrait être pertinent d'utiliser des kernels que de quelques dizaines ou centaines de pixels de bord pour détecter les bordures.

Cette modélisation s'appuie donc sur la nature locale des informations contenues dans une image. Pour reconnaitre une roue, il n'y a toujours besoin de reconnaitre d'abord la voiture.
Ce choix permet d'effectuer des gains significatifs sur la mémoire utilisée et sur le nombre de calcul réalisé.

### Parameter sharing

La notion de partage de paramètres définit la manière dont les paramètres vont être appris. Dans un réseau classique, chaque paramètre est calculé exactement une seule fois : lorsque un neurone particulier considère une entrée particulière. 
Désormais, avec le *paramater sharing*, les paramètres sont partagés entre les différents neurones. 

Ainsi, dans une couche consacrée à la détection des bords, deux neurones successifs appliqueront les mêmes paramètres à leurs entrées respectives. Ils sont destinés à détecter des bords, il est donc naturel qu'ils opérent les mêmes opérations sur leurs entrées.

Ce partage permet une économie très importante des puissances de calcul.

L'un des avantages du parameter sharing est qu'il rend le réseau insensible aux translations dans l'espace.

## Pooling