# TD2 classification d'image: des convolutions !

Dans ce TD nous allons voir comment l'image perçue évolue au fil des opérations effectuées par VGG. 

In [2]:
# Commençon par importer pytorch
import torch
import torchvision

## Revenons à nos convolutions

Lors du premier TD nous avons défini des conviolutions de la manière suivante:

In [None]:
convolution = torch.nn.Conv2d(1,  # Nombre de canaux dans l'image d'entrée
                              1,  # Nombre de canaux dans l'image de sortie
                              3,  # Taille du noyau de comvolution
                             padding=1)

Pour définir une convolution il faut au moins 3 paramètres:
- C_in : le nombres de canaux dans l'image d'entrée
- C_out : le nombres de canaux dans l'image de sortie
- kernel_size : la taille du noyau de convolution

En plus de ça il est possible de donner des paramètres optionels:
- padding : le nombre de zéros à ajouter au bord de l'image lors de la convolution. Par défaut, la valeur du padding vaut 0
- stride : pas à faire lors de la convolution

Voici une très bonne animation produite par Vincent Dumoulin et Francesco Visin (https://github.com/vdumoulin/conv_arithmetic/blob/master/README.md), qui illustre comment ces deux concepts fonctionnent:

<table style="width:100%; table-layout:fixed;">
  <tr>
    <td><img width="150px" src="no_padding_no_strides.gif"></td>
    <td><img width="150px" src="arbitrary_padding_no_strides.gif"></td>
    <td><img width="150px" src="no_padding_strides.gif"></td>
    <td><img width="150px" src="padding_strides.gif"></td>
  </tr>
  <tr>
    <td>padding =0 , stride=1</td>
    <td>padding =2, stride=1</td>
    <td>padding =0, stride=2</td>
    <td>padding =1, stride=2</td>
  </tr>
</table>

Lorsque vous construisez une convolution, ses paramètres sont initialisés de manière aléatoire. Nous ne nous *préoccuperons pas* de savoir comment chercher les bons paramètres d'une convolution: ce sera pour le TD3.

## Exercice 1 :
Définisser une convolution conv1 qui prend une image d'entrée avec 12 canaux, ressort une image avec 30 canaux et a un noyau de taille 7.

In [None]:
conv1 = # Votre code ici

Votre convolution a deux matrices de paramètres: weight and bias. Jettons un oeil à leur contenu:

In [5]:
print(conv1.weight)

Parameter containing:
tensor([[[[ 5.5212e-03,  1.6804e-02, -2.5044e-02,  ...,  1.7759e-02,
            3.1958e-02, -8.6811e-03],
          [ 2.1900e-02,  2.3289e-02, -7.7608e-03,  ...,  4.6878e-03,
           -1.1531e-02, -2.4074e-03],
          [ 2.1037e-02, -3.6825e-02,  2.4570e-02,  ...,  3.8701e-02,
           -3.7404e-02, -2.2118e-02],
          ...,
          [-1.3274e-02, -8.7919e-03, -5.2496e-03,  ..., -1.2856e-02,
            2.2780e-02, -6.2475e-03],
          [-3.7739e-02, -2.1299e-02, -2.5778e-02,  ..., -5.8405e-03,
           -3.7257e-02,  3.0244e-02],
          [-1.4987e-02, -5.8997e-03, -2.6106e-02,  ..., -2.8107e-02,
           -3.6302e-02,  3.9687e-02]],

         [[ 3.2127e-02,  4.8353e-03, -2.7157e-02,  ..., -5.9461e-03,
            2.9545e-02,  1.9332e-03],
          [-3.7609e-02,  5.3692e-03,  1.7321e-02,  ...,  2.1841e-04,
           -2.1812e-02,  1.6757e-02],
          [-9.5181e-03, -2.7941e-02, -1.4736e-02,  ...,  4.1108e-02,
            1.4199e-02,  1.6852e-02]

In [None]:
print(conv1.bias)

In [6]:
print(conv1.weight.size())
print(conv1.bias.size())

torch.Size([30, 12, 7, 7])
torch.Size([30])


weight est le facteur multiplicatif de la convolution tandis que bias est le biais ajouté au résultat du produit. En d'autres termes, si I est un batch au format $(N, C_{in}, H, L) alors

\begin{equation*}
conv1(I)[n, c] = bias(c) = \sum_{c=0}^{C_{in}} 
\end{equation*}

Nous allons à présent définir un tensor I.

In [6]:
I = torch.randn(5, 12, 224, 224)

En considérant que nous travaillons toujours au format N x C x H x L. Combien d'images y-a-t-il dans le batch I ? Quel est le nombre de canaux pour chaque image ?

Appliquez conv1 à I. Que remarquez vous sur la taille de l'image de sortie ?

In [8]:
conv1 = torch.nn.Conv2d(12, 30, 7)
output = conv1(I)
print(output.size())

torch.Size([5, 30, 218, 218])


Modifiez la valeur du padding de conv1 de maniere à ce que l'image de sortie ait les mêmes valeurs L, H que l'image d'entrée.