# Réseaux convolutionnels pour le traitement de l'image 


## Partie A : Prise en main des CNN, introspection

Vincent Guigue

[directement inspiré de:]
Nicolas Baskiotis (nicolas.baskiotis@soronne-univeriste.fr) Benjamin Piwowarski (benjamin.piwowarski@sorbonne-universite.fr) -- MLIA/ISIR, Sorbonne Université

Les objectifs de ce module sont :
* Prise en main des réseaux convolutionnels (CNN)
* Apprentissage d'un CNN
* Introspection d'un CNN

Nous travaillerons dans un premier temps avec les données MNIST puis avec le jeu de données CIFAR d'images de 10 classes.

In [1]:
from tqdm import tqdm
import numpy as np
import matplotlib.pyplot as plt

import torch
from torch import nn
from torch.nn import functional as F
from torch import optim
from torch.utils.data import TensorDataset, DataLoader,Dataset,random_split

import time
import os


### Prise en main du module sur un exemple jouet

In [2]:
x = torch.tensor([float(i) for i in range (25)]).view(5,5)
print(x)


tensor([[ 0.,  1.,  2.,  3.,  4.],
        [ 5.,  6.,  7.,  8.,  9.],
        [10., 11., 12., 13., 14.],
        [15., 16., 17., 18., 19.],
        [20., 21., 22., 23., 24.]])


In [3]:

conv = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=2, bias=False) # 1 seul filtre, sans biais pour bien maitriser
# note 1: normalement, on laisse TOUJOURS le biais
# initialisation à la main pour tester (la procédure normale consiste à laisser l'init aléatoire)
poids = torch.tensor([[[[1., 2.],[1., 1.]]]])
conv.weight = nn.Parameter(poids)


In [4]:


print("out :", conv(x.unsqueeze(0)))
print("filtre : ", conv.weight)

# explication de la première sortie (= 13)
print("calcul à la main: ", (x[:2,:2] * poids).sum())

out : tensor([[[ 13.,  18.,  23.,  28.],
         [ 38.,  43.,  48.,  53.],
         [ 63.,  68.,  73.,  78.],
         [ 88.,  93.,  98., 103.]]], grad_fn=<SqueezeBackward1>)
filtre :  Parameter containing:
tensor([[[[1., 2.],
          [1., 1.]]]], requires_grad=True)
calcul à la main:  tensor(13.)


[W NNPACK.cpp:64] Could not initialize NNPACK! Reason: Unsupported hardware.


In [5]:
# si on veut ajouter du padding => tout autour => une dimension de plus en sortie

conv = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=2, bias=False, padding=1, padding_mode='zeros') # 1 seul filtre, sans biais pour bien maitriser
# initialisation à la main pour tester (la procédure normale consiste à laisser l'init aléatoire)
poids = torch.tensor([[[[1., 2.],[1., 1.]]]])
conv.weight = nn.Parameter(poids)

print("out :", conv(x.unsqueeze(0))) # essayer d'enlever le unsqueeze + comprendre la logique

out : tensor([[[  0.,   1.,   3.,   5.,   7.,   4.],
         [  5.,  13.,  18.,  23.,  28.,  13.],
         [ 20.,  38.,  43.,  48.,  53.,  23.],
         [ 35.,  63.,  68.,  73.,  78.,  33.],
         [ 50.,  88.,  93.,  98., 103.,  43.],
         [ 40.,  62.,  65.,  68.,  71.,  24.]]], grad_fn=<SqueezeBackward1>)


In [6]:
# jouer avec les pas de déplacement de la fenêtre (stride = PAS)

conv = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=2, bias=False, stride = 2) # 1 seul filtre, sans biais pour bien maitriser
# initialisation à la main pour tester (la procédure normale consiste à laisser l'init aléatoire)
poids = torch.tensor([[[[1., 2.],[1., 1.]]]])
conv.weight = nn.Parameter(poids)

print("out :", conv(x.unsqueeze(0)))


out : tensor([[[13., 23.],
         [63., 73.]]], grad_fn=<SqueezeBackward1>)


In [7]:
# DILATATION - jouer avec les pas de déplacement de la fenêtre (dilation = filtre intermittent)

conv = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=2, bias=False, dilation = 2) # 1 seul filtre, sans biais pour bien maitriser
# initialisation à la main pour tester (la procédure normale consiste à laisser l'init aléatoire)
poids = torch.tensor([[[[1., 2.],[1., 1.]]]])
conv.weight = nn.Parameter(poids)

print("out :", conv(x.unsqueeze(0)))


out : tensor([[[26., 31., 36.],
         [51., 56., 61.],
         [76., 81., 86.]]], grad_fn=<SqueezeBackward1>)


## Pooling

Les couches de pooling se comportent exactement comme les couches de convolution (en terme d'entrées/sorties/dimensions)
Cependant:
- elles n'ont pas de paramètres à apprendre
- le pooling marche filtre à filtre (on ne spécifie pas `in_channel` et `out_channel`)
- leur paramétrage est souvent assez différents pour gagner de la place / introduire des invariances locales

In [None]:
maxpool = nn.MaxPool2d( kernel_size=2) 
avgpool = nn.AvgPool2d( kernel_size=2) 

print("out max :", maxpool(x.unsqueeze(0)))
print("out avg :", avgpool(x.unsqueeze(0)))


out max : tensor([[[ 6.,  8.],
         [16., 18.]]])
out avg : tensor([[[ 3.,  5.],
         [13., 15.]]])


## Mini-exos

Prédire les tailles de sorties des `y` suivants<BR>
**sans executer le code !!**

In [12]:
x = torch.tensor([float(i) for i in range (36)]).view(6,6)
net  = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=3)
nets = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=2, stride = 2)
netp = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=2, padding=1, padding_mode='zeros')
y  = net(x.unsqueeze(0))
ys = nets(x.unsqueeze(0))
yp = netp(x.unsqueeze(0))

print(y.size(), ys.size(), yp.size())

torch.Size([1, 4, 4]) torch.Size([1, 3, 3]) torch.Size([1, 7, 7])


# Construction du sujet à partir de la correction

In [8]:
###  TODO )"," TODO ",\
    txt, flags=re.DOTALL))
f2.close()

### </CORRECTION> ###