# Introduction aux ResNets

![Deeper](https://raw.githubusercontent.com/Automatants/projets-de-permanence/master/image-hosting/resnet/deeper.jpg)

En 2012, les chercheurs ont pu montrer l'efficacité des CNN traditionels (couche de convolution suivie d'une fonction d'activation et d'une operation de pooling) pour classifier des images. 
Vous avez pu constaté la puissance des CNN grâce à nos TPs. Les performances sont nettement améliorées par rapport à des réseaux classiques.


Une grande partie du succès des Réseaux de Neurones Profonds a été attribuée à ces couches supplémentaires. L'intuition derrière leur fonction est que ces couches apprennent progressivement des caractéristiques de plus en plus complexes. La première couche apprend les bords, la deuxième couche apprend les formes, la troisième couche apprend les objets, la quatrième couche apprend les yeux, et ainsi de suite. 

Ainsi la phrase, "We need to go deeper" est apparue. L'idée c'était qu'en créant des réseaux de plus en plus profonds en arriverait à apprendre des fonctions de plus en plus complexes. Malheuresement, ça n'a pas marché. 

<img src="https://raw.githubusercontent.com/Automatants/projets-de-permanence/master/image-hosting/resnet/layers.png" alt="Skip Connection" />


Un des problèmes que les réseaux trop profonds doivent faire face sont les vanishing/exploding gradients : 

Le problème du vanishing gradient se produit lors de la backpropagation des gradients lors de l'apprentissage de réseaux de neurones à de nombreuses couches. En effet, lorsque nous utilisons le fonction d'activation de type sigmoid ou tanh, on peut arriver à des situations où les gradients sont beaucoup trop faibles. Puisque les calculs pour la mise à jour des poids se fait à l'aide de la règle de la chaîne, l'apparition d'un 0 sur une des dérivées résulte à des zeros partout. 

![image.png](https://github.com/Automatants/projets-de-permanence/blob/master/image-hosting/resnet/gradients.webp)

Vous pouvez voir ici que la dérivée de la sigmoid est très souvent proche de zero.
<img src="https://raw.githubusercontent.com/Automatants/projets-de-permanence/master/image-hosting/resnet/sigmoid.webp" alt="Skip Connection" />

## Introduction

### Exercice 1 
Utilisez des réseaux CNN pour classifier les images de CIFAR10. Essayez de regarder vos performances en fonction de la profondeur, i.e. le nombre des couches de votre réseau.

In [5]:
import torch
import torchvision
import torchvision.transforms as transforms

transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

batch_size = 4

trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
                                        download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size,
                                          shuffle=True, num_workers=2)

testset = torchvision.datasets.CIFAR10(root='./data', train=False,
                                       download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=batch_size,
                                         shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat',
           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to ./data\cifar-10-python.tar.gz


100.0%


Extracting ./data\cifar-10-python.tar.gz to ./data
Files already downloaded and verified


In [None]:
## Your code goes here ##

class Network(nn.Module):
    def __init__(self):
        super(Network, self).__init__()
        ....
        pass
    def forward(self, x):
        ........
        pass

net = Network()
optimizer = ...
criterion = ...

for epoch in range(...):  # loop over the dataset multiple times
    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        inputs, labels = data

        optimizer.zero_grad()

        outputs = ....
        loss = ....
        ....
        .....
        

        running_loss += loss.item()
        if i % 2000 == 1999:    # print every 2000 mini-batches
            print('[%d, %5d] loss: %.3f' %
                  (epoch + 1, i + 1, running_loss / 2000))
            running_loss = 0.0

print('Finished Training')
# Test the network on the test data
correct = 0
total = 0
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = ...
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' % ( 100 * correct / total))s

## Architecture ResNet

<img src="https://raw.githubusercontent.com/Automatants/projets-de-permanence/master/image-hosting/resnet/skip.png" alt="Skip Connection" />

L'image ci-dessus est l'élément le plus important à retenir . Pour les développeurs qui souhaitent le mettre en œuvre rapidement et le tester, la modification la plus importante à comprendre est la "connexion de saut" ou la "mise en correspondance d'identité". Cette mise en correspondance d'identité n'a pas de paramètres et sert simplement à ajouter la sortie de la couche précédente à la couche suivante. Cependant, parfois, x et F(x) n'auront pas la même dimension. Rappelons qu'une opération de convolution réduit généralement la résolution spatiale d'une image, par exemple, une convolution 3x3 sur une image de 32 x 32 donne une image de 30 x 30. La mise en correspondance d'identité est multipliée par une projection linéaire W pour étendre les canaux du raccourci afin de les faire correspondre au résidu. Cela permet d'associer l'entrée x et F(x) en tant qu'entrée pour la couche suivante.

Il est temps de tout mettre en application et créer notre ResNet. On va s'inspirer du ResNet 18 mais en plus simple et plus petit pour qu'on puisse entrainer. 

In [1]:
# Implementer ResNet et entrainer le sur CIFAR10

#Structure à suivre
### Premier bloc
# Convolution 3x3, 16, padding 1, stride 1
# BatchNorm
# ReLU
### Deuxième bloc
# Convolution 3x3, 16, padding 1, stride 1
# BatchNorm
# ReLU
## Skip connection avec le debut du deuxième bloc
### Troisième bloc
# Convolution 3x3, 32, padding 1, stride 2
# BatchNorm
# ReLU
## Skip connection avec le début du troisième bloc
# MaxPool 2x2
# Flatten
# Fully connected 32 *8 * 8 -> 10



In [15]:
## Your code goes here ##