# Redes residuais

Implementaremos uma **família** de arquiteturas de CNNs que proporcionam resultados estado-da-arte para classificação de imagens. Esses modelos são a atual referência em tarefas de classificação. Eles também são utilizados em tarefas de detecção de objetos, segmentação e diversas outras tarefas de visão computacional.

Artigo de referência:\
[Deep Residual Learning for Image Recognition](https://arxiv.org/abs/1512.03385)

Veja a seção *Arquiteturas de CNNs* das notas de aula para uma descrição sobre blocos residuais.

### Implementação básica de um bloco residual

In [1]:
import torch
from torch import nn

class ResidualBlock(nn.Module):

    def __init__(self, channels):
        super().__init__()

        self.conv1 = nn.Conv2d(channels, channels, 3, padding=1)
        self.bn1 = nn.BatchNorm2d(channels)
        self.relu1 = nn.ReLU()
        self.conv2 = nn.Conv2d(channels, channels, 3, padding=1)
        self.bn2 = nn.BatchNorm2d(channels)
        self.relu2 = nn.ReLU()

    def forward(self, x):

        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu1(out)

        out = self.conv2(out)
        out = self.bn2(out)

        # Caminho residual
        out += x
        out = self.relu2(out)

        return out
    
rb = ResidualBlock(channels=3)
x = torch.rand(8, 3, 28, 28)
rb(x).shape

torch.Size([8, 3, 28, 28])

### Implementação geral

A camada residual que implementamos possui uma importante limitação. Ela não permite alterar o número de canais ou o tamanho da saída. Faremos uma implementação mais geral que permite isso.

In [2]:
import torch
from torch import nn

class ResidualBlock(nn.Module):

    def __init__(self, in_channels, out_channels, stride=1):
        super().__init__()

        # Se o número de canais de entrada for diferente do número de canais de saída,
        # ou o tamanho espacial da entrada for diferente da saída, não será possível
        # realizar a soma "out += x" no método forward, pois out e x terão tamanhos
        # distintos. Nesse caso, a estratégia usual é criar uma camada de convolução
        # com kernel de tamanho 1x1 que ajusta o número de canais e o tamanho da saída
        # do atalho.
        if in_channels != out_channels or stride != 1:
            adjust_shortcut = nn.Sequential(
                nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride),
                nn.BatchNorm2d(out_channels),
            )
        else:
            adjust_shortcut = None

        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.relu1 = nn.ReLU()
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1)
        self.bn2 = nn.BatchNorm2d(out_channels)
        self.relu2 = nn.ReLU()
        self.adjust_shortcut = adjust_shortcut

    def forward(self, x):

        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu1(out)

        out = self.conv2(out)
        out = self.bn2(out)

        if self.adjust_shortcut is None:
            x_adj = x
        else:
            # Ajusta o número de canais e tamanho do caminho residual
            x_adj = self.adjust_shortcut(x)

        out += x_adj
        out = self.relu2(out)

        return out
    
rb = ResidualBlock(3, 16)
x = torch.rand(8, 3, 28, 28)
rb(x).shape

torch.Size([8, 16, 28, 28])

### Arquitetura ResNet

Podemos agora implementar a arquitetura ResNet, uma das arquiteturas mais utilizadas em CNNs. A implementação que faremos é inspirada na implementação do Pytorch.

In [3]:
class ResNet(nn.Module):

    def __init__(self, layers, num_classes, in_channels):
        """Rede neural residual.

        Args:
            layers (list): Lista de inteiros contendo o número de camadas em cada
            estágio da rede. 
            num_classes (int): Número de classes para a última camada linear.
            in_channels (int): Número de canais das imagens nas quais a rede
            será aplicada.
        """
        super().__init__()

        # Primeira camada
        self.conv = nn.Conv2d(in_channels, 64, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn = nn.BatchNorm2d(64)
        self.relu = nn.ReLU()
        # Pooling inicial para reduzir a resolução
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        # 4 estágios da ResNet. O primeiro não envolve mudança de canal nem de resolução
        # Os demais dobram o número de canais e reduzem a resolução pela metade
        self.stage1 = self.make_stage(64, 64, layers[0])
        self.stage2 = self.make_stage(64, 128, layers[1], stride=2)
        self.stage3 = self.make_stage(128, 256, layers[2], stride=2)
        self.stage4 = self.make_stage(256, 512, layers[3], stride=2)
        # Fixa a saída em um tensor de tamanho bs x 512 x 1 x 1
        self.avgpool = nn.AdaptiveAvgPool2d(1)
        # Camada de classificação
        self.fc = nn.Linear(512, num_classes)

    def make_stage(self, in_channels, out_channels, num_blocks, stride=1):
        """Cria um estágio da ResNet. Um estágio consiste em uma redução na
        resolução das ativações (pooling) seguida de camadas de convolução.

        Args:
            in_channels (int): Número de canais de entrada
            out_channels (int): Número de canais de saída
            num_blocks (int): Número de blocos residuais do estágio
            stride (int): Stride da primeira convolução do bloco residual. 
            Quando este parâmetro for 2, a saída do estágio terá metade do
            tamanho espacial da entrada.
        """
        layers = []
        # O primeiro bloco residual muda o número de canais e resolução
        layers.append(ResidualBlock(in_channels, out_channels, stride))
        # Os demais blocos apenas fazem a convolução
        for i in range(1, num_blocks):
            layers.append(ResidualBlock(out_channels, out_channels))

        return nn.Sequential(*layers)

    def forward(self, x):
        x = self.conv(x)
        x = self.bn(x)
        x = self.relu(x)
        x = self.maxpool(x)

        x = self.stage1(x)
        x = self.stage2(x)
        x = self.stage3(x)
        x = self.stage4(x)

        x = self.avgpool(x)
        # Mesmo que x.reshape(x.shape[0], -1)
        x = x.flatten(1)
        x = self.fc(x)

        return x

def resnet18(num_classes, in_channels):
     '''O nome resnet18 significa que a rede possui 18 camadas com 
     parâmetros (17 convolucionais + 1 camada linear final).'''
     return ResNet(layers=[2, 2, 2, 2], num_classes=num_classes, in_channels=in_channels)

model = resnet18(10, 1)
x = torch.rand(8,1,28,28)
y = model(x)

Outros modelos da família ResNet:

In [4]:
def resnet34(num_classes, in_channels):
     '''34 camadas'''
     return ResNet(layers=[3, 4, 6, 3], num_classes=num_classes, in_channels=in_channels)

def resnet50(num_classes, in_channels):
     '''50 camadas'''
     return ResNet(layers=[3, 4, 6, 3], num_classes=num_classes, in_channels=in_channels)

def resnet101(num_classes, in_channels):
     '''101 camadas'''
     return ResNet(layers=[3, 4, 23, 3], num_classes=num_classes, in_channels=in_channels)

def resnet152(num_classes, in_channels):
     '''152 camadas'''
     return ResNet(layers=[3, 8, 36, 3], num_classes=num_classes, in_channels=in_channels)

Nota: A implementação real do Pytorch usa um bloco residual um pouco diferente para as resnets 50, 101 e 152

#### Modelos ResNet do Pytorch

In [5]:
from torchvision import models

model = models.resnet18()
print(model)

ResNet(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (relu): ReLU(inplace=True)
  (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
    (1): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
  

**Nota: Nos modelos do Pytorch, os atributos que chamamos de .stage1, .stage2, .stage3, .stage4 são chamados de .layer1, .layer2, .layer3 e .layer4**

Vamos contar quantas camadas estão presentes nos modelos do Pytorch:

In [6]:
def model_stats(model):
    '''Retorna o número de camadas e o número de parâmetros (em milhões) do modelo.'''

    layers = 0  # Número de camadas
    for name, module in model.named_modules():
        # Downsample é o nome do caminho residual usado pelo Pytorch. Removemos
        # ele para não contar duas vezes a mesma camada.
        if isinstance(module, nn.Conv2d) and 'downsample' not in name:
            layers += 1
    # Camada linear final
    layers += 1

    params = 0   # Número de parâmetros
    for param in model.parameters():
        params += param.numel()

    return layers, params/1e6

print(model_stats(models.resnet18()))
print(model_stats(models.resnet34()))
print(model_stats(models.resnet50()))
print(model_stats(models.resnet101()))
print(model_stats(models.resnet152()))

(18, 11.689512)
(34, 21.797672)
(50, 25.557032)
(101, 44.54916)
(152, 60.192808)


#### Modificação de modelos Pytorch

Os modelos disponíveis no Pytorch são implementados para o dataset ImageNet. Portanto cada modelo possui como saída 1000 valores, que é o número de classes do ImageNet. Mas é possível facilmente modificar os modelos para outras tarefas

In [7]:
model = models.resnet18()
# Se imprimirmos o modelo com print(model), veremos que a última camada é 
# chamada `fc`, ela recebe 512 valores e retorna 1000 valores
model.fc

Linear(in_features=512, out_features=1000, bias=True)

In [8]:
# Podemos modificar a última camada para utilizar o modelo em, por exemplo, um
# problema de classificação de 2 classes. Para isso, criamos uma nova camada que
# recebe como entrada o mesmo número de atributos que o modelo padrão, mas possui
# como saída 2 valores.
model.fc = nn.Linear(model.fc.in_features, 2)