https://pyimagesearch.com/2021/07/19/pytorch-training-your-first-convolutional-neural-network-cnn/

In [6]:
from IPython.display import clear_output

!pip install torch torchvision
!pip install opencv-contrib-python
!pip install scikit-learn
clear_output()

In [8]:
# import the necessary packages
from torch.nn import Module
from torch.nn import Conv2d
from torch.nn import Linear
from torch.nn import MaxPool2d
from torch.nn import ReLU
from torch.nn import LogSoftmax
from torch import flatten

Module: Ao invés de usar Sequential, utilizaremos uma subclasse de Module para  
mostrar como funciona a implementação de NNs com classes

Conv2D: implementação do PyTorch das camadas convolucionais

Linear: camadas fully connected

MaxPool2D: Redução de dimensão espacial com max-pooling

ReLU: Função de ativação ReLU

In [10]:
class LeNet(Module):
    def __init__(self, numChannels, classes):
        super(LeNet, self).__init__()

        # Primeiro conjunto de camadas
        # CONV => RELU => POOL
        self.conv1 = Conv2d(in_channels=numChannels, out_channels=20, kernel_size=(5, 5))
        self.relu1 = ReLU()
        self.maxpool1 = MaxPool2d(kernel_size=(2, 2), stride=(2, 2))

        # Segundo conjunto de camadas
        # CONV => RELU => POOL
        self.conv2 = Conv2d(in_channels=20, out_channels=50, kernel_size=(5, 5)) # pq 50 out channels?
        self.relu2 = ReLU()
        self.maxpool2 = MaxPool2d(kernel_size=(2, 2), stride=(2, 2))

        # Camadas FC => RELU
        self.fc1 = Linear(in_features=800, out_features=500) # por que esses valores? Qual o cálculo?
        self.relu3 = ReLU()

        # classificador softmax
        self.fc2 = Linear(in_features=500, out_features=classes)
        self.logSoftmax = LogSoftmax(dim=1)

```py
def __init__(self, numChannels, classes):
```
`numChannels`: Número de canais nas imagens de entrada (1 para cinza ou 3 para RGB)  
`classes`: Número de labels únicos no dataset

```py
self.conv1 = Conv2d(in_channels=numChannels, out_channels=20, kernel_size=(5, 5))
self.relu1 = ReLU()
self.maxpool1 = MaxPool2d(kernel_size=(2, 2), stride=(2, 2))
```  
Inicializa o primeiro conjunto de camadas `CONV => RELU => POOL`  
- A primeira camada CONV aprende um total de 20 filtros, cada um de dimensão 5x5  
- A função de ativação ReLU é aplicada
- Seguido por uma camada 2x2 de max-pooling com 2x2 de stride  
para reduzir as dimensões espaciais da imagem de entrada


```py
self.conv2 = Conv2d(in_channels=20, out_channels=50, kernel_size=(5, 5))
self.relu2 = ReLU()
self.maxpool2 = MaxPool2d(kernel_size=(2, 2), stride=(2, 2))
```

Inicializa o segundo conjunto de camadas `CONV => RELU => POOL`
- Acrescenta o número de filtros aprendidos na camada CONV para 50 (arbitrário), mantendo a dimensão 5x5
- Aplica novamente a função de ativação ReLU
- Seguido por max pooling e stride 2x2

```py
self.fc1 = Linear(in_features=800, out_features=500) # por que esses valores? Qual o cálculo?
self.relu3 = ReLU()
```

Inicializa o conjunto de camada fully connected seguido da função de ativação ReLU
- Em `in_features`, o valor é determinado pela dimensionalidade do tensor de saída  
da última camada convolucional (após as operações de pooling).  
Como será utilizado imagens de entrada 28x28 (do MNIST), o cálculo é feito da forma:
    - Após a primeira convolução (kernel 5x5 sem padding), a dimensão passa de 28 para 24  
    $(28 - 5 + 1 = 24)$
    - Após o primeiro max pooling com kernel 2x2, a dimensão se reduz para 12 $(24/2)$
    - Na segunda convolução (kernel 5x5), a dimensão passa de 12 para 8 $(12 - 5 + 1 = 8)$
    - Após o segundo max pooling (2x2), a dimensão se reduz para 4 $(8/2)$
    - Se a segunda camada convolucional gera 50 mapas de ativação (filtros), o tamanho total  
    será: $50 \text{ (canais)} * 4 \text{ (altura)} * 4 \text{ (largura)} = 800$
- Em `out_features`, o valor é escolhido como parte do design da arquitetura da rede 

```py
self.fc2 = Linear(in_features=500, out_features=classes)
self.logSoftmax = LogSoftmax(dim=1)
```

Última camada que fará a classificação
- Classificador fully connected com função de ativação Softmax
- `in_features` é igual a `500` pois é a saída da camada anterior

In [11]:
class LeNet(Module):
    def forward(self):
        pass

In [16]:
LeNet.compile.__annotations__

{}