Pooling é o processo de diminuir o tamanho de uma imagem, importante para

1. Reduzir custo computacional de processar imagens muito grandes
2. Capturar características de uma imagem em múltiplas escalas
3. Na classificação, deseja-se que a saída de uma rede seja um único valor, o que é feito aos poucos reduzindo o tamanho da imagem

In [1]:
import torch
from torch import nn # blocos basicos de construcao de grafos, como camadas lineares
import torch.nn.functional as F # colecao de funcoes para construir redes neurais

In [6]:
# 1 batch de uma imagem 16x16 com um unico canal
x = torch.arange(0, 16).float().reshape(1, 1, 4, 4)

# operacao funciona com divisao em janelas 2x2 (kernel_size) na matriz x e pega-se o maior valor em cada
# janela (9 janelas no total, gerando 9 escolhas e por isso matriz 3x3)
y = F.max_pool2d(x, kernel_size=2, stride=1)
x, y

(tensor([[[[ 0.,  1.,  2.,  3.],
           [ 4.,  5.,  6.,  7.],
           [ 8.,  9., 10., 11.],
           [12., 13., 14., 15.]]]]),
 tensor([[[[ 5.,  6.,  7.],
           [ 9., 10., 11.],
           [13., 14., 15.]]]]))

In [4]:
# por padrao o stride = kernel_size, o que diminuiria imagem pela metade
y = F.max_pool2d(x, kernel_size=2)

y

tensor([[[[ 5.,  7.],
          [13., 15.]]]])

In [7]:
# outra operacao eh pegar media da janela ao inves do maior valor possivel
y = F.avg_pool2d(x, kernel_size=2)

y

tensor([[[[ 2.5000,  4.5000],
          [10.5000, 12.5000]]]])

In [8]:
# A operação acima é equivalente a convoluir a imagem com o seguinte filtro de média:
w = torch.tensor([[1,1],[1,1]])/4
w = w.reshape(1,1,2,2)

y = F.conv2d(x, w, stride=2)
print(y)

tensor([[[[ 2.5000,  4.5000],
          [10.5000, 12.5000]]]])


In [9]:
# padding adaptativo: permite fixar tamanho da saida para que o kernel_size, padding e stride se adaptem
# de forma que a saida tenha o tamanho passado

F.adaptive_avg_pool2d(x, output_size=(3, 3))

tensor([[[[ 2.5000,  3.5000,  4.5000],
          [ 6.5000,  7.5000,  8.5000],
          [10.5000, 11.5000, 12.5000]]]])

In [13]:
# camadas de pooling: funcoes acima sao implementadas como camadas

pool1 = nn.MaxPool2d(kernel_size=2)
pool2 = nn.MaxPool2d(kernel_size=2)
pool3 = nn.AdaptiveAvgPool2d(output_size=(5,5))

x = torch.rand((1, 3, 224, 224))
y1 = pool1(x)
y2 = pool2(y1)
y3 = pool3(y2)


y1.shape, y2.shape, y3.shape

# camadas de pool nao tem parametros treinaveis que podem ser otimizados durante treinamento

(torch.Size([1, 3, 112, 112]),
 torch.Size([1, 3, 56, 56]),
 torch.Size([1, 3, 5, 5]))