### Convolução usando Pytorch

Veremos em detalhe como realizar convolução usando Pytorch e como funciona a camada convolucional

In [27]:
import torch
from torch import nn
import torch.nn.functional as F

# Sinal
x = torch.tensor([5, 4, 8, 7, 9, 3, 6], dtype=torch.float32)
# Filtro
weight = torch.tensor([1, 2, 3], dtype=torch.float32)
# Tamanho do filtro
ks = len(weight)

# Redimensiona o sinal para o tamanho 1x1xlen(x). Ou seja, um batch contendo um único sinal, 
# e esse sinal possui um único canal
x = x.reshape(1,1,len(x))
# Redimensiona o filtro. O primeiro valor 1 possui um significado diferente do que
# no caso do sinal. Depois será explicado.
weight = weight.reshape(1,1,len(weight))
# Realiza a convolução
y = F.conv1d(x, weight)
y.shape

torch.Size([1, 1, 5])

O tamanho da entrada é 7 e da saída é 5. Isso porque o Pytorch realiza a convolução apenas nas posições que não necessitam de preenchimento de borda. Mas modificar o tamanho do resultado é indesejável. 

É muito comum realizarmos a convolução com padding para manter o tamanho do sinal:

In [28]:
# padding = ks//2 garante que a saída sempre terá o mesmo tamanho que a entrada
y = F.conv1d(x, weight, padding=ks//2)
print(y.shape)

torch.Size([1, 1, 7])


Dado o sinal [5, 4, 8, 7, 9, 3, 6] e filtro [1,2,3], nossa saída deve ser:

* y[0] = 1\*0 + 2\*5 + 3\*4 = 22
* y[1] = 1\*5 + 2\*4 + 3\*8 = 37
* ...
* y[6] = 1\*3 + 2\*6 + 3\*0 = 15

Note que a função realiza a correlação-cruzada, e não a convolução. Mas para redes neurais isso não importa.

In [29]:
print(y)

tensor([[[22., 37., 41., 49., 34., 33., 15.]]])


Em redes neurais a convolução possui o conceito de bias, que é simplesmente um valor constante que é adicionado ao resultado:

In [30]:
bias = torch.tensor([5.])
# Adiciona o valor 5 a cada elemento do resultado da convolução
y_bias = F.conv1d(x, weight, padding=ks//2, bias=bias)
print(y_bias)
print(torch.allclose(y+bias, y_bias))

tensor([[[27., 42., 46., 54., 39., 38., 20.]]])
True


### Camada de convolução

In [31]:
# A entrada terá 1 canal, queremos apenas 1 canal de saída. O tamanho do filtro é ks, o 
# padding é metade do tamanho do filtro e a camada não terá bias
conv = nn.Conv1d(in_channels=1, out_channels=1, kernel_size=ks, padding=ks//2, bias=False)
y = conv(x)
print(y)

tensor([[[1.0531, 2.2212, 2.2763, 3.0044, 2.1013, 2.3176, 0.8781]]],
       grad_fn=<ConvolutionBackward0>)


Uma camada de convolução consiste em um filtro possuindo valores aleatórios. Esse filtro possui o parâmetro requires_grad=True por padrão. Podemos alterar os valores do filtro se quisermos:

In [32]:
print(conv.weight.shape)
print(conv.weight)

with torch.no_grad():
    conv.weight[:] = weight

# Mesmo resultado que a convolução que fizemos antes:
conv(x)

torch.Size([1, 1, 3])
Parameter containing:
tensor([[[0.1241, 0.0843, 0.1579]]], requires_grad=True)


tensor([[[22., 37., 41., 49., 34., 33., 15.]]], grad_fn=<ConvolutionBackward0>)

### Relação entre convolução e combinação linear

Uma convolução nada mais é do que uma combinação linear com menos parâmetros

In [33]:
# Matriz de convolução. Cada linha representa uma posição do kernel. Por exemplo,
# a linha 0 fará a operação 2*x[0]+3*x[1]+0*x[2]+...
matrix = torch.tensor([[2, 3, 0, 0, 0, 0, 0],
                       [1, 2, 3, 0, 0, 0, 0],
                       [0, 1, 2, 3, 0, 0, 0],
                       [0, 0, 1, 2, 3, 0, 0],
                       [0, 0, 0, 1, 2, 3, 0],
                       [0, 0, 0, 0, 1, 2, 3],
                       [0, 0, 0, 0, 0, 1, 2]], dtype=torch.float32)

F.linear(x, matrix)

tensor([[[22., 37., 41., 49., 34., 33., 15.]]])

Acima temos uma matrix 7x7 que recebe 7 atributos de entrada e gera 7 atributos de saída. Mas a combinação linear dos atributos de entrada sempre envolvem apenas 3 parâmetros.

### Convolução com mais de um canal

In [34]:
# Batch contendo um sinal de tamanho 7 e com 4 canais
x = torch.rand(size=(1,4,7))
# Camada que recebe sinal com 4 canais e gera um sinal com 5 canais.
conv = nn.Conv1d(in_channels=4, out_channels=5, kernel_size=ks, padding=ks//2, bias=False)

y = conv(x)
print('x\n',x)
# Saída possui tamanho 1x5x7
print('y\n',y)

x
 tensor([[[0.2595, 0.4360, 0.9751, 0.8359, 0.4812, 0.0297, 0.5219],
         [0.1595, 0.9066, 0.1965, 0.4639, 0.3890, 0.5890, 0.9705],
         [0.5475, 0.7896, 0.8881, 0.9037, 0.3273, 0.3882, 0.7410],
         [0.3636, 0.7341, 0.3908, 0.1609, 0.7035, 0.5767, 0.7229]]])
y
 tensor([[[-0.5297, -0.6224, -0.4079, -0.3194, -0.4971, -0.7800, -0.7244],
         [-0.3391, -0.3552, -0.1326, -0.3805, -0.3794, -0.2235, -0.1674],
         [ 0.2176,  0.3570,  0.2799,  0.3593,  0.2547,  0.1111, -0.0797],
         [-0.7142, -0.7898, -0.6086, -0.7097, -0.4787, -0.7493, -0.2214],
         [-0.1135,  0.2226,  0.6901,  0.3826,  0.0328, -0.1322,  0.0821]]],
       grad_fn=<ConvolutionBackward0>)


* O **número de canais de saída** define o **número de filtros** que serão utilizados na camada de convolução. No nosso caso, temos 5 filtros
* Cada filtro possui **tamanho espacial ks**
* Cada filtro possui **profundidade 4**, pois o sinal de entrada possui 4 canais.
* Portanto, temos 5 filtros de tamanho 4 x ks cada
* Portanto, o tamanho do tensor .weight da camada de convolução possui tamanho 5 x 4 x ks

In [35]:
conv.weight.shape

torch.Size([5, 4, 3])

In [36]:
# Filtro 1 da camada
filtro1 = conv.weight[0]
# Região do sinal que corresponde quando o filtro está na posição 1
regiao = x[0,:,0:3]
# Resultado da convolução para esse ponto específico
res = (filtro1*regiao).sum()
# comparação do resultado
print(torch.allclose(y[0,0,1], res))

True


### Outros parâmetros da convolução

#### Stride
Stride define a quantidade de deslocamento do filtro para cada posição na qual a convolução será calculada

In [37]:
x = torch.tensor([5, 4, 8, 7, 9, 3, 6], dtype=torch.float32)
weight = torch.tensor([1, 2, 3], dtype=torch.float32)
x = x.reshape(1,1,len(x))
weight = weight.reshape(1,1,len(weight))

# Faz o filtro deslocar duas posições ao invés de deslocar uma posição por vez
y = F.conv1d(x, weight, stride=2)
print(y)

tensor([[[37., 49., 33.]]])


In [38]:
# O resultado de stride=2 é equivalente a indexar a saída de stride=1 pulando 2 índices
yt = F.conv1d(x, weight, stride=1)
print(torch.allclose(y, yt[0,0,::2]))

True


#### Dilatação

Dilatação consiste em aumentar o tamanho do filtro sem aumentar o número de parâmetros

In [39]:
y = F.conv1d(x, weight, dilation=2)
print(y)

tensor([[[48., 27., 44.]]])


In [41]:
# dilatação=2 é equivalente a inserir 0 entre os valores do filtro
wt = torch.tensor([1, 0, 2, 0, 3], dtype=torch.float32).reshape(1,1,-1)
yt = F.conv1d(x, wt, dilation=1)
print(torch.allclose(y, yt))

True
