In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import matplotlib.pyplot as plt
from torchvision import datasets, transforms

## Conv1d
https://pytorch.org/docs/stable/generated/torch.nn.Conv1d.html

- 入力または隠れ層$X_{i, j}^{k}$
    - 次元数4$(n,k,i,j)$
        - $n$：バッチサイズ
        - $k$：入力のチャネル数
        - $i$：入力の行数
        - $j$：入力の列数
- 畳み込みのフィルタ（重み）$W_{i,j}^{k,l}$
    - 次元数4$(l,k,i,j)$
        - $l$: 出力のチャネル数(フィルタ数)
        - $k$: 入力のチャネル数
        - $i$: フィルタの行数
        - $j$: フィルタの列数
    - ストライド：フィルタを適用する位置の間隔
    - ゼロパディング：入力の周りに値0の縁を加えます
        - 入力のサイズを保つ為、フィルタの縦or横の次元が$F$のときパディング数を$(F-1)/2$とします。
- フィルタ後のサイズは、入力の縦or横の次元数$N$、フィルタの縦or横の次元数$F$、ストライドの縦or横の量$S$で決まります。
    - $ceil((N-F+1)/S)$ (ceilは整数値に切り上げ)

https://discuss.pytorch.org/t/1d-sparse-network-using-conv1d/72748

In [34]:
input_data = torch.randn(1, 1, 20)
print(input_data)
print("INPUT", input_data.shape)
m = nn.Conv1d(1, 1, kernel_size = 3, stride= 3, padding=1, bias=False)
output = m(input_data)
print(output)
print("OUTPUT", output.shape)

tensor([[[-0.0509,  2.1726, -1.2051, -1.0499, -0.1044, -0.3736, -0.1073,
          -0.1567, -0.5029, -0.7933,  1.0682,  0.9996, -0.2055,  0.7679,
           0.5682,  1.1415, -0.1531, -1.5790,  1.3073, -0.9009]]])
INPUT torch.Size([1, 1, 20])
tensor([[[ 0.6274, -0.5733, -0.1218, -0.0586,  0.2200,  0.4856,  0.1649]]],
       grad_fn=<SqueezeBackward1>)
OUTPUT torch.Size([1, 1, 7])


In [78]:
#カーネルサイズとストライドから入出力の関係を算出
cnnInput = 256
cnnKernelSize = 7
cnnStride = 5
cnnoutput = (cnnInput - cnnKernelSize + 1)/cnnStride
cnnoutput

50.0

In [32]:
m1 = nn.Linear(6, 1)
output = m1(output)
print(output)
print("OUTPUT", output.shape)

tensor([[[0.3392]]], grad_fn=<AddBackward0>)
OUTPUT torch.Size([1, 1, 1])


- プーリングには次の種類があります。
    - Max pooling
    - Sum pooling
    - Mean pooling
    - その他Lpプーリングなど
- 畳み込みと同様、ストライドやパディングも考えることがあります。
- プーリング後のサイズは、入力の縦or横の次元数$N$、ウィンドウの縦or横の次元数$W$、ストライドの縦or横の量$S$で決まります。
    - $ceil((N-W+1)/S)$  (ceilは整数値に切り上げ)

In [79]:
# pool of size=3, stride=2
input = torch.randn(1, 1, 50)
kernel_size = 5
stride=3
padding = 0
dilation = 1
# m = nn.MaxPool1d(kernel_size, stride=stride, padding=padding, dilation=dilation, return_indices=False, ceil_mode=False)
m = nn.MaxPool1d(kernel_size, stride=stride)

out_pred = ((input.shape[2]+2*padding - dilation*(kernel_size - 1) -1)/stride) + 1

out_pred2 = ((input.shape[2] - kernel_size + 1)/stride)

output = m(input)
# print(output)
print("OUTPUT", output.shape)
print("OUTPUTpred", out_pred)
print("OUTPUTpred2", out_pred2)
# new = torch.flatten(input)
new = input.flatten(0, -1)
print(new.shape)
# new = new.unsqueeze(0)
# new = new.unsqueeze(0)
# new = new.
print(new.shape)

OUTPUT torch.Size([1, 1, 16])
OUTPUTpred 16.0
OUTPUTpred2 15.333333333333334
torch.Size([50])
torch.Size([50])


In [None]:

torch.nn.MaxPool1d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)