In [None]:
# #colabを使う方はこちらを使用ください。
# !pip install torch==1.5.0
# !pip install torchvision==0.6.0
# !pip install torchtext==0.3.1
# !pip install numpy==1.21.6
# !pip install matplotlib==3.2.2
# !pip install Pillow==7.1.2
# !pip install opencv-python==4.6.0

# 第9章 torch.nnパッケージ

# 9.1 畳み込みレイヤー


In [3]:
import torch 
import torchvision
import torch.nn as nn
import numpy as np
import torchvision.transforms as transforms
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

## nn.Conv1d, nn.Conv2d, nn.Conv3d


In [4]:
m = nn.Conv1d(16, 33, 3, stride=2)
input = torch.randn(20, 16, 50)
output = m(input)

In [5]:
# 正方形のカーネル、縦横ストライドが同じ
m = nn.Conv2d(16, 33, kernel_size=3, stride=2)
# 非正方形のカーネルと不均等なストライドとパディング
m = nn.Conv2d(16, 33, kernel_size=(3, 5), stride=(2, 1), padding=(4, 2))
# 非正方形のカーネルと不均等なストライドとパディングとdilation
m = nn.Conv2d(16, 33, kernel_size=(3, 5), stride=(2, 1), padding=(4, 2), dilation=(3, 1))
input = torch.randn(20, 16, 50, 100)
output = m(input)

In [6]:
# 正方形のカーネル、縦横ストライドが同じ
m = nn.Conv3d(16, 33, 3, stride=2)
# 非正方形のカーネルと不均等なストライドとパディング
m = nn.Conv3d(16, 33, (3, 5, 2), stride=(2, 1, 1), padding=(4, 2, 0))
input = torch.randn(20, 16, 10, 50, 100)
output = m(input)

# nn.ConvTranspose2d



In [7]:
input = torch.randn(20, 16, 5, 6)
# 正方形のカーネル、縦横ストライドが同じ
m = nn.ConvTranspose2d(16, 33, kernel_size=3, stride=2)
print(m(input).shape)
# 非正方形のカーネルと不均等なストライドとパディング
m = nn.ConvTranspose2d(16, 33, kernel_size=(3, 5), stride=(2, 1), padding=(4, 2))
print(m(input).shape)

torch.Size([20, 33, 11, 13])
torch.Size([20, 33, 3, 6])


In [8]:
input = torch.randn(20, 16, 50, 100)
output = m(input)
print(output.shape)

torch.Size([20, 33, 93, 100])


In [9]:
# 正確な出力サイズを引数として指定することもできます
input = torch.randn(1, 16, 12, 12)
downsample = nn.Conv2d(16, 16, 3, stride=2, padding=1)
upsample = nn.ConvTranspose2d(16, 16, 3, stride=2, padding=1)
h = downsample(input)
print('downsample: '+str(h.size()))
#アップサンプルの出力サイズに入力のサイズを入れた例
output = upsample(h, output_size=input.size())
print('upsample: '+str(output.size()))

downsample：torch.Size([1, 16, 6, 6])
upsample：torch.Size([1, 16, 12, 12])


## nn.MaxPool1d, nn.MaxPool2d, nn.MaxPool3d



In [10]:
# プーリングのサイズとストライド：size=3, stride=2
m = nn.MaxPool1d(3, stride=2)
input = torch.randn(20, 16, 50)
output = m(input)

print(input.shape)
print(output.shape)

torch.Size([20, 16, 50])
torch.Size([20, 16, 24])


In [11]:
# プーリングのサイズとストライド：size=3, stride=1
m = nn.MaxPool1d(3, stride=1)
m(torch.tensor([[[1.,2,3,4,5,6,7]]]))

tensor([[[3., 4., 5., 6., 7.]]])

In [12]:
# プーリングのサイズとストライド：size=3, stride=2
m = nn.MaxPool1d(3, stride=2)
m(torch.tensor([[[1.,2,3,4,5,6,7]]]))

tensor([[[3., 5., 7.]]])

In [13]:
# サイズの正方形のカーネル= 3、ストライド= 2
m = nn.MaxPool2d(3, stride=2)
# 非正方形のカーネル
m = nn.MaxPool2d((3, 2), stride=(2, 1))
input = torch.randn(20, 16, 50, 32)
output = m(input)
print(input.shape)

torch.Size([20, 16, 50, 32])


In [14]:
# サイズの正方形のカーネル= 3、ストライド= 2
m = nn.MaxPool3d(3, stride=2)
# 非正方形のカーネル
m = nn.MaxPool3d((3, 2, 2), stride=(2, 1, 2))
input = torch.randn(20, 16, 50,44, 31)
output = m(input)
print(input.shape)

torch.Size([20, 16, 50, 44, 31])


## nn.AvgPool1d, nn.AvgPool2d, nn.AvgPool3d

In [None]:
# プーリングのサイズとストライド: size=3, stride=2
m = nn.AvgPool1d(3, stride=2)
output = m(torch.tensor([[[1.,2,3,4,5,6,7]]]))

In [None]:
# プーリングのサイズとストライド: size=3, stride=2
m = nn.AvgPool2d(3, stride=2)
# 正方形でないプーリング
m = nn.AvgPool2d((3, 2), stride=(2, 1))
input = torch.randn(20, 16, 50, 32)
output = m(input)

In [None]:
# プーリングのサイズとストライド: size=3, stride=2
m = nn.AvgPool3d(3, stride=2)
# 正方形でないプーリング
m = nn.AvgPool3d((3, 2, 2), stride=(2, 1, 2))
input = torch.randn(20, 16, 50,44, 31)
output = m(input)

## nn.AdaptiveMaxPool1d, nn.AdaptiveMaxPool2d, nn.AdaptiveMaxPool3d

In [15]:
#出力形状を指定してマックスプーリングを行う
# 目標出力サイズ5
m = nn.AdaptiveMaxPool1d(5)
input = torch.randn(1, 64, 8)
output = m(input)

print(output.shape)

torch.Size([1, 64, 5])


In [16]:
# 目標出力サイズは5x7
m = nn.AdaptiveMaxPool2d((5,7))
input = torch.randn(1, 64, 8, 9)
output = m(input)

print(output.size())

# 目標出力サイズは7×7（平方）
m = nn.AdaptiveMaxPool2d(7)
input = torch.randn(1, 64, 10, 9)
output = m(input)

print(output.size())



torch.Size([1, 64, 5, 7])
torch.Size([1, 64, 7, 7])


In [17]:
# 目標出力サイズは 5x7x9
m = nn.AdaptiveMaxPool3d((5,7,9))
input = torch.randn(1, 64, 8, 9, 10)
output = m(input)
# 目標出力サイズは7x7x7 (立方体)
m = nn.AdaptiveMaxPool3d(7)
input = torch.randn(1, 64, 10, 9, 8)
output = m(input)

## nn.AdaptiveAvgPool1d, nn.AdaptiveAvgPool2d, nn.AdaptiveAvgPool3d

In [18]:
#出力形状を指定してアベレージプーリングを行う
# 目標出力サイズ5
m = nn.AdaptiveAvgPool1d(5)
input = torch.randn(1, 64, 8)
output = m(input)

In [21]:
# ターゲット出力サイズは5x7
m = nn.AdaptiveAvgPool2d((5,7))
input = torch.randn(1, 64, 8, 9)
output = m(input)
# 目標出力サイズは7×7（平方）
m = nn.AdaptiveAvgPool2d(7)
input = torch.randn(1, 64, 10, 9)
output = m(input)

In [22]:
# ターゲット出力サイズは5x7x9
m = nn.AdaptiveAvgPool3d((5,7,9))
input = torch.randn(1, 64, 8, 9, 10)
output = m(input)
# ターゲット出力サイズは7x7x7（立方体）
m = nn.AdaptiveAvgPool3d(7)
input = torch.randn(1, 64, 10, 9, 8)
output = m(input)

## nn.ReflectionPad1d, nn.ReflectionPad2d


In [31]:
#境界で反転するようにパディングする
m = nn.ReflectionPad1d(2)
#floatに変換が必要な場合は変換
#input = torch.arange(8).reshape(1, 2, 4)
input = torch.arange(8).reshape(1, 2, 4).float()
input

tensor([[[0., 1., 2., 3.],
         [4., 5., 6., 7.]]])

In [32]:
m(input)

tensor([[[2., 1., 0., 1., 2., 3., 2., 1.],
         [6., 5., 4., 5., 6., 7., 6., 5.]]])

In [33]:
# 異なるパディングを使用
m = nn.ReflectionPad1d((3, 1))
m(input)

tensor([[[3., 2., 1., 0., 1., 2., 3., 2.],
         [7., 6., 5., 4., 5., 6., 7., 6.]]])

In [34]:
m = nn.ReflectionPad1d(2)
input = torch.arange(10).reshape(1, 2, 5)
input

tensor([[[0, 1, 2, 3, 4],
         [5, 6, 7, 8, 9]]])

In [36]:
m = nn.ReflectionPad2d(2)
#floatに変換が必要な場合は変換
#input = torch.arange(9).reshape(1, 1, 3, 3)
input = torch.arange(9).reshape(1, 1, 3, 3).float()
input

tensor([[[[0., 1., 2.],
          [3., 4., 5.],
          [6., 7., 8.]]]])

In [37]:
m(input)

tensor([[[[8., 7., 6., 7., 8., 7., 6.],
          [5., 4., 3., 4., 5., 4., 3.],
          [2., 1., 0., 1., 2., 1., 0.],
          [5., 4., 3., 4., 5., 4., 3.],
          [8., 7., 6., 7., 8., 7., 6.],
          [5., 4., 3., 4., 5., 4., 3.],
          [2., 1., 0., 1., 2., 1., 0.]]]])

In [38]:
# 異なるパディングを使用
m = nn.ReflectionPad2d((1, 1, 2, 0))
m(input)

tensor([[[[7., 6., 7., 8., 7.],
          [4., 3., 4., 5., 4.],
          [1., 0., 1., 2., 1.],
          [4., 3., 4., 5., 4.],
          [7., 6., 7., 8., 7.]]]])

## nn.ReplicationPad1d, nn.ReplicationPad2d


In [45]:
#境界を複製するようにパディングする
m = nn.ReplicationPad1d(2)
#floatに変換が必要な場合は変換
# input = torch.arange(8).reshape(1, 2, 4)
input = torch.arange(8).reshape(1, 2, 4).float()
input

tensor([[[0., 1., 2., 3.],
         [4., 5., 6., 7.]]])

In [46]:
m(input)

tensor([[[0., 0., 0., 1., 2., 3., 3., 3.],
         [4., 4., 4., 5., 6., 7., 7., 7.]]])

In [47]:
# 異なるパディングを使用
m = nn.ReplicationPad1d((3, 1))
m(input)

tensor([[[0., 0., 0., 0., 1., 2., 3., 3.],
         [4., 4., 4., 4., 5., 6., 7., 7.]]])

In [48]:
m = nn.ReplicationPad2d(2)
#floatに変換が必要な場合は変換
# input = torch.arange(9).reshape(1, 1, 3, 3)
input = torch.arange(9).reshape(1, 1, 3, 3).float()
input

tensor([[[[0., 1., 2.],
          [3., 4., 5.],
          [6., 7., 8.]]]])

In [49]:
m(input)

tensor([[[[0., 0., 0., 1., 2., 2., 2.],
          [0., 0., 0., 1., 2., 2., 2.],
          [0., 0., 0., 1., 2., 2., 2.],
          [3., 3., 3., 4., 5., 5., 5.],
          [6., 6., 6., 7., 8., 8., 8.],
          [6., 6., 6., 7., 8., 8., 8.],
          [6., 6., 6., 7., 8., 8., 8.]]]])

In [50]:
# 異なるパディングを使用
m = nn.ReplicationPad2d((1, 1, 2, 0))
m(input)

tensor([[[[0., 0., 1., 2., 2.],
          [0., 0., 1., 2., 2.],
          [0., 0., 1., 2., 2.],
          [3., 3., 4., 5., 5.],
          [6., 6., 7., 8., 8.]]]])

## nn.ZeroPad2d


In [51]:
#境界をゼロでパディングする
#1のパディングが全ての境界に入る。
m = nn.ZeroPad2d(1)
input = torch.randn(1, 1, 3, 3)
input

tensor([[[[ 0.7430,  0.3785, -0.3358],
          [-1.3134,  0.3718,  0.0413],
          [-1.3721,  0.5007,  0.7519]]]])

In [52]:
m(input)

tensor([[[[ 0.0000,  0.0000,  0.0000,  0.0000,  0.0000],
          [ 0.0000,  0.7430,  0.3785, -0.3358,  0.0000],
          [ 0.0000, -1.3134,  0.3718,  0.0413,  0.0000],
          [ 0.0000, -1.3721,  0.5007,  0.7519,  0.0000],
          [ 0.0000,  0.0000,  0.0000,  0.0000,  0.0000]]]])

In [53]:
#異なるパディングを境界に適応する。
m = nn.ZeroPad2d((1, 1, 2, 0))
m(input)

tensor([[[[ 0.0000,  0.0000,  0.0000,  0.0000,  0.0000],
          [ 0.0000,  0.0000,  0.0000,  0.0000,  0.0000],
          [ 0.0000,  0.7430,  0.3785, -0.3358,  0.0000],
          [ 0.0000, -1.3134,  0.3718,  0.0413,  0.0000],
          [ 0.0000, -1.3721,  0.5007,  0.7519,  0.0000]]]])