In [85]:
from math import sqrt
from itertools import product

from torch import nn
from torch.nn import functional as F
from torchvision import transforms
from torchvision.datasets import VOCDetection
import torch

### vggモジュール

In [3]:
def make_vgg():
    cfg = [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'C', 
           512, 512, 512, 'M', 512, 512, 512]
    layers = []
    in_chanels = 3
    for v in cfg:
        if v == 'M':
            layers += [nn.MaxPool2d(kernel_size=2)] #出力サイズを切り捨て(デフォルトでeil_mode=False)
        elif v == 'C':
            layers += [nn.MaxPool2d(kernel_size=2, ceil_mode=True)] # 出力サイズを切り上げる
        else:
            conv2d = nn.Conv2d(in_chanels, v, kernel_size=3, padding=1)
            layers += [conv2d, nn.ReLU()]
            in_chanels = v
    pool5 = nn.MaxPool2d(kernel_size=3, stride=1, padding=1)
    conv6 = nn.Conv2d(512, 1024, kernel_size=3, padding=6, dilation=6)
    conv7 = nn.Conv2d(1024, 1024, kernel_size=1)
    layers += [pool5, conv6, nn.ReLU(), conv7, nn.ReLU()]
    
    return nn.ModuleList(layers)

In [9]:
a = []
b = [3]
c = [4]
a += b
a +=c
a

[3, 4]

In [11]:
[3]+[4]

[3, 4]

In [13]:
in_chanels = 3
v = 512
layers = []
layers += [nn.MaxPool2d(kernel_size=2)]
pool1 = nn.MaxPool2d(kernel_size=3, stride=1, padding=1)
conv1 = nn.Conv2d(512, 1024, kernel_size=3, padding=6, dilation=6)
conv2 = nn.Conv2d(1024, 1024, kernel_size=1)
layers += [pool1, conv1, nn.ReLU(), conv2, nn.ReLU()]
conv2d = nn.Conv2d(in_chanels, v, kernel_size=3, padding=1)
layers += [conv2d, nn.ReLU()]

In [15]:
layers

[MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False),
 MaxPool2d(kernel_size=3, stride=1, padding=1, dilation=1, ceil_mode=False),
 Conv2d(512, 1024, kernel_size=(3, 3), stride=(1, 1), padding=(6, 6), dilation=(6, 6)),
 ReLU(),
 Conv2d(1024, 1024, kernel_size=(1, 1), stride=(1, 1)),
 ReLU(),
 Conv2d(3, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1)),
 ReLU()]

In [39]:
module = nn.ModuleList(layers)
for name, params in module.named_parameters():
    if 'weight' in name:
        print(name)

2.weight
4.weight
6.weight


In [41]:
nn.ModuleList(layers)[1]

MaxPool2d(kernel_size=3, stride=1, padding=1, dilation=1, ceil_mode=False)

### extrasモジュール

In [45]:
def make_extras():
    layers = [
        # out3
        nn.Conv2d(1024, 256, kernel_size=1), 
        nn.Conv2d(256, 512, kernel_size=3, stride=2, padding=1),
        # out3からout4
        nn.Conv2d(512, 128, kernel_size=1),
        nn.Conv2d(128, 256, kernel_size=3, stride=2, padding=1),
        # out4からout5
        nn.Conv2d(256, 128, kernel_size=1), 
        nn.Conv2d(128, 256, kernel_size=3),
        # out6からout6
        nn.Conv2d(256, 128, kernel_size=1), 
        nn.Conv2d(128, 256, kernel_size=3),
    ]
    return nn.ModuleList(layers)
        

### Locモジュール

In [47]:
def make_loc(num_classes=21):
    """
    オフセットの予測を出力する
    nn.Conv2d第2引数は出力ベクトルのchanel方向の次元数.作成されるDBox(4 or 6個)ごとにオフセットを出力するので
    作成されるオフセットの数*4となる
    """
    layers = [
        # out1に対する処理
        nn.Conv2d(512, 4*4, kernel_size=3, padding=1),
        
        # out2に対する処理
        nn.Conv2d(1024, 6*4, kernel_size=3, padding=1),
        
        # out3に対する処理
        nn.Conv2d(512, 6*4, kernel_size=3, padding=1),
        
        # out4に対する処理
        nn.Conv2d(256, 6*4, kernel_size=3, padding=1),
        
        # out5に対する処理
        nn.Conv2d(256, 4*4, kernel_size=3, padding=1),
        
        # out1に対する処理
        nn.Conv2d(256, 4*4, kernel_size=3, padding=1)
    ]
    return nn.ModuleList(layers)

### confモジュール

In [49]:
def make_coef(num_classes=21):
    """
    クラスの予測を出力する
    nn.Conv2d第2引数は出力ベクトルの次元数.作成されるDBox(4 or 6個)ごとに各クラスの信頼度を出力するので
    作成されるオフセットの数*num_classesとなる
    """
    layers = [
        # out1に対する処理
        nn.Conv2d(512, 4*num_classes, kernel_size=3, padding=1), # [b, 16, 38, 38]
        
        # out2に対する処理
        nn.Conv2d(1024, 6*num_classes, kernel_size=3, padding=1),
        
        # out3に対する処理
        nn.Conv2d(512, 6*num_classes, kernel_size=3, padding=1),
        
        # out4に対する処理
        nn.Conv2d(256, 6*num_classes, kernel_size=3, padding=1),
        
        # out5に対する処理
        nn.Conv2d(256, 4*num_classes, kernel_size=3, padding=1),
        
        # out1に対する処理
        nn.Conv2d(256, 4*num_classes, kernel_size=3, padding=1)
    ]
    return nn.ModuleList(layers)

### L2Normの実装
### Layer Normalizationの実装

In [28]:
torch.Tensor(20)

tensor([-2.6923e-15,  1.4419e-42,  0.0000e+00,  0.0000e+00,  0.0000e+00,
         0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,
         0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,
         0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00])

In [30]:
torch.Tensor([20])

tensor([20.])

###### nn.Parameterは、PyTorchのモデル内で学習可能なパラメータを定義するために使用されるクラスです。主に、ニューラルネットワークの層で使用され、バックプロパゲー ションを通じて最適化される重みやバイアスを定義します。

###### nn.init.constant_は、PyTorchの初期化モジュールで提供される関数の一つで、テンソルのすべての要素を指定した定数で初期化するために使用されます。この関数は、通常、モデルのパラメータの初期値を設定する際に利用されます。

#### L2Norm : チャネル方向のL2Normの合計を1にする

In [51]:
class L2Norm(nn.Module):
    def __init__(self, n_channels=512, scale=20):
        super().__init__()
        self.n_channels = n_channels
        self.gamma = scale # 正規化後に掛けるパラメータ,channel分だけある.(これはbackwaradで最適化される)
        self.eps = 1e-10 # 0で割ることを防ぐためのε
        self.weight = nn.Parameter(torch.Tensor(self.n_channels))
        self.reset_parameters()
    def reset_parameters(self): 
        nn.init.constant_(self.weight, self.gamma) # self.gamma(デフォルトで20)でweightを初期化
        
    def forward(self, X):
        """
        X : [b * c * h * w]を想定
        """
        norm = X.pow(2).sum(dim=1, keepdim=True).sqrt() + self.eps # norm : [b, 1, h, w]
        
        # 入力をnormで割る
        X = torch.div(X, norm) # X : [b, c, h, w]
        
        # スケーリングの重みを掛ける
        out = self.weight.reshape(1, self.n_channels, 1, 1) * X # self.weight.reshape(1, self.n_channels, 1, 1) : [1, c, 1, 1]
                                                                # out : [b, c, h, w]
       
        return out
        

In [36]:
tensor = nn.Parameter(torch.Tensor(3))
tensor

Parameter containing:
tensor([0., 0., 0.], requires_grad=True)

In [31]:
weight = nn.Parameter(torch.Tensor(3)) 
eps = 1e-10
X = torch.randn((8, 3, 8, 8))
norm = X.pow(2).sum(dim=1, keepdim=True).sqrt() + eps

X = torch.div(X, norm) # これで各ピクセルの和は1


In [33]:
norm.shape # データ1つの正規化(channel間での正規化)

torch.Size([8, 1, 8, 8])

In [35]:
X.shape

torch.Size([8, 3, 8, 8])

In [37]:
out = weight.unsqueeze(0).unsqueeze(2).unsqueeze(3).expand_as(X) * X

In [39]:
out.shape

torch.Size([8, 3, 8, 8])

### DBoxの実装

###### self.min_sizes = [30, 60, 111, 162, 213, 264]
###### self.max_sizes = [60, 111, 162, 213, 264, 315]
###### この値から、解像度が38*38の特徴マップでは画像の縦、横10% ~ 20%の大きさの画像の検出が得意ということ

In [57]:
class PriorBox:
    def __init__(self):
        self.image_size = 300 # 入力画像のサイズを300 × 300と想定
        # 解像度が38 : 1つの特徴量マップでは300/38で7ピクセル分の情報を表現
        self.feature_maps = [38, 19, 10, 5, 3, 1] 
        self.steps = [8, 16, 32, 64, 100, 300] # 特徴量マップの1セルが何ピクセルを(ピクセル/セル)表現するかをリストに格納.32, 64は計算の効率性のため少しずらした値(2の累乗)を設定
                                               # 例えば300/38 ≒ 8, 300/19 ≒ 16としている
        self.min_sizes = [30, 60, 111, 162, 213, 264] # 30 ... 画像の10%程度の大きさの物体の検出に適している 
        
        self.max_sizes = [60, 111, 162, 213, 264, 315] # 60 ...画像の20%程度の大きさの物体の検出に適している 
        self.aspect_rations = [[2], [2, 3], [2, 3], [2, 3], [2], [2]] 
        
    def forward(self):
        mean = []
        for k, f in enumerate(self.feature_maps): # [38, 19, 10, 5, 3, 1] 
            for i, j in product(range(f), repeat=2): # 各特徴量マップのセルごとにDBox作成
                #self.steps は計算効率のために調整されたセルのピクセル数を格納しているが、
                # 実際のDBoxの配置で精度を保つために、f_k = self.image_size / self.steps[k] で再度スケールを計算
                f_k = self.image_size / self.steps[k] # 特徴量マップf_k個で1になる
                cx = (j + 0.5) / f_k # 比の計算 これを座標としている
                cy = (i + 0.5) / f_k
                s_k = self.min_sizes[k] / self.image_size # これは最小サイズの正方形のサイズ. 特徴量マップの解像度で固定
                mean += [cx, cy, s_k, s_k] # 最小サイズの正方形のDBox作成
                s_k_prime = sqrt(s_k * (self.max_sizes[k]/self.image_size)) # これは最大サイズの正方形のサイズ. 特徴量マップの解像度で固定
                mean += [cx, cy, s_k_prime, s_k_prime] # 最大サイズの正方形のDBox作成
                for ar in self.aspect_rations[k]:
                    mean += [cx, cy, s_k*sqrt(ar), s_k/sqrt(ar)]
                    mean += [cx, cy, s_k/sqrt(ar), s_k*sqrt(ar)]
        output = torch.Tensor(mean).view(-1, 4) 
        # イメージ : [1, 2, 3, 4, 5, 6, 7, 8, 1, 2, 3, 4] 
        # ===>
        # tensor([[1., 2., 3., 4.],
        # [5., 6., 7., 8.],
        # [1., 2., 3., 4.]])

        output.clamp_(max=1, min=0)
        return output

In [45]:
300/8 

37.5

In [47]:
# from itertools import product
for i, j in product(range(3), range(4)): # 直積を計算
    print(i, j)

0 0
0 1
0 2
0 3
1 0
1 1
1 2
1 3
2 0
2 1
2 2
2 3


In [49]:
for i, j in product(range(3), repeat=2):
    print(i, j)

0 0
0 1
0 2
1 0
1 1
1 2
2 0
2 1
2 2


In [61]:
mean = []
mean += [1,2,3,4]
mean += [5,6,7,8]
mean += [1,2,3,4]
# エラーになる
# mean += [1,2,3]

mean

[1, 2, 3, 4, 5, 6, 7, 8, 1, 2, 3, 4]

In [63]:
torch.Tensor(mean).view(-1, 4)

tensor([[1., 2., 3., 4.],
        [5., 6., 7., 8.],
        [1., 2., 3., 4.]])

### SSDのクラス

In [65]:
class SSD(nn.Module):
    def __init__(self, phase='train', num_classes=21):
        super().__init__()
        self.phase = phase
        self.num_classes = num_classes
        self.vgg = make_vgg()
        self.extras = make_extras()
        self.L2Norm = L2Norm()
        self.loc = make_loc()
        self.conf = make_coef()
        dbox = PriorBox()
        self.priors = dbox.forward() # self.priorsには各解像度の各セルに対してのDBoxが4or6個格納されている
        
        if phase == 'test':
            self.detect = Dtect()
            
    def forward(self, X):
        """
        X : [b, c, h=300, w=300]
        """
        bs = X.shape[0]
        # lout = []  各セルのオフセットの予測が格納
        # cout = []  各セルのクラス分類の結果が格納
        # out = []  各解像度の特徴マップが出力
        out, lout, cout = [], [], []
        for i in range(23): # 23はvggの定義でL2Normが適用されるまでに通過する層数(Conv2d, ReLU, Maxpool2d)
            X = self.vgg[i](X)
        X1 = X
        out.append(self.L2Norm(X1)) # out1を得る
        
        for i in range(23, len(self.vgg)):
            X = self.vgg[i](X)
            
        out.append(X) # out2を得る
        
        # out3,4,5,6
        for i in range(0, 8, 2):
            X = F.relu(self.extras[i](X))
            X = F.relu(self.extras[i+1](X))
            out.append(X)
        
        # オフセットとクラス毎の信頼度を求める
        for i in range(6): # out1~out6に対する出力処理
            # 各セルのオフセットの予測
            lx = self.loc[i](out[i]).permute(0,2,3,1).reshape(bs, -1, 4)
            # self.loc[i](out[i]).permute(0,2,3,1) : [bs, 38, 38, 16] reshape後 : [bs, 38*38*4, 4]になるのでは...
            # 書籍では[bs, 38*38, 4] と各セルに対してオフセットが得られるとあるが...多分誤植
            
            # cout = []  各セルのクラス分類を予測
            cx = self.conf[i](out[i]).permute(0,2,3,1).reshape(bs, -1, self.num_classes)
            lout.append(lx)
            cout.append(cx)
        #import pdb; pdb.set_trace()  
        lout = torch.cat(lout, 1) # [bs, 38*38*4+19*19*6+10*10*6+5*5*6+3*3*4+1*1*4, 4] # 1枚の画像の38*38の各セルに対して4つのDBoxがあり,4次元のオフセットがある
        cout = torch.cat(cout, 1) # [bs, 38*38*4+19*19*6+10*10*6+5*5*6+3*3*4+1*1*4, self.num_classes] # 1枚の画像の38*38の各セルに対して4つのDBoxがあり, 21クラスのクラス分類を行う
        outputs = (lout, cout, self.priors)
        if self.phase == 'test':
            return self.detect.apply(output, self.num_classes)
        else:
            return outputs

In [67]:
38*38*4+19*19*6+10*10*6+5*5*6+3*3*4+1*1*4

8732

In [69]:
test_tensor = torch.randn(8, 3, 300, 300)
test_model = SSD()
lout, cout, priors = test_model(test_tensor)

In [70]:
# 各セルにおけるオフセット
lout.shape

torch.Size([8, 8732, 4])

In [71]:
# 各セルにおけるクラス分類
cout.shape

torch.Size([8, 8732, 21])

In [72]:
# 各セルにおけるDBox
priors.shape

torch.Size([8732, 4])

### データ準備

In [101]:
train_transform = transforms.Compose([
    transforms.Resize((300, 300)),
    transforms.RandomHorizontalFlip(p=0.5), # 左右反転
    transforms.RandomCrop(300, padding=8), # データの切り抜き
    transforms.RandomRotation(10), # 回転する角度の範囲を指定. ここで10とすると、-10度から+10度までの範囲でランダムに回転
    transforms.ToTensor(), 
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # 0~1 => -1 ~ 1
])

val_transform = transforms.Compose([
    transforms.Resize((300, 300)),
    transforms.ToTensor(), 
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # 0~1 => -1 ~ 1
])

dataset = VOCDetection(root='./dataset/voc_detection', year='2012', image_set='train', \
                       #download=True, transform=transform)

### 学習ループ作成