# 2.7 学習と検証の実施

- 本ファイルでは、SSDの学習と検証の実施を行います。手元のマシンで動作を確認後、AWSのGPUマシンで計算します。
- p2.xlargeで約6時間かかります。


# 学習目標

1.	SSDの学習を実装できるようになる

# 事前準備

- AWS EC2 のGPUインスタンスを使用します
- フォルダ「utils」のssd_model.pyをします

In [1]:
# パッケージのimport
import os.path as osp
import random
import time

import cv2
import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.nn.init as init
import torch.optim as optim
import torch.utils.data as data
from tqdm import tqdm

In [2]:
# 乱数のシードを設定
torch.manual_seed(1234)
np.random.seed(1234)
random.seed(1234)

In [3]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print("使用デバイス：", device)

使用デバイス： cuda:0


# DatasetとDataLoaderを作成する

In [4]:
from utils.ssd_model import make_datapath_list, VOCDataset, DataTransform, Anno_xml2list, od_collate_fn
import os
os.cpu_count()

# ファイルパスのリストを取得
rootpath = "./data/VOCdevkit/VOC2012/"
train_img_list, train_anno_list, val_img_list, val_anno_list = make_datapath_list(
    rootpath)

# Datasetを作成
voc_classes = ['aeroplane', 'bicycle', 'bird', 'boat',
               'bottle', 'bus', 'car', 'cat', 'chair',
               'cow', 'diningtable', 'dog', 'horse',
               'motorbike', 'person', 'pottedplant',
               'sheep', 'sofa', 'train', 'tvmonitor']
color_mean = (104, 117, 123)  # (BGR)の色の平均値
input_size = 300  # 画像のinputサイズを300×300にする

train_dataset = VOCDataset(train_img_list, train_anno_list, phase="train", transform=DataTransform(
    input_size, color_mean), transform_anno=Anno_xml2list(voc_classes))

val_dataset = VOCDataset(val_img_list, val_anno_list, phase="val", transform=DataTransform(
    input_size, color_mean), transform_anno=Anno_xml2list(voc_classes))


# DataLoaderを作成する
batch_size = 32

train_dataloader = data.DataLoader(
    train_dataset, batch_size=batch_size, shuffle=True, collate_fn=od_collate_fn, num_workers=2, pin_memory=True)

val_dataloader = data.DataLoader(
    val_dataset, batch_size=batch_size, shuffle=False, collate_fn=od_collate_fn, num_workers=2, pin_memory=True)

# 辞書オブジェクトにまとめる
dataloaders_dict = {"train": train_dataloader, "val": val_dataloader}


# ネットワークモデルの作成する

In [5]:
from utils.ssd_model import SSD

# SSD300の設定
ssd_cfg = {
    'num_classes': 21,  # 背景クラスを含めた合計クラス数
    'input_size': 300,  # 画像の入力サイズ
    'bbox_aspect_num': [4, 6, 6, 6, 4, 4],  # 出力するDBoxのアスペクト比の種類
    'feature_maps': [38, 19, 10, 5, 3, 1],  # 各sourceの画像サイズ
    'steps': [8, 16, 32, 64, 100, 300],  # DBOXの大きさを決める
    'min_sizes': [30, 60, 111, 162, 213, 264],  # DBOXの大きさを決める
    'max_sizes': [60, 111, 162, 213, 264, 315],  # DBOXの大きさを決める
    'aspect_ratios': [[2], [2, 3], [2, 3], [2, 3], [2], [2]],
}

# SSDネットワークモデル
net = SSD(phase="train", cfg=ssd_cfg)

# SSDの初期の重みを設定
# ssdのvgg部分に重みをロードする
vgg_weights = torch.load('./weights/vgg16_reducedfc.pth')
net.vgg.load_state_dict(vgg_weights)
# 最適化手法の設定
optimizer = optim.SGD(net.parameters(), lr=1e-3,
                      momentum=0.9, weight_decay=5e-4)
#optimizer.load_state_dict(vgg_weights['optimizer_state_dict'])
# ssdのその他のネットワークの重みはHeの初期値で初期化


def weights_init(m):
    if isinstance(m, nn.Conv2d):
        init.kaiming_normal_(m.weight.data)
        if m.bias is not None:  # バイアス項がある場合
            nn.init.constant_(m.bias, 0.0)


# Heの初期値を適用
net.extras.apply(weights_init)
net.loc.apply(weights_init)
net.conf.apply(weights_init)

# GPUが使えるかを確認
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print("使用デバイス：", device)

print('ネットワーク設定完了：学習済みの重みをロードしました')


使用デバイス： cuda:0
ネットワーク設定完了：学習済みの重みをロードしました


# 損失関数と最適化手法を定義する

In [6]:
from utils.ssd_model import MultiBoxLoss

# 損失関数の設定
criterion = MultiBoxLoss(jaccard_thresh=0.5, neg_pos=3, device=device)


# 学習・検証を実施する

In [7]:
# モデルを学習させる関数を作成


def train_model(net, dataloaders_dict, criterion, optimizer, num_epochs):

    # GPUが使えるかを確認
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    print("使用デバイス：", device)

    # ネットワークをGPUへ
    net.to(device)

    # ネットワークがある程度固定であれば、高速化させる
    torch.backends.cudnn.benchmark = True

    # イテレーションカウンタをセット
    iteration = 1
    epoch_train_loss = 0.0  # epochの損失和
    epoch_val_loss = 0.0  # epochの損失和
    logs = []

    # epochのループ
    for epoch in range(num_epochs+1):
    #for epoch in range(1):

        torch.cuda.empty_cache
        # 開始時刻を保存
        t_epoch_start = time.time()
        t_iter_start = time.time()

        print('-------------')
        print('Epoch {}/{}'.format(epoch+1, num_epochs))
        print('-------------')

        # epochごとの訓練と検証のループ
        for phase in ['train', 'val']:
            if phase == 'train':
                net.train()  # モデルを訓練モードに
                print('（train）')
            else:
                if((epoch+1) % 10 == 0):
                    net.eval()   # モデルを検証モードに
                    print('-------------')
                    print('（val）')
                else:
                    # 検証は10回に1回だけ行う
                    continue

            # データローダーからminibatchずつ取り出すループ
            #for images, targets in dataloaders_dict[phase]:
            for images, targets in tqdm(dataloaders_dict[phase]):
                torch.cuda.empty_cache

                # GPUが使えるならGPUにデータを送る
                images = images.to(device)
                targets = [ann.to(device)
                           for ann in targets]  # リストの各要素のテンソルをGPUへ

                # optimizerを初期化
                optimizer.zero_grad()

                # 順伝搬（forward）計算
                with torch.set_grad_enabled(phase == 'train'):
                    # 順伝搬（forward）計算
                    outputs = net(images)

                    # 損失の計算
                    loss_l, loss_c = criterion(outputs, targets)
                    loss = loss_l + loss_c

                    # 訓練時はバックプロパゲーション
                    if phase == 'train':
                        loss.backward()  # 勾配の計算

                        # 勾配が大きくなりすぎると計算が不安定になるので、clipで最大でも勾配2.0に留める
                        nn.utils.clip_grad_value_(
                            net.parameters(), clip_value=2.0)

                        optimizer.step()  # パラメータ更新

                        if (iteration % 10 == 0):  # 10iterに1度、lossを表示
                            t_iter_finish = time.time()
                            duration = t_iter_finish - t_iter_start
                            print('イテレーション {} || Loss: {:.4f} || 10iter: {:.4f} sec.'.format(
                                iteration, loss.item(), duration))
                            t_iter_start = time.time()

                        epoch_train_loss += loss.item()
                        iteration += 1

                    # 検証時
                    else:
                        epoch_val_loss += loss.item()

        # epochのphaseごとのloss （Issue158での誤植修正）
        t_epoch_finish = time.time()
        print('-------------')
        print('epoch {} || Epoch_TRAIN_Loss:{:.4f} ||Epoch_VAL_Loss:{:.4f}'.format(
            epoch+1, epoch_train_loss, epoch_val_loss))
        print('timer:  {:.4f} sec.'.format(t_epoch_finish - t_epoch_start))
        t_epoch_start = time.time()

        # ログを保存
        log_epoch = {'epoch': epoch+1,
                     'train_loss': epoch_train_loss, 'val_loss': epoch_val_loss}
        logs.append(log_epoch)
        df = pd.DataFrame(logs)
        df.to_csv("log_output.csv")

        epoch_train_loss = 0.0  # epochの損失和
        epoch_val_loss = 0.0  # epochの損失和

        # ネットワークを保存する
        if ((epoch+1) % 1 == 0):
            #torch.save(net.state_dict(), 'weights/ssd300_' +
            #           str(epoch+1) + '.pth')
            save_path = 'weights/ssd300_' + str(epoch+1) + '.pth'
            torch.save({'epoch': epoch,
                        'model_state_dict': net.state_dict(),
                        'optimizer_state_dict': optimizer.state_dict(),
                        'loss': loss,},
                        save_path)


In [8]:
%%prun

# 学習・検証を実行する
num_epochs= 1  
train_model(net, dataloaders_dict, criterion, optimizer, num_epochs=num_epochs)

使用デバイス： cuda:0
-------------
Epoch 1/1
-------------
（train）


  6%|████▌                                                                             | 10/179 [02:25<38:33, 13.69s/it]

イテレーション 10 || Loss: 16.4057 || 10iter: 134.5623 sec.


 11%|█████████▏                                                                        | 20/179 [04:40<35:50, 13.53s/it]

イテレーション 20 || Loss: 12.8523 || 10iter: 125.1091 sec.


 17%|█████████████▋                                                                    | 30/179 [06:56<33:36, 13.53s/it]

イテレーション 30 || Loss: 13.1436 || 10iter: 125.1892 sec.


 22%|██████████████████▎                                                               | 40/179 [09:11<31:21, 13.54s/it]

イテレーション 40 || Loss: 10.4718 || 10iter: 125.0442 sec.


 28%|██████████████████████▉                                                           | 50/179 [11:26<29:02, 13.51s/it]

イテレーション 50 || Loss: 9.1266 || 10iter: 124.6974 sec.


 34%|███████████████████████████▍                                                      | 60/179 [13:42<26:48, 13.51s/it]

イテレーション 60 || Loss: 9.5008 || 10iter: 125.1953 sec.


 39%|████████████████████████████████                                                  | 70/179 [15:57<24:33, 13.52s/it]

イテレーション 70 || Loss: 9.9525 || 10iter: 124.8541 sec.


 45%|████████████████████████████████████▋                                             | 80/179 [18:13<22:19, 13.53s/it]

イテレーション 80 || Loss: 8.7357 || 10iter: 124.9250 sec.


 50%|█████████████████████████████████████████▏                                        | 90/179 [20:29<20:20, 13.71s/it]

イテレーション 90 || Loss: 8.8692 || 10iter: 125.4989 sec.


 56%|█████████████████████████████████████████████▎                                   | 100/179 [22:47<18:08, 13.78s/it]

イテレーション 100 || Loss: 9.0908 || 10iter: 126.8814 sec.


 61%|█████████████████████████████████████████████████▊                               | 110/179 [25:04<15:44, 13.69s/it]

イテレーション 110 || Loss: 8.8175 || 10iter: 126.5782 sec.


 67%|██████████████████████████████████████████████████████▎                          | 120/179 [27:19<13:17, 13.52s/it]

イテレーション 120 || Loss: 8.1959 || 10iter: 125.0624 sec.


 73%|██████████████████████████████████████████████████████████▊                      | 130/179 [29:36<11:09, 13.66s/it]

イテレーション 130 || Loss: 8.8462 || 10iter: 125.5715 sec.


 78%|███████████████████████████████████████████████████████████████▎                 | 140/179 [31:51<08:48, 13.56s/it]

イテレーション 140 || Loss: 8.8444 || 10iter: 124.8960 sec.


 84%|███████████████████████████████████████████████████████████████████▉             | 150/179 [34:06<06:32, 13.52s/it]

イテレーション 150 || Loss: 8.2468 || 10iter: 125.0632 sec.


 89%|████████████████████████████████████████████████████████████████████████▍        | 160/179 [36:22<04:17, 13.53s/it]

イテレーション 160 || Loss: 8.5947 || 10iter: 124.7708 sec.


 95%|████████████████████████████████████████████████████████████████████████████▉    | 170/179 [38:37<02:02, 13.59s/it]

イテレーション 170 || Loss: 8.5258 || 10iter: 125.2904 sec.


100%|█████████████████████████████████████████████████████████████████████████████████| 179/179 [40:49<00:00, 13.68s/it]


-------------
epoch 1 || Epoch_TRAIN_Loss:1817.6676 ||Epoch_VAL_Loss:0.0000
timer:  2449.1791 sec.
-------------
Epoch 2/1
-------------
（train）


  1%|▍                                                                                  | 1/179 [00:13<39:47, 13.41s/it]

イテレーション 180 || Loss: 9.1826 || 10iter: 1.6151 sec.


  6%|█████                                                                             | 11/179 [02:22<36:15, 12.95s/it]

イテレーション 190 || Loss: 7.9636 || 10iter: 119.8388 sec.


 12%|█████████▌                                                                        | 21/179 [04:32<34:04, 12.94s/it]

イテレーション 200 || Loss: 8.2227 || 10iter: 120.0601 sec.


 17%|██████████████▏                                                                   | 31/179 [06:42<31:56, 12.95s/it]

イテレーション 210 || Loss: 7.5854 || 10iter: 119.8825 sec.


 23%|██████████████████▊                                                               | 41/179 [08:52<29:55, 13.01s/it]

イテレーション 220 || Loss: 8.3239 || 10iter: 120.3246 sec.


 28%|███████████████████████▎                                                          | 51/179 [11:01<27:36, 12.94s/it]

イテレーション 230 || Loss: 7.6938 || 10iter: 119.8365 sec.


 34%|███████████████████████████▉                                                      | 61/179 [13:12<25:44, 13.09s/it]

イテレーション 240 || Loss: 8.5760 || 10iter: 120.8194 sec.


 40%|████████████████████████████████▌                                                 | 71/179 [15:21<23:27, 13.03s/it]

イテレーション 250 || Loss: 8.3263 || 10iter: 120.1528 sec.


 45%|█████████████████████████████████████                                             | 81/179 [17:31<21:09, 12.96s/it]

イテレーション 260 || Loss: 8.0048 || 10iter: 120.1302 sec.


 51%|█████████████████████████████████████████▋                                        | 91/179 [19:41<19:05, 13.02s/it]

イテレーション 270 || Loss: 8.3050 || 10iter: 120.1024 sec.


 56%|█████████████████████████████████████████████▋                                   | 101/179 [21:50<16:51, 12.97s/it]

イテレーション 280 || Loss: 7.7996 || 10iter: 120.0561 sec.


 62%|██████████████████████████████████████████████████▏                              | 111/179 [24:00<14:39, 12.94s/it]

イテレーション 290 || Loss: 8.1609 || 10iter: 119.7775 sec.


 68%|██████████████████████████████████████████████████████▊                          | 121/179 [26:10<12:31, 12.96s/it]

イテレーション 300 || Loss: 7.6568 || 10iter: 119.9735 sec.


 73%|███████████████████████████████████████████████████████████▎                     | 131/179 [28:19<10:22, 12.96s/it]

イテレーション 310 || Loss: 9.2132 || 10iter: 120.1641 sec.


 79%|███████████████████████████████████████████████████████████████▊                 | 141/179 [30:29<08:12, 12.96s/it]

イテレーション 320 || Loss: 8.6226 || 10iter: 120.2195 sec.


 84%|████████████████████████████████████████████████████████████████████▎            | 151/179 [32:39<06:02, 12.96s/it]

イテレーション 330 || Loss: 9.1635 || 10iter: 119.9566 sec.


 90%|████████████████████████████████████████████████████████████████████████▊        | 161/179 [34:48<03:53, 12.96s/it]

イテレーション 340 || Loss: 8.1973 || 10iter: 120.0302 sec.


 96%|█████████████████████████████████████████████████████████████████████████████▍   | 171/179 [36:58<01:43, 12.95s/it]

イテレーション 350 || Loss: 8.5082 || 10iter: 120.0269 sec.


100%|█████████████████████████████████████████████████████████████████████████████████| 179/179 [38:32<00:00, 12.92s/it]


-------------
epoch 2 || Epoch_TRAIN_Loss:1499.5551 ||Epoch_VAL_Loss:0.0000
timer:  2312.8134 sec.
 

         1859795 function calls (1731081 primitive calls) in 4769.118 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
      397 3579.196    9.016 3579.196    9.016 {method 'item' of 'torch._C._TensorBase' objects}
    46881 1105.061    0.024 1105.097    0.024 {method 'to' of 'torch._C._TensorBase' objects}
    12530   27.567    0.002   27.567    0.002 {built-in method torch.conv2d}
      358   23.135    0.065   23.135    0.065 {method 'run_backward' of 'torch._C._EngineBase' objects}
    11434    7.741    0.001   25.024    0.002 match.py:81(match)
    11434    4.309    0.000    8.033    0.001 match.py:60(jaccard)
    11434    4.254    0.000    5.007    0.000 match.py:125(encode)
     3984    2.605    0.001    2.605    0.001 {method 'acquire' of '_thread.lock' objects}
    11434    2.352    0.000    2.786    0.000 match.py:15(point_form)
    11434    1.888    0.000    3.444    0.000 match.py:39(intersect)
        2    1.760 

以上