<a href="https://colab.research.google.com/github/git-hatano/pytorch_advanced/blob/main/2%E2%88%927_SSD__training.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#[2.7 学習と検証の実施](https://github.com/YutaroOgawa/pytorch_advanced/blob/master/2_objectdetection/2-7_SSD_training.ipynb)

##事前準備

In [1]:
import os
import urllib.request
import zipfile
import tarfile

utils のファイルをダウンロードし、下記のフォルダにアップロード

In [2]:
utils_dir = "./utils"
if not os.path.exists(utils_dir):
    os.mkdir(utils_dir)

In [3]:
# フォルダ「data」が存在しない場合は作成する
data_dir = "./data/"
if not os.path.exists(data_dir):
    os.mkdir(data_dir)

In [4]:
# フォルダ「weights」が存在しない場合は作成する
weights_dir = "./weights/"
if not os.path.exists(weights_dir):
    os.mkdir(weights_dir)

In [5]:
# VOC2012のデータセットをここからダウンロードします
# 時間がかかります（約15分）
url = "http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar"
target_path = os.path.join(data_dir, "VOCtrainval_11-May-2012.tar") 

if not os.path.exists(target_path):
    urllib.request.urlretrieve(url, target_path)
    
    tar = tarfile.TarFile(target_path)  # tarファイルを読み込み
    tar.extractall(data_dir)  # tarを解凍
    tar.close()  # tarファイルをクローズ

In [6]:
# 学習済みのSSD用のVGGのパラメータをフォルダ「weights」にダウンロード
# MIT License
# Copyright (c) 2017 Max deGroot, Ellis Brown
# https://github.com/amdegroot/ssd.pytorch
    
url = "https://s3.amazonaws.com/amdegroot-models/vgg16_reducedfc.pth"
target_path = os.path.join(weights_dir, "vgg16_reducedfc.pth") 

if not os.path.exists(target_path):
    urllib.request.urlretrieve(url, target_path)

In [7]:
# 学習済みのSSD300モデルをフォルダ「weights」にダウンロード
# MIT License
# Copyright (c) 2017 Max deGroot, Ellis Brown
# https://github.com/amdegroot/ssd.pytorch

url = "https://s3.amazonaws.com/amdegroot-models/ssd300_mAP_77.43_v2.pth"
target_path = os.path.join(weights_dir, "ssd300_mAP_77.43_v2.pth") 

if not os.path.exists(target_path):
    urllib.request.urlretrieve(url, target_path)

In [8]:
# パッケージのimport
import os.path as osp
import random
import time

import cv2
import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.nn.init as init
import torch.optim as optim
import torch.utils.data as data

In [9]:
# 乱数のシードを設定
torch.manual_seed(1234)
np.random.seed(1234)
random.seed(1234)

In [10]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print("使用デバイス：", device)

使用デバイス： cuda:0


##DatasetとDataLoaderを作成

In [11]:
from utils.ssd_model import make_datapath_list, VOCDataset, DataTransform, Anno_xml2list, od_collate_fn

#ファイルパスのリストを取得
rootpath = "./data/VOCdevkit/VOC2012/"
train_img_list, train_anno_list, val_img_list, val_anno_list = make_datapath_list(rootpath)

#Datasetの作成
voc_classes = ['aeroplane', 'bicycle', 'bird', 'boat',
               'bottle', 'bus', 'car', 'cat', 'chair',
               'cow', 'diningtable', 'dog', 'horse',
               'motorbike', 'person', 'pottedplant',
               'sheep', 'sofa', 'train', 'tvmonitor']
color_mean = (104, 117, 123)  # (BGR)の色の平均値
input_size = 300  # 画像のinputサイズを300×300にする

train_dataset = VOCDataset(train_img_list, train_anno_list, phase="train", 
                           transform=DataTransform(input_size, color_mean), 
                           transform_anno=Anno_xml2list(voc_classes))

val_dataset = VOCDataset(val_img_list, val_anno_list, phase="val", 
                         transform=DataTransform(input_size, color_mean), 
                         transform_anno=Anno_xml2list(voc_classes))

# DataLoaderを作成する
batch_size = 32

train_dataloader = data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True, collate_fn=od_collate_fn)
val_dataloader = data.DataLoader(val_dataset, batch_size=batch_size, shuffle=False, collate_fn=od_collate_fn)

# 辞書オブジェクトにまとめる
dataloaders_dict = {"train": train_dataloader, "val": val_dataloader}

##ネットワークモデルの作成

In [12]:
from utils.ssd_model import SSD

#SSD300の設定
ssd_cfg = {
    'num_classes': 21,  # 背景クラスを含めた合計クラス数
    'input_size': 300,  # 画像の入力サイズ
    'bbox_aspect_num': [4, 6, 6, 6, 4, 4],  # 出力するDBoxのアスペクト比の種類
    'feature_maps': [38, 19, 10, 5, 3, 1],  # 各sourceの画像サイズ
    'steps': [8, 16, 32, 64, 100, 300],  # DBOXの大きさを決める
    'min_sizes': [30, 60, 111, 162, 213, 264],  # DBOXの大きさを決める
    'max_sizes': [60, 111, 162, 213, 264, 315],  # DBOXの大きさを決める
    'aspect_ratios': [[2], [2, 3], [2, 3], [2, 3], [2], [2]],
}

#SSD
net = SSD(phase="train", cfg=ssd_cfg)

#SSDの初期の重みを設定
#SSDのVGG部分に重みをダウンロード
vgg_weights = torch.load("./weights/vgg16_reducedfc.pth")
net.vgg.load_state_dict(vgg_weights)

# ssdのその他のネットワークの重みはHeの初期値で初期化
def weights_init(m):
    if isinstance(m, nn.Conv2d):
        init.kaiming_normal_(m.weight.data)
        if m.bias is not None:
            nn.init.constant_(m.bias, 0)

net.extras.apply(weights_init)
net.loc.apply(weights_init)
net.conf.apply(weights_init)

# GPUが使えるかを確認
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print("使用デバイス：", device)
print('ネットワーク設定完了：学習済みの重みをロードしました')

使用デバイス： cuda:0
ネットワーク設定完了：学習済みの重みをロードしました


##損失関数と最適化手法を定義

In [13]:
from utils.ssd_model import MultiBoxLoss

#損失関数
criterion = MultiBoxLoss(jaccard_thresh=0.5, neg_pos=3, device=device)
#最適化手法
optimizer = optim.SGD(net.parameters(), lr=1e-3, momentum=0.9, weight_decay=5e-4)

##学習・検証

In [16]:
def train_model(net, dataloaders_dict, criterion, optimizer, num_epochs):
    #GPUが使えるか確認
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    print("使用デバイス：", device)
    # ネットワークをGPUへ
    net.to(device)
    # ネットワークがある程度固定であれば、高速化させる
    torch.backends.cudnn.benchmark = True

    iteration = 1
    epoch_train_loss = 0.0
    epoch_val_loss = 0.0
    logs = []

    for epoch in range(num_epochs+1):
        # 開始時刻を保存
        t_epoch_start = time.time()
        t_iter_start = time.time()

        print('-------------')
        print('Epoch {}/{}'.format(epoch+1, num_epochs))
        print('-------------')

        #epochごとの訓練と検証のループ
        for phase in ["train", "val"]:
            if phase == "train":
                net.train()
                print('（train）')
            else:
                if (epoch+1)%10 == 0:
                    net.eval()
                    print('-------------')
                    print('（val）')
                else:
                    # 検証は10回に1回だけ行う
                    continue

            # データローダーからminibatchずつ取り出すループ
            for images, targets in dataloaders_dict[phase]:
                #GPUが使えるなら送る
                images = images.to(device)
                targets = [ann.to(device) for ann in targets]

                #optimizerの初期化
                optimizer.zero_grad()

                #順伝搬（forward）計算
                with torch.set_grad_enabled(phase == "train"):
                    #forward
                    outputs = net(images)

                    #loss
                    loss_l, loss_c = criterion(outputs, targets)
                    loss = loss_l + loss_c

                    #訓練時は逆伝播
                    if phase == "train":
                        #勾配の計算
                        loss.backward()

                        # 勾配が大きくなりすぎると計算が不安定になるので、clipで最大でも勾配2.0に留める
                        nn.utils.clip_grad_value_(net.parameters(), clip_value=2.0)
                        # パラメータ更新
                        optimizer.step()

                        if (iteration % 10 == 0):  # 10iterに1度、lossを表示
                            t_iter_finish = time.time()
                            duration = t_iter_finish - t_iter_start
                            print('イテレーション {} || Loss: {:.4f} || 10iter: {:.4f} sec.'.format(
                                iteration, loss.item(), duration))
                            t_iter_start = time.time()

                        epoch_train_loss += loss.item()
                        iteration += 1

                    # 検証時
                    else:
                        epoch_val_loss += loss.item()

        # epochのphaseごとのloss （Issue158での誤植修正）
        t_epoch_finish = time.time()
        print('-------------')
        print('epoch {} || Epoch_TRAIN_Loss:{:.4f} ||Epoch_VAL_Loss:{:.4f}'.format(
            epoch+1, epoch_train_loss, epoch_val_loss))
        print('timer:  {:.4f} sec.'.format(t_epoch_finish - t_epoch_start))
        t_epoch_start = time.time()

        # ログを保存
        log_epoch = {'epoch': epoch+1,
                     'train_loss': epoch_train_loss, 'val_loss': epoch_val_loss}
        logs.append(log_epoch)
        df = pd.DataFrame(logs)
        df.to_csv("log_output.csv")

        epoch_train_loss = 0.0  # epochの損失和
        epoch_val_loss = 0.0  # epochの損失和

        # ネットワークを保存する
        if ((epoch+1) % 10 == 0):
            torch.save(net.state_dict(), 'weights/ssd300_' +
                       str(epoch+1) + '.pth')

In [17]:
# 学習・検証を実行する
num_epochs= 50  
train_model(net, dataloaders_dict, criterion, optimizer, num_epochs=num_epochs)

使用デバイス： cuda:0
-------------
Epoch 1/50
-------------
（train）


  mode = random.choice(self.sample_options)


イテレーション 10 || Loss: 16.5910 || 10iter: 27.9382 sec.
イテレーション 20 || Loss: 12.9110 || 10iter: 14.0508 sec.
イテレーション 30 || Loss: 10.0072 || 10iter: 13.9434 sec.
イテレーション 40 || Loss: 8.6467 || 10iter: 13.9975 sec.
イテレーション 50 || Loss: 8.3504 || 10iter: 13.7698 sec.
イテレーション 60 || Loss: 8.3845 || 10iter: 14.4807 sec.
イテレーション 70 || Loss: 8.3662 || 10iter: 14.1055 sec.
イテレーション 80 || Loss: 7.5521 || 10iter: 14.3180 sec.
イテレーション 90 || Loss: 8.1805 || 10iter: 14.2421 sec.
イテレーション 100 || Loss: 7.7227 || 10iter: 14.0902 sec.
イテレーション 110 || Loss: 7.4838 || 10iter: 15.3358 sec.
イテレーション 120 || Loss: 7.1977 || 10iter: 14.1492 sec.
イテレーション 130 || Loss: 7.6837 || 10iter: 14.3090 sec.
イテレーション 140 || Loss: 7.6098 || 10iter: 14.4716 sec.
イテレーション 150 || Loss: 7.2705 || 10iter: 14.4002 sec.
イテレーション 160 || Loss: 7.5723 || 10iter: 14.5365 sec.
イテレーション 170 || Loss: 7.2083 || 10iter: 14.5628 sec.
-------------
epoch 1 || Epoch_TRAIN_Loss:1630.3311 ||Epoch_VAL_Loss:0.0000
timer:  285.8700 sec.
-------------
Epoch 2/50

KeyboardInterrupt: ignored