# 4.6 学習と検証の実施

- 本ファイルでは、OpenPoseの学習と検証の実施を行います。AWSのGPUマシンで計算します。
- p2.xlargeで45分ほどかかります。


# 学習目標

1.	OpenPoseの学習を実装できるようになる

# 事前準備

- これまでの章で実装したクラスと関数をフォルダ「utils」内に用意しています


In [1]:
# パッケージのimport
import random
import math
import time
import pandas as pd
import numpy as np
import torch
import torch.utils.data as data
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from tqdm import tqdm


In [2]:
# 初期設定
# Setup seeds
torch.manual_seed(1234)
np.random.seed(1234)
random.seed(1234)


# DataLoader作成

In [3]:
from utils.dataloader import make_datapath_list, DataTransform, COCOkeypointsDataset

# MS COCOのファイルパスリスト作成
train_img_list, train_mask_list, val_img_list, val_mask_list, train_meta_list, val_meta_list = make_datapath_list(
    rootpath="./data/")

# Dataset作成
# 本書ではデータ量の問題から、trainをval_listで作成している点に注意
train_dataset = COCOkeypointsDataset(
    val_img_list, val_mask_list, val_meta_list, phase="train", transform=DataTransform())

# 今回は簡易な学習とし検証データは作成しない
# val_dataset = CocokeypointsDataset(val_img_list, val_mask_list, val_meta_list, phase="val", transform=DataTransform())

# DataLoader作成
batch_size = 32

train_dataloader = data.DataLoader(
    train_dataset, batch_size=batch_size, shuffle=True)

# val_dataloader = data.DataLoader(
#    val_dataset, batch_size=batch_size, shuffle=False)

# 辞書型変数にまとめる
# dataloaders_dict = {"train": train_dataloader, "val": val_dataloader}
dataloaders_dict = {"train": train_dataloader, "val": None}


# ネットワークモデル作成

In [4]:
from utils.openpose_net import OpenPoseNet
net = OpenPoseNet()


# 損失関数を定義

In [5]:
# 損失関数の設定
class OpenPoseLoss(nn.Module):
    """OpenPoseの損失関数のクラスです。"""

    def __init__(self):
        super(OpenPoseLoss, self).__init__()

    def forward(self, saved_for_loss, heatmap_target, heat_mask, paf_target, paf_mask):
        """
        損失関数の計算。

        Parameters
        ----------
        saved_for_loss : OpenPoseNetの出力(リスト)

        heatmap_target : [num_batch, 19, 46, 46]
            正解の部位のアノテーション情報

        heatmap_mask : [num_batch, 19, 46, 46]
            heatmap画像のmask

        paf_target : [num_batch, 38, 46, 46]
            正解のPAFのアノテーション情報

        paf_mask : [num_batch, 38, 46, 46]
            PAF画像のmask

        Returns
        -------
        loss : テンソル
            損失の値
        """

        total_loss = 0
        # ステージごとに計算します
        for j in range(6):

            # PAFsとheatmapsにおいて、マスクされている部分（paf_mask=0など）は無視させる
            # PAFs
            pred1 = saved_for_loss[2 * j] * paf_mask
            gt1 = paf_target.float() * paf_mask

            # heatmaps
            pred2 = saved_for_loss[2 * j + 1] * heat_mask
            gt2 = heatmap_target.float()*heat_mask

            total_loss += F.mse_loss(pred1, gt1, reduction='mean') + \
                F.mse_loss(pred2, gt2, reduction='mean')

        return total_loss


criterion = OpenPoseLoss()


# 最適化手法を設定

In [6]:
optimizer = optim.SGD(net.parameters(), lr=1e-2,
                      momentum=0.9,
                      weight_decay=0.0001)


# 学習を実施

In [7]:
# モデルを学習させる関数を作成
use_amp = True
scaler = torch.cuda.amp.GradScaler(enabled=use_amp)
device_amp = 'cuda' if torch.cuda.is_available() else 'cpu'

def train_model(net, dataloaders_dict, criterion, optimizer, num_epochs):

    # GPUが使えるかを確認
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    print("使用デバイス：", device)

    # ネットワークをGPUへ
    net.to(device)

    # ネットワークがある程度固定であれば、高速化させる
    torch.backends.cudnn.benchmark = True
    torch.cuda.empty_cache

    # 画像の枚数
    num_train_imgs = len(dataloaders_dict["train"].dataset)
    batch_size = dataloaders_dict["train"].batch_size

    # イテレーションカウンタをセット
    iteration = 1

    # epochのループ
    for epoch in range(num_epochs):
        torch.cuda.empty_cache

        # 開始時刻を保存
        t_epoch_start = time.time()
        t_iter_start = time.time()
        epoch_train_loss = 0.0  # epochの損失和
        epoch_val_loss = 0.0  # epochの損失和

        print('-------------')
        print('Epoch {}/{}'.format(epoch+1, num_epochs))
        print('-------------')

        # epochごとの訓練と検証のループ
        for phase in ['train', 'val']:
            if phase == 'train':
                net.train()  # モデルを訓練モードに
                optimizer.zero_grad()
                print('（train）')

            # 今回は検証はスキップ
            else:
                continue
                # net.eval()   # モデルを検証モードに
                # print('-------------')
                # print('（val）')

            # データローダーからminibatchずつ取り出すループ
            for imges, heatmap_target, heat_mask, paf_target, paf_mask in tqdm(dataloaders_dict[phase]):
                # ミニバッチがサイズが1だと、バッチノーマライゼーションでエラーになるのでさける
                # issue #186より不要なのでコメントアウト
                # if imges.size()[0] == 1:
                #     continue
                torch.cuda.empty_cache

                # GPUが使えるならGPUにデータを送る
                imges = imges.to(device)
                heatmap_target = heatmap_target.to(device)
                heat_mask = heat_mask.to(device)
                paf_target = paf_target.to(device)
                paf_mask = paf_mask.to(device)

                # optimizerを初期化
                optimizer.zero_grad()

                # 順伝搬（forward）計算
                with torch.set_grad_enabled(phase == 'train'):
                    with torch.autocast(device_type=device_amp, dtype=torch.float16, enabled=use_amp):
                        
                        # (out6_1, out6_2)は使わないので _ で代替
                        _, saved_for_loss = net(imges)

                        loss = criterion(saved_for_loss, heatmap_target,
                                        heat_mask, paf_target, paf_mask)
                        del saved_for_loss
                        # 訓練時はバックプロパゲーション
                        if phase == 'train':
                            scaler.scale(loss).backward()
                            scaler.step(optimizer)
                            scaler.update()
                            #optimizer.zero_grad()
                            #loss.backward()
                            #optimizer.step()

                            if (iteration % 10 == 0):  # 10iterに1度、lossを表示
                                t_iter_finish = time.time()
                                duration = t_iter_finish - t_iter_start
                                print('イテレーション {} || Loss: {:.4f} || 10iter: {:.4f} sec.'.format(
                                    iteration, loss.item()/batch_size, duration))
                                t_iter_start = time.time()

                            epoch_train_loss += loss.item()
                            iteration += 1

                        # 検証時
                        # else:
                            #epoch_val_loss += loss.item()

        # epochのphaseごとのlossと正解率
        t_epoch_finish = time.time()
        print('-------------')
        print('epoch {} || Epoch_TRAIN_Loss:{:.4f} ||Epoch_VAL_Loss:{:.4f}'.format(
            epoch+1, epoch_train_loss/num_train_imgs, 0))
        print('timer:  {:.4f} sec.'.format(t_epoch_finish - t_epoch_start))
        t_epoch_start = time.time()

    # 最後のネットワークを保存する
    torch.save(net.state_dict(), 'weights/openpose_net_' +
               str(epoch+1) + '.pth')


In [8]:
# 学習・検証を実行する
num_epochs = 2
train_model(net, dataloaders_dict, criterion, optimizer, num_epochs=num_epochs)


使用デバイス： cuda:0
-------------
Epoch 1/2
-------------
（train）


  7%|▋         | 10/153 [03:53<52:19, 21.95s/it] 

イテレーション 10 || Loss: 0.0093 || 10iter: 233.3719 sec.


 13%|█▎        | 20/153 [07:52<50:53, 22.96s/it]

イテレーション 20 || Loss: 0.0082 || 10iter: 239.1212 sec.


 20%|█▉        | 30/153 [11:22<39:18, 19.18s/it]

イテレーション 30 || Loss: 0.0068 || 10iter: 209.5169 sec.


 26%|██▌       | 40/153 [15:26<48:08, 25.56s/it]

イテレーション 40 || Loss: 0.0057 || 10iter: 244.5800 sec.


 33%|███▎      | 50/153 [18:06<24:29, 14.26s/it]

イテレーション 50 || Loss: 0.0048 || 10iter: 159.8140 sec.


 39%|███▉      | 60/153 [21:20<37:22, 24.11s/it]

イテレーション 60 || Loss: 0.0044 || 10iter: 194.1606 sec.


 46%|████▌     | 70/153 [25:00<31:09, 22.53s/it]

イテレーション 70 || Loss: 0.0037 || 10iter: 220.1528 sec.


 52%|█████▏    | 80/153 [28:40<27:12, 22.37s/it]

イテレーション 80 || Loss: 0.0030 || 10iter: 219.6714 sec.


 59%|█████▉    | 90/153 [32:19<23:23, 22.27s/it]

イテレーション 90 || Loss: 0.0027 || 10iter: 219.0387 sec.


 65%|██████▌   | 100/153 [35:58<19:32, 22.12s/it]

イテレーション 100 || Loss: 0.0026 || 10iter: 219.0055 sec.


 72%|███████▏  | 110/153 [39:37<15:50, 22.10s/it]

イテレーション 110 || Loss: 0.0021 || 10iter: 218.5740 sec.


 78%|███████▊  | 120/153 [43:13<12:05, 22.00s/it]

イテレーション 120 || Loss: 0.0022 || 10iter: 215.9370 sec.


 85%|████████▍ | 130/153 [46:49<08:25, 21.96s/it]

イテレーション 130 || Loss: 0.0020 || 10iter: 215.9405 sec.


 92%|█████████▏| 140/153 [50:24<04:46, 22.01s/it]

イテレーション 140 || Loss: 0.0018 || 10iter: 215.6495 sec.


 98%|█████████▊| 150/153 [54:00<01:05, 21.97s/it]

イテレーション 150 || Loss: 0.0019 || 10iter: 215.8314 sec.


100%|██████████| 153/153 [54:47<00:00, 21.49s/it]


-------------
epoch 1 || Epoch_TRAIN_Loss:0.0043 ||Epoch_VAL_Loss:0.0000
timer:  3287.8577 sec.
-------------
Epoch 2/2
-------------
（train）


  5%|▍         | 7/153 [03:33<1:13:49, 30.34s/it]

イテレーション 160 || Loss: 0.0017 || 10iter: 213.9562 sec.


 11%|█         | 17/153 [09:26<1:17:23, 34.14s/it]

イテレーション 170 || Loss: 0.0016 || 10iter: 352.8719 sec.


 18%|█▊        | 27/153 [15:24<1:15:11, 35.81s/it]

イテレーション 180 || Loss: 0.0020 || 10iter: 357.7026 sec.


 24%|██▍       | 37/153 [21:12<1:04:49, 33.53s/it]

イテレーション 190 || Loss: 0.0016 || 10iter: 347.9576 sec.


 31%|███       | 47/153 [27:01<59:46, 33.83s/it]  

イテレーション 200 || Loss: 0.0016 || 10iter: 349.4240 sec.


 37%|███▋      | 57/153 [32:37<55:03, 34.41s/it]  

イテレーション 210 || Loss: 0.0014 || 10iter: 335.5409 sec.


 44%|████▍     | 67/153 [38:26<53:07, 37.06s/it]

イテレーション 220 || Loss: 0.0017 || 10iter: 348.4736 sec.


 50%|█████     | 77/153 [44:06<43:38, 34.45s/it]

イテレーション 230 || Loss: 0.0013 || 10iter: 340.4400 sec.


 57%|█████▋    | 87/153 [50:02<37:34, 34.17s/it]

イテレーション 240 || Loss: 0.0013 || 10iter: 355.9396 sec.


 63%|██████▎   | 97/153 [56:05<33:28, 35.87s/it]

イテレーション 250 || Loss: 0.0015 || 10iter: 363.1793 sec.


 70%|██████▉   | 107/153 [1:01:36<25:29, 33.25s/it]

イテレーション 260 || Loss: 0.0013 || 10iter: 331.2767 sec.


 76%|███████▋  | 117/153 [1:07:04<18:37, 31.04s/it]

イテレーション 270 || Loss: 0.0016 || 10iter: 327.8008 sec.


 83%|████████▎ | 127/153 [1:12:57<14:47, 34.13s/it]

イテレーション 280 || Loss: 0.0015 || 10iter: 352.5979 sec.


 90%|████████▉ | 137/153 [1:18:52<09:29, 35.56s/it]

イテレーション 290 || Loss: 0.0014 || 10iter: 355.5072 sec.


 96%|█████████▌| 147/153 [1:24:43<03:24, 34.00s/it]

イテレーション 300 || Loss: 0.0014 || 10iter: 350.8640 sec.


100%|██████████| 153/153 [1:27:47<00:00, 34.43s/it]


-------------
epoch 2 || Epoch_TRAIN_Loss:0.0015 ||Epoch_VAL_Loss:0.0000
timer:  5267.4561 sec.


以上