# 2-2 Dataset の実装
ここでは SSD に限らず他の物体検出手法でも汎用的に使える Dataset クラスを実装する

## PyTorch によるディープラーニング実装の流れのおさらい
1-2節参照

## フォルダの準備
make_folders_and_data_downloads.ipynb を実行してフォルダの作成とデータセットのダウンロードを行う．

## 事前準備
OpenCV をインストールしておく．
```bash
$ pip install opencv-python
```

### 画像データ・アノテーションデータへのファイルパスのリストを作成
物体検出ではデータセットに正解のバウンディングボックスやラベルの情報といった，アノテーションデータが含まれる．
そのため，前処理や訓練時のデータオーギュメンテーションでは，バウンディングボックスの情報も合わせて変更する必要がある点に留意する．  
まずは画像データとアノテーションデータへのファイルパスのリストを作成する．
VOC2012 データセットでは訓練データと検証データがフォルダ分けされておらず，train.txt と val.txt にそれぞれ訓練用と検証用のファイル id が記載されているため，それをもとに画像とアノテーションのファイルパスのリストを作成する必要がある．

In [7]:
%matplotlib inline

# パッケージのimport
import os.path as osp
import numpy as np
import cv2
import random

# XMLをファイルやテキストから読み込んだり、加工したり、保存したりするためのライブラリ
import xml.etree.ElementTree as ET

import torch
import torch.utils.data as data

import matplotlib.pyplot as plt

torch.manual_seed(1234)
np.random.seed(1234)
random.seed(1234)

torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

In [8]:
def make_datapath_list(rootpath):
    """
    データへのパスを格納したリストを作成
    
    Parameters
    ----------
    rootpath: str
        データフォルダへのパス
    
    Returns
    -------
    ret: train_img_list, train_anno_list, val_img_list, val_anno_list
        データへのパスを格納したリスト
    """
    
    # 画像ファイルとアノテーションファイルへのパスのテンプレートを作成
    imgpath_template = osp.join(rootpath, 'JPEGImages', '%s.jpg')
    annopath_template = osp.join(rootpath, 'Annotations', '%s.xml')
    
    # 訓練と検証についてそれぞれのファイル名を取得する
    train_id_names = osp.join(rootpath, 'ImageSets/Main/train.txt')
    val_id_names = osp.join(rootpath, 'ImageSets/Main/val.txt')
    
    # 訓練データの画像ファイルとアノテーションファイルへのパスリストを作成
    train_img_list = list()
    train_anno_list = list()
    
    for line in open(train_id_names):
        file_id = line.strip()
        img_path = (imgpath_template % file_id)
        anno_path = (annopath_template % file_id)
        train_img_list.append(img_path)
        train_anno_list.append(anno_path)
        
    # 検証データの画像ファイルとアノテーションファイルへのパスリストを作成
    val_img_list = list()
    val_anno_list = list()
    
    for line in open(val_id_names):
        file_id = line.strip()
        img_path = (imgpath_template % file_id)
        anno_path = (annopath_template % file_id)
        val_img_list.append(img_path)
        val_anno_list.append(anno_path)
    
    return train_img_list, train_anno_list, val_img_list, val_anno_list

In [9]:
# 動作確認
rootpath = "./data/VOCdevkit/VOC2012/"
train_img_list, train_anno_list, val_img_list, val_anno_list = make_datapath_list(rootpath)
print(train_img_list[0])

./data/VOCdevkit/VOC2012/JPEGImages/2008_000008.jpg


## xml 形式のアノテーションデータをリストに変換
アノテーションデータを xml 形式から Python のリスト形式に変換する Anno_xml2list クラスを作成する．
作成に当たってはバウンディングボックスの座標を高さで割って正規化を行い，物体クラス名を文字列から数値に置き換える．

In [26]:
class Anno_xml2list():
    """
    各画像のアノテーションデータを画像サイズで規格化しリスト形式に変換
    
    Attributes
    ----------
    classes: list
        VOC のクラス名を格納したリスト
    """
    
    def __init__(self, classes):
        self.classes = classes
        
    def __call__(self, xml_path, width, height):
        """
        Parameters
        ----------
        xml_path: str
            xml ファイルへのパス
        width: int
            対象画像の幅
        height: int
            対象画像の高さ
            
        Returns
        -------
        ret: [[xmin, ymin, xmax, ymax, label_idx], ...]
            物体のアノテーションデータを格納したリストで長さは画像内の物体数
        """
        
        # このリストに画像内のすべての物体のアノテーションを格納する
        ret = []
        
        # xml ファイルの読み込み
        xml = ET.parse(xml_path).getroot()
        
        # 画像内にある物体の数だけループ
        for obj in xml.iter('object'):
            # 検知が difficult となっているものは除外
            difficult = int(obj.find('difficult').text)
            if difficult == 1:
                continue
                
            # 1つの物体に対するアノテーションを格納するリスト
            bndbox = []
            
            name = obj.find('name').text.lower().strip() # 物体名を抽出
            bbox = obj.find('bndbox') # バウンディングボックスの情報
            
            # バウンディングボックスの情報を0~1に規格化
            pts = ['xmin', 'ymin', 'xmax', 'ymax']
            
            for pt in (pts):
                # 原点を (0, 0) にする
                cur_pixel = int(bbox.find(pt).text) - 1
                
                # 幅、高さで規格化
                if pt == 'xmin' or pt == 'xmax':  # x方向のときは幅で割算
                    cur_pixel /= width
                else:  # y方向のときは高さで割算
                    cur_pixel /= height

                bndbox.append(cur_pixel)
                
            # アノテーションのクラス名のindexを取得して追加
            label_idx = self.classes.index(name)
            bndbox.append(label_idx)

            # resに[xmin, ymin, xmax, ymax, label_ind]を足す
            ret += [bndbox]

        return np.array(ret)

In [27]:
# 動作確認　
voc_classes = ['aeroplane', 'bicycle', 'bird', 'boat',
               'bottle', 'bus', 'car', 'cat', 'chair',
               'cow', 'diningtable', 'dog', 'horse',
               'motorbike', 'person', 'pottedplant',
               'sheep', 'sofa', 'train', 'tvmonitor']

transform_anno = Anno_xml2list(voc_classes)

# 画像の読み込み OpenCVを使用
ind = 1
image_file_path = val_img_list[ind]
img = cv2.imread(image_file_path)  # [高さ][幅][色BGR]
height, width, channels = img.shape  # 画像のサイズを取得

# アノテーションをリストで表示
transform_anno(val_anno_list[ind], width, height)

array([[ 0.09      ,  0.03003003,  0.998     ,  0.996997  , 18.        ],
       [ 0.122     ,  0.56756757,  0.164     ,  0.72672673, 14.        ]])