# Annotation データの変換

Annotation Factoryを利用して作成した Annotation データを、SSD (Single Shot Multibox Detector) で学習できる形式に変換します。

## 概要

業務で蓄積したデータは、機械学習に適した構造になっていないことがあります。  
機械学習の業務では、そうしたデータを機械学習フレームワークが扱いやすい構造に変換することが頻繁にあります。  

このノートブックでは、そうした変換を体験してみます。  
例として、Annotation Factory（以降、AF と略記）で作成した汎用的な Annotation（教師データ）を、TensorFlow Object Detection Models（以降、TF Object Detection と略記）の SSD (Single Shot Multibox Detector) モデルで学習できる形式に変換します。

## 準備

In [None]:
import sys
sys.path.append(r'../models/research/object_detection')

import glob
import json
import re
import tensorflow as tf
from utils import dataset_util

※ノートブックインスタンス起動直後は、少し時間がかかる場合があります。

## AFのJSON構造

AFの出力したAnnotationデータ（.json ファイル）を読み込んで、構造を確認します。

In [None]:
data_path = "./data-manabiya/width1000/"

In [None]:
def printRecursive(obj, depth=0):
    if isinstance(obj, dict):
        for k, v in obj.items():
            spacer = "  " * depth
            print("{}{}: {}".format(spacer, k, type(v)))
            printRecursive(v, depth + 1)
    if isinstance(obj,list):
        for v in obj:
            printRecursive(v, depth + 1)
            
            
for annotation_json_path in glob.glob(data_path + "json/*.json"):
    print(annotation_json_path)
    json_dict = json.load(open(annotation_json_path, 'r'))
    printRecursive(json_dict)

AFで作成されるアノテーションJSONは、現在はこのような構造をしています。

```
input_data_id: <type 'unicode'>
comment: <type 'unicode'>
task_id: <type 'unicode'>
detail: <type 'list'>
        comment: <type 'unicode'>
        user_id: <type 'unicode'>
        account_id: <type 'unicode'>
        annotation_id: <type 'unicode'>
        label_name: <type 'unicode'>
        label_id: <type 'unicode'>
        data_holding_type: <type 'unicode'>
        data: <type 'unicode'>
        additional_data_list: <type 'list'>
                type: <type 'unicode'>
                choice: <type 'unicode'>
                additional_data_definition_name: <type 'unicode'>
                choice_name: <type 'unicode'>
                additional_data_definition_id: <type 'unicode'>
```

TF Object Detection に自分のデータセットを学習させるためには、データを TFRecords という形式にする必要があります。  
https://www.tensorflow.org/api_guides/python/python_io#tfrecords_format_details

## SSDのデータセット構造

TF Object Detection に用意されている TFRecords のファイルを読み込んで、構造を確認します。

In [None]:
re_example_type = re.compile("^(\S+)\s")
re_example_value = re.compile("^\S+\s\{\n\s+value:(.*)\n\}")

def truncate(s, limit):
    if len(s) > limit:
        return s[:limit] + "... (truncated)"
    else:
        return s

for record in tf.python_io.tf_record_iterator("../models/research/object_detection/test_data/pets_examples.record"):
    example = tf.train.Example.FromString(record)
    
    print("見本:")
    for key in sorted(example.features.feature):
        v = example.features.feature[key]
        vtype = re_example_type.search(str(v)).group(0)
        vvalue = re_example_value.search(str(v)).group(1)
        print("  {}: {} = {}".format(key, vtype, truncate(vvalue, 50)))

    print("raw:")
    for key in sorted(example.features.feature):
        v = example.features.feature[key]
        print("  {}: {}".format(key, v))

    # 型と見本を見たいだけなので1個で終了    
    break    

## 変換

上記のアノテーションJSONを、TFRecordsに変換していきます。

In [None]:
"""指定した点を全て含む矩形（＝Bounding Box）を返す。"""
def bounding_box(coordinates):
    _x = 0
    _y = 1
    _xs = [t[_x] for t in coordinates]
    _ys = [t[_y] for t in coordinates]
    min_x, min_y = min(_xs), min(_ys)
    max_x, max_y = max(_xs), max(_ys)
    return (min_x, min_y, max_x, max_y)

bounding_box([(1,1), (2,4), (3,3)])

In [None]:
"""
input_data_id と ファイル名の対応辞書を作成します。今回は、全体の画像のうち、
* 80% 学習用（train）
* 20% 評価用（eval）
に分けます。恣意性が入らないようにランダムに分けます"""

import random 
random.seed(20180323)

inputs_json_path = data_path + "inputs.json"         
inputs_json_dict = json.load(open(inputs_json_path, 'r'))
input_data_list = inputs_json_dict["list"]
random.shuffle(input_data_list)

needle_80 = int(len(input_data_list) * 0.8)
(for_train, for_eval) = input_data_list[0:needle_80], input_data_list[needle_80:]

def to_id_name_mapping(input_data_list):
    return {str(e["input_data_id"]): str(e["input_data_name"])  for e in input_data_list}

input_data_id_2_input_name = {
    "train": to_id_name_mapping(for_train),
    "eval": to_id_name_mapping(for_eval),
}
input_data_id_2_input_name

In [None]:
# 後で利用するために「input_data_id と ファイル名の対応辞書」をファイルに出力
dict_filepath = "./input_data_id_2_input_name.json"
with open(dict_filepath, "w") as out_fp:
    json.dump(input_data_id_2_input_name, out_fp, indent=4)

In [None]:
"""クラス名とインデックス（1-origin）の対応辞書"""
class_text_2_index = {label: index for (index, label) in enumerate([
    "january-normal", "january-poetry-ribbon", "january-special-crane-and-sun",
    "february-normal", "february-poetry-ribbon", "february-special-bush-warbler-in-a-tree",
    "march-normal", "march-poetry-ribbon", "march-special-camp-curtain",
    "april-normal", "april-red-ribbon", "april-special-cuckoo",
    "may-normal", "may-red-ribbon", "may-special-water-irs-and-eight-plank-bridge",
    "june-normal", "june-purple-ribbon", "june-special-butterflies",
    "july-normal", "july-red-ribbon", "july-special-boar", 
    "august-normal", "august-special-geese-in-flight", "august-special-full-moon-with-red-sky",
    "september-normal", "september-purple-ribbon", "september-special-poetry-sake-cup",
    "october-normal", "october-purple-ribbon", "october-special-deer-and-maple",
    "november-red-ribbon", "november-special-lightning", "november-special-swallow", "november-special-rainman-with-umbrella-and-frog",
    "december-normal", "december-special-chinese-phoenix"
], 1)}

In [None]:
"""画像を読み込んでPNGエンコードしたバイト列を返す。"""
def byte_encode_image(imagepath):
    import io 
    from PIL import Image

    with open(imagepath, "r") as imageFile:
        img = Image.open(imageFile, mode='r')    
        imgByteArr = io.BytesIO()
        img.save(imgByteArr, format='PNG')
        return imgByteArr.getvalue()

In [None]:
%%time

def generate_tfrecord(out_path, id_2_name_mapping):
    with tf.python_io.TFRecordWriter(out_path) as writer:
        for annotation_json_path in glob.glob(data_path + "json/*.json"):
            json_dict = json.load(open(annotation_json_path, 'r'))
            filename = id_2_name_mapping.get(json_dict["input_data_id"], None)
            if (filename is None):
                continue
            
            image_path = data_path + "image/{}".format(filename)
            # 画像サイズは決め打ち
            width,height = 1000.0, 750.0
            encoded_image_data = byte_encode_image(image_path)

            # 1画像内の複数アノテーションを扱うため配列
            xmins = []
            xmaxs = []
            ymins = []
            ymaxs = []
            classes_text = []
            classes = []

            for annotation in json_dict["detail"]:           
                xy_coordinates = [(int(e["x"]),int(e["y"])) for e in annotation["data"]]
                min_x, min_y, max_x, max_y = bounding_box(xy_coordinates)
                xmins.append(min_x / width)
                ymins.append(min_y / height)
                xmaxs.append(max_x / width)
                ymaxs.append(max_y / height)
                class_text = str(annotation["additional_data_list"][0]["choice"])
                classes_text.append(class_text)
                classes.append(class_text_2_index[class_text])

            example = tf.train.Example(features=tf.train.Features(feature={
                'image/height': dataset_util.int64_feature(int(height)),
                'image/width': dataset_util.int64_feature(int(width)),
                'image/filename': dataset_util.bytes_feature(filename),
                'image/source_id': dataset_util.bytes_feature(filename),
                'image/encoded': dataset_util.bytes_feature(encoded_image_data),
                'image/format': dataset_util.bytes_feature("png"),
                'image/object/bbox/xmin': dataset_util.float_list_feature(xmins),
                'image/object/bbox/xmax': dataset_util.float_list_feature(xmaxs),
                'image/object/bbox/ymin': dataset_util.float_list_feature(ymins),
                'image/object/bbox/ymax': dataset_util.float_list_feature(ymaxs),
                'image/object/class/text': dataset_util.bytes_list_feature(classes_text),
                'image/object/class/label': dataset_util.int64_list_feature(classes),
            }))
            writer.write(example.SerializeToString())
            
# 変換実施
generate_tfrecord("af_dataset_train.record", input_data_id_2_input_name["train"])
generate_tfrecord("af_dataset_eval.record", input_data_id_2_input_name["eval"])

## ラベルマップ出力

ラベルマップは、TF Object Detection の学習（訓練・検証）で利用する、クラスIDとクラス名の対応を記述したファイルです。  
アノテーションJSONをTFRecordsに変換する際に用意した「クラス名とインデックス（1-origin）の対応辞書」を、このラベルマップに変換します。

In [None]:
# 辞書の変換
index_2_class_text = {index: label for (label, index) in class_text_2_index.items()}
index_2_class_text

In [None]:
# ラベルマップファイル名
label_map_filepath = "label_map.pbtxt"

In [None]:
%%time
# 出力
with open(label_map_filepath, "w") as f:
    for index in sorted(index_2_class_text.keys()):
        label = index_2_class_text[index]
        f.write("item {\n")
        f.write("  id: {}\n".format(index))
        f.write("  name: '{}'\n".format(label))
        f.write("}\n")