# 検出

学習したモデルを使って、実際に画像から検出をします。

## 準備

In [None]:
import sys
sys.path.append(r'../models/research')

import os
from collections import defaultdict
from io import StringIO

import numpy as np
import tensorflow as tf
from matplotlib import pyplot as plt
from PIL import Image

from object_detection.utils import ops as utils_ops


In [None]:
# This is needed to display the images.
%matplotlib inline

In [None]:
from object_detection.utils import label_map_util
from object_detection.utils import visualization_utils as vis_util

↑ matplotlib の設定でコンフリクトが起きるのでエラーが出ますが、notebookの動作には支障ありません。無視してください。

## モデル準備

学習したモデル（グラフデータおよびチェックポイントファイル）を、変数情報を固定化して検出に特化したモデル（フローズングラフ）に変換します。

↓ `model.ckpt-2000` の箇所は、実際に回したステップ数に応じて適宜修正してください（100ステップなら `model.ckpt-100`、等）。

In [None]:
%%time
%%sh
env PYTHONPATH=$PYTHONPATH:../models/research:../models/research/slim \
    python ../models/research/object_detection/export_inference_graph.py \
        --input_type image_tensor \
        --pipeline_config_path ./ssd_mobilenet_v1_manabiya.pbtxt \
        --trained_checkpoint_prefix ./train/model.ckpt-2000 \
        --output_directory ./frozen

↑ `Converted 199 variables to const ops.` と出力されればOK。  
　警告が出る場合がありますが無視してください。

変換に成功すると、`./frozen/` ディレクトリ以下にいくつかのファイルが生成されます。

## 変数設定

検出で使用するいくつかの変数を定義します。

In [None]:
# フローズングラフへのパス。これが実際に物体検出に利用されるモデルです。
PATH_TO_FROZEN_GRAPH = './frozen/frozen_inference_graph.pb'

# ラベルマップファイルへのパス（Step1 で生成したもの。出力ラベル表示時に利用）
PATH_TO_LABELS = './label_map.pbtxt'

# クラス数
NUM_CLASSES = 36

# 表示画像サイズ（Jupyter Notebook 上に検出結果を表示する際にのみ使用）
DISPLAY_IMAGE_SIZE = (12*2, 8*2)

## モデルの読込

`PATH_TO_FROZEN_GRAPH` からモデルを読み込みます。TensorFlow の `tf.Graph` および `tf.GraphDef` を利用します。

In [None]:
detection_graph = tf.Graph()
with detection_graph.as_default():
    od_graph_def = tf.GraphDef()
    with tf.gfile.GFile(PATH_TO_FROZEN_GRAPH, 'rb') as fid:
        serialized_graph = fid.read()
        od_graph_def.ParseFromString(serialized_graph)
        tf.import_graph_def(od_graph_def, name='')

## ラベルマップの読込

`PATH_TO_LABELS` からラベルマップを読み込みます。TF Object Detection で用意されているユーティリティ関数を利用します。

In [None]:
# ラベルマップをそのまま読込
label_map = label_map_util.load_labelmap(PATH_TO_LABELS)
# ↑を「ディクショナリのリスト」に変換（評価時に利用）
categories = label_map_util.convert_label_map_to_categories(label_map, max_num_classes=NUM_CLASSES, use_display_name=True)
# ↑をさらに「ディクショナリ（ID->（ラベルマップの1項目を表す）ディクショナリ）」に変換（検出結果表示時に利用）
category_index = label_map_util.create_category_index(categories)

## ヘルパーコード

読み込んだ画像をRGBのバイト列（3次元配列）に変換する関数を準備します。  
検出する際には画像ファイルの生データではなくバイト列にデコードしたデータを入力とする必要があり、そのためのものです。

In [None]:
def load_image_into_numpy_array(image):
    (im_width, im_height) = image.size
    return np.array(image.getdata()).reshape(
        (im_height, im_width, 3)).astype(np.uint8)

## 入力

準備された検証用の画像を読み込む準備をします。  
ここでは画像のパスをリストで用意しているだけです。

In [None]:
import glob

In [None]:
PATH_TO_TEST_IMAGES_DIR = './data-manabiya/width1000/image'
TEST_IMAGE_PATHS = glob.glob(os.path.join(PATH_TO_TEST_IMAGES_DIR, '*.png'))

## 検出実行

`run_inference_for_single_image()` 関数は、画像とグラフ（検出用のフローズングラフ）を受け取って、推測（検出）を実行する関数です。  
長いのでかいつまんで仕様（概要）を説明します：

+ 引数：
    + `image`: 画像データ（縦×横×RGBの3次元配列）
    + `graph`: フローズングラフ（を読み込んだ `tf.Graph`）
+ 処理概要：
    1. フローズングラフから、検出結果を返すテンソル（ops）を抽出
    2. 受け取った画像データを引き渡して推測→検出結果を取得
    3. 数値を適宜修正（補正）して返す
+ 戻り値：
    + 辞書：
        + 各キーとその値：
            + `num_detections`: 検出数
            + `detection_boxes`: 検出した矩形（BoundingBox）のリスト
            + `detection_classes`: 検出したクラスのリスト
            + `detection_scores`: 検出結果のスコアのリスト
        + 各 `detection_～es` は `num_detections` 個の要素からなるリスト（numpy array）
        + 各 `detection_～es` の各`n`番目の要素は互いに対応（`n`番目の矩形<->`n`番目のクラス<->`n`番目のスコア）
        + `detection_scores` はスコアの高いものから降順で並んでいる
    

In [None]:
def run_inference_for_single_image(image, graph):
    with graph.as_default():
        with tf.Session() as sess:
            # Get handles to input and output tensors
            ops = tf.get_default_graph().get_operations()
            all_tensor_names = {output.name for op in ops for output in op.outputs}
            tensor_dict = {}
            for key in [
                    'num_detections', 'detection_boxes', 'detection_scores',
                    'detection_classes', 'detection_masks'
            ]:
                tensor_name = key + ':0'
                if tensor_name in all_tensor_names:
                    tensor_dict[key] = tf.get_default_graph().get_tensor_by_name(
                            tensor_name)
            if 'detection_masks' in tensor_dict:
                # The following processing is only for single image
                detection_boxes = tf.squeeze(tensor_dict['detection_boxes'], [0])
                detection_masks = tf.squeeze(tensor_dict['detection_masks'], [0])
                # Reframe is required to translate mask from box coordinates to image coordinates and fit the image size.
                real_num_detection = tf.cast(tensor_dict['num_detections'][0], tf.int32)
                detection_boxes = tf.slice(detection_boxes, [0, 0], [real_num_detection, -1])
                detection_masks = tf.slice(detection_masks, [0, 0, 0], [real_num_detection, -1, -1])
                detection_masks_reframed = utils_ops.reframe_box_masks_to_image_masks(
                        detection_masks, detection_boxes, image.shape[0], image.shape[1])
                detection_masks_reframed = tf.cast(
                        tf.greater(detection_masks_reframed, 0.5), tf.uint8)
                # Follow the convention by adding back the batch dimension
                tensor_dict['detection_masks'] = tf.expand_dims(
                        detection_masks_reframed, 0)
            image_tensor = tf.get_default_graph().get_tensor_by_name('image_tensor:0')

            # Run inference
            output_dict = sess.run(tensor_dict, feed_dict={image_tensor: np.expand_dims(image, 0)})

            # all outputs are float32 numpy arrays, so convert types as appropriate
            output_dict['num_detections'] = int(output_dict['num_detections'][0])
            output_dict['detection_classes'] = output_dict[
                    'detection_classes'][0].astype(np.uint8)
            output_dict['detection_boxes'] = output_dict['detection_boxes'][0]
            output_dict['detection_scores'] = output_dict['detection_scores'][0]
            if 'detection_masks' in output_dict:
                output_dict['detection_masks'] = output_dict['detection_masks'][0]
    return output_dict

`TEST_IMAGE_PATHS` から各画像を読み込んで検出結果を表示：

In [None]:
%%time
for image_path in TEST_IMAGE_PATHS:
    image = Image.open(image_path)
    # the array based representation of the image will be used later in order to prepare the
    # result image with boxes and labels on it.
    image_np = load_image_into_numpy_array(image)
    # Expand dimensions since the model expects images to have shape: [1, None, None, 3]
    image_np_expanded = np.expand_dims(image_np, axis=0)
    # Actual detection.
    output_dict = run_inference_for_single_image(image_np, detection_graph)
    # Visualization of the results of a detection.
    vis_util.visualize_boxes_and_labels_on_image_array(
            image_np,
            output_dict['detection_boxes'],
            output_dict['detection_classes'],
            output_dict['detection_scores'],
            category_index,
            instance_masks=output_dict.get('detection_masks'),
            use_normalized_coordinates=True,
            line_thickness=8)
    plt.figure(figsize=DISPLAY_IMAGE_SIZE)
    plt.imshow(image_np)