<a href="https://colab.research.google.com/github/naoya5614/Kaggle/blob/main/Introduction_To_Object_Detection.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 物体検出入門

# [1]物体検出とは

## 1.物体検出とは



```
画像内に写っている物体が属する「カテゴリ」に加え、その物体の「位置」も明らかにすること。
```



## 2.物体検出の評価指標

**精度**
```
*   IoU(Intersection over Union)
*   mAP(mean Average Precision)
```
**速度**
```
*   FPS(Frame Per Second)
```

※精度と速度はトレードオフ


# [2] COCO データセット

## 1.COCO フォーマットの把握

### 1-1.アノテーションファイルの読み込み

**COCO Datasetのアノテーション情報は、JSONファイルとして配布されている**
```
*   学習用データ: instances_train2017.json
*   検証用データ: instances_val2017.json
```
**JSONファイルの読み込む**
```
# jsonライブラリのインストール
import json

# JSONファイルを辞書型のオブジェクトとして読み込む
with open('JSOMファイル.json') as f:
    loaded_data = json.load(f)

# 読み込んだデータの型を出力する
print(type(loaded_data))
```
**読み込んだ辞書型オブジェクトのキー(key)の一覧を取得する**
```
# 読み込んだデータのキーを出力する
print(loaded_data.keys())
```
```
*   info: COCO Datasetそのものに関するメタ情報。物体検出の実行時には特に必要とされない。
*   licenses: COCO Datasetに含まれる画像のライセンス。物体検出の実行時には特に必要とされない。
*   images: COCO Datasetに含まれる画像のメタ情報。画像ID、画像ファイル名、画像の高さ・幅など。
*   annotations: アノテーション情報。アノテーション情報と対応する画像のID、画像内におけるbbox(バウンディングボックス)の位置情報、bboxが囲む物体のカテゴリIDなど。
*   categories: 検出対象の物体カテゴリ情報。物体カテゴリ名、物体カテゴリID、親カテゴリ名など。
```

In [None]:
# ライブラリのインストール
import json

# JSONファイルの読み込み
with open('instances_val2017.json') as f:
    val_annotation = json.load(f)
    
print(type(val_annotation))

# keyの一覧を取得する
print(val_annotation.keys())

### 1-2.「info」「licenses」データについて

**キー(key)「info」及び「licenses」に含まれるデータを確認する**
```
*   info: COCO Datasetそのものに関するメタ情報。物体検出の実行時には特に必要とされない。
*   licenses: COCO Datasetに含まれる画像のライセンス。物体検出の実行時には特に必要とされない。
```
**キー(key)に対応する値(value)の取得する**
```
print(辞書型のデータ['キー名'])
```




In [None]:
# 「info」に含まれる値を出力
print('info:')
print(val_annotation['info'])
print('=====区切り=====')

# 「licenses」に含まれる値を出力
print('licenses:')
print(val_annotation['licenses'])

### 1-3.「images」データについて

**キー(key)imagesに含まれるデータを確認する**
```
images: COCO Datasetに含まれる画像のメタ情報。画像ID、画像ファイル名、画像の高さ・幅など。
```
**imagesに紐づく値(value)を取得する**
```
# キー(key)`images`に紐づく値の出力
print(val_annotation['images'])
```
**リスト内に含まれる、ある１つの要素(「１枚の画像に関するメタ情報」)を抜き出す**
```
# ある１枚の画像に関するメタ情報を抽出する
print(val_annotation['images'][インデックス])
```

In [None]:
# val_annotations['images']の値を変数v_imagesに代入する
v_images = val_annotation['images']

# v_imagesのデータ型を出力する
print(type(v_images))

# 「images」に含まれる値の個数を出力
print(len(v_images))

# 「images」に含まれる値を1つ出力
print('ある一枚の画像に関するメタ情報')
print(v_images[0])

### 1-4.「annotations」「categories」データについて

**キー(key)annotations及びcategoriesに含まれるデータについて確認する**
```
*   annotations: アノテーション情報。アノテーション情報と対応する画像のID、画像内におけるbbox(バウンディングボックス)の位置情報、bboxが囲む物体のカテゴリIDなど。
*   categories: 検出対象の物体カテゴリ情報。物体カテゴリ名、物体カテゴリID、親カテゴリ名など。
```
**annotationsとは**
```
「リスト内の１つの要素」が「１つの物体に関するアノテーション情報」と対応している
```
**リスト内に含まれるある１つの要素を抜き出す**
```
# ある１つの物体に関するアノテーション情報を抽出する
print(val_annotation['annotations'][インデックス])
```
**重要なキー(key)の説明**
```
*   image_idは、この物体が写っている画像のIDを指します。前回確認した「val_annotation['images']内のidに含まれる値」を参照することで、「画像」と「物体に対するアノテーション」を紐付けることができます。
*   bboxは、バウンディングボックスの位置情報を示しています。COCO フォーマットでは、XYWH(x1, y1, width, height)の形式で記述されています。
*  category_idは、この物体がどのカテゴリに属しているかを表すIDです。後に確認する「val_annotation['categories']内のidに含まれる値」と対応しています。
*  idは、物体を一意に特定するIDです。 
```
**categoriesとは**

```
# 「リスト内の１つの要素」が「１つのカテゴリ情報」に対応している

# ある１つのカテゴリ情報を抽出する
print(val_annotation['categories'][インデックス])
```
**categoriesにおいて重要なキー(key)**

```
*   idは、上で確認したように、「annotationsにおけるcategory_id」に対応する値です。
*   nameは、その名の通りカテゴリに付けられた名前を表します。
```

In [None]:
# 「annotations」に含まれる値を1つ出力
print('ある一つの物体に関するアノテーション情報: ')
print(val_annotation['annotations'][0])

# 「categories」データの出力
print('=====区切り=====')
print('categories: ')
print(val_annotation['categories'])

## 2.アノテーションデータをCOCO フォーマットに再構成する

### 2-1.図書館データセットについて

**図書館データセット**
```
資料画像内に含まれる「文字」「イラスト」「印影」といった合計５カテゴリの物体を検出対象とする。
「A.jpg」に対するアノテーションデータが、「A.json」に保存されているといった具合に、「画像ファイル」と「JSONファイル」が１対１に対応している。
```
**物体検出アルゴリズムの実行時に「必要」な情報**

```
images: 各画像のメタ情報。
*   file_name: 画像のファイル名
*   height : 画像の高さ
*   width : 画像の幅
*   id: 画像ID(annotationsにおけるimage_idと対応)

annotations: 各物体のアノテーション情報。
*   image_id: 画像ID
*   bbox: バウンディングボックスの位置情報
*   category_id: カテゴリID
*   id: 物体ID

categories: 検出対象とする物体カテゴリ一覧。
*   id: カテゴリID(annotationsにおけるcategory_idと対応)
*   name: カテゴリ名
```

### 2-2.図書館データセット: アノテーションデータ

In [None]:
# ライブラリのインストール
import json

# JSONファイルの読み込み
annot_path = 'original/train_annotations/train_2537534_0013.json'
with open(annot_path) as f:
    annot = json.load(f)
    
# 読み込んだ辞書型データのキー(key)の一覧の出力
print(annot.keys())

# 読み込んだ辞書型データのキーattributesに含まれる値の出力
print('-------------')
print('attributes:')
print('-------------')
print(annot['attributes'])

# 読み込んだ辞書型データのキーlabelsに含まれる値の出力
print('-------------')
print('labels:')
print('-------------')
print(annot['labels'])

### 2-3.図書館データセット: 画像データ

**図書館データセット**
```
「A.jpg」という画像ファイルに対するアノテーションデータが、「A.json」というJSONファイル名で保存されている
```
**画像を読み込む**
```
# cv2ライブラリのインポート
import cv2

# 画像の読み込み
image = cv2.imread(画像ファイル)

# 色の順番を、BGR -> RGBに 
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
```
**バウンディングボックスの描画**
```
# 画像」及び「画像内の各物体を囲むバウンディングボックス」を同時に表示する
cv2.rectangle()
```
**cv2.rectangle()の引数**
```
*   img: 同時に表示する画像の配列
*   pt1&pt2: 矩形の位置を表す2点の座標。画像の左上を原点(0, 0)とする。
*   color: 矩形の色情報(RGB)
*   thickness: 矩形の線の太さ
```
**文字列の描画**
```
cv2.putText()
```
**cv2.putText()の引数**
```
*   img: 同時に表示する画像の配列
*   text: 描画する文字列
*   org: 文字列を表示する位置
*   color: 文字列の色情報(RGB)
*   fontFace: 文字列の字体
*   fontScale: 文字列のサイズ
*   thickness: 文字列の線の太さ
```

In [None]:
# ライブラリのインストール
import json
import cv2
import matplotlib.pyplot as plt
plt.figure(figsize=(20, 20))

# JSONファイルの読み込み
annot_path = 'original/train_annotations/train_2537534_0013.json'
with open(annot_path) as f:
    annot = json.load(f)
    
# 画像ファイルのパスを生成する
image_path = annot_path.replace('_annotations', '_images').replace('json', 'jpg')
image = cv2.imread(image_path)
# BGR -> RGB
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

# アノテーション(バウンディングボックス)情報を取得する
bbox_list = annot['labels']

# カテゴリによって色を分ける
color_map = {
    '1_overall': (255, 0, 0), # 赤
    '2_handwritten': (0, 0, 0), # 黒
    '3_typography': (0, 0, 255), # 青
    '4_illustration': (0, 255, 0), # 緑
    '5_stamp': (255, 153, 50) # オレンジ
}

# 画像とバウンディングボックスを重ねて表示する
for bbox in bbox_list:
    
    # バウンディングボックスの位置情報を取得する
    x1 = bbox['box2d']['x1']
    y1 = bbox['box2d']['y1']
    x2 = bbox['box2d']['x2']
    y2 = bbox['box2d']['y2']
    
    # バウンディングボックスが囲む物体のカテゴリを取得する
    category = bbox['category']
    
    # カテゴリにしたがって色を決める
    color = color_map[category]
    
    # 物体を囲む矩形を描画する
    cv2.rectangle(img=image, 
                  pt1=(x1, y1), pt2=(x2, y2), 
                  color=color, thickness=2)
    
    # 物体の上に添えるテキストを描画する
    cv2.putText(img=image, text=category, org=(x1, y1 - 15), 
                fontFace=cv2.FONT_HERSHEY_SIMPLEX, fontScale=1.5, 
                color=color, thickness=2)

plt.imshow(image)
plt.show()

### 2-4.COCO フォーマット「categories」データの作成

**以下の項目に対象を絞った上でCOCO フォーマットのアノテーションデータを作成する**
```
images: 各画像のメタ情報。
*   file_name: 画像のファイル名
*   height : 画像の高さ
*   width : 画像の幅
*   id: 画像ID(annotationsにおけるimage_idと対応)

annotations: 各物体のアノテーション情報。
*   image_id: 画像ID
*   bbox: バウンディングボックスの位置情報
*   category_id: カテゴリID
*   id: 物体ID

categories: 検出対象とする物体カテゴリ一覧。
*   id: カテゴリID(annotationsにおけるcategory_idと対応)
*   name: カテゴリ名
```
**IDに関するデータについて**
```
images: 各画像のメタ情報。
*   id: 画像ID(annotationsにおけるimage_idと対応)

annotations: 各物体のアノテーション情報。
*   image_id: 画像ID
*   category_id: カテゴリID
*   id: 物体ID

categories: 検出対象とする物体カテゴリ一覧。
*   id: カテゴリID(annotationsにおけるcategory_idと対応)
```
**JSONファイル作成までの流れ**
```
1.   COCO フォーマットのimages,annotations,categoriesに必要な情報を取得し、それぞれリストにまとめる
2.   1で作成した各リスト型データを、辞書型データとして1つにまとめる
3.   2で作成した辞書型データを、JSONファイルとして保存する
```

**categories**
```
categories: 検出対象とする物体カテゴリ一覧。
*   id: カテゴリID(annotationsにおけるcategory_idと対応)
*   name: カテゴリ名
```
**図書館
```
*   1_overall
*   2_handwritten
*   3_typography
*   4_illustration
*   5_stamp
```
**COCO フォーマットに則って、それぞれのカテゴリ名に対して1から順番に整数を割り振る**
```
*   1_overall -> 1
*   2_handwritten -> 2
*   3_typography -> 3
*   4_illustration -> 4
*   5_stamp -> 5
```

In [None]:
categories = [
    {'id': 1, 'name': '1_overall'},
    {'id': 2, 'name': '2_handwritten'},
    {'id': 3, 'name': '3_typography'},
    {'id': 4, 'name': '4_illustration'},
    {'id': 5, 'name': '5_stamp'}
]
    
print(categories)

### 2-5.COCO フォーマット「images」データの作成

**COCO フォーマットのimagesに含めるべきデータ**
```
images: 各画像のメタ情報。
*   file_name: 画像のファイル名
*   height : 画像の高さ
*   width : 画像の幅
*   id: 画像ID(annotationsにおけるimage_idと対応)
```
**全画像ファイルの名前が入ったリストを取得する**
```
# file_name(画像のファイル名)
# ライブラリのインストール
import os

# os.listdir()を使用して画像ファイル名を全て取得する
imfile_name_list = os.listdir(画像ファイルが格納されたディレクトリのパス)
```
**画像を読み込む**
```
# ライブラリのインストール
import cv2

# 画像の読み込み
image = cv2.imread(画像ファイルのパス)

# numpy.ndarray.shape属性から、
# 画像の高さ(im_height)幅(im_width)を取得
im_height, im_width, _ = image.shape
```
**id**
```
1.   idの初期値を1とする (id=1)
2.   扱う画像が切り替わるタイミングでidの値に1を追加する (id += 1)
```

In [None]:
# ライブラリのインポート
import os
import cv2

# 画像が格納されたディレクトリ名
image_dir = 'original/train_images/'

# 全ての画像のファイル名をリストとして取得する
imfile_name_list = os.listdir(image_dir)
print(imfile_name_list)

# 画像IDの初期化
image_id = 1

# リストの初期化
images = []

# 各画像ごとの情報をひとつずつ取得
for imfile_name in imfile_name_list:
   
    # 画像のファイルパスを指定
    image_path = image_dir + imfile_name
    
    # 画像の読み込み
    image = cv2.imread(image_path)
    
    # 画像の高さ、幅を取得
    im_height, im_width, _ = image.shape

    # 画像1枚分の情報を辞書にまとめる
    image_dict = {
        'file_name': imfile_name,
        'height': im_height,
        'width': im_width,
        'id': image_id
    } 
    
    # 完成した画像1枚分の情報をimagesリストへ追加
    images.append(image_dict)
    
    # 画像IDを+1して次の画像へ
    image_id += 1
    
print(images)

### 2-6.COCO フォーマット「annotations」データの作成

**annotationsについて、同様の処理を行う**
```
annotations: 各物体のアノテーション情報。
*   image_id: 画像ID
*   bbox: バウンディングボックスの位置情報
*   category_id: カテゴリID
*   id: 物体ID
```
**image_id**
```
annotations = []

# 画像IDの初期化
image_id = 1

# 各画像ごとの情報をひとつずつ取得
for imfile_name in imfile_name_list:

    ### 中略 ###

    # 画像imfile_nameと対応するアノテーションファイルのパスの指定
    annot_path = annot_dir + imfile_name.replace('jpg', 'json')

    # JSONファイルの読み込み
    with open(annot_path, encoding='utf-8') as f:
        annot = json.load(f)
    # 対象画像内の全物体に対するアノテーション情報リストの取得
    labels = annot['labels']

    # 画像imfile_name内に含まれる物体に関するアノテーション情報を一つずつ順番に取得する
    for label in labels:

        ### 中略 ###

        # annotationsの一要素となる辞書データの作成
        annot_dict = {
                'image_id': image_id,
                'bbox': [x1, y1, box_width, box_height],
                'category_id': category_id,
                'id': annot_id
        }
        annotations.append(annot_dict)

        ### 中略 ###

    # 画像IDを+1して次の画像へ
    image_id += 1
```



**category_id と bbox**
```
# 各カテゴリ名を対応するカテゴリIDにマッピングする辞書データを作成しておく

# カテゴリ名をカテゴリIDにマッピングする辞書
category_map = {
    '1_overall': 1,
    '2_handwritten': 2,
    '3_typography': 3,
    '4_illustration': 4,
    '5_stamp': 5
}

category_id = category_map[カテゴリ名]
```
**id**
```
1.   idの初期値を1とする (id=1)
2.   扱う物体が切り替わるタイミングでidの値に1を追加する (id += 1)
```

In [None]:
# ライブラリのインポート
import os
import cv2
import json

# カテゴリ名をカテゴリIDにマッピングする辞書の定義
category_map = {
    '1_overall': 1,
    '2_handwritten': 2,
    '3_typography': 3,
    '4_illustration': 4,
    '5_stamp': 5
}

image_dir = 'original/train_images/'
imfile_name_list = os.listdir(image_dir)
image_id = 1
images = []

# アノテーションデータが格納されたディレクトリ名
annot_dir = 'original/train_annotations/'

# 物体IDの初期化
annot_id = 1

# annotationsリストの初期化
annotations = []

for imfile_name in imfile_name_list:
   
    image_path = image_dir + imfile_name
    image = cv2.imread(image_path)
    im_height, im_width, _ = image.shape
    image_dict = {
        'file_name': imfile_name,
        'height': im_height,
        'width': im_width,
        'id': image_id
    } 
    images.append(image_dict)
    
    ### ここからannotationsリストに含める情報の取得へ ###
    # 画像と対応するアノテーションファイルのパスの指定
    annot_path = annot_dir + imfile_name.replace('jpg', 'json')
    
    # JSONファイルの読み込み
    with open(annot_path, encoding='utf-8') as f:
        annot = json.load(f)
    # 対象画像内の全物体に対するアノテーション情報リストの取得
    labels = annot['labels']
    
    # 各物体ごとのアノテーション情報をひとつずつ取得
    for label in labels:
        
        # バウンディングボックス位置情報の取得
        x1 = label['box2d']['x1']
        y1 = label['box2d']['y1']
        x2 = label['box2d']['x2']
        y2 = label['box2d']['y2']
        
        # bboxの高さ、幅の取得
        # (bboxの位置情報の表し方をXYXY形式 -> XYWH形式 に変更するため)
        box_width = x2 - x1
        box_height = y2 - y1
        
        # カテゴリIDの取得
        category = label['category']
        category_id = category_map[category]
                
        # 物体1つ分の情報を辞書にまとめる
        annot_dict = {
            'image_id': image_id,
            'bbox': [x1, y1, box_width, box_height],
            'category_id': category_id,
            'id': annot_id
        }
        
        # 完成した物体1つ分の辞書型データをannotationsリストへ追加
        annotations.append(annot_dict)
        
        # 物体IDを+1して次の物体へ
        annot_id += 1
        
    image_id += 1
    
print(annotations)

### 2-7.COCO フォーマットのJSONファイルを生成する

**COCO フォーマットのJSONファイルと同様の構造を持つ辞書型のデータを作成する**
```
coco_format_dict = {
    'images': images,
    'annotations': annotations,
    'categories': categories
}
```
**辞書型のデータをJSONファイルとして保存する**
```
# ライブラリのインポート
import json

# 辞書型のデータをJSONファイルとして保存する
with open(JSONファイル名, 'w') as f:
    json.dump(辞書型データ, f)
```

In [None]:
# ライブラリのインストール
import os
import json
import cv2

# categoriesリストの作成
categories = [
    {'id': 1, 'name': '1_overall'},
    {'id': 2, 'name': '2_handwritten'},
    {'id': 3, 'name': '3_typography'},
    {'id': 4, 'name': '4_illustration'},
    {'id': 5, 'name': '5_stamp'}
]

# カテゴリ名をカテゴリIDにマッピングする辞書の定義
category_map = {
    '1_overall': 1,
    '2_handwritten': 2,
    '3_typography': 3,
    '4_illustration': 4,
    '5_stamp': 5
}

# 画像及びアノテーションデータが格納されたディレクトリ名の指定
image_dir = 'original/train_images/'
annot_dir = 'original/train_annotations/'

# 全ての画像のファイル名をリストとして取得
imfile_name_list = os.listdir(image_dir)

# 画像ID, 物体IDの初期化
image_id = 1
annot_id = 1

# リストの初期化
images = []
annotations = []

# 各画像ごとの情報をひとつずつ取得
for imfile_name in imfile_name_list:
   
    # 画像のファイルパスの指定
    image_path = image_dir + imfile_name
    # この画像と対応するアノテーションファイルのパスの指定
    annot_path = annot_dir + imfile_name.replace('jpg', 'json')
    
    # 画像の読み込み
    image = cv2.imread(image_path)
    
    # 画像の高さ、幅を取得
    im_height, im_width, _ = image.shape

    # 画像1枚分の情報を辞書にまとめる
    image_dict = {
        'file_name': imfile_name,
        'height': im_height,
        'width': im_width,
        'id': image_id
    } 
    
    # 完成した画像1枚分の情報をimagesリストへ追加
    images.append(image_dict)
    
    # JSONファイルを読み込み、
    # この画像内の全物体に対するアノテーション情報リスト取得
    with open(annot_path, encoding='utf-8') as f:
        annot = json.load(f)
    labels = annot['labels']
    
    # 各物体ごとのアノテーション情報をひとつずつ取得
    for label in labels:
        # bboxの位置情報の取得
        x1 = label['box2d']['x1']
        y1 = label['box2d']['y1']
        x2 = label['box2d']['x2']
        y2 = label['box2d']['y2']
        
        # bboxの高さ、幅の取得
        # (バウンディングボックスの位置情報の表し方をXYXY形式 -> XYWH形式 に変更するため)
        box_width = x2 - x1
        box_height = y2 - y1
        
        # カテゴリIDの取得
        category = label['category']
        category_id = category_map[category]
                
        # 物体1つ分のアノテーション情報を辞書にまとめる
        annot_dict = {
            'image_id': image_id,
            'bbox': [x1, y1, box_width, box_height],
            'category_id': category_id,
            'id': annot_id
        }
        
        # 完成した物体1つ分の情報をannotationsリストへ追加
        annotations.append(annot_dict)
        
        # 物体IDを+1して次の物体へ
        annot_id += 1
        
    # 画像IDを+1して次の画像へ
    image_id += 1

# COCO フォーマットと同様の構造を持つ辞書型データの作成
coco_format_dict = {
    'images': images,
    'annotations': annotations,
    'categories': categories
}

# 作成したCOCO フォーマットのアノテーションをJSONファイルに保存
with open('coco_format_library.json', 'w') as f:
    json.dump(coco_format_dict, f)

# 作成したCOCO フォーマットのアノテーションデータを表示
print('--------------')
print('images')
print('--------------')
print(coco_format_dict['images'])

print('--------------')
print('annotations')
print('--------------')
print(coco_format_dict['annotations'])

print('--------------')
print('categories')
print('--------------')
print(coco_format_dict['categories'])