# Lesson3 VGG-16で画像分類をしよう

## 目次

- Section0 はじめに
- Section1 CIFAR-10
- Section2 学習データの準備
- Section3 VGG-16
- Section4 ファインチューニング
- Section5 モデルの学習、結果の表示

## Section0 はじめに

こちらのソースコードはDCONでの使用環境を考え、TensorFowで使用できるようにしています。TensorFlow内のKerasで動作させているので、生のKerasでは動作できません。

また、本文中では"keras.datasets"など、"tensorflow"の部分を省略した表記になっている部分がありますが、コード部分では"tensorflow.keras.datasets"などと"tensorflow.keras"モジュールを使用しているので注意してください。

## Section1 CIFAR-10

まずはディープラーニング用のデータを用意します。

ここでは、ディープラーニングでよく用いられるCIFAR-10を用います。

CIFAR-10は、10種類（飛行機・自動車・鳥・ネコ・鹿・イヌ・カエル・馬・船・ト
ラック）の画像が学習用に5万枚、テスト用に1万枚入ったデータセットです。

各画像は縦32ピクセル×横32ピクセル×RGB3チャンネルの3次元データになります。

データセットの中身は、

- X : 10クラスに分類されたカラー画像（32ピクセル×32ピクセル）
- Y : 正解ラベル（Xの画像に写っているもの）

となっていて、

- (X_train, Y_train) : モデルの学習用
- (X_test, Y_test) : モデルの評価用

と区別してあります。

ディープラーニングでは汎化性能の向上が大切なので、学習用だけでなく評価用のデータが必要になります。

評価用のデータも一緒に学習してしまうとカンニングと同じことになってしまうので、評価用は学習に用いてはいけません。

そのためにCIFAR-10も学習用と評価用にあらかじめ分割しています。

なお、KerasではこのCIFAR-10だけに限らず、MNISTなど機械学習で頻繁に用いられるデータセットがいくつも用意してあり、さまざまな分類学習を手軽に行えます。

Kerasから使用できるデータセットの一覧はこちら（ https://keras.io/ja/datasets/ ）に載っています。

これらのデータセットは**keras.datasets**以下からimportすることで使用することができます。

In [1]:
# Google Colabで使用する場合は以下の行を有効にしてください
#%tensorflow_version 2.x

from tensorflow.keras.datasets import cifar10

(X_train, Y_train), (X_test, Y_test) = cifar10.load_data()

## Section2 学習データの準備

次に、このCIFAR-10の各画像、正解ラベルをKerasが使用しやすいように加工する必要があります。

ここで特に分類タスクの際に気を付けたいことがあります。

CIFAR-10では、飛行機は0、自動車は1という風に、実際のラベルは数字になっています。

この数字には、数字としての大小の意味がないということです。

あくまでもグループの名前であり、飛行機を表す数字が自動車を表す数字よりも大きかろうと小さかろうと、異なる数字であれば何でもいいのです。

このようなグループの名前として割り振られている数字のことを**名義尺度**と呼びます。

ディープラーニングのアルゴリズムでは数字の大小に意味があるものとして扱ってしまうため、名義尺度を違う形にうまいこと変換しなければなりません。

ここで使用されるのが、**one-hot表現**と呼ばれるものです。

全体で4クラス（0, 1, 2, 3）あるときの各クラスの表現は次の通りです。

- 0 : $[1, 0, 0, 0]$
- 1 : $[0, 1, 0, 0]$
- 2 : $[0, 0, 1, 0]$
- 3 : $[0, 0, 0, 1]$

長さ3のベクトルを用いて、各クラスの対応する要素のみを1、他の要素を0として表現します。

一般化すると、全体で$N$クラスある時、$k$番目のクラスに属するときは、

$$\underset{N}{\underbrace{[0,\cdots,0,\overset{k}{\check{1}},0,\cdots,0]}}$$

と表現します。

Kerasでone-hot表現への変換を行ってくれるのが**keras.utils.to_categorical**関数です。

In [2]:
from tensorflow.keras.utils import to_categorical

# 特徴量の正規化
X_train = X_train / 255.0
X_test = X_test / 255.0
 
# クラスラベルの1-hotベクトル化
nb_category = 10
Y_train = to_categorical(Y_train, nb_category)
Y_test = to_categorical(Y_test, nb_category)

## Section3 VGG-16

VGG-16はImageNetと呼ばれる大規模画像データセットで学習された、16層からなる畳み込みニューラルネットワークモデルのことです。

様々な研究で利用されている有名な学習済みモデルの1つです。

層が16あることからVGG-16と名付けられていて、層の数に応じて、他にはVGG-13やVGG-19などがあります。

VGG-16では出力クラスが1000あるため、入力された画像を1000のクラスに分類することができます。

一番下の全結合層を取り除いて、自分で作成した全結合層と入れ替えて再学習させることにより、任意のクラス数で分類することができます。

VGG-16などの学習済みモデルは**keras.applications**以下からimportすることで使用することができます。

vgg16.VGG16関数の引数は以下の通りです。

|引数|説明|
|:-:|:--|
|include_top|1000クラスに分類する全結合層を含むかどうか<br>True : 含む（元の1000分類が使いたい場合）<br>False : 含まない（出力クラスを自分で指定したい場合）|
|weights|重みの分類<br>imagenet : ImageNetを使って学習した重み<br>None : ランダム|
|input_tensor|モデル画像を入力する場合に使用<br>任意の画像データ : それを使用<br>None : 使用しない|
|input_shape|入力画像の形状を指定<br>任意の形状 : それに指定<br>None : (224, 224, 3)に指定される|

引数でデフォルトの場合を指定するときは省略することができます。

In [3]:
from tensorflow.keras.applications.vgg16 import VGG16

#input_tensorの定義
image_shape = X_train.shape[1:]
print(image_shape)

vgg16 = VGG16(include_top=False, weights='imagenet', input_shape=image_shape)

(32, 32, 3)


VGG-16の全結合層を取り除いたので10クラスに分類するための全結合層を自分で作成し、VGG-16の後ろに連結させる必要があります。

VGG16の`include_top=False`によって削除されてしまった全結合層を以下に示すので、これをお手本にしながら全結合層を自分で作成します。

'''
Layer(type)                  Output Shape              Param #
_________________________________________________________________
flatten (Flatten)            (None, 25088)             0         
_________________________________________________________________
fc1 (Dense)                  (None, 4096)              102764544 
_________________________________________________________________
fc2 (Dense)                  (None, 4096)              16781312  
_________________________________________________________________
predictions (Dense)          (None, 1000)              4097000   

'''

Flatten層は3次元データである画像を畳み込んだものを1次元に変換するもので、Denseは全結合層です。

ここにBatchNormalizationとDropoutを追加します。

BatchNormalizationはデータの分布を0平均1分散のガウス分布に変換するもので、学習を安定化するために用いられます。

Dropoutは層と層のつながりであるノードの一定割合を無効にして過学習を防ぐものです。0.1、0.3を指定すると2層の間のノードがそれぞれ全体の10%、30%が無効になります。

In [4]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Flatten, Dense, BatchNormalization, Dropout

top_model = Sequential()
top_model.add(Flatten(input_shape=vgg16.output_shape[1:]))
top_model.add(Dense(256, activation='relu'))
top_model.add(BatchNormalization())
top_model.add(Dropout(0.5))
top_model.add(Dense(nb_category, activation='softmax'))

VGG-16と全結合層を用意したら、keras.models内のModel関数で2つのモデルを連結します。

In [5]:
from tensorflow.keras.models import Model

# vgg16とtop_modelを連結
model = Model(inputs=vgg16.input, outputs=top_model(vgg16.output))

## Section4 ファインチューニング

VGG-16の重みはImageNet用に最適化されています。

このモデルをCIFAR-10で使用するときに、全ての層について再学習させるとパラメータが多いのでとても時間がかかります。

そこで、**ファインチューニング**ということを行って、必要最小限の層のもを学習させるようにします。

ここで、似たものに**転移学習**というものがあるのですが、これとの違いを明確にして2つを説明します。

- 転移学習

    学習済みのモデルの出力層を入れ替え、その層のみを学習させて学習済みのモデルの重みをそのまま使う学習方法


- ファインチューニング

    学習済みのモデルの最後の一部分の重みを再学習させて、新しいタスクに柔軟に適合できるようにする学習方法


一般に、ファインチューニングの方が精度が高くなります。

最後の一部分のみを学習させる理由ですが、モデルの前半部分は画像の特徴の抽象的なことを主にとらえるのに対して、最後の方の層はより具体的な特徴をとらえるようになっていて、最後のだけを再学習させれば新しいものに対する具体的な特徴をとらえられることができるからです。

重みを更新させない層はモデルをコンパイルする前に重みを固定する必要があります。

In [6]:
# 14層目までの重みを固定
for layer in model.layers[:15]:
    layer.trainable = False

model.summary()
model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['acc'])

Model: "model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         [(None, 32, 32, 3)]       0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 32, 32, 64)        1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 32, 32, 64)        36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 16, 16, 64)        0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 16, 16, 128)       73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 16, 16, 128)       147584    
_________________________________________________________________
block2_pool (MaxPooling2D)   (None, 8, 8, 128)         0     

## Section5 モデルの学習、結果の表示

いよいよモデルを学習させます。

今回はfitメゾットを使用します。

返り値に各エポックの学習の情報が入っているのでグラフにするために変数で受け取ります。

fitの引数は以下の通りです。

|引数|説明|
|:-:|:--|
|x|訓練データのNumpy配列（訓練データ群）|
|y|教師データのNumpy配列|
|batch_size|バッチサイズ<br>何枚の画像を1つのミニバッチ（画像の束）にするか<br>多いほど高速になるがメモリを多く使う|
|epochs|学習エポック数|
|verbose|進行状況の表示形式の指定<br>0 : 表示しない<br>1 : リアルタイムにバーでの表示（デフォルト）<br>2 : 1エポックごとに出力|
|validation_split|訓練データに対する検証用に使用するデータの割合<br>0～1の範囲|

In [None]:
epoch = 30
# モデルの学習（時間がかかります）
history = model.fit(X_train, Y_train, batch_size=32, validation_split=0.1, epochs=epoch)

モデルの学習が終わったらモデルの性能の評価をしましょう。

コンパイル時にmetricsにaccを指定した場合、evaluateメゾットでテストデータに対する損失、正解率が得られます。


モデルを保存するときにはsaveメゾットを使用します。

引数に保存する際のパスを指定します。

保存する際の拡張子は.h5にすることが多いです。

In [None]:
# モデルの評価
score = model.evaluate(X_test, Y_test)
print('Test Score: ', score[0])
print('Test Accuracy: ', score[1])

# モデルの保存
model.save('./CIFAR-10.h5')

各エポックの正解率を用いてグラフを作成します。

グラフを作成したり、Jupyter Notebook上で画像を表示したりするときはMatplotlibを用います。

中でもpyplotは最も使用されるモジュールです。

見やすいグラフを作成するために、公式のマニュアルでpyplotに含まれる関数に目を通しておくことをお勧めします。

参考 : https://matplotlib.org/api/pyplot_api.html

なお、Jupyter Notebook上でMatplotlibの結果を表示するには、`%matplotlib inline`を冒頭で宣言する必要があります。

ちなみに、%または%%から始まるJupyter Notebookに対するコマンドはマジックコマンドと呼ばれます。

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

plt.plot(range(1, epoch+1), history.history['acc'], label="training")
plt.plot(range(1, epoch+1), history.history['val_acc'], label="validation")
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.show()

Copyright © 2020 Hibiki SAIGYO All RIghts Reserved.