このNotebookではKerasのコールバックの１つであるEarlyStoppingを利用して、
自動で学習を止めるようにします。


# 調整パラメータ - Config


In [None]:
resize_w = 256  # 画像のリサイズ幅を指定
resize_h = 256  # 画像のリサイズ高さを指定
channel = 3  # 画像のカラーチャンネルを指定

test_size_rate = 0.1 # データセットをTrain/Testに分割する際の、Test dataの比率（0.0〜1.0）

epochs = 500  # 学習回数を指定
n_batch = 8  # 一度にまとめて学習するデータ数。
             # 値が大きいと学習が安定し早く進むが、大きすぎると各データの特徴が平均化されるため逆に学習が進まない。
             # (GPU計算速度の関係で2のn乗を指定するのがおすすめ)

# 前準備 - Preprocess code

## Preprocess1. 画像処理関数定義 - Image Processing Functions

In [None]:
import cv2
# 画像が大きいと計算が遅いため、リサイズ縮小
def resize(tmp_image):
    return cv2.resize(tmp_image , (resize_h, resize_w))

# 4次元配列化()　
def to_4d(tmp_image):
    return tmp_image.reshape(1, resize_h, resize_w, channel)   

# 256段階の色調を0.0~1.0にする
def normalize(tmp_image):
    return tmp_image / 255.0

# 画像の前処理付きロード
def load_preprocessed_image(image_filepath):
    tmp_image = cv2.imread(image_filepath)
    tmp_image = resize(tmp_image)
    tmp_image = normalize(tmp_image)
    tmp_image = to_4d(tmp_image)

    return tmp_image

## Preprocess2. 画像とラベルのロード - Load Dataset

In [None]:
import pandas as pd
root_dir = "/kaggle/input/mj1-anomaly-images-detection-challenge/"
train_csv_filepath = root_dir + "train.csv"

# ファイルの読み込み
train_df = pd.read_csv(train_csv_filepath)

In [None]:
import numpy as np
from keras.utils import np_utils

images = None
for fn in train_df['filename']:
    image_filepath = root_dir + 'train/' + fn
    tmp_image = load_preprocessed_image(image_filepath)
    if (images is None):
        images = tmp_image
    else:
        images = np.vstack((images, tmp_image))

anomaly_flags = np.array([flag for flag in train_df['anomaly']])
anomaly_flags = np_utils.to_categorical(anomaly_flags, 2)

## Preprocess3. Train/Test split

In [None]:
from sklearn.model_selection import StratifiedShuffleSplit
sss = StratifiedShuffleSplit(n_splits=1, test_size=test_size_rate, random_state=0)

for train_index, test_index in sss.split(images, anomaly_flags):
    X_train = images[train_index]
    y_train = anomaly_flags[train_index]
    X_test = images[test_index]
    y_test = anomaly_flags[test_index]

## Preprocess4. Over Sampling (不均衡な学習データ数を揃える処理）

In [None]:
# over-samplingを試します。

tmp = pd.DataFrame(y_train[:, 1]).value_counts().values
print(tmp)
label_ok_num = tmp[0]
label_ng_num = tmp[1]

while(label_ok_num != label_ng_num):
    rand_index = np.random.randint(0, len(y_train))

    label_is_ng = (y_train[rand_index, 1] == 1.0)
    if label_is_ng:
        X_train = np.vstack((X_train, [X_train[rand_index]]))
        y_train = np.vstack((y_train, [y_train[rand_index]]))
        label_ng_num += 1
    print(label_ng_num, end='\r')

## Preprocess5. Augmantation (画像をランダムに変化させて、学習データにバリエーションをもたせる）

In [None]:
from keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(rotation_range=360)

datagen.fit(X_train)

## ※注

学習済モデルのダウンロード  
> base_model = tf.keras.applications.mobilenet_v2.MobileNetV2(  

の実行時にエラーになる場合があります。  

その場合は、このNoteBook の Internet 設定をオンにすることで、問題が解消されます。  
詳細は下記のリンクをご確認ください。  

https://stackoverflow.com/questions/47378542/kaggle-could-not-download-resnet50-pretrained-model

## Preprocess6. モデルの定義

In [None]:
import tensorflow as tf

# a. すでに学習済みのオープンな高精度なモデルを用意
# a. Prepare an accurate open model that has already been trained.  
base_model = tf.keras.applications.mobilenet_v2.MobileNetV2(
    weights='imagenet',
    include_top=False,
    pooling='avg'
)

# b. 学習しないようにパラメータ設定 
# b. Set the parameters so that it does not learn.  
base_model.trainable = False

# c. aの下に「2.出力結果を推定する層」を追加
# c. Add "2. Estimating the output result layer" under a. 
model = tf.keras.Sequential([
    base_model,
    tf.keras.layers.Dense(1024, activation='relu'),
    tf.keras.layers.Dense(2, activation='softmax')
])

model.summary()

In [None]:
model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.0001),
              loss='categorical_crossentropy',
              metrics=['accuracy'])

## Preprocess7. 学習

# ■-- Early Stopping

規定のepochに到達する前に学習しきってしまうと、以降は過学習となってしまい、逆に精度が落ちてしまいます。
Early Stoppingは、過学習に陥る前に（規定のepochに到達する前に）自動で学習を止める手法です。

kerasではコールバック関数として用意されているので、fit()あるいはfit_generator()に指定することでEarly Stoppingを実装できます。

Early Stoppingの判定のために、どうしても少し過学習してしまうため
学習モデルを適宜保存し、Early Stopping後に保存したモデルをロードすることでカバーします。


In [None]:
mkdir ckpt

In [None]:
ls

In [None]:
import os
es_cb = tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=20, verbose=0, mode='auto')
checkpoint = os.path.join("./ckpt/", 'MYMODEL_.{epoch:02d}-{val_loss:.2f}.hdf5')
cp_cb = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint, monitor='val_loss', verbose=1, save_best_only=True, mode='auto')

In [None]:
model.fit_generator(datagen.flow(X_train, y_train, batch_size=n_batch),
                    steps_per_epoch=len(X_train) / n_batch,
                    epochs=epochs,
                    validation_data=(X_test, y_test),
                    callbacks=[es_cb, cp_cb])

train_score = model.evaluate(X_train, y_train, verbose=0)
test_score = model.evaluate(X_test, y_test, verbose=0)
print('Train Loss:{0:.3f}'.format(train_score[0]))
print('Train accuracy:{0:.3}'.format(train_score[1]))
print('Test Loss:{0:.3f}'.format(test_score[0]))
print('Test accuracy:{0:.3}'.format(test_score[1]))

### 最も良かったモデルをロードしなおします。

In [None]:
from glob import glob
# get the newest model file within a directory
def getNewestModel(model, dirname):
    target = os.path.join(dirname, '*')
    files = [(f, os.path.getmtime(f)) for f in glob(target)]
    if len(files) == 0:
        return model
    else:
        newestModel = sorted(files, key=lambda files: files[1])[-1]
        print(newestModel[0])
        model.load_weights(newestModel[0])
        return model

model = getNewestModel(model, "./ckpt/")

In [None]:
ls

## Preprocess8. 判定

In [None]:
import glob
from pathlib import Path

test_images = None
test_filenames = None
for test_filepath in glob.glob('/kaggle/input/mj1-anomaly-images-detection-challenge/test/*.png'):
    tmp_image = load_preprocessed_image(test_filepath)
    if (test_images is None):
        test_images = tmp_image
        test_filenames = [Path(test_filepath).name]
    else:
        test_images = np.vstack((test_images, tmp_image))
        test_filenames.append(Path(test_filepath).name)

In [None]:
result_predict = model.predict(test_images)
result_predict = np.argmax(result_predict, axis=1)
result_predict

## 結果をcsvで出力

In [None]:
submit_filepath = "/kaggle/input/mj1-anomaly-images-detection-challenge/sample_submit.csv"
submit_df = pd.read_csv(submit_filepath, index_col=0)

for i, filename in enumerate(test_filenames):
    submit_df.loc[filename, 'Predicted'] = result_predict[i]
    
submit_df.to_csv('result_submit.csv')
submit_df[:20]

In [None]:
for i, filename in enumerate(test_filenames):
    submit_df.loc[filename, 'Predicted'] = result_predict[i]
submit_df.to_csv('result_submit.csv')
print(submit_df)