## 1.ライブラリimport

In [None]:
import os
import cv2
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from PIL import Image
from sklearn.metrics import (
    f1_score,
    precision_score,
    recall_score,
)    
from keras.preprocessing.image import ImageDataGenerator
from keras.models import Sequential, Model
from keras.layers import Conv2D, MaxPooling2D, AveragePooling2D, Input
from keras.layers import Activation, Dropout, Flatten, Dense
from keras import backend as K
# from keras import optimizers
from keras.utils import np_utils
from keras.applications.vgg16 import VGG16
from keras.applications.xception import Xception
from keras.applications.vgg19 import VGG19
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import optimizers

In [None]:
tf.random.set_seed(1)
plt.style.use('ggplot')

## 2.パラメータ設定

In [1]:
# 画像分類アルゴリズム"VGG"に関する設定
# 入力画像サイズの高さと幅
# ※この解像度をあげていればより良い精度が期待できた
IMG_WIDTH, IMG_HEIGHT = 224, 224
TARGET_SIZE = (IMG_WIDTH, IMG_HEIGHT)
# 判定分類数（4分類を判定するモデルを構築し、そのモデルの判別結果を最後に良品、不良品の2分類に変換する前提）
NB_CLASSES = 4
# 学習時のエポック数
# ※エポック数は多すぎると過学習の原因になる
EPOCHS = 30
# バッチサイズ
BATCH_SIZE = 5

In [None]:
if K.image_data_format() == 'channels_first':
    input_shape = (3, IMG_WIDTH, IMG_HEIGHT)
else:
    input_shape = (IMG_WIDTH, IMG_HEIGHT, 3)

In [None]:
# データとウェイトに関する設定
train_data_dir = "" # 学習データ保存先にはbridge, horn, potato, regularのフォルダがあり、各フォルダ配下に画像が格納されている想定
validation_data_dir = "" # 検証データ保存先にはbridge, horn, potato, regularのフォルダがあり、各フォルダ配下に画像が格納されている想定
test_data_dir = "" # テストデータ保存先には画像データが格納されている想定
weight_dir = ""#学習モデルの保存パス
save_weights_path = os.path.join(weight_dir, "weight_sanple") 

## 3.ImageNetで学習した重みをもつ画像分類モデルの定義

精度が高いモデルの検証のために複数定義している  
最終的にはVGG16を採用

In [None]:
#VGG16の定義
base_model = VGG16(
    weights='imagenet',
    include_top=False,
    input_tensor=Input(shape=(IMG_WIDTH, IMG_HEIGHT, 3))
)

In [None]:
#VGG19の定義
base_model = VGG19(
    weights='imagenet',
    include_top=False,
    input_tensor=Input(shape=(IMG_WIDTH, IMG_HEIGHT, 3))
)

In [None]:
#Xceptionの定義
base_model = Xception(
    weights='imagenet',
    include_top=False,
    input_tensor=Input(shape=(IMG_WIDTH, IMG_HEIGHT, 3))
)

In [None]:
# 出力に近い層を課題に合わせて変更
top_model = base_model.output
top_model = Flatten(name='flatten')(top_model)
top_model = Dense(512, activation='relu')(top_model)
top_model = Dropout(0.5)(top_model)
top_model = Dense(NB_CLASSES, activation='softmax')(top_model)

In [None]:
# 再定義
model = Model(
    inputs=base_model.input,
    outputs=top_model
)
for layer in base_model.layers:
    layer.trainable = False

In [None]:
#  VGGの学習方法の定義
model.compile(
    loss='categorical_crossentropy',
    optimizer=optimizers.RMSprop(lr=1e-4), #optimizerの種類（"RMSprop"の箇所）と学習率（"lr"の箇所）を変更することで、精度向上が期待できる。
    metrics=['accuracy'],
)

In [None]:
# ネットワーク構造の確認
model.summary()

## 4.学習・検証データの読み込み

In [None]:
# VGGに入力できるよう画像サイズの圧縮
train_datagen = ImageDataGenerator(rescale=1.0/255) # 前処理を（）内に追加可能
valid_datagen = ImageDataGenerator(rescale=1.0/255) # 前処理を（）内に追加可能

In [None]:
#学習・検証データの読み込み
train_generator = train_datagen.flow_from_directory(
    train_data_dir,
    target_size=TARGET_SIZE,
    batch_size=BATCH_SIZE,
    shuffle=True,
)

validation_generator = valid_datagen.flow_from_directory(
    validation_data_dir,
    target_size=TARGET_SIZE,
    batch_size=BATCH_SIZE,
    shuffle=True,
)

In [None]:
# 学習・検証データとして上記にて読み込んだ画像を設定
nb_train_samples = train_generator.samples
nb_validation_samples = validation_generator.samples

## 5.モデルの学習

tensorflowはCPUで処理するため学習に時間がかかる、画像枚数が増えれば増えるほどとてつもなく時間がかかる！！  
tensorflow-gpuで学習させたら処理時間は1/1000になります  
GPUで処理することを強くお勧めします  

In [None]:
model.fit_generator(
    train_generator,
    steps_per_epoch=nb_train_samples/BATCH_SIZE,
    epochs=EPOCHS,
    validation_data=validation_generator,
    validation_steps=nb_validation_samples/BATCH_SIZE
)
model.save_weights(save_weights_path)

loss値は低ければ低いほど精度は良いと思うが、Traing lossだけ低くなっていてValid lossに変化がない場合は過学習している。エポック数の変更が必要

In [None]:
# loss curveの表示
plt.figure(figsize=[10,8])
plt.plot(model.history.history['loss'], 'r')
plt.plot(model.history.history['val_loss'], 'b')
plt.legend(['Training loss', 'Validation Loss'])
plt.xlabel('Epochs', fontsize=16)
plt.ylabel('Loss', fontsize=16)
plt.title('Loss Curves', fontsize=16)

plt.show()

In [None]:
# accuracy curveの表示
plt.figure(figsize=[10,8])
plt.plot(model.history.history['accuracy'], 'r')
plt.plot(model.history.history['val_accuracy'], 'b')
plt.legend(['Training Accuracy', 'Validation Accuracy'])
plt.xlabel('Epochs', fontsize=16)
plt.ylabel('Accuracy', fontsize=16)
plt.title('Accuracy Curves', fontsize=16)

plt.show()

## 6.モデルによる判定

In [None]:
# weightファイルの読み込み
print('load model...')
model.load_weights(save_weights_path)

In [None]:
# 良否判定実行関数
def get_predict(model,
                train_data_dir: str,
                test_data_dir: str):
    """This function will performs model inferencing using test data
    and stores the results into the lists.
    
    Args:
        model (object): The trained model.
        train_data_dir (str): The location of train images.
        test_data_dir (str): The location of test images.
        
    Returns:
        filenames (list): filenames of predicted images.
        true_classes (list): true classes of predicted images.
        pred_classes (list): prediction classes of predicted images.
    """
    
    data_datagen = ImageDataGenerator(rescale=1/255.)

    test_generator = data_datagen.flow_from_directory(
        test_data_dir,
        target_size=TARGET_SIZE,
        class_mode=None,
        batch_size=1,
        shuffle=False,
    )
    preds = model.predict_generator(test_generator)

    preds_class_idx = preds.argmax(axis=-1)
    
    # get prediction class
    train_datagen = ImageDataGenerator(rescale=1./255)
    
    train_generator = train_datagen.flow_from_directory(
        train_data_dir,
        target_size=TARGET_SIZE,
        batch_size=BATCH_SIZE,
    )
    
    idx_to_class = {v: k for k, v in train_generator.class_indices.items()}
    pred_classes = np.vectorize(idx_to_class.get)(preds_class_idx)
    filenames_to_class = list(zip(test_generator.filenames, pred_classes))
    
    # get true class
    filenames = []
    true_classes = []

    for item in test_generator.filenames:
        filenames.append(item)
        # get true class from the filenames
        true_class = item.split('\\')[0]
        true_classes.append(true_class)
    
    return filenames, true_classes, pred_classes

In [None]:
# 精度算出関数
def get_f1(true_labels_list: list,
           predictions_list: list,
           average_method: str,
          ) -> (float, float, float):
    """This function will performs model inferencing using test data
    and stores the results into the lists.
    
    Args:
        true_labels_list (list): List of true labels.
        predictions_list (list): List of predictions.
        average_method (string): method to average score.
        
    Returns:
        f1 (float): return f1 metric.
        precision (float): return precision metric.
        recall (float): return recall metric.
    """
    f1 = f1_score(
        y_true=true_labels_list,
        y_pred=predictions_list,
        average=average_method
    )
    
    precision = precision_score(
        y_true=true_labels_list,
        y_pred=predictions_list,
        average=average_method,
    )
    
    recall = recall_score(
        y_true=true_labels_list,
        y_pred=predictions_list,
        average=average_method,
    )
    
    f1 = round(f1, 2)
    precision = round(precision, 2)
    recall = round(recall, 2)
    
    return f1, precision, recall

In [None]:
# 良否判定実行
train_filenames, train_true_classes, train_pred_classes = get_predict(
    model=model,
    train_data_dir=train_data_dir,
    test_data_dir=train_data_dir,
)
valid_filenames, valid_true_classes, valid_pred_classes = get_predict(
    model=model,                                                        
    train_data_dir=train_data_dir,                                                            
    test_data_dir=validation_data_dir,
)

## 7.学習・検証データに対する精度評価

In [None]:
# 精度算出
train_f1, train_prec, train_recall = get_f1(
    true_labels_list=train_true_classes,
    predictions_list=train_pred_classes,
    average_method='weighted',
)
valid_f1, valid_prec, valid_recall = get_f1(
    true_labels_list=valid_true_classes,
    predictions_list=valid_pred_classes,
    average_method='weighted',
)

# 精度表示
print('{:15}{:<15.2f}{:<15.2f}'.format('F1-score:', train_f1, valid_f1))
print('{:15}{:<15.2f}{:<15.2f}'.format('Precision:', train_prec, valid_prec))
print('{:15}{:<15.2f}{:<15.2f}'.format('Recall:', train_recall, valid_recall))

## 8.提出ファイルの出力

テストデータに対して良否判定を行い、その結果を提出フォーマットであるtsv形式で出力を行います。

In [None]:
from keras.preprocessing import image
import glob

In [None]:
# 分類とラベルの対応確認
label_map = (train_generator.class_indices)
print(label_map)

In [None]:
# テストデータに対して1つずつ予測し、テストデータのファイル名と判定結果をリストに保存
file_list = []
pred_list = []
for file in glob.glob(test_data_dir + '/*'):
    image_data = file
    filename = file.split('/')[-1]
    img = image.load_img(image_data, target_size=(IMG_WIDTH, IMG_HEIGHT))
    x = image.img_to_array(img)
    x = np.expand_dims(x, axis=0)
    x = x / 255
    pred = model.predict(x)[0]
    judge = np.argmax(pred)

    # *bridge, horn, potatoを不良（'1'）に、regularを良品（'0'）に変換。if文の条件分岐は上の「分類とラベルの対応確認」セルの結果を参考に変更すること*
    if judge==0:
        judge=1
    elif judge==1:
        judge=1
    elif judge==2:
        judge=1
    else:
        judge=0

    pred_list.append(judge)
    file_list.append(filename)

In [None]:
#判別結果をDataFrameに変換し、tsvファイルに出力
df = pd.DataFrame([file_list, pred_list]).T
submit = pd.read_csv("sample_submit.tsv",sep="\t", header=None)
submit[1] = df[1]
submit.to_csv("my_submission.tsv",
              index=False,
              header=False,
              sep='\t')