# 評価方法

分類されていないデータを認識し、どれだけ正しくカテゴリごとに分類できるかを算出した「平均精度」の高さを競い合います。

今回、活用するデータはLSWMD_25519となります。
LSWMD_25519のFailureType項目が分類されていない状態のデータに対し、正しいFailureTypeカテゴリを分類するプログラムを作成し、その平均精度を算出します。
平均精度とは、カテゴリごとに正しく分類できる精度を平均した値です。カテゴリごとに算出した精度（Aが正しく分類された数/Aのデータ数）を足し、カテゴリ数で割ります。

公平な評価を実施するために、以下の制限を設けています。
1. 外部パッケージをインストールするためのセルとsolution関数の中身のみを編集すること
2. 校舎のiMac上で最後のセルの実行時間が15分未満であること　（%%timeitの出力結果を確認してください）

※気になる点がある場合、Discordで気軽にお問合せください。

In [5]:
import numpy as np # https://numpy.org/ja/
import pandas as pd # https://pandas.pydata.org/
from sklearn.model_selection import train_test_split

外部パッケージを使用する場合、以下の方法でインストールを実施してください。

In [56]:
# 必要な外部パッケージは、以下の内容を編集しインストールしてください
!pip install tensorflow[and-cuda]
!pip install keras

[0m

以下のsolution関数のみ編集してください。

In [135]:
import keras
from keras.models import Sequential
from keras.layers import Dense, Activation, Convolution2D, MaxPooling2D, Flatten
from keras.utils import to_categorical
from keras.models import load_model

def resize_array(arr, width, height):
    ret_arr = [[0]*width for _ in range(height)]
    for i in range(height):
        if i < len(arr):
            for j in range(width):
                if j < len(arr[i]):
                    ret_arr[i][j] = arr[i][j]
    return ret_arr

def type_to_float(target, types):
    return (types.index(target) + 0.5) / (len(types) + 1)

def solution(x_test_df, train_df):
    # こちらの関数の中身を編集してください。
    neural_network = Sequential()
    #neural_network.add(Dense(20, input_dim=3))
    #neural_network.add(Activation('sigmoid'))
    #neural_network.add(Dense(1))
    #neural_network.add(Activation('sigmoid'))
    neural_network.add(Convolution2D(10, (25, 25), input_shape=(50, 50, 1), padding='same'))
    neural_network.add(MaxPooling2D(2, 2))
    neural_network.add(Convolution2D(10, (25, 25), padding='same'))
    neural_network.add(MaxPooling2D(2, 2))
    neural_network.add(Convolution2D(10, (25, 25), padding='same'))
    neural_network.add(MaxPooling2D(2, 2))
    neural_network.add(Flatten())
    neural_network.add(Dense(10, activation='softmax'))
    # neural_network.summary()
    neural_network.compile(optimizer='adam', loss='categorical_crossentropy')
    x = np.array([resize_array(map, 50, 50) for map in train_df['waferMap']])
    types = sorted(list(train_df['failureType'].unique()))
    y = np.array([types.index(type) for type in train_df['failureType']])
    # print(x.shape, y.shape)
    x = x.reshape(len(x), 50, 50, 1)
    y = to_categorical(y, 10)
    neural_network.fit(x, y, epochs=1, batch_size=100)
    # neural_network.save('NN.h5')
    # neural_network = load_model('NN.h5')
    test_x = np.array([resize_array(map, 50, 50) for map in list(x_test_df['waferMap'])])
    test_x = test_x.reshape(len(test_x), 50, 50, 1)
    # print(test_x[0].shape)
    ret = [types[np.argmax(arr)] for arr in neural_network.predict(test_x)]
    return pd.DataFrame({'failureType': ret}, index=x_test_df.index)

solution関数は以下のように活用され、平均精度を計算します。

In [134]:
%%timeit -r 1 -n 1

# データのインポート
df=pd.read_pickle("../input/LSWMD_25519.pkl")

# テスト用と学習用のデータを作成（テストする際は、random_stateの値などを編集してみてください）
train_df, test_df = train_test_split(df, stratify=df['failureType'], test_size=0.10, random_state=42)
np.set_printoptions(threshold=np.inf)

y_test_df = test_df[['failureType']]
x_test_df = test_df.drop(columns=['failureType'])
# solution関数を実行
user_result_df = solution(x_test_df, train_df)
average_accuracy = 0
# ユーザーの提出物のフォーマット確認
if type(y_test_df) == type(user_result_df) and y_test_df.shape == user_result_df.shape:
    # 平均精度の計算
    accuracies = {}
    #calc = 0
    #max = 0
    for failure_type in df['failureType'].unique():
        y_test_df_by_failure_type = y_test_df[y_test_df['failureType'] == failure_type]
        user_result_df_by_failure_type = user_result_df[y_test_df['failureType'] == failure_type]
        matching_rows = (y_test_df_by_failure_type == user_result_df_by_failure_type).all(axis=1).sum()
        accuracies[failure_type] = (matching_rows/(len(y_test_df_by_failure_type)))
        #calc += matching_rows
        #max += len(y_test_df_by_failure_type)
        #print(failure_type, matching_rows, len(y_test_df_by_failure_type))
    
    average_accuracy = sum(accuracies.values())/len(accuracies)

#print("ans:", calc, ", all:", max)
print(f"平均精度：{average_accuracy*100:.2f}%")

Model: "sequential_31"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv2d_64 (Conv2D)          (None, 50, 50, 10)        6260      
                                                                 
 max_pooling2d_63 (MaxPooli  (None, 25, 25, 10)        0         
 ng2D)                                                           
                                                                 
 conv2d_65 (Conv2D)          (None, 25, 25, 10)        62510     
                                                                 
 max_pooling2d_64 (MaxPooli  (None, 12, 12, 10)        0         
 ng2D)                                                           
                                                                 
 conv2d_66 (Conv2D)          (None, 12, 12, 10)        62510     
                                                                 
 max_pooling2d_65 (MaxPooli  (None, 6, 6, 10)        

2023-11-18 13:46:23.749931: W tensorflow/tsl/framework/cpu_allocator_impl.cc:83] Allocation of 459340000 exceeds 10% of free system memory.


平均精度：43.04%
4min 46s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)
