딥러닝 모델을 설계하고 구성 할 때는 많은 결정을 해야한다. 보통 모델이 한 번에 잘 작동하기 보다는, 이러한 결정을 반복적으로 수정하면서 시행 착오를 겪으면서 개선되어가는 것이 대부분이다. 이 과정에서, 신경망 및 딥러닝 모델의 성능을 평가하는 방법을 알고 있는 것이 매우 중요하다. 여기에서는 Keras를 이용하여 모델의 성능을 평가하는 데 사용할 수 있는 몇 가지 방법을 살펴볼 것이다.

# 경험적으로 네트워크 구성을 평가하기

딥러닝 모델을 설계하고 구성 할 때 반드시 결정해야 할 사항들이 많이 있다. 이들을 결정하는 방법 중 아주 손쉬은 방법은, 다른 사람의 네트워크 구조를 그대로 구현하는 방법을 통해 해결할 수 있다.

이보다 더 좋은 것은, 데이터를 위해 간단한 실험 설계를 하고, 만약 사전 연구가 있다면 그 연구의 결정 옵션들을 기준으로 평가하는 것이다. 여기에는 네트워크의 계층 수, 각 계층의 크기, 손실 함수, 활성화 함수, 최적화 방법, 에포크 수 등과 같은 결정이 포함된다.

딥러닝은 대용량 데이터 셋이 있는 문제에 자주 사용된다. (적어도 수만, 수십만건 정도는 쉽게 넘긴다.) 따라서 데이터의 상태를 파악하기가 쉽지 않은 이 데이터로부터 모델을 적합한 후, 성능을 평가하고, 이 평가를 다른 모델과도 안정적으로 비교할 수있는 견고한 테스트 장치가 필요하다.

# 데이터 분할

데이터 사이즈가 크고 모델이 복잡할수록 긴 학습 시간을 필요로 한다. 따라서 데이터를 training set, test set으로 간단하게 구분하는 것이 일반적이다. Keras는 이러한 분할을 자동으로 해주기도, 수동으로 할 수도 있다.

## 자동으로 training set과 test set을 분리, 활용하기

Keras는 데이터의 일부를 test set으로 분리하고, 각 epoch마다  set을 이용하여 모델의 성능을 평가할 수 있다. fit() 함수에서 validation_split 인자를 통해, 총 데이터의 몇 %를 test set으로 활용할 것인지 하는 비율로 설정하면 된다.

아래의 예는 당뇨병 데이터 세트에 대해, 자동으로 validation set을 이용하여 모형을 평가하는 코드이다. fit() 함수의 validation_split=0.2라는 것은, 총 데이터의 20%를 test set으로 활용하겠다는 의미가 된다.

In [1]:
from keras.models import Sequential
from keras.layers import Dense
import numpy

# 고정 시드 값으로 초기화
numpy.random.seed(123)

# Pima Indians Diabetes 데이터 불러오기
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",")

# 입력 변수와 출력 변수를 구분하기
X = dataset[:,0:8]
Y = dataset[:,8]

# 모델 정의
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

# 모델 컴파일
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 모형 적합
model.fit(X, Y, validation_split=0.2, epochs=150, batch_size=10)

Using TensorFlow backend.


Train on 614 samples, validate on 154 samples
Epoch 1/150
Epoch 2/150
Epoch 3/150
Epoch 4/150
Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
E

Epoch 131/150
Epoch 132/150
Epoch 133/150
Epoch 134/150
Epoch 135/150
Epoch 136/150
Epoch 137/150
Epoch 138/150
Epoch 139/150
Epoch 140/150
Epoch 141/150
Epoch 142/150
Epoch 143/150
Epoch 144/150
Epoch 145/150
Epoch 146/150
Epoch 147/150
Epoch 148/150
Epoch 149/150
Epoch 150/150


<keras.callbacks.History at 0x1f90a355ef0>

## Python의 scikit-learn 라이브러리를 이용하여 training set과 test set을 분리, 활용하기
아래 코드에서는, scikit-learn 라이브러리 train_test_split() 함수로 training set과 test set을 분리하였다. 데이터의 80%를 학습을 위해 사용하고 나머지 20%는 검증을 위해 사용한다. 이후 Keras의 fit() 함수에서는, validation_data 인자로 test set을 지정하여 준다.

In [2]:
from keras.models import Sequential
from keras.layers import Dense
from sklearn.model_selection import train_test_split
import numpy


# 고정 시드 값으로 초기화
numpy.random.seed(123)

# Pima Indians Diabetes 데이터 불러오기
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",")

# 입력 변수와 출력 변수를 구분하기
X = dataset[:,0:8]
Y = dataset[:,8]

# 80%를 training set으로, 20%를 test set으로 분리하기
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=seed)

# 모델 정의
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

# 모델 컴파일
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 모델 평가
model.fit(X_train, y_train, validation_data=(X_test,y_test), epochs=150, batch_size=10)

Train on 614 samples, validate on 154 samples
Epoch 1/150
Epoch 2/150
Epoch 3/150
Epoch 4/150
Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
E

Epoch 132/150
Epoch 133/150
Epoch 134/150
Epoch 135/150
Epoch 136/150
Epoch 137/150
Epoch 138/150
Epoch 139/150
Epoch 140/150
Epoch 141/150
Epoch 142/150
Epoch 143/150
Epoch 144/150
Epoch 145/150
Epoch 146/150
Epoch 147/150
Epoch 148/150
Epoch 149/150
Epoch 150/150


<keras.callbacks.History at 0x1f9edc7df98>

# k-Fold Cross-Validation

모델의 성능에 대한 보다 견고한 추정을 하는 데 있어서 k-fold cross validation을 활용하기도 한다. 데이터를 k개로의 부분집합으로 분할한 후, 분류기를 k-1개의 집합으로 학습을 시키고 나머지 1개의 집합으로 test하여 분류기의 성능을 측정하는 방법이다. 이 과정을 서로 다른 k번 수행하고, 그렇게 얻은 k번의 정확도를 평균한 것을 분류기의 성능을 판단하는 지표로 사용한다.
극단적인 경우는 K=N인 경우로, 샘플의 숫자만큼 반복 측정을 하는 것을 하나 남기기(leave-one-out) 또는 잭나이프(jackknife)기법이라고도 한다.

다만, 종종 계산 비용이 크기 때문에, 딥러닝 모델을 평가하는 데 자주 사용되지는 않는다.

아래 코드에서는 scikit-learn 라이브러리의 StratifiedKFold 클래스를 이용하여, 데이터셋을 10개로 분할하였다. 10개 분리된 데이터를 사용하여 10 번의 적합을 하면서, 그 각각의 평가 결과를 수집한다. verbose=0 인자는 fit() 함수와 evaluate() 함수에 전달하여 각 에포크에 대한 자세한 출력을 끄기 위해 사용하였다.

In [1]:
from keras.models import Sequential
from keras.layers import Dense
from sklearn.model_selection import StratifiedKFold
import numpy

# 고정 시드 값으로 초기화
seed = 123
numpy.random.seed(seed)

# Pima Indians Diabetes 데이터 불러오기
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",")

# 입력 변수와 출력 변수를 구분하기
X = dataset[:,0:8]
Y = dataset[:,8]

# 10-fold cross validation
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=seed)
cvscores = []
for train, test in kfold.split(X, Y):
    # create model
    model = Sequential()
    model.add(Dense(12, input_dim=8, activation='relu'))
    model.add(Dense(8, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    # Compile model
    model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
    # Fit the model
    model.fit(X[train], Y[train], epochs=150, batch_size=10, verbose=0)
    # evaluate the model
    scores = model.evaluate(X[test], Y[test], verbose=0)
    print("%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))
    cvscores.append(scores[1] * 100)
print("%.2f%% (+/- %.2f%%)" % (numpy.mean(cvscores), numpy.std(cvscores)))

Using TensorFlow backend.


acc: 71.43%
acc: 64.94%
acc: 66.23%
acc: 63.64%
acc: 64.94%
acc: 66.23%
acc: 64.94%
acc: 76.62%
acc: 75.00%
acc: 65.79%
67.98% (+/- 4.40%)
