### 머신 러닝 모델 평가

In [None]:
# 홀드아웃 검증 구현 예
num_validation_samples = 10000

np.random.shuffle(data) # 데이터를 섞는 것(셔플링)이 일반적으로 좋음

validation_data = data[:num_validation_samples] # 검증 세트를 만듬
data = data[num_validation_samples:]

training_data = data[:] # 훈련 세트를 만듬

model = get_model()
model.train(training_data)
validation_score = model.evaluate(validation_data) # 훈련 세트에서 모델을 훈련하고, 검증 세트로 평가함

# 여기에서 모델을 튜닝하고, 다시 훈련하고, 평가하고, 또 다시 튜닝하고..

model = get_model()
model.train(np.concatenate([training_data, validation_data])) 
# 하이퍼파라미터 튜닝이 끝나면 테스트 데이터를 제외한 모든 데이터를 사용하여 모델을 다시 훈련시킴

test_score = model.evaluate(test_data)

In [None]:
# K-겹 교차 검증 구현 예
k = 4
num_validation_samples = len(data) // k

np.random.shuffle(data)

validation_scores = []
for fold in range(k):
    # 검증 데이터 부분을 선택함
    validation_data = data[num_validation_samples * fold:num_validation_samples * (fold+1)]
    # 남은 데이터를 훈련 데이터로 사용 / 리스트에서 + 연산자는 두 리스트를 더하는 것이 아니고 연결하는 것
    training_data = data[:num_validation_samples * fold] + data[num_validation_samples * (fold+1):] 
    
    model = get_model() # 훈련되지 않은 새로운 모델을 만듬
    model.train(training_data)
    validation_score = model.evaluate(validation_data)
    validation_scores.append(validation_score)

validation_score = np.average(validation_scores) # 검증 점수: K개 폴드의 검증 점수 평균

# 테스트 데이터를 제외한 전체 데이터로 최종 모델을 훈련함
model = get_model()
model.train(data)
test_score = model.evaluate(test_data)

### 과대적합과 과소적합

#### 1) 네트워크 크기 축소

In [3]:
# 3장의 영화 리뷰 분류 모델 [원본 모델]
from keras import models
from keras import layers

model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

Using TensorFlow backend.


In [4]:
# 작은 용량의 모델
model = models.Sequential()
model.add(layers.Dense(6, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(6, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

In [5]:
# 큰 용량의 모델
model = models.Sequential()
model.add(layers.Dense(1024, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(1024, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

#### 2) 가중치 규제 추가

In [8]:
# 모델에 L2 가중치 추가하기
from keras import regularizers

model = models.Sequential()
model.add(layers.Dense(16, kernel_regularizer=regularizers.l2(0.001), activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16, kernel_regularizer=regularizers.l2(0.001), activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

In [9]:
# 케라스에서 사용할 수 있는 가중치 규제
from keras import regularizers

regularizers.l1(0.001) # L1 규제

regularizers.l1_l2(l1=0.001, l2=0.001) # L1과 L2 규제 병행

<keras.regularizers.L1L2 at 0x18438f288d0>

#### 3) 드롭아웃 추가

In [12]:
model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(1, activation='sigmoid'))