# 머신러닝 모델 평가

데이터를 훈련, 검증, 테스트 세트로 나누는 이유는 훈련에 사용하는 데이터로 모델을 평가하게 되면 **오버피팅**이 일어나기 쉽기 때문이다.  
오버피팅이 일어나면 훈련 데이터에 대한 성능은 좋아지지만 새로운 데이터에 대한 성능이 좋아지지 않거나 나빠진다.  

또한 훈련, 테스트 단 두개만 이용하지 않는 이유는 모델을 개발할 때 항상 모델의 설정을 튜닝하기 때문이다.  
예를들어 layer의 수나 layer의 유닛 수같은 **하이퍼파라미터(hyperparameter)** 선택한다.  

본질적으로 이런 튜닝도 어떤 파라미터 공간에서 좋은 설정을 찾는 **학습**이다.  
결국 검증 세트로 직접 훈련하지 않더라도 빠르게 **검증세트에 오버피팅** 될 수 있다.

이러한 현상이 일어나는건 **정보 누설(information leak)** 개념 때문이다.  
검증 세트의 모델 성능에 기반하여 모델의 하이퍼파라미터를 조정할 때마다 검증 데이터에 관한 정보가 모델로 새는 것이다.  
결국 검증 세트로 여러차례 모델을 조정하게 되면 검증세트에 아주 잘 작동하게 된다.  
모델을 평가하기 위해서는 완전히 이전에 본 적 없는 다른 데이터 셋(테스트 세트)을 사용해야한다.

데이터를 훈련, 검증, 테스트 세트로 나누는 것은 간단해 보일 수 있지만 데이터가 적을 때는 몇가지 고급 기법을 사용하면 도움이 된다.
대표적으로  
- 단순 홀드아웃 검증(hold-out validation)
- K-겹 교차 검증(K-fold cross-validation)
- 셔플링을 사용한 반복 K-겹 교차 검증(iterated K-fold cross-validation)

의 세가지 기법이 있다.

## 단순 홀드아웃 검증

데이터의 일정량을 테스트 세트로 떼어 놓고, 남은 데이터에서 다시 훈련 세트와 검증세트로 나누어 사용한다.

In [2]:
num_validation_sample = 10000

np.random.shuffle(data)

validation_data = data[:num_validation_samples]
data = data[num_validation_samples:]

training_data = data[:]

model = get_model()
model.train(training_data)
validation_score = model.evaluate(validation_data)

# 모델 튜닝, 훈련, 평가, 튜닝 ...

model = get_model()
model.train(np.concatenate([training_data,
                           validation_data]))
test_score = model.evaluate(test_data)