# 과대적합과 과소적합
이전의 영화리뷰 분류, 뉴스기사 분류, 세가지 예제에서 모델의 성능이 몇번째 에포크 이후에 최고치에 다다랐다가 감소하기 시작했다.  
즉, 모델이 과대 적합되기 시작한 것이다. 머신러닝에서는 과대적합을 다룰 줄 알아야 한다.

## 최적화와 일반화
 - 최적화는 가능한 훈련 데이터에서 최고의 성능을 얻기위해 모델을 조정하는 과정이다.(머신러닝의 학습).  
 - 반면 일반화는 훈련된 모델이 이전에 본 적없는 데이터에서 얼마나 잘 수행되는지를 의미한다.
 - 모델을 만드는 목적은 좋은 일반화 성능을 얻는 것인데, 일반화 성능을 직접적으로 제어할 방법이 없고 훈련데이터를 기반으로 모델을 조정할 수 있다.  

## 과소적합, 과대적합
 - 훈련 초기에는 최적화와 일반화가 상호연관되어 있다. **훈련데이터의 손실이 낮을 수록 데이터의 손실이 낮은데, 이런 증상을 과소적합되었다라고 말한다.** 네트워크가 훈련 데이터에 있는 관련 특성을 모두 학습하지 못했기 때문에 모델의 성능이 계속 발전될 여지가 있다. 
 - 하지만 훈련데이터에 여러번 반복학습하고 나면 어느시점부터 일반화 성능이 더이상 높아지지 않는다. **검증세트의 성능이 멈추고 감소되기 시작하는데 이런 증상을 과대적합되었다 라고 말한다**. 이는 훈련데이터에 특화된 패턴을 모델이 학습하기 시작했다는 의미이며, 새로운 데이터에 대해 잘못된 판단을 할 확률이 높아진다.

## 과소적합, 과대적합을 피하려면..
- 모델이 관련성이 없고 좋지 못한 패턴을 학습하지 못하도록 하기 위한 방법은 더 많은 훈련 데이터를 모으는 것이다. 당연한 얘기지만, 더 많은 데이터에서 훈련된 모델은 일반화 성능이 더 뛰어나다.
- **데이터를 더 모으는 것이 불가능할 때, 차선책은 모델이 수용할 수 있는 정보의 양을 조절하거나 저장할 수 있는 정보에 제약을 가하는 것**이다. 네트워크가 **적은 수의 패턴**만을 기억할 수 있다면, 가장 중요한 패턴에 집중하게 될 것이고 이런 패턴은 더 나은 일반화 성능을 제공할 수 있다.

## 데이터 준비
IMDB 데이터 세트를 이용해서 확인해보자.

In [2]:
from keras.datasets import imdb
import numpy as np

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

def vectorize_sequences(sequences, dimension=10000):
    # 크기가 (len(sequences), dimension)이고 모든 원소가 0인 행렬을 만든다
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1. # results[i]에서 특정 인덱스의 위치를 1로 만든다.
    return results

# 훈련데이터를 벡터로 변환한다.
x_train = vectorize_sequences(train_data)
# 테스트 데이터를 벡터로 변환한다.
x_test = vectorize_sequences(test_data)
#레이블을 벡터로 변한한다.
y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')

## 과대적합을 피하기 위한 방법
### 네트워크 크기 축소
 - **과대적합을 막는 가장 단순한 방법은 모델의 크기, 즉 모델에 있는 학습 파라미터의 수를 줄이는 것**이다.
 - 파라미터의 수는 **층의 수와 각 층의 유닛 수**에 의해 결정된다. 딥러닝에서 모델에 있는 학습 파라미터의 수를 용량이라고 한다. 그리고 당연하게 파라미터가 많은 모델이 기억용량이 더 많다.
 - 딥러닝 모델은 훈련데이터에 잘 맞으려는 경향을 가진다. 이 문제는 최적화가 아니라 일반화이다.
 - 결국, 과대적합을 피하고 일반화를 하기위해서는 알맞은 층의 수나 각 층의 유닛수를 결정하면 된다. 그런데, 알맞은 층의 수나 각 층의 유닛 수를 결정할 수 있는 마법같은 공식은 없다. **데이터에 알맞는 모델 크기를 찾으려면 각기 다른 구조를 평가해보면서 알맞은 층의 수나 유닛 수를 조절해나가야한다.**
 - **일반적으로 비교적 작은 층과 파라미터로 시작해서 검증 손실이 감소되기 시작할때까지 유닛의 수를 늘리는 것이다.**
 
이렇게 네트워크 크기를 축소해서 과대적합 문제를 해결하는 과정을 예제로 살펴보자.

In [3]:
from keras import models
from keras import layers

original_model = models.Sequential()
original_model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
original_model.add(layers.Dense(16, activation='relu'))
original_model.add(layers.Dense(1, activation='sigmoid'))

original_model.compile(optimizer='rmsprop',
                      loss='binary_crossentropy',
                      metrics=['acc'])

더 작은 네트워크로 바꿔보자.

In [4]:
smaller_model = models.Sequential()
smaller_model.add(layers.Dense(6, activation='relu', input_shape=(10000,)))
smaller_model.add(layers.Dense(6, activation='relu'))
smaller_model.add(layers.Dense(1, activation='sigmoid'))

smaller_model.compile(optimizer='rmsprop',
                     loss='binary_crossentropy',
                     metrics=['acc'])

원본 네트워크와 축소된 네트워크의 검증손실을 비교해보자.  
점으로 표현된 것이 작은 네트워크이고 덧셈기호가 원래 네트워크이다.  
(검증 손실이 작은 것이 좋은 모델이다..

In [8]:
original_hist = original_model.fit(x_train, y_train,
                                  epochs=20,
                                  batch_size=512,
                                  validation_data=(x_test, y_test))

Train on 25000 samples, validate on 25000 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [9]:
smaller_model_hist = smaller_model.fit(x_train, y_train,
                                      epochs=20,
                                      batch_size=512,
                                      validation_data=(x_test, y_test))

Train on 25000 samples, validate on 25000 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [10]:
epochs=range(1,21)
original_val_loss = original_hist.history['val_loss']
smaller_model_val_loss = smaller_model_hist.history['val_loss']

import matplotlib.pyplot as plt
# 'b+'는 파란색 덧셈 기호를 의미한다.
plt.plot(epochs, original_val_loss, 'b+', label='Original model')
# 'bo'는 파란색 점을 의미합니다.
plt.plot(epochs, smaller_model_val_loss, 'bo', label='Smaller model')
plt.xlabel('Epochs')
plt.ylabel('Validation loss')
plt.legend()

plt.show()

AttributeError: module 'matplotlib.pyplot' has no attribute 'legent'