# 4.4 과대적합(Overfitting)과 과소적합(Underfitting)


- 머신러닝의 근본적인 이슈는 **최적화와 일반화 사이의 줄다리기**
    - **최적화**
        - 가능한 **훈련 데이터에서 최고의 성능**을 얻으려고 모델을 조정하는 과정
    - **일반화(Generalization)**
        - 훈련된 모델이 **이전에 본 적 없는 데이터에서 얼마나 잘 수행되는지**를 의미
        
        
- **모델을 만드는 목적은 좋은 일반화 성능을 얻기 위한 것**이지만 일반화 성능을 제어할 방법이 없으며 단지 훈련 데이터를 기반으로 모델을 조정할 수 밖에 없음
- 따라서 **최적화를 하되 일반화가 잘 되도록 적당히 조절**하는 법을 알아야 함
- 이는 최적화 과정에서 일어나는 **과대적합으로 인한 일반화 성능 저하를 막는 것**을 뜻함

- **과소 적합(underfitting)**
    - 훈련 데이터의 손실이 낮아질수록 테스트 데이터의 손실도 낮아짐
    - 네트워크가 훈련 데이터의 특성을 모두 학습하지 못한 상태
    - **일반화 성능**이 **좋아짐**
    

- **과대 적합(overfitting)**
    - 훈련 데이터의 손실이 낮아질수록 테스트 데이터의 손실이 높아짐
    - 네트워크가 **훈련 데이터에 특화된 패턴을 학습**하기 시작
    - **일반화 성능**이 더이상 높아지지 않으며 오히려 **낮아짐**

- **Regularization**
    - **과대 적합을 피하는 처리 과정**을 **regularization(규제)**이라 함
    - **가장 좋은 방법은 더 많은 훈련데이터를 모으는 것**
        - 더 많은 데이터에서 훈련된 모델은 일반화 성능이 더욱 뛰어남
    - **데이터를 더 모을 수 없을 경우**의 차선책은 **모델이 수용할 수 있는 정보의 양을 조절하거나 저장할 수 있는 정보에 제약**을 가하는 것
        - 네트워크가 **적은 수의 패턴만 기억할 수 있다면** 최적화 과정에서 **가장 중요한 패턴에 집중**하게 됨

### 4.4.1 네트워크 크기 축소

- 과대적합을 막는 가장 단순한 방법은 **네트워크의 크기(학습 파라미터의 수)를 줄이는 것**
    - 파라미터의 수는 **층의 수**, 각 **층의 유닛의 수**를 뜻함


- **네트워크의 학습 파라미터 수**는 네트워크가 **학습할 수 있는 용량(capacity)**을 뜻하며 **용량을 제한**한다면 많은 양을 학습해 **overfitting되는 것을 제한**할 수 있음
- 따라서 **너무 많은 용량과 충분하지 않은 용량 사이의 절충점**을 찾아야 함(데이터에 **알맞은 네트워크의 크기**를 찾는 것)


- 일반적인 방법은 비교적 적은 수의 층과 파라미터에서 시작해 validation loss가 감소되기 시작할 때 까지 층이나 유닛의 수를 늘리는 것

In [3]:
# 영화 리뷰 분류 모델로 비교

from keras.datasets import imdb

# IMDB 데이터셋 로드
# num_words=10000은 자주 사용하는 단어 1만개만 사용한다는 의미
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words = 10000)

In [4]:
import numpy as np

def vectorization(sequences, words=10000):
    result = np.zeros((len(sequences), words))
    
    for idx, sequence in enumerate(sequences):
        result[idx, sequence] = 1.
    
    return result


train_data = vectorization(train_data)
test_data = vectorization(test_data)
print(train_data.shape, test_data.shape)

(25000, 10000) (25000, 10000)


In [5]:
from keras import models
from keras import layers

model_origin = models.Sequential()
model_origin.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model_origin.add(layers.Dense(16, activation='relu'))
model_origin.add(layers.Dense(1, activation='sigmoid'))

model_origin.compile(optimizer='rmsprop',
                     loss='binary_crossentropy',
                     metrics=['acc'])

hist_origin = model_origin.fit(train_data, train_labels, epochs=20, batch_size=512)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [6]:
model_small = models.Sequential()
model_small.add(layers.Dense(6, activation='relu', input_shape=(10000,)))
model_small.add(layers.Dense(6, activation='relu'))
model_small.add(layers.Dense(1, activation='sigmoid'))

model_small.compile(optimizer='rmsprop',
                     loss='binary_crossentropy',
                     metrics=['acc'])

hist_small = model_small.fit(train_data, train_labels, epochs=20, batch_size=512)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
