### 과대적합과 과소적합

<br>**최적화(optimization)**는 가능한 훈련 데이터에서 최고의 성능을 얻으려고 모델을 조정하는 과정<br><br>
**일반화(generalization)**는 훈련된 모델이 이전에 본 적 없는 데이터에서 얼마나 잘 수행되는지를 의미함<br><br>

훈련 데이터의 손실이 낮아질수록 테스트 데이터의 손실도 낮아짐. 이를 곧 **'과소적합'**(underfitting)이라고 함<br><br>

훈련 데이터에서 여러 번 반복 학습하고 나면 어느 시점부터 일반화 성능이 높아지지 않음. <br>
즉, 모델이 과대적합되기 시작함.

<br><br> 모델이 관련성이 없고 좋지 못한 패턴을 훈련 데이터에서 학습하지 못하도록 하려면 가장 좋은 방법은 **더 많은 훈련데이터를 수집하는 것**!!

<br>만일 데이터를 수집하는 것이 불가능할 경우 차선책으로 모델이 수용할 수 있는 정보의 양을 조절하거나 저장할 수 있는 정보에 제약을 가하는 것. 이를 곧 **규제**(regularization)이라고 함.

#### 네트워크 크기 축소

원본 모델

In [7]:
from keras import models
from keras import layers

model = models.Sequential()
model.add(layers.Dense(16, activation='relu',input_shape=(10000,)))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(16, activation='sigmoid'))

원본 모델에서 더 작은 용량의 모델로 수정

In [6]:
from keras import models
from keras import layers

model = models.Sequential()
model.add(layers.Dense(6, activation='relu',input_shape=(10000,)))
model.add(layers.Dense(6, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

- 원본 모델과 수정한 모델을 비교하면 원본 모델이 더 빠르게 과대적합이 시작함.
- 훈련 손실의 경우 원본 모델이 빠르게 0에 가까워지는 것을 확인할 수 있음.

#### 가중치 규제 추가 

<br> **오캄의 면도날**(Occam's razor) : 복수의 이론 중에서 더 적은 가정이 필요요한 간단한 설명이 옳을 것이라는 이론<br><br>
신경망 모델에서도 마찬가지로 간단한 모델이 복잡한 모델보다 덜 과대적합될 가능성이 높음!!<br><br>
과대적합을 완화하기 위한 일반적인 방법은 **가중치 규제**(weight regularization)<br><br>
- L1규제 : 가중치의 절댓값에 비용하는 비용이 추가 
- L2규제 : 가중치의 제곱에 비례하는 비용이 추가

모델에 L2 가중치 추가하기

In [8]:
from keras import regularizers

model = models.Sequential()
model.add(layers.Dense(16, kernel_regularizer=regularizers.l2(0.001),
                       activation='relu',input_shape=(10000,)))
model.add(layers.Dense(16, kernel_regularizer=regularizers.l2(0.001),
                       activation='relu'))
model.add(layers.Dense(16, activation='sigmoid'))

케라스에서는 L2규제 대신 아래와 같이 가중치 규제 중 하나를 사용할 수 있음

In [9]:
from keras import regularizers

regularizers.l1(0.001) # L1규제

regularizers.l1_l2(l1=0.001,l2=0.001) # L1과 L2 규제 병행

<keras.regularizers.L1L2 at 0x7f6ac0107df0>

#### 드롭아웃 추가 

<br> 드롭아웃은 신경망을 위해 사용되는 규제 기법 중 가장 효과적이고 널리 사용되는 방법 중 하나 <br><br>
네트워크 층에서 드롭아웃을 적용하면 훈련하는 동안 무작위로 층의 일부 출력 특성을 제외시킴<br><br>

드롭아웃의 추가를 통해 층의 출력 값에 노이즈를 추가하여 중요하지 않은 우연한 패턴을 깨트림<br><br>

아래 코드를 통해 Dropout추가 가능<br><br>
```
model.add(layers.Dropout(0.5))
```


네트워크에서 드롭아웃 추가하기

In [10]:
model = models.Sequential()
model.add(layers.Dense(16, activation='relu',input_shape=(10000,)))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(1, activation='sigmoid'))

### 정리 

신경망에서 과대적합을 방지하기 위해 가장 널리 사용하는 방법은<br><br>

- 더 많은 훈련데이터를 수집
- 네트워크 용량을 감소
- 가중치 규제를 추가
- 드랍아웃을 추가