# 과적합(Overfitting)을 막는 방법들

## 1. 데이터의 양을 늘리기
- 데이터의 양이 적을 경우, 해당 데이터의 특정 패턴이나 노이즈까지 쉽게 암기하기 됩니다.
- 그렇기 때문에 데이터의 양을 늘릴수록 모델은 데이터의 일반적인 패턴을 학습하여 과적합을 방지할 수 있습니다.
- 만약 데이터의 양이 적을 경우 데이터를 조금씩 변형하고 추가하여 데이터의 양을 늘리는데 이를 **데이터 증강(Data Augmentation)**이라고 합니다.
- 텍스트 데이터의 경우엔 번역 후 재번역하여 새로운 데이터를 만들어내는 **역번역(Back Translation)**이 있습니다.

## 2. 모델의 복잡도 줄이기
- 인공 신경망의 복잡도는 은닉층(hidden layer)의 수나 매개변수의 수 등으로 결정됩니다.
- 과적합이 있을 때, 한 가지 조치는 인공 신경망의 복잡도를 줄이는 것입니다.
- 인공 신경망에서는 모델에 있는 매개변수들의 수를 모델의 수용력(capacity)라고 합니다.

## 3. 가중치 규제(Regularization) 적용하기
- 복잡한 모델을 간단하게 하는 방법으로 가중치 규제가 있습니다.
    - L1 규제 or L1 Norm: 가중치 w들의 절대값 합계를 비용 함수에 추가합니다.
    - L2 규제 or L2 Norm: 모든 가중치 w들의 제곱합을 비용 함수에 추가합니다.

## 4. 드롭아웃: Dropout
- 학습 과정에서 신경망의 일부를 사용하지 않는 방법:

    ![image.png](attachment:image.png)
- 케라스 예시:

In [1]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dropout, Dense

max_words = 10000
num_classes = 46

model = Sequential()
model.add(Dense(256, input_shape=(max_words,), activation='relu'))
model.add(Dropout(0.5)) # 드롭아웃 추가. 비율은 50%
model.add(Dense(128, activation='relu'))
model.add(Dropout(0.5)) # 드롭아웃 추가. 비율은 50%
model.add(Dense(num_classes, activation='softmax'))