# 15. 과적합

과적합은 학습 데이터에 치중하여 모델이 학습하는 현상으로 새로운 데이터에 대해서 대응을 못하는 문제다. 따라서 딥러닝에서 가장 쉽게 접할 수 있는 문제 유형이며 개선하지 힘든 문제다.  

## 15.1 Dropout & Batch Normalization


In [None]:
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        
        self.feature_extraction = nn.Sequential(nn.Conv2d(3, 6, 5), 
                                                nn.BatchNorm2d(6), # 주로 Conv 연산이 끝난 뒤 넣음 / 각 채널의 평균과 표준편차를 구해서 정규화를 시키는 방법
                                                nn.ReLU(),
                                                nn.MaxPool2d(2, 2), 
                                                nn.Conv2d(6, 16, 5),
                                                nn.BatchNorm2d(16),
                                                nn.ReLU(),
                                                nn.MaxPool2d(2, 2))
        
        # classifier가 깊으면 깊을수록 과적합 확률 높음 --> 따라서 과적합이 심하다면 cls의 layer를 줄여보는 것도 방법
        # cls보다 FE가 더 중요하기 때문에, cls 파트를 너무 깊게 안 쌓아도 됨.
        self.classifier = nn.Sequential(nn.Linear(512, 120),
                                        nn.ReLU(),
                                        nn.Dropout(0.5), # 비활성화 시킬 노드의 비율 / 보통 FE보다 Fully Connected Layer에서 사용.
                                        nn.Linear(120, 64),
                                        nn.ReLU(),
                                        nn.Linear(64, 10))
                                        
    def forward(self, x):
        x = self.feature_extraction(x)
        x = x.view(-1, 512) 
        x = self.classifier(x)

        return x

net = CNN().to(device) # 모델 선언

##15.2 L2 Regularization

loss function에다가 제약 조건을 걸어주는 방법
- 학습을 할 때 최저점에 일부러 가지 못하도록 바운데리를 설정
- loss function 미분을 해서 optimizer 계산을 해보면 가중치가 업데이트되는 부분 앞에 패널티 값이 있는 것을 확인 가능 

In [None]:
# 파이토치는 L2 정규화를 loss에서 설정하지 않고 옵티마이저에서 설정

import torch.optim as optim

                                                    # l2식의 lambda :: 패널티 값이 크면 클수록 제약 조건이 더 심해진다. --> 너무 큰 값으로 하면 오히려 학습이 더 잘 안될 수도 있음
optimizer = optim.Adam(model.parameters(), lr=1e-4, weight_decay=1e-2)

## 15.3 Data Augmentation

In [None]:

# https://pytorch.org/docs/stable/torchvision/transforms.html에서 다양한 전처리 방법들을 확인할 수 있다.
import torchvision.transforms as tr
import PIL

transf = tr.Compose(
                [tr.ToPILImage(), tr.RandomCrop(60), tr.ColorJitter(brightness=0.1, contrast=0.1, saturation=0.1, hue=0.1),
                 tr.RandomHorizontalFlip(),
                 tr.RandomRotation(10, resample=PIL.Image.BILINEAR),
                 tr.ToTensor()
                 ])

## 15.4 Label Smoothing

각각의 클래스의 격차를 줄여주는 방법


In [1]:
import torch.nn as nn

class LabelSmoothingLoss(nn.Module):
    def __init__(self, classes, smoothing=0.0, dim=-1):
        super(LabelSmoothingLoss, self).__init__()
        self.confidence = 1.0 - smoothing
        self.smoothing = smoothing
        self.cls = classes
        self.dim = dim

    def forward(self, pred, target):
        pred = pred.log_softmax(dim=self.dim) # Cross Entropy 부분의 log softmax 미리 계산하기
        with torch.no_grad():
            # true_dist = pred.data.clone()
            true_dist = torch.zeros_like(pred) # 예측값과 동일한 크기의 영텐서 만들기
            true_dist.fill_(self.smoothing / (self.cls - 1)) # alpha/(K-1)을 만들어 줌(alpha/K로 할 수도 있음)
            true_dist.scatter_(1, target.data.unsqueeze(1), self.confidence) # (1-alpha)y + alpha/(K-1)
        return torch.mean(torch.sum(-true_dist * pred, dim=self.dim)) # Cross Entropy Loss 계산

In [None]:
ls = LabelSmoothingLoss(10, smoothing=0.2)

In [None]:
for data in dataloader:
    ...

    loss = ls(pred, labels) # loss부분만 바꿔주면 됨.

    ...
    