### [정칙화]
- 정칙화(Regularization) : 모델 학습 시 발생하는 과대적합 문제를 방지하기 위해 사용되는 기술로, 모델이 암기가 아니라 일반화 할 수 있도록 손실 함수에 규제를 가하는 방식
- 암기(Memorization) : 모델이 데이터의 일반적인 패턴을 학습하는 것이 아닌, 학습 데이터의 노이즈나 특정 패턴을 학습하는 것
- 일반화 : 모델이 새로운 데이터에서도 정확한 예측을 할 수 있음을 의미 (=데이터의 일반적인 패턴을 학습하는 것)
- 정칙화의 종류 : L1 정칙화, L2 정칙화, 가중치 감쇠, 드롭아웃

In [None]:
# L1 정칙화(4.5)
for x, y in train_dataloader:
    x = x.to(device)
    y = y.to(device)

    output = model(x)

    _lambda = 0.5
    l1_loss = sum(p.abs().sum() for p in model.parameters())

    loss = criterion(output, y) + _lambda * l1_loss


In [None]:
# L2 정칙화

for x, y in train_dataloader:
    x = x.to(device)
    y = y.to(device)

    output = model(x)

    _lambda = 0.5
    l2_loss = sum(p.pow(2.0).sum() for p in model.parameters())

    loss = criterion(output, y) + _lambda * l2_loss

In [16]:
from torch import nn

# Dropout
class Net(nn.Module):
    def __init__(self):
        super().__init__()
        self.layer1 = nn.Linear(10, 10)
        self.dropout = nn.Dropout(p=0.5)
        self.layer2 = nn.Linear(10, 10)

    def forward(self, x):
        x = self.layer1(x)
        x = self.dropout(x)
        x = self.layer2(x)
        return x

In [None]:
# 그레이디언트 클리핑
for x, y in train_dataloader:
    x = x.to(device)
    y = y.to(device)

    output = model(x)
    loss = criterion(output, y)

    optimizer.zero_grad()
    loss.backward()

    torch.nn.utils.clip_grad_norm_(model.parameters(), 0.1)

    optimizer.step()