In [1]:
# 오버피팅 (과대 적합) , 즉 학습 데이터에 너무 편향되어 학습이 되어 있는 경우

# 원인 
# ====================================================================================
# 데이터 - 학습데이터가 다양한 특징을 반영하지 못하고
#편향되어 있는 경우, 데이터 자체가 부족한경우, 데이터의 특징이 너무 다양해서 결정 경계를 만들기 어려운 경우

#학습 알고리즘
# Loss 함수에 의해 오차 자체가 너무 데이터에 fit하게 모델이 학습하는 경우

# 모델
# 데이터에 비해 너무 복잡한 모델을 활용하는 경우  ->  hidden unit에 의한 오류
# 모델에 너무 많은 정보를 담으려고 하는 경우 -> hidden unit
# 모델을 필요 이상으로 학습을 진행하는 경우 -> epoch 횟수 오류
# ====================================================================================

In [2]:
# 데이터 증가 
# 모델이 더 다양한 분포의 데이터를 학습 가능하도록 유도 해야함
# 하지만, 단순히 데이터를 증가하는 것은 효과가 크지 않고 많은 비용이 발생하여 비효율적임

# Data augmentation
# 제한된 데이터 내에서 다양성을 부여하여 일반적 특징을 학습시키기 위한 방법
# 데이터를 Rotate, Cut, Flip 등을 하여 변형시킴

In [3]:
# Feature selection -> 다차원을 줄여 학습에 효율적으로 
# 제한된 데이터 내에서 데이터를 일반화 시키기 위한 방법
# 딥러닝에서는 잘 활용되지 않지만, 데이터를 더 늘릴 수 없는 경우 효과적

# Cross-validation
# 학습 데이터와 테스트 데이터를 K그룹으로 분리하여, 각 epoch마다 Test데이터를 교차 적용하는 법
# Test 데이터를 모두 학습에 사용
# 역시 딥러닝에서는 잘 활용되지 않지만 데이터가 적은 경우에는 활용 할 수 있음

In [4]:
# Regularization
# Loss 함수 결과값에 너무 fit해서 학습하는 것을 방지
# 즉, Error 값에 대한 패널티를 부여하는 것
# L = Error(y, y^) + 람다regularization

# Balancing the error between regularization term
# Regularization term이 포함된 loss가 가장 저점이 되는 지점은 두 point가 맞닿는 부분
# 맞닿는 지점을 만들기 위해서는 두 값 중 하나는 증가해야 함. 증가 없이는 교차점을 만들 수 없음

# "Minimizes data term"과 "Minimizes combination" 그리고 "Minimizes regularization"은 기계 학습에서 최적화 과정에서 나타나는 용어입니다.
# 
# Minimizes data term (데이터 항을 최소화): 모델이 주어진 데이터에 대해 얼마나 잘 맞는지 측정하는 항목입니다. 일반적으로 손실 함수(loss function)를 통해 모델의 예측이 실제 데이터와 얼마나 일치하는지 평가하고, 최소화하려고 노력합니다.
# 
# Minimizes combination (조합 항을 최소화): 여러 항목이 조합된 함수에서 특정 항을 최소화하려는 의미일 수 있습니다. 이는 주로 복잡한 최적화 문제에서 여러 구성 요소 간의 상호 작용을 최소화하고자 하는 목적을 나타냅니다.
# 
# Minimizes regularization (정규화 항을 최소화): 정규화는 모델이 훈련 데이터에 지나치게 적합되는 것을 방지하기 위해 모델의 복잡성을 제어하는 기법입니다. L1 정규화, L2 정규화 등이 있으며, 이러한 정규화 항을 최소화하면서 모델의 일반화 능력을 향상시키려고 합니다.

In [5]:
# Norm 
# 벡터의 크기를 나타내는 값

# L1 Norm
# 흔히 Manhattan distance라고 말하고 두 벡틩 최단 거리가 아닌 벡터의 모든 성분의 절대값을 더한 값
# ||x||1= 시그마 i=1부터 n까지 1|xj|

# 2차원 평면에서 손실값을 생각해보자
# SGD나 다른 gradiant 방식으로 평탄하게 만드는데 이 때 최저점에 맞게 normalize가 된다면 
# 오버피팅이 된다. 이를 방지하기 위해 L1 Norm, L2 Norm을 사용하여 이를 방지한다.
# y = x1 +x2로 마름모가 될지
# y = x1^2 + x2^2로 원형을 유지할지
# 무조건적으로 2차 평면이아니라 파라미터에 따라 다르다.
# Error(y, p) + 람다*(regularization) -> 정답과 예측값 + L1, L2 Norm

In [6]:
# 모델 간소화

# Remove Hidden units or Layers

# 데이터에 비해 모델이 너무 복잡한 경우, 모델을 간소화 시킬 수 있음
# 모델은 간소화 시킨다는 것은 모델의 크기(깊이 또는 넓이)를 줄이는 것을 읨

# Dropout
# Dropout은 학습하는 단계에서 몇 개의 neuron은 비활성화 상태로 만들고, Test 단계에서 모두 활성화 하는 방법
# hidden Unit을 줄이는 효과와 비슷함.

# Early stopping
# 모델 학습에서 Validation set의 오류가 증가하는 현상에서 학습을 중지하는 방법
# Overfitting을 예방하는 가장 쉬운 방법이나, 아직 학습이 덜 되었을 가능성에서 좋은 방법은 아님

In [7]:
# 과소 적합
# Underfitting 
# 모델이 학습 데이터에서 입력 데이터와 출력 결과에서 관계를 잘 못 찾아 내는 현상
# 학습 데이터와 테스트데이터 모두에서 정확도가 낮게 측정 될때 이 현상이 발생하고 있음을 추정
# 데이터에 비해 모델이 너무 간단하거나, 학습 시간이 짧거나, learning rate가 적합하지 안ㅇ흘 때 발생

In [1]:
# 해결 방안

# Decrease regularization
# 정규화는 overfitting에서 확인했듯, 모델의 복잡도를 낮추기 위해 사용
# 이를 반대로 적용하여, regularization을 낮추는 것이 underfitting에서 도움이 될 수 있음

# Increase the duration of training (이 방법을 자주 씀)
# 학습이 아직 되고 있지 않은 시점일 수 있음
# 따라서 epoch을 더 늘리거나, learning rate를 조절하는 것이 도움이 됨

# Feature selection ( 이 방법은 추천하지 않음)
# 모델에 비해 데이터가 너무 복잡 하면서 발생 가능 할 수 있음
# 데이터의 양이 적고, feature가 많은 경우 불필요한 정보를 삭제하는 것이 도움 됨

In [22]:
import torch
import torchvision
from torch import nn

from torch.utils.data import DataLoader
from torchvision import datasets   
from torchvision.transforms import ToTensor,Normalize, Compose


In [23]:
transform = Compose(
    [ToTensor(),
    Normalize((0.5,0.5,0.5),(0.5,0.5,0.5))])

batch_size = 64

# CIFAR 32x32 3channel

trainset = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
trainloader = DataLoader(trainset, batch_size=batch_size, shuffle=True, num_workers=2)

testset = datasets.CIFAR10(root='./data', train=False, download=True, transform=transform)
testloader = DataLoader(testset, batch_size=batch_size, shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat', 'derr', 'dog', 'frog', 'horse', 'ship', 'truck')

Files already downloaded and verified
Files already downloaded and verified


In [41]:
device = 'cuda' if torch.cuda.is_available() else 'cpu'

class NeuralNetwork(nn.Module):
    def __init__(self):
        super(NeuralNetwork, self).__init__()
        self.flatten = nn.Flatten()
        self.linear_relu_stack = nn.Sequential(
            nn.Linear(32*32*3, 1024),
            nn.ReLU(),
            nn.Linear(1024, 512),
            nn.ReLU(),
            nn.Linear(512, 256),
            nn.ReLU(),
            nn.Linear(256, 64),
            nn.ReLU(),       
            nn.Linear(64, 10),            
        )
        
    def forward(self, x):
        x = self.flatten(x)
        logits = self.linear_relu_stack(x)
        return logits
        
model = NeuralNetwork().to(device)
print(model)

NeuralNetwork(
  (flatten): Flatten(start_dim=1, end_dim=-1)
  (linear_relu_stack): Sequential(
    (0): Linear(in_features=3072, out_features=1024, bias=True)
    (1): ReLU()
    (2): Linear(in_features=1024, out_features=512, bias=True)
    (3): ReLU()
    (4): Linear(in_features=512, out_features=256, bias=True)
    (5): ReLU()
    (6): Linear(in_features=256, out_features=64, bias=True)
    (7): ReLU()
    (8): Linear(in_features=64, out_features=10, bias=True)
  )
)


In [42]:
def train(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)
    model.train()
    for batch, (X,y) in enumerate(dataloader):
        X,y = X.to(device), y.to(device)
        
        pred = model(X)
        loss= loss_fn(pred, y)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        if batch % 100 == 0:
            loss, current = loss.item(), batch * len(X)
            print(f'Loss: {loss:7f}[{current:>5d}/{size:>5d}]')

In [43]:
def test(dataloader, model, loss_fn):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    # 꼭 넣어야한다.
    model.eval()
    test_loss, correct = 0, 0
    with torch.no_grad():
        for X, y in dataloader:
            X, y = X.to(device), y.to(device)
            pred = model(X)
            test_loss += loss_fn(pred, y).item()
            correct += (pred.argmax(1) == y).type(torch.float).sum().item()
            
    test_loss /= num_batches
    correct /= size
    print(f"test Error : \n Accruacy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f}\n")

In [57]:
# SGD

model = NeuralNetwork().to(device)
loss_fn = nn.CrossEntropyLoss()
#optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3, weight_decay=0.001)

In [58]:
epochs =5
for t in range(epochs):
    print(f"Epoch {t+1} \n=============================")
    train(trainloader, model, loss_fn, optimizer)
    test(testloader, model,loss_fn)
    optimizer.step()
    
print("Done!")

Epoch 1 
Loss: 2.317459[    0/50000]
Loss: 1.739805[ 6400/50000]
Loss: 1.740267[12800/50000]
Loss: 1.782589[19200/50000]
Loss: 1.881373[25600/50000]
Loss: 1.721865[32000/50000]
Loss: 2.040204[38400/50000]
Loss: 1.642022[44800/50000]
test Error : 
 Accruacy: 41.8%, Avg loss: 1.631086

Epoch 2 
Loss: 1.530140[    0/50000]
Loss: 1.631446[ 6400/50000]
Loss: 1.697253[12800/50000]
Loss: 1.503886[19200/50000]
Loss: 1.699495[25600/50000]
Loss: 1.374644[32000/50000]
Loss: 1.568611[38400/50000]
Loss: 1.776574[44800/50000]
test Error : 
 Accruacy: 45.1%, Avg loss: 1.537055

Epoch 3 
Loss: 1.633435[    0/50000]
Loss: 1.522249[ 6400/50000]
Loss: 1.671011[12800/50000]
Loss: 1.558997[19200/50000]
Loss: 1.529529[25600/50000]
Loss: 1.607464[32000/50000]
Loss: 1.479077[38400/50000]
Loss: 1.474301[44800/50000]
test Error : 
 Accruacy: 46.6%, Avg loss: 1.495029

Epoch 4 
Loss: 1.441905[    0/50000]
Loss: 1.620980[ 6400/50000]
Loss: 1.420732[12800/50000]
Loss: 1.257700[19200/50000]
Loss: 1.401812[25600/500

In [ ]:
# 