# MLP Model


In [1]:
import torch

In [1]:
def softmax(z):
    z_exp = torch.exp(z)
    z_exp_sum = torch.sum(z_exp, dim=1) + 1e-8  # softmax 분모
    a = z_exp / z_exp_sum.unsqueeze(dim=1)
    return a

In [2]:
def cross_entropy(y_hat, y):
    loss = torch.sum(-y * torch.log(y_hat), dim=1)
    loss = loss.mean()
    return loss

# MLP Model

## Neural Network Design

- Pytorch에서 neural network는 torch.nn.Module이라는 베이스 클래스를 상속받아서 사용하고 각 요소들은 torch.nn에서 사용할 수 있음


In [1]:
import torch.nn as nn
import torch.nn.functional as F


class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.linear1 = nn.Linear(10, 20)
        self.linear2 = nn.Linear(20, 1)

    def forward(self, x):
        x = F.sigmoid(self.linear1(x))
        return F.sigmoid(self.linear2(x))

- Linear Layer
  - Fully connected layer라고 불름
  - torch.nn.Linear(in_features, out_features, bias=True)
  - in_features: 입력 perceptron의 수
  - out_features: 출력 perceptron의 수
  - bias: bias를 사용할 것인지 여부


- Activation function
  - Sigmoid
    - torch.nn.function.sigmoid
    - 0~1
  - Tanh
    - torch.nn.function.tanh
    - -1~1
  - ReLU
    - torch.nn.function.relu
    - max(0, x)


In [2]:
class MLPnet(nn.Module):  # nn.Module을 상속받음
    def __init__(
        self,
    ):  # 생성자 정의 (해당 클래스의 인스턴스가 생성될 때 자동으로 호출)
        super(MLPnet, self).__init__()  # nn.Module의 생성자(__init__)를 호출
        self.fc1 = nn.Linear(
            in_features=3 * 32 * 32, out_features=128
        )  # 3*32*32 >> 128
        self.fc2 = nn.Linear(in_features=128, out_features=64)  # 128 >>> 64
        self.dropout = nn.Dropout(p=0.5)
        self.fc3 = nn.Linear(in_features=64, out_features=10)  # 64 >>> 10

    def forward(self, x):  # forward propagation
        x = torch.flatten(x, 1)  # 행렬형태의 입력을 벡터형태로 변형
        x = self.fc1(x)  # 1st layer
        x = F.relu(x)
        x = self.fc2(x)  # 2nd layer
        x = F.relu(x)
        x = self.dropout(x)
        x = self.fc3(x)  # 3rd layer
        return x

- Forward Path
  - 입력부터 출력까지의 순방향의 과정을 의미
  - Forward path를 통해서 최종 Loss를 계산할 수 있음


- Backward Path
  - Forward path로부터 게산된 Loss에 대한 각 파라미터 W, b의 gradient 계산해가는 과정(Backpropagation 이라고도 불림)
  - 처음부터 계산하는것은 너무 어려움
  - 이때 Chain Rule을 이용하면 다음 계산값은 이전 계산값을 활용해서 계산할 수 있음
  - Update는 기존 W, b값에서 계산한 gradient의 반대 방향으로 학습률(lerning rate)를 곱하여 변화


- torch.optim
  - 모델을 업데이트하는 다양한 optimization algorithm을 포함


In [3]:
import torch.optim as optim

- SGD(Stochastic Gradient Descent)
  - 확률적 경사 하강법 알고리즘
  - 전체 데이터를 전부 고려하지 않고 미니배치에 대한 gradient 기반으로 업데이트 함
  - 미니 배치를 선택하는 것이 확률적이기 때문에 Stochastic이라는 표현이 붙음
  - Pytorch에서는 Full-batch Gradient Descent(FGD)를 따로 제공하지 않고 사용자가 미니배치 사이즈를 전체 데이터로 지정하면 FGD로 사용할 수 있음
  - Optimizer에는 Model의 parameters의 정보를 입력으로 넣어주어야 함
  - 학습률(learning rate)을 지정하고, 그 외에 momentum, weight_decay, Nesterov등의 옵션을 고려


In [None]:
model = MLPnet()
optimizer = optim.SGD(
    model.parameters(), lr=0.01, momentum=0.9, weight_decay=0.0005, nesterov=True
)

- weight decay
  - 모든 레이어의 W 파라미터에 대해서 적용되며 W 값이 과도하게 커지지 않도록 W에 L2-norm을 적용시킨 크기 값을 Loss식에 추가한 것


# Adam(Adaptive Moment Estimation)

- momentum의 방향과 크기를 모두 고려한 Optimization 알고리즘
- SGD와 마찬가지고 lr을 설정할 수 있고, betas라는 parameters가 있으며 기본 값인(0.9, 0.999)를 사용하는 것을 권장
- Gradient에 따라서 적응적으로 업데이트 값을 적용하는 효과가 있어서 이론적으로는 learning rate값에 민감하지 않고 큰 값을 적용하는 것도 가능
- Adam이 SGD보다 더 나중에 고안된 optimizer이지만 항상 Adam이 더 좋은 성능을 내는 것이 아님(Dataset이나 Task에 따라 다름)


In [None]:
optimizer = optim.Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999))

# Scheduler

- 학습의 진행정도에 따라 learning rate를 조절하는 역할
- StepLR:
  - torch.optim.lr_scheduler.StepLR(optimizer, step_size=40, gamma=0.1)
  - step_size에 도달하면 learning rate에 gamma를 곱함
- MultiStepLR
  - torch.optim.lr_schduler.MultiStepLR(optimizer, milestones=[30,80], gamma=0.1)
  - 복수의 step_size를 milestones으로 정의하여 각 milestones에 도달하면 learning rate에 gamma를 곱함
- CosineAnnealingLR:
  - torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=20)
  - Cosine 개형을 따라가며 learning rate가 정해짐
  - T_max: cosine 주기의 1/2


- StepLR의 경우 Step size를 어떻게 정하는가?
  - Loss가 줄어들지 않는 포인트에서 일반적으로 Learning rate를 낮춰줌
  - 주의점은 Loss가 작은 것이 항상 좋은 것은 아님
  - Trainig Loss는 작지만 Test에서 성능이 좋지 못할 수도 있음(overfitting)


In [4]:
import torch
from torchvision import datasets


# 데이터 불러오기: torchvision 패키지에서 cifar10의 train data 와 test data를 불러옴
def load_data(dataset, dataset_path):
    train_dataset = None
    test_dataset = None

    if dataset == "CIFAR10":
        train_dataset = datasets.CIFAR10(
            dataset_path,  # 해당 데이터 셋의 path
            download=True,  # 해당 데이터셋을 다운 받을 것인지
            train=True,
        )  # 학습 용도로 사용될 것인지
        train_dataset.data = torch.tensor(
            train_dataset.data
        )  # numpy array 형태를 torch tensor로 변경
        train_dataset.data = torch.permute(
            train_dataset.data, dims=(0, 3, 1, 2)
        )  # (B,H,W,C) -> (B,C,H,W) 형태로 변경
        train_dataset.targets = torch.tensor(train_dataset.targets)

        test_dataset = datasets.CIFAR10(dataset_path, download=False, train=False)
        test_dataset.data = torch.tensor(test_dataset.data)
        test_dataset.data = torch.permute(test_dataset.data, dims=(0, 3, 1, 2))
        test_dataset.targets = torch.tensor(test_dataset.targets)

    else:
        print("Incorrect dataset!")
    return train_dataset, test_dataset

In [None]:
import RandomSampler

model = MLPnet()
optimizer = optim.SGD(model.parameters(), lr=0.01)
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=1000, gamma=0.5)

dataset_path = "./cifar10_data/"
dataset_name = "CIFAR10"
train_dataset, test_dataset = load_data(dataset_name, dataset_path)

train_batch_size = 64
test_batch_size = 64
train_iter = 3000
train_samp = RandomSampler(len(train_dataset), train_batch_size)

model = train(model, optimizer, scheduler, train_iter, train_samp, train_dataset)
test(model, test_dataset, test_batch_size)