In [1]:
import torch
import torch.nn as nn
from torch import optim
import torch.nn.functional as F

In [3]:
# Minibatch, 그리고 minibatch 구현에 사용하는 Pytorch Dataset, DataLoader
# ImageNet : 1000만 장 이상의 데이터 있음.
# GD 는 각 데이터마다 cost를 구해야 한다. 너무 많으면 연산 속도가 느려지거나, 데이터 용량이 너무 커진다.
# 한 번에 학습시키는 건 불가능하다. --> 일부만 학습하자. -> MiniBatch

In [4]:
from torch.utils.data import Dataset

class CustomDataset(Dataset):
    def __init__(self):
        self.x_data = [[73, 80, 75],
                       [93, 88, 93],
                       [89, 91, 90],
                       [96, 98, 100],
                       [73, 66, 70]]
        self.y_data = [[152], [185], [180], [196], [142]]

    def __len__(self):
        return len(self.x_data)

    def __getitem__(self, idx):
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])

        return x, y

dataset = CustomDataset()

In [8]:
class MultivariateLinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 1)

    def forward(self, x):
        x = self.linear(x)
        return x

model = MultivariateLinearRegressionModel() # 직접 module을 만들어야 해?
optimizer = optim.SGD(model.parameters(), lr=1e-5)

In [9]:
from torch.utils.data import DataLoader

dataloader = DataLoader(
    dataset,
    batch_size=2, # 각 minibatch의 데이터 크기, 일반적으로 2의 배수로 정한다?
    shuffle=True  # epoch마다 dataset을 섞어서 데이터가 학습되는 순서를 무작위로 배치
)

# Dataset() 클래스를 상속해서 CustomDataset()을 만들고,
# CustomDataset()의 인스턴스를 생성하여 DataLoader 클래스를 사용한다.

nb_epochs = 20
for epoch in range(nb_epochs+1):
    for batch_idx, samples in enumerate(dataloader): # dataloader는 여러 개의 samples로 이루어져 있다.
        x_train, y_train = samples

        pred = model(x_train) # model : MultivariateLinearRegressionModel()
        cost = F.mse_loss(pred, y_train) # 이 두 줄 : cost function에 따른 cost를 계산하는 작업

        optimizer.zero_grad()
        cost.backward()
        optimizer.step() # 이 세 줄 : cost의 미분값에 따라서 optimizer를 조정, model의 파라미터를 조정

        print(f'Ep:{epoch} | Batch:{batch_idx}/{len(dataloader)} | Cost:{cost:.4f}')

Ep:0 | Batch:0/3 | Cost:62507.5078
Ep:0 | Batch:1/3 | Cost:7927.5356
Ep:0 | Batch:2/3 | Cost:5433.3091
Ep:1 | Batch:0/3 | Cost:1581.3650
Ep:1 | Batch:1/3 | Cost:309.8994
Ep:1 | Batch:2/3 | Cost:78.4623
Ep:2 | Batch:0/3 | Cost:39.9098
Ep:2 | Batch:1/3 | Cost:15.6967
Ep:2 | Batch:2/3 | Cost:11.1490
Ep:3 | Batch:0/3 | Cost:0.2213
Ep:3 | Batch:1/3 | Cost:1.1615
Ep:3 | Batch:2/3 | Cost:0.9442
Ep:4 | Batch:0/3 | Cost:0.3761
Ep:4 | Batch:1/3 | Cost:0.4949
Ep:4 | Batch:2/3 | Cost:0.5920
Ep:5 | Batch:0/3 | Cost:0.4587
Ep:5 | Batch:1/3 | Cost:0.2183
Ep:5 | Batch:2/3 | Cost:1.0209
Ep:6 | Batch:0/3 | Cost:0.4537
Ep:6 | Batch:1/3 | Cost:0.3739
Ep:6 | Batch:2/3 | Cost:1.2592
Ep:7 | Batch:0/3 | Cost:0.4383
Ep:7 | Batch:1/3 | Cost:0.6211
Ep:7 | Batch:2/3 | Cost:0.0153
Ep:8 | Batch:0/3 | Cost:0.5754
Ep:8 | Batch:1/3 | Cost:0.1123
Ep:8 | Batch:2/3 | Cost:0.9121
Ep:9 | Batch:0/3 | Cost:0.1677
Ep:9 | Batch:1/3 | Cost:0.5184
Ep:9 | Batch:2/3 | Cost:0.9228
Ep:10 | Batch:0/3 | Cost:0.5728
Ep:10 | Batch:1/3 |