dataset의 모든 데이터를 이용하는것은 현실적으로 불가능하다.

* Minibatch Gradient Descent

 dataset을 여러개의 minibatch로 쪼개어 학습하는 방식
 업데이트의 주기는 빠르지만 전체 data가 아니므로 model이 잘못된 방향으로 학습될 우려가 있음

In [13]:
"""
pytorch dataset은 pytorch에서 제공하는 module로 이를 이용해 새로운 class를 만들어
새로운 dataset 생성 가능.
"""

import torch
import torch.nn as nn
import torch.nn.functional as F

from torch.utils.data import Dataset

class CustomDataset(Dataset):
    def __init__(self):
        self.x_data = ([[73, 80, 75],
                        [93, 88, 93],
                        [89, 91, 90],
                        [96, 98, 100],
                        [73, 66, 70]])
        self.y_data = ([[152], [185], [180], [196], [142]])
    
    # 이 dataset의 총 data 수
    def __len__(self):
        return len(self.x_data)
    
    # 어떠한 index idx를 받았을 때, 그에 상응하는 입출력 data 반환
    def __getitem__(self, idx):
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])
        
        return x, y

class MultivariateLinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 1)
        
    def forward(self, x):
        return self.linear(x)


model = MultivariateLinearRegressionModel()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)    
    
dataset = CustomDataset()



from torch.utils.data import DataLoader

#batch_size -> 각 minibatch의 크기. 통상적으로 2의 제곱수를 선정
#shuffle -> Epoch마다 dataset을 섞어서 data가 학습되는 순서를 바꾼다
dataloader = DataLoader(
    dataset,
    batch_size=2,
    shuffle=True,
)


nb_epochs = 100
for epoch in range(nb_epochs + 1):
    #enumerate(dataloader) -> minibatch index와 data를 get
    for batch_idx, samples in enumerate(dataloader):
        x_train, y_train = samples
        # H(x) 계산
        prediction = model(x_train)
        
        # cost 계산
        cost = F.mse_loss(prediction, y_train)
        
        # cost로 H(x) 개선
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()
        
        # len(dataloader) 한 epoch당 minibatch의 갯수
        print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
            epoch, nb_epochs, batch_idx+1, len(dataloader), cost.item()
        ))

Epoch    0/100 Batch 1/3 Cost: 40347.250000
Epoch    0/100 Batch 2/3 Cost: 11923.226562
Epoch    0/100 Batch 3/3 Cost: 5438.209473
Epoch    1/100 Batch 1/3 Cost: 946.091675
Epoch    1/100 Batch 2/3 Cost: 521.021667
Epoch    1/100 Batch 3/3 Cost: 35.041321
Epoch    2/100 Batch 1/3 Cost: 51.326241
Epoch    2/100 Batch 2/3 Cost: 16.774363
Epoch    2/100 Batch 3/3 Cost: 0.288585
Epoch    3/100 Batch 1/3 Cost: 8.112513
Epoch    3/100 Batch 2/3 Cost: 3.876615
Epoch    3/100 Batch 3/3 Cost: 1.311349
Epoch    4/100 Batch 1/3 Cost: 3.626662
Epoch    4/100 Batch 2/3 Cost: 3.984306
Epoch    4/100 Batch 3/3 Cost: 2.010333
Epoch    5/100 Batch 1/3 Cost: 4.065892
Epoch    5/100 Batch 2/3 Cost: 3.615770
Epoch    5/100 Batch 3/3 Cost: 0.087096
Epoch    6/100 Batch 1/3 Cost: 0.697109
Epoch    6/100 Batch 2/3 Cost: 4.386429
Epoch    6/100 Batch 3/3 Cost: 4.667066
Epoch    7/100 Batch 1/3 Cost: 2.585189
Epoch    7/100 Batch 2/3 Cost: 4.670607
Epoch    7/100 Batch 3/3 Cost: 6.462035
Epoch    8/100 Batch 1