#미니 배치

배치 크기는 보통 2의 제곱수를 사용합니다. ex) 2, 4, 8, 16, 32, 64... 그 이유는 CPU와 GPU의 메모리가 2의 배수이므로 배치크기가 2의 제곱수일 경우에 데이터 송수신의 효율을 높일 수 있다고 합니다.

미니배치는 k개 데이터에 대해 훈련을 한 후, parameter를 update하는 것이다. iteration은 k개 데이터를 쓴 뒤에 1이 차감된다.

#미니 배치 학습을 도와주는 파이토치 도구


#데이터 로드하기

파이토치는 데이터를 쉽게 다룰 수 있도록 데이터셋과 데이터로더를 제공한다. 이를 통해 데이터 셔플, 병렬 처리 등을 할 수 있다.

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [2]:
from torch.utils.data import TensorDataset # 텐서데이터셋
from torch.utils.data import DataLoader # 데이터로더


In [3]:
x_train  =  torch.FloatTensor([[73,  80,  75],
                               [93,  88,  93],
                               [89,  91,  90],
                               [96,  98,  100],
                               [73,  66,  70]])
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

In [4]:
dataset = TensorDataset(x_train, y_train)

Dataset을 만들어야지 데이터로더를 사용할 수 있다. 데이터 로더는 2개의 인자를 필수로 입력받는다. 첫 번째로 dataset, 두 번째로 mini batch의 크기를 입력받는다. 추가로, shuffle 인자를 통해 데이터셋을 섞어서 학습할 것인지를 정할 수 있다.

학습할 때마다 dataset의 순서를 동일하게 한다면 overfitting이 발생할 수 있다.

In [5]:
dataLoader = DataLoader(dataset, batch_size=2, shuffle=True)

In [6]:
#모델과 optimizer 정의
model = nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)


In [7]:
nb_epochs = 20
for epoch in range(nb_epochs + 1):
  for batch_idx, samples in enumerate(dataLoader):
    print("batch_idx: ", batch_idx)
    print("samples: ", samples)
    x_train, y_train = samples
    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train)

    # cost로 H(x) 계산
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataLoader),
        cost.item()
        ))

batch_idx:  0
samples:  [tensor([[73., 66., 70.],
        [93., 88., 93.]]), tensor([[142.],
        [185.]])]
Epoch    0/20 Batch 1/3 Cost: 21118.486328
batch_idx:  1
samples:  [tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch    0/20 Batch 2/3 Cost: 7379.447266
batch_idx:  2
samples:  [tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch    0/20 Batch 3/3 Cost: 3647.044189
batch_idx:  0
samples:  [tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch    1/20 Batch 1/3 Cost: 613.396484
batch_idx:  1
samples:  [tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch    1/20 Batch 2/3 Cost: 100.293884
batch_idx:  2
samples:  [tensor([[ 96.,  98., 100.]]), tensor([[196.]])]
Epoch    1/20 Batch 3/3 Cost: 67.777542
batch_idx:  0
samples:  [tensor([[73., 66., 70.],
        [73., 80., 75.]]), tensor([[142.],
        [152.]])]
Epoch    2/20 Batch 1/3 Cost: 14.930281
batch_idx: