# 3. Mini-batch & DataLoader

## 3-1. Mini-batch

> 데이터셋의 크기가 클 때, 모든 데이터를 한 epoch에 사용하는 것은 계산량이 많아 시간에 비효율적일 수 있다.  
따라서 한 epoch에 사용될 데이터셋의 양을 의미하는 배치 사이즈를 조정하여 경사 하강법을 적용하면  
파라미터가 최적값에 수렴하는 과정에서 값이 조금 해매기도 하지만 훈련 속도가 빠르다는 장점이 있다.

## 3-2. DataLoader

> Pytorch에는 데이터를 쉽게 다룰 수 있도록 Dataset과 DataLoader를 제공한다.  
이를 사용하면 mini-batch와 데이터 셔플, 병렬 처리까지 간단하게 수행할 수 있다.

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [2]:
from torch.utils.data import TensorDataset, DataLoader

In [3]:
# TensorDataset에 넣을 텐서 데이터셋을 준비하고,
x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  90], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

# dataset 변수에 저장한다.
dataset = TensorDataset(x_train, y_train)

In [4]:
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [5]:
model = nn.Linear(3, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

In [6]:
print(list(model.parameters()))
hasattr(model.parameters(), '__iter__')

[Parameter containing:
tensor([[ 0.5205,  0.3613, -0.4948]], requires_grad=True), Parameter containing:
tensor([-0.2580], requires_grad=True)]


True

In [7]:
epochs = 20
for epoch in range(epochs+1):
    for batch_idx, samples in enumerate(dataloader):
        x_train, y_train = samples
        
        prediction = model(x_train)
        loss = F.mse_loss(prediction, y_train)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        print(f'Epoch {epoch:4d}/{epochs} Batch {batch_idx+1}/{len(dataloader)} Loss: {loss.item():.6f}')

Epoch    0/20 Batch 1/3 Loss: 19478.240234
Epoch    0/20 Batch 2/3 Loss: 7023.405762
Epoch    0/20 Batch 3/3 Loss: 1139.117554
Epoch    1/20 Batch 1/3 Loss: 597.621887
Epoch    1/20 Batch 2/3 Loss: 282.262634
Epoch    1/20 Batch 3/3 Loss: 129.153992
Epoch    2/20 Batch 1/3 Loss: 17.224823
Epoch    2/20 Batch 2/3 Loss: 7.098171
Epoch    2/20 Batch 3/3 Loss: 0.324682
Epoch    3/20 Batch 1/3 Loss: 4.572136
Epoch    3/20 Batch 2/3 Loss: 1.105261
Epoch    3/20 Batch 3/3 Loss: 2.682446
Epoch    4/20 Batch 1/3 Loss: 2.677387
Epoch    4/20 Batch 2/3 Loss: 4.604275
Epoch    4/20 Batch 3/3 Loss: 0.004873
Epoch    5/20 Batch 1/3 Loss: 1.772445
Epoch    5/20 Batch 2/3 Loss: 2.818352
Epoch    5/20 Batch 3/3 Loss: 3.113338
Epoch    6/20 Batch 1/3 Loss: 1.860489
Epoch    6/20 Batch 2/3 Loss: 2.754703
Epoch    6/20 Batch 3/3 Loss: 3.011710
Epoch    7/20 Batch 1/3 Loss: 1.785374
Epoch    7/20 Batch 2/3 Loss: 3.096839
Epoch    7/20 Batch 3/3 Loss: 3.643802
Epoch    8/20 Batch 1/3 Loss: 1.218984
Epoch   

In [8]:
# 임의의 입력 [73, 80, 75]를 선언
new_var =  torch.FloatTensor([[73, 80, 75]]) 
# 입력한 값 [73, 80, 75]에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[153.2914]], grad_fn=<AddmmBackward0>)


## 3-3. Custom Dataset

> `torch.utils.data.Dataset`을 상속받아 커스텀 데이터셋을 만들 수 있다.

In [9]:
class CustomDataset(torch.utils.data.Dataset):
    def __init__(self):
        # 데이터셋 전처리
        self.x_data = [[73, 80, 75],
                       [93, 88, 93],
                       [89, 91, 90],
                       [96, 98, 100],
                       [73, 66, 70]]
        self.y_data = [[152], [185], [180], [196], [142]]
    
    def __len__(self):
        # 데이터셋의 길이
        return len(self.x_data)
    
    def __getitem__(self, idx):
        # 데이터셋에서 특정 샘플을 가져오는 함수
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])
        return x, y

In [10]:
dataset = CustomDataset()
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)