## 2.6 미니 배치와 데이터 로드(Mini Batch and Data Load)

### 2.6.1 미니 배치와 배치 크기(Mini Batch and Batch Size)

우리가 사용한 데이터의 샘플 개수는 5개이지만 실제 데이터는 매우 방대하다. 그렇기에 전체 데이터에 대해서 경사 하강법을 수행하는 것은 매우 느리고 심지어 메모리의 한계로 계산이 불가할 수도 있다. 그렇기에 전체 데이터를 더 작은 단위로 나누어 해당 단위로 학습하는 개념이 나오고 그 단위를 미니 배치(Mini Batch)라고 한다.

![미니배치](../image/미니배치.png)

미니 배치 학습을 하면 미니 배치만큼만 가져가서 미니 배치에 대한 비용(cost)를 계산하고 경사 하강법을 수행한다. 그리고 다음 미니 배치를 가져가서 경사 하강법을 수행하고 마지막 미니 배치까지 반복한다. 이렇게 전체 데이터에 대한 학습이 1회 끝나면 1 Epoch가 끝나게 된다. 미니 배치 개수는 미니 배치의 크기를 몇으로 하느냐에 따라 결정되는데 이때 미니 배치의 크기를 배치 크기(Batch size)라고 한다.  
  



  

> CPU와 GPU의 메모리가 2의 배수이므로 배치 크기가 2의 제곱수일 경우에 데이터 송수신 효율을 높일 수 있다. 그렇기에  배치 크기는 보통 2의 제곱수를 사용한다.

- 배치 경사 하강법
1. 전체 데이터에 대해 한 번에 경사 하강법을 수행하는 방법
1. 전체 데이터를 사용하므로 가중치 값이 최적값으로 수렴한다.
1. 계산량이 너무 크다.

- 미니 배치 경사 하강법
1. 미니 배치 단위로 경사 하강법을 수행하는 방법
1. 전체 데이터의 일부만을 보고 수행하므로 구해지는 값이 최적값과 조금 차이가 있다.
1. 훈련 속도가 빠르다.

### 2.6.2 이터레이션(Iteration)

![이터레이션](../image/이터레이션.png)  
위의 그림은 epoch와 배치 크기, 이터레이션의 관계를 보여준다.

이터레이션은 한 번의 에포크 내에서 이루어지는 매개변수인 W와 b의 업데이트 횟수다. 전체 데이터가 2000개일 때 배치 크기를 200으로 한다면 이터레이션의 수는 총 10개이다. 이는 한 epoch 당 10번의 업데이트가 있음을 의미한다.

### 2.6.3 데이터 로드하기(Data Load)

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [2]:
from torch.utils.data import TensorDataset
from torch.utils.data import DataLoader

In [3]:
x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  90], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

dataset = TensorDataset(x_train, y_train) # 데이터셋 생성

# 미니 배치의 크기는 통상적으로 2의 배수를 사용
# shuffle은 epoch마다 데이터셋을 섞어 모델이 데이터셋 순서에 익숙해지는 것을 방지한다.
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [6]:
model = nn.Linear(3, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

nb_epochs = 2000
for epoch in range(nb_epochs + 1):
    for batch_idx, samples in enumerate(dataloader):
        x_train, y_train = samples
        
        prediction = model(x_train)
        cost = F.mse_loss(prediction, y_train)
        
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()
        
        if epoch % 100 == 0:
            print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
            epoch, nb_epochs, batch_idx+1, len(dataloader),
            cost.item()
            ))

Epoch    0/2000 Batch 1/3 Cost: 16474.558594
Epoch    0/2000 Batch 2/3 Cost: 6701.916992
Epoch    0/2000 Batch 3/3 Cost: 749.676392
Epoch  100/2000 Batch 1/3 Cost: 0.936019
Epoch  100/2000 Batch 2/3 Cost: 8.401047
Epoch  100/2000 Batch 3/3 Cost: 2.017132
Epoch  200/2000 Batch 1/3 Cost: 2.985704
Epoch  200/2000 Batch 2/3 Cost: 6.101801
Epoch  200/2000 Batch 3/3 Cost: 0.973596
Epoch  300/2000 Batch 1/3 Cost: 5.860054
Epoch  300/2000 Batch 2/3 Cost: 2.351194
Epoch  300/2000 Batch 3/3 Cost: 0.309305
Epoch  400/2000 Batch 1/3 Cost: 0.490613
Epoch  400/2000 Batch 2/3 Cost: 0.101310
Epoch  400/2000 Batch 3/3 Cost: 11.629374
Epoch  500/2000 Batch 1/3 Cost: 0.376386
Epoch  500/2000 Batch 2/3 Cost: 0.209860
Epoch  500/2000 Batch 3/3 Cost: 10.003665
Epoch  600/2000 Batch 1/3 Cost: 0.124687
Epoch  600/2000 Batch 2/3 Cost: 3.710432
Epoch  600/2000 Batch 3/3 Cost: 1.646493
Epoch  700/2000 Batch 1/3 Cost: 3.708957
Epoch  700/2000 Batch 2/3 Cost: 0.101562
Epoch  700/2000 Batch 3/3 Cost: 0.755803
Epoch

In [7]:
new_val = torch.FloatTensor([[73, 80, 75]])
pred_y = model(new_val)
print("훈련 후 입력이 73, 80, 75일 때, 예측값 :", pred_y)

훈련 후 입력이 73, 80, 75일 때, 예측값 : tensor([[150.9443]], grad_fn=<AddmmBackward0>)
