##  미니 배치와 배치 크기(Mini Batch and Batch Size)

![image.png](attachment:eccdc532-9d8f-4d24-a8f4-6831289fd25f.png)
- 데이터가 수십만개 이상이라면 전체 데이터에 대해서 경사 하강법을 수행하는 것은 매우 느릴 뿐만 아니라 많은 계산량이 필요함
- 전체 데이터를 더 작은 단위로 나누어서 해당 단위로 학습하는 개념이 미니 배치
- 에포크(Epoch)는 전체 훈련 데이터가 학습에 한 번 사용된 주기
- 전체 데이터에 대한 학습이 1회 끝나면 1 에포크(Epoch)가 끝남
- 배치 크기는 보통 2의 제곱수를 사용. ex) 2, 4, 8, 16, 32, 64... 그 이유는 CPU와 GPU의 메모리가 2의 배수이므로 배치크기가 2의 제곱수일 경우에 데이터 송수신의 효율을 높일 수 있다고 함
- 미니 배치의 크기 = 배치 크기

## 이터레이션(Iteration)

![image.png](attachment:a40201d5-c3eb-4bac-90f9-6990d9736fa6.png)

-  전체 데이터가 2,000일 때 배치 크기를 200으로 한다면 이터레이션의 수는 총 10. 
- 이는 한 번의 에포크 당 매개변수 업데이트가 10번 이루어짐을 의미

## 데이터 로드

- 파이 토치에서는 데이터를 다루는 유용한 도구로서 데이터셋(Dataset)과 데이터로더(DataLoader)를 제공 
- 미니 배치 학습, 데이터 셔플(shuffle), 병렬 처리까지 간단히 수행

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [3]:
from torch.utils.data import TensorDataset # 텐서 데이터셋
from torch.utils.data import DataLoader # 데이터로더

In [4]:
x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  90], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

In [5]:
dataset = TensorDataset(x_train, y_train)

-  데이터로더는 기본적으로 2개의 인자를 입력받음(데이터셋, 미니 배치의 크기)
- shuffle=True를 선택하면 Epoch마다 데이터셋을 섞어서 데이터가 학습되는 순서를 바꿈 

In [7]:
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [8]:
class MultivariateLinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 1)
        
    
    def forward(self, x):
        return self.linear(x)

In [9]:
model = MultivariateLinearRegressionModel()

In [10]:
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 

In [12]:
nb_epochs = 20

for epoch in range(nb_epochs + 1):
    for batch_idx, samples in enumerate(dataloader):
        x_train, y_train = samples 
        
        prediction = model(x_train)
        
        # cost 계산
        cost = F.mse_loss(prediction, y_train)
        
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()
        
        print("Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}".format(
        epoch, nb_epochs, batch_idx+1, len(dataloader), cost.item()))

Epoch    0/20 Batch 1/3 Cost: 5171.215820
Epoch    0/20 Batch 2/3 Cost: 743.759460
Epoch    0/20 Batch 3/3 Cost: 542.747925
Epoch    1/20 Batch 1/3 Cost: 109.691994
Epoch    1/20 Batch 2/3 Cost: 30.354252
Epoch    1/20 Batch 3/3 Cost: 9.842355
Epoch    2/20 Batch 1/3 Cost: 4.535437
Epoch    2/20 Batch 2/3 Cost: 0.470924
Epoch    2/20 Batch 3/3 Cost: 2.645189
Epoch    3/20 Batch 1/3 Cost: 0.902882
Epoch    3/20 Batch 2/3 Cost: 0.339268
Epoch    3/20 Batch 3/3 Cost: 0.703417
Epoch    4/20 Batch 1/3 Cost: 0.938994
Epoch    4/20 Batch 2/3 Cost: 0.420945
Epoch    4/20 Batch 3/3 Cost: 0.628533
Epoch    5/20 Batch 1/3 Cost: 0.140492
Epoch    5/20 Batch 2/3 Cost: 0.651555
Epoch    5/20 Batch 3/3 Cost: 1.442631
Epoch    6/20 Batch 1/3 Cost: 0.718422
Epoch    6/20 Batch 2/3 Cost: 0.493789
Epoch    6/20 Batch 3/3 Cost: 0.933575
Epoch    7/20 Batch 1/3 Cost: 1.145410
Epoch    7/20 Batch 2/3 Cost: 0.456834
Epoch    7/20 Batch 3/3 Cost: 0.682157
Epoch    8/20 Batch 1/3 Cost: 0.142326
Epoch    8/20 B

In [13]:
# 임의의 입력 [73, 80, 75]를 선언
new_var =  torch.FloatTensor([[73, 80, 75]]) 
# 입력한 값 [73, 80, 75]에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[151.5756]], grad_fn=<AddmmBackward0>)


## 커스텀 데이터셋(Custom Dataset)

- Dataset을 상속받아 다음 메소드들을 오버라이드 하여 커스텀 데이터셋을 만들 수 있음 

```python
class CustomDataset(torch.utils.data.Dataset): 
  def __init__(self):
    #  데이터셋의 전처리를 해주는 부분

  def __len__(self):
     # 데이터셋의 길이. 즉, 총 샘플의 수를 적어주는 부분

  def __getitem__(self, idx): 
     # 데이터셋에서 특정 1개의 샘플을 가져오는 함수


````

- len(dataset)을 했을 때 데이터셋의 크기를 리턴할 len
- dataset[i]을 했을 때 i번째 샘플을 가져오도록 하는 인덱싱을 위한 get_item

#### 커스텀 데이터셋으로 선형 회귀 구현하기

In [14]:
import torch
import torch.nn.functional as F
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

In [18]:
class CustomDataset(Dataset):
    def __init__(self, x_data, y_data):
        self.x_data = x_data
        self.y_data = y_data
    
    def __len__(self):
        return len(self.x_data)
    
    # 인덱스를 입력받아 그에 맵핑되는 입출력 데이터를 파이토치의 Tensor 형태로 리턴
    def __getitem__(self, idx):
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])
            
        return x, y

In [19]:
x_data = [[73, 80, 75],
[93, 88, 93],
[89, 91, 90],
[96, 98, 100],
[73, 66, 70]]

y_data = [[152], [185], [180], [196], [142]]



In [20]:
dataset = CustomDataset(x_data, y_data)

In [21]:
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [23]:
model = MultivariateLinearRegressionModel()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5) 

In [24]:
nb_epochs = 20
for epoch in range(nb_epochs + 1):
  for batch_idx, samples in enumerate(dataloader):
    # print(batch_idx)
    # print(samples)
    x_train, y_train = samples
    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train)

    # cost로 H(x) 계산
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()
        ))

Epoch    0/20 Batch 1/3 Cost: 27423.554688
Epoch    0/20 Batch 2/3 Cost: 11941.650391
Epoch    0/20 Batch 3/3 Cost: 3492.040527
Epoch    1/20 Batch 1/3 Cost: 750.355408
Epoch    1/20 Batch 2/3 Cost: 366.711151
Epoch    1/20 Batch 3/3 Cost: 86.348778
Epoch    2/20 Batch 1/3 Cost: 16.023958
Epoch    2/20 Batch 2/3 Cost: 15.877507
Epoch    2/20 Batch 3/3 Cost: 5.590003
Epoch    3/20 Batch 1/3 Cost: 0.121120
Epoch    3/20 Batch 2/3 Cost: 1.500422
Epoch    3/20 Batch 3/3 Cost: 1.330535
Epoch    4/20 Batch 1/3 Cost: 0.362395
Epoch    4/20 Batch 2/3 Cost: 0.455309
Epoch    4/20 Batch 3/3 Cost: 1.499743
Epoch    5/20 Batch 1/3 Cost: 0.863336
Epoch    5/20 Batch 2/3 Cost: 0.490434
Epoch    5/20 Batch 3/3 Cost: 0.620719
Epoch    6/20 Batch 1/3 Cost: 0.762276
Epoch    6/20 Batch 2/3 Cost: 0.584188
Epoch    6/20 Batch 3/3 Cost: 0.525391
Epoch    7/20 Batch 1/3 Cost: 1.134551
Epoch    7/20 Batch 2/3 Cost: 0.281565
Epoch    7/20 Batch 3/3 Cost: 0.022686
Epoch    8/20 Batch 1/3 Cost: 0.684519
Epoch  