## 데이터를 로드하는 방법과 미니 배치 경사하강법(Minibatch Gradient Descent)에 대해서 학습한다.

### 1. 미니 배치와 배치 크기

In [2]:
import torch

In [3]:
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])


위와 같은 데이터는 모델 학습에는 아쉬운 양이다.   
데이터가 수십만개는 필요하다. 그렇다면 빠르게 많은 계산량을 필요로 한다.  
그렇기 때문에 전체 데이터를 더 작은 단위로 나누어서 학습하는 개념이 필요하다.  
이 단위를 미니 배치(Mini Batch)라고 한다.

에포크는 전체 훈련 데이터가 학습에 한 번 사용된 주기를 말한다.  
위의 경우, 미니 배치의 개수만큼 경사 하강법을 수행해야 1 에포크가 된다.  
미니 배치의 크기에 따라 미니 배치의 갯수도 달라지겠다.  
미니 배치의 크기를, batch size라고 한다.

전체 데이터에 대해서 한 번에 경사 하강법을 수행하는 방법을 '배치 경사하강법',    
미니 배치 단위로 경사 하강법을 수행하는 방법을 '미니 배치 경사 하강법'이라고 부른다.

배치 경사하강법은, 전체 데이터를 사용하므로 가중치값이 최적값에 수렴하는 과정이 매우 안정적이나, 계산량이 너무나 많다.  
미니 배치 경사하강법은 전체 데이터의 일부만을 보고 수행하므로, 최적값에 수렴하는 과정이 불안할 수는 있으나, 속도가 빠르다.  

배치 크기는 보통 2의 제곱수를 사용한다.  
CPU와 GPU의 메모리가 2의 배수이므로 배치크기가 2의 제곱수일 때 데이터 송수신의 효율을 높일 수 있기 때문이다.

### 2. 이터레이션(Iteration)

이터레이션이란, 가중치 W와 편향 b가 업데이트되는 횟수를 말한다.   
Total data가 2000, Batch size가 200이라고 해보자.  
미니 배치 경사하강법에서, 미니 배치의 총 갯수는 10개가 될 것이고,  
이터레이션 또한 10이 될 것이다.


### 3. 데이터 로드하기(Data Load)

파이토치는 데이터를 더 쉽게 다룰 수 있도록 데이터셋(Dataset), 데이터로더(DataLoader)를 제공한다.   
이를 사용하면 미니 배치학습, 데이터 셔플(shuffle), 병렬 처리까지 간단히 수행할 수 있다.  
기본적인 사용방법은 Dataset을 정의하고, 이를 DataLoader에 전달하는 것이다.

Dataset을 커스텀할 수 있으나, 여기서는 TensorDataset을 사용해본다.

In [4]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [5]:
from torch.utils.data import TensorDataset
from torch.utils.data import DataLoader

In [6]:
x_train  =  torch.FloatTensor([[73,  80,  75], 
                               [93,  88,  93], 
                               [89,  91,  90], 
                               [96,  98,  100],   
                               [73,  66,  70]])  
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

In [7]:
dataset = TensorDataset(x_train,y_train)

데이터로더의 인자는 기본적으로 2개이다.  
하나는 데이터셋, 다른 하나는 미니배치의 크기이다.  
상술한 바, 미니배치 크기는 2의 배수를 보통 사용한다.

추가적으로 shuffle 인자도 넣는다.  
shuffle = True면, Epoch마다 데이터셋을 섞어서 데이터가 학습되는 순서를 바꾼다.  
모델이 문제 순서 자체에 익숙해지는 것을 방지할 수 있다.

In [8]:
dateloader = DataLoader(dataset, batch_size=2, shuffle=True)

이제 모델과 옵티마이저를 설계한다.

In [10]:
model = nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(),lr=1e-5)