# 모두를 위한 딥러닝 시즌2 - PyTorch
* Lab04-2 Loading Data
* https://www.youtube.com/watch?v=1JT8KhvymmY&list=PLQ28Nx3M4JrhkqBVIXg-i5_CVVoS1UzAv&index=6
----------
----------

## 1. Multivariate Linear Regression 복습

<br>

----------
-----------

## 2. "Minibatch" Gradient Descent 이론
* 엄청난 데이터를 한번에 학습시킬 수 없다!
* 일부 데이터로 학습하면 어떨까?
* 미니배치
    * 업데이트 속도 빠름
    * 전체 데이터를 쓰지 않아서 잘못된 방향으로 업데이트 할 수도 있다.
    
<br>

* PyTorch Dataset
    * `__len__()`: 이 데이터셋의 총 데이터 수
    * `__getitem__()`: 어떠한 인덱스를 받았을 때 그에 상응하는 입출력 데이터 반환

In [1]:
from torch.utils.data import Dataset

class CustomDastaset(Dataset):
    def __init__(self):
        self.x_data = [[73, 80, 75],
                       [93, 88, 93],
                       [89, 91, 90],
                       [96, 98, 100],
                       [73, 66, 70]]
        self.y_data = [[152], [185], [180], [196], [142]]
        
    def __len__(self):
        return len(self.x_data)
    
    def __getitem__(self, idx):
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])
        
        return x, y

In [2]:
dataset = CustomDastaset()

* PyTorch DataLoader
    * `batch_size`: 미니배치 크기
    * `shuffle = True`: Epoch마다 데이터 셋을 섞어서 학습되는 순서 변경

In [8]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [9]:
from torch.utils.data import DataLoader

dataloader = DataLoader(
    dataset,
    batch_size = 2,
    shuffle = True,
)

In [10]:
class MultivariateLinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 1)

    def forward(self, x):
        return self.linear(x)

In [11]:
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

# 모델 초기화
model = MultivariateLinearRegressionModel()

# optimizer 설정
optimizer = optim.SGD(model.parameters(), lr=1e-5)

nb_epochs = 20
for epoch in range(nb_epochs + 1):
    for batch_idx, samples in enumerate(dataloader):
        x_train, y_train = samples
        
        # H(x) 계산
        prediction = model(x_train)

        # cost 계산
        cost = F.mse_loss(prediction, y_train)

        # cost로 H(x) 개선
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()

        # 20번마다 로그 출력
        print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
            epoch, nb_epochs, batch_idx +1, len(dataloader), cost.item()
        ))

Epoch    0/20 Batch 1/3 Cost: 40271.593750
Epoch    0/20 Batch 2/3 Cost: 7309.729492
Epoch    0/20 Batch 3/3 Cost: 1755.592896
Epoch    1/20 Batch 1/3 Cost: 1373.010498
Epoch    1/20 Batch 2/3 Cost: 238.470367
Epoch    1/20 Batch 3/3 Cost: 143.546982
Epoch    2/20 Batch 1/3 Cost: 32.933914
Epoch    2/20 Batch 2/3 Cost: 11.575611
Epoch    2/20 Batch 3/3 Cost: 0.013923
Epoch    3/20 Batch 1/3 Cost: 4.509137
Epoch    3/20 Batch 2/3 Cost: 2.112151
Epoch    3/20 Batch 3/3 Cost: 2.266096
Epoch    4/20 Batch 1/3 Cost: 3.396299
Epoch    4/20 Batch 2/3 Cost: 1.050631
Epoch    4/20 Batch 3/3 Cost: 2.116320
Epoch    5/20 Batch 1/3 Cost: 1.859571
Epoch    5/20 Batch 2/3 Cost: 1.464074
Epoch    5/20 Batch 3/3 Cost: 0.063143
Epoch    6/20 Batch 1/3 Cost: 1.893898
Epoch    6/20 Batch 2/3 Cost: 1.948139
Epoch    6/20 Batch 3/3 Cost: 0.716841
Epoch    7/20 Batch 1/3 Cost: 2.410375
Epoch    7/20 Batch 2/3 Cost: 0.578729
Epoch    7/20 Batch 3/3 Cost: 2.172853
Epoch    8/20 Batch 1/3 Cost: 2.838444
Epoch 

<br>

----------
-----------

## 3. PyTorch Dataset and DataLoader 사용법