In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

# Custom Dataset

- PyTorch에서 torch.utils.data.Dataset과 torch.utils.data.DataLoader를 제공받아 여러 학습을 간단히 수행할 수 있다.
- torch.utils.data.Dataset : PyTorch에서 데이터셋을 제공하는 추상클래스이며 상속받아 직접 **커스텀 데이터셋(Custom Dataset)을 만들 수도 있다.**

## 커스텀 데이터셋 만들기

```py
# 기본적인 뼈대
class CustomDataset(torch.utils.data.Dataset)
    def __init__(self):
        # 데이터셋 전처리 부분
    def __len__(self):
        # 데이터셋의 길이. 즉, 총 샘플의 수를 적어부는 부분
    def __getitem__(self, idx):
        # 데이터셋에서 특정 1개 샘플을 가져오는 함수
```
- len(dataset)을 했을 때 데이터셋의 크기를 리턴할 **len**
- dataset[i]을 했을 때 i번째 샘플을 가져오도록 하는 인덱싱을 위한 **get_item**

# Custom Dataset으로 선형 회귀 구현

In [2]:
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

In [3]:
# Dataset 상속
class CustomDataset(Dataset):
    def __init__(self):
        self.x_data = [[73, 80, 75],
                        [93, 88, 93],
                        [89, 91, 90],
                        [96, 98, 100],
                        [73, 66, 70]]
        self.y_data = [[152], [185], [180], [196], [142]]
    # 총 데이터 개수 리턴
    def __len__(self):
        return len(self.x_data)
    # 인덱스를 입력받아 그에 맵핑되는 입출력 데이터를 파이토치의 Tensor 형태로 리턴
    def __getitem__(self, index):
        x = torch.FloatTensor(self.x_data[index])
        y = torch.FloatTensor(self.y_data[index])
        return x, y

In [4]:
dataset = CustomDataset()
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [5]:
model = torch.nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

In [7]:
nb_epochs = 20
for epoch in range(nb_epochs+1):
    for batch_idx, samples in enumerate(dataloader):
        x_train, y_train = samples
        # H(x)
        prediction = model(x_train)

        # cost
        cost = F.mse_loss(prediction, y_train)

        # cost -> H(x)
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()

        print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()))

Epoch    0/20 Batch 1/3 Cost: 6878.889648
Epoch    0/20 Batch 2/3 Cost: 3239.421387
Epoch    0/20 Batch 3/3 Cost: 482.584747
Epoch    1/20 Batch 1/3 Cost: 213.048981
Epoch    1/20 Batch 2/3 Cost: 119.504105
Epoch    1/20 Batch 3/3 Cost: 12.366916
Epoch    2/20 Batch 1/3 Cost: 2.105424
Epoch    2/20 Batch 2/3 Cost: 20.526842
Epoch    2/20 Batch 3/3 Cost: 0.703186
Epoch    3/20 Batch 1/3 Cost: 6.238947
Epoch    3/20 Batch 2/3 Cost: 2.991834
Epoch    3/20 Batch 3/3 Cost: 2.489804
Epoch    4/20 Batch 1/3 Cost: 0.338442
Epoch    4/20 Batch 2/3 Cost: 6.678338
Epoch    4/20 Batch 3/3 Cost: 5.662317
Epoch    5/20 Batch 1/3 Cost: 4.786727
Epoch    5/20 Batch 2/3 Cost: 3.055572
Epoch    5/20 Batch 3/3 Cost: 2.959979
Epoch    6/20 Batch 1/3 Cost: 3.028355
Epoch    6/20 Batch 2/3 Cost: 5.274428
Epoch    6/20 Batch 3/3 Cost: 1.992674
Epoch    7/20 Batch 1/3 Cost: 8.118447
Epoch    7/20 Batch 2/3 Cost: 4.227414
Epoch    7/20 Batch 3/3 Cost: 1.174460
Epoch    8/20 Batch 1/3 Cost: 6.304877
Epoch    8/