# Custom Dataset


그런데 torch.utils.data.Dataset을 상속받아 직접 커스텀 데이터셋(Custom Dataset)을 만드는 경우도 있습니다.    torch.utils.data.Dataset은 파이토치에서 데이터셋을 제공하는 추상 클래스입니다.  
Dataset을 상속받아 다음 메소드들을 오버라이드 하여 커스텀 데이터셋을 만들어보겠습니다. 

--------------------
커스텀 데이터셋을 만들 때, 일단 가장 기본적인 뼈대는 아래와 같습니다. 여기서 필요한 기본적인 define은 3개입니다.

```python
class CustomDataset(torch.utils.data.Dataset):
    def __init__(self):
        #데이터셋의 전처리를 해주는 부분

    def __len__(self):
        #데이터셋의 길이. 즉, 총 샘플의 수를 적어주는 부분

    def __getitem__(self, idx):
        #데이터셋에서 특정 1개의 샘플을 가져오는 함수

```

`len(dataset)`을 했을 때 데이터셋의 크기를 리턴할 len  

`dataset[i]`을 했을 때 i번째 샘플을 가져오도록 하는 인덱싱을 위한 get_item

# Linear Regression(custom_dataset)

In [0]:
import torch
import torch.nn as nn
import torch.nn.functional as F

from torch.utils.data import Dataset
from torch.utils.data import DataLoader



In [0]:
class CustomDataset(Dataset):
    def __init__(self):

        self.x_data = [[73, 80, 75],
                   [93, 88, 93],
                   [89, 91, 90],
                   [96, 98, 100],
                   [73, 66, 70]]
        self.y_data = [[152], [185], [180], [196], [142]]

    #총 데이터의 개수 리턴

    def __len__(self):

        return len(self.x_data)

    # 인덱스를 입력받아 그에 맵핑되는 입출력 데이터를 파이토치의 Tensor 형태로 리턴
    def __getitem__(self, idx):
        x= torch.FloatTensor(self.x_data[idx])
        y= torch.FloatTensor(self.y_data[idx])

        return x, y

In [0]:
dataset = CustomDataset()
dataloader = DataLoader(dataset, batch_size = 2, shuffle = True)

In [0]:
model = torch.nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr = 1e-5)

In [24]:
nb_epochs = 20

for epoch in range(nb_epochs+1):
    for batch_idx, samples in enumerate(dataloader):

        x_train, y_train = samples
        
        prediction = model(x_train)

        cost = F.mse_loss(prediction, y_train)

        optimizer.zero_grad()
        cost.backward()
        optimizer.step()


        print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()
        ))

Epoch    0/20 Batch 1/3 Cost: 51632.304688
Epoch    0/20 Batch 2/3 Cost: 9234.525391
Epoch    0/20 Batch 3/3 Cost: 2142.804443
Epoch    1/20 Batch 1/3 Cost: 1532.116333
Epoch    1/20 Batch 2/3 Cost: 500.084900
Epoch    1/20 Batch 3/3 Cost: 160.805038
Epoch    2/20 Batch 1/3 Cost: 50.968513
Epoch    2/20 Batch 2/3 Cost: 14.024593
Epoch    2/20 Batch 3/3 Cost: 2.508523
Epoch    3/20 Batch 1/3 Cost: 0.895715
Epoch    3/20 Batch 2/3 Cost: 1.595286
Epoch    3/20 Batch 3/3 Cost: 1.360731
Epoch    4/20 Batch 1/3 Cost: 0.196957
Epoch    4/20 Batch 2/3 Cost: 0.538352
Epoch    4/20 Batch 3/3 Cost: 0.823863
Epoch    5/20 Batch 1/3 Cost: 0.711041
Epoch    5/20 Batch 2/3 Cost: 0.268103
Epoch    5/20 Batch 3/3 Cost: 0.419364
Epoch    6/20 Batch 1/3 Cost: 0.501468
Epoch    6/20 Batch 2/3 Cost: 0.431142
Epoch    6/20 Batch 3/3 Cost: 0.068601
Epoch    7/20 Batch 1/3 Cost: 0.386956
Epoch    7/20 Batch 2/3 Cost: 0.872392
Epoch    7/20 Batch 3/3 Cost: 0.008539
Epoch    8/20 Batch 1/3 Cost: 0.124964
Epoch 

In [25]:
# 임의의 입력 [73, 80, 75]를 선언
new_var =  torch.FloatTensor([[73, 80, 75]]) 
# 입력한 값 [73, 80, 75]에 대해서 예측값 y를 리턴받아서 pred_y에 저장
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[151.9664]], grad_fn=<AddmmBackward>)
