## 2.7 커스텀 데이터셋(Custom Dataset)

특정 상황에선 torch.utils.data.Dataset(파이토치에서 데이터셋을 제공해주는 추상 클래스)을 상속받아 직접 커스텀 데이터셋을 만드는 경우도 생긴다. 밑에 있는 클래스는 Dataset을 상속받아 다음 메소드들을 오버라이드 하여 만든 커스텀 데이터셋이다.

In [1]:
import torch
import torch.nn.functional as F

from torch.utils.data import Dataset
from torch.utils.data import DataLoader

# Dataset 상속
class CustomDataset(Dataset):
    def __init__(self): # 데이터셋의 전처리를 해주는 부분
        self.x_data = [[73, 80, 75],
                       [93, 88, 93],
                       [89, 91, 90],
                       [96, 98, 100],
                       [73, 66, 70]]
        self.y_data = [[152], [185], [180], [196], [142]]
    
    def __len__(self): # 데이터셋의 길이(총 샘플의 수)를 리턴하는 함수
        return len(self.x_data)
        
    def __getitem__(self, idx): # 데이터셋에서 특정 1개의 샘플을 파이토치의 텐서 형태로 리턴하는 함수
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])
        return x, y

In [2]:
dataset = CustomDataset()
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

model = torch.nn.Linear(3, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

nb_epochs = 20
for epoch in range(nb_epochs + 1):
    for batch_idx, samples in enumerate(dataloader):
        x_train, y_train = samples
        prediction = model(x_train)
        cost = F.mse_loss(prediction, y_train)
        
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()
        
        print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()
        ))

Epoch    0/20 Batch 1/3 Cost: 18532.751953
Epoch    0/20 Batch 2/3 Cost: 4823.247070
Epoch    0/20 Batch 3/3 Cost: 2005.841431
Epoch    1/20 Batch 1/3 Cost: 505.971497
Epoch    1/20 Batch 2/3 Cost: 150.574097
Epoch    1/20 Batch 3/3 Cost: 58.680798
Epoch    2/20 Batch 1/3 Cost: 15.832735
Epoch    2/20 Batch 2/3 Cost: 3.246438
Epoch    2/20 Batch 3/3 Cost: 5.315524
Epoch    3/20 Batch 1/3 Cost: 0.259685
Epoch    3/20 Batch 2/3 Cost: 1.174735
Epoch    3/20 Batch 3/3 Cost: 2.112637
Epoch    4/20 Batch 1/3 Cost: 0.532106
Epoch    4/20 Batch 2/3 Cost: 1.636675
Epoch    4/20 Batch 3/3 Cost: 0.003406
Epoch    5/20 Batch 1/3 Cost: 0.198555
Epoch    5/20 Batch 2/3 Cost: 1.657443
Epoch    5/20 Batch 3/3 Cost: 0.468741
Epoch    6/20 Batch 1/3 Cost: 1.533099
Epoch    6/20 Batch 2/3 Cost: 0.120440
Epoch    6/20 Batch 3/3 Cost: 0.925396
Epoch    7/20 Batch 1/3 Cost: 0.118780
Epoch    7/20 Batch 2/3 Cost: 1.720117
Epoch    7/20 Batch 3/3 Cost: 0.535414
Epoch    8/20 Batch 1/3 Cost: 0.518353
Epoch    

In [3]:
new_var =  torch.FloatTensor([[73, 80, 75]]) 
pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[151.8246]], grad_fn=<AddmmBackward0>)
