In [1]:
# 커스텀 데이터셋(Custom Dataset)

# torch.utils.data.Dataset 을 상속받아 직접 커스텀셋(Custom Dataset) 을 만들수 있다.
# Dataset 을 상속받아 메소드를 오버라이드 해 커스텀 데이터셋을 만들기

In [2]:
# 기본적인 뼈대
class CustomDataset():
    def __init__(self):
        # 데이터셋 전처리
        pass

    def __len__(self):
        # 데이터셋 길이. 즉, 총 샘플의 수를 적어주는 부분
        pass

    def __getitem__(self, idx):
        # 데이터셋에서 특정 '1'개의 샘플을 가져오는 함수
        pass

# len(dataset) 을 했을 때 데이터셋의 크기를 리턴함
# dataset[i] 을 했을 때 i 번째 샘플을 가져오도록 하는 인덱싱을 위한 get_item

In [11]:
# 커스텀 데이터셋(Custom Dataset)으로 선형 회귀 구현

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

In [12]:
# Dataset 상속

class CustomDataset(Dataset):
    def __init__(self):
        self.x_data = [
            [73, 80, 75],
            [93, 88, 93],
            [89, 91, 90],
            [96, 98, 100],
            [73, 66, 70]
        ]
        self.y_data = [[152], [185], [180], [196], [142]]

    # 총 데이터의 개수를 리턴
    def __len__(self):
        return len(self.x_data)

    # 인덱스를 입력받아 그에 맵핑되는 입출력 데이터를 파이토치의 Tensor 형태로 리턴
    def __getitem__(self, idx):
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])
        return x, y

In [13]:
dataset = CustomDataset()
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [15]:
# 모델과 옵티마이저 선언
model = nn.Linear(3, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

# 훈련 진행
nb_epochs = 20
for epoch in range(nb_epochs + 1):
    for batch_idx, samples in enumerate(dataloader):
        # print(batch_idx)
        # print(samples)
        x_train, y_train = samples
        # H(x) 계산
        prediction = model(x_train)

        # cost
        cost = F.mse_loss(prediction, y_train)

        # cost 로 H(x) 개선
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()

        print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(epoch, nb_epochs, batch_idx+1, len(dataloader), cost.item()))


Epoch    0/20 Batch 1/3 Cost: 39625.890625
Epoch    0/20 Batch 2/3 Cost: 7168.277832
Epoch    0/20 Batch 3/3 Cost: 1767.496338
Epoch    1/20 Batch 1/3 Cost: 1329.626465
Epoch    1/20 Batch 2/3 Cost: 355.538086
Epoch    1/20 Batch 3/3 Cost: 23.325085
Epoch    2/20 Batch 1/3 Cost: 44.694160
Epoch    2/20 Batch 2/3 Cost: 15.895956
Epoch    2/20 Batch 3/3 Cost: 34.398647
Epoch    3/20 Batch 1/3 Cost: 6.919528
Epoch    3/20 Batch 2/3 Cost: 5.323868
Epoch    3/20 Batch 3/3 Cost: 13.036402
Epoch    4/20 Batch 1/3 Cost: 11.388925
Epoch    4/20 Batch 2/3 Cost: 11.900665
Epoch    4/20 Batch 3/3 Cost: 3.719102
Epoch    5/20 Batch 1/3 Cost: 5.560445
Epoch    5/20 Batch 2/3 Cost: 9.852584
Epoch    5/20 Batch 3/3 Cost: 0.994484
Epoch    6/20 Batch 1/3 Cost: 7.170414
Epoch    6/20 Batch 2/3 Cost: 4.737676
Epoch    6/20 Batch 3/3 Cost: 13.608912
Epoch    7/20 Batch 1/3 Cost: 5.447923
Epoch    7/20 Batch 2/3 Cost: 10.164292
Epoch    7/20 Batch 3/3 Cost: 1.839199
Epoch    8/20 Batch 1/3 Cost: 10.379683


In [16]:
# 임의의 입력 [73, 80, 75] 선언
new_val = torch.FloatTensor([[73, 80, 75]])
# 입력한 값 [73, 80, 75] 에 대해 예측값 y를 리턴받아서 pred_y 에 저장
pred_y = model(new_val)

print("훈련 후 입력값이 73, 80, 75 일 때의 예측값 : ", pred_y)

훈련 후 입력값이 73, 80, 75 일 때의 예측값 :  tensor([[154.6142]], grad_fn=<AddmmBackward0>)
