In [None]:
# https://wikidocs.net/57165

---
# 07. 커스텀 데이터셋(Custom Dataset)

In [None]:
# 커스텀 데이터셋을 만들 때 필요한 뼈대는 아래와 같다.
import torch

class CustomDataset(torch.utils.data.Dataset):
    def __init__(self):
        # 데이터셋의 전처리를 해주는 부분

    def __len__(self):
        # 데이터셋의 길이. 즉, 총 샘플의 수를 적어주는 부분
        # len(dataset)을 했을 때 크기를 리턴한다.

    def __getitem__(self, idx):
        # 데이터셋에서 특정 1개의 샘플을 가져오는 함수
        # dataset[i]를 할 때 i번째 샘플을 가져오도록 한다.


---
---

In [3]:
import torch
import torch.nn.functional as F

In [4]:
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

In [6]:
# dataset 상속
class CustomDataset(Dataset):
    def __init__(self):
        self.x_data = [[73, 80, 75],
                    [93, 88, 93],
                    [89, 91, 90],
                    [96, 98, 100],
                    [73, 66, 70]]
        self.y_data = [[152], [185], [180], [196], [142]]
    
    # len(dataset)
    def __len__(self):
        return len(self.x_data)
    
    # dataset[i]
    def __getitem__(self, idx):
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])
        return x, y

In [7]:
dataset = CustomDataset()
dataloader = DataLoader(dataset, batch_size = 2, shuffle = True)

In [9]:
model = torch.nn.Linear(3, 1)
optimizer = torch.optim.SGD(model.parameters(), lr = 1e-5)

In [11]:
# 학습 진행

nb_epochs = 100
for epoch in range(nb_epochs + 1 ):
    for batch_idx, samples in enumerate(dataloader):
        # print(batch_idx)
        # print(samples)
        x_train, y_train = samples

        # H(x) 계산
        prediction = model(x_train)

        # cost 계산
        cost = F.mse_loss(prediction, y_train)

        #cost로 H(x) 계산
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()

        print('Epoch {:4d}/{}  Batch {}/{}  Cost {:.4f}'.format(
            epoch, nb_epochs, batch_idx+1, len(dataloader), cost.item()
        ))

Epoch    0/100  Batch 1/3  Cost 0.0887
Epoch    0/100  Batch 2/3  Cost 0.5510
Epoch    0/100  Batch 3/3  Cost 0.0149
Epoch    1/100  Batch 1/3  Cost 0.4490
Epoch    1/100  Batch 2/3  Cost 0.0049
Epoch    1/100  Batch 3/3  Cost 0.3464
Epoch    2/100  Batch 1/3  Cost 0.0830
Epoch    2/100  Batch 2/3  Cost 0.5429
Epoch    2/100  Batch 3/3  Cost 0.0133
Epoch    3/100  Batch 1/3  Cost 0.1364
Epoch    3/100  Batch 2/3  Cost 0.4325
Epoch    3/100  Batch 3/3  Cost 0.3172
Epoch    4/100  Batch 1/3  Cost 0.0505
Epoch    4/100  Batch 2/3  Cost 0.5557
Epoch    4/100  Batch 3/3  Cost 0.0448
Epoch    5/100  Batch 1/3  Cost 0.4758
Epoch    5/100  Batch 2/3  Cost 0.0028
Epoch    5/100  Batch 3/3  Cost 0.2802
Epoch    6/100  Batch 1/3  Cost 0.0802
Epoch    6/100  Batch 2/3  Cost 0.1633
Epoch    6/100  Batch 3/3  Cost 1.1353
Epoch    7/100  Batch 1/3  Cost 0.4191
Epoch    7/100  Batch 2/3  Cost 0.5188
Epoch    7/100  Batch 3/3  Cost 0.0002
Epoch    8/100  Batch 1/3  Cost 0.4699
Epoch    8/100  Batch 2/3

In [13]:
# 임의의 값으로 예측값 확인
new_var = torch.FloatTensor([[73, 80, 75]])

pred_y = model(new_var) 
print("훈련 후 입력이 73, 80, 75일 때의 예측값 :", pred_y) 

훈련 후 입력이 73, 80, 75일 때의 예측값 : tensor([[151.0006]], grad_fn=<AddmmBackward>)
