### 07. 커스텀 데이터셋
- 파이토치에서는 데이터셋을 좀 더 쉽게 다룰 수 있도록 유용한 도구로서 torch.utils.data.Dataset, torch.utils.data.DataLoader제공
- 이를 사용하면 미니배치학습, 데이터 셔플, 병렬처리까지 간단히 수행가능
- 기본적인 사용방법 : Dataset을 정의하고, DataLoader에 전달

#### 1. 커스텀 데이터셋
- torch.utils.data.Dataset을 상속받아 직접 커스텀 데이터셋을 만드는 경우도 있다.
- torch.utils.data.Dataset는 파이토치에서 데이터셋을 제공하는 추상 클래스
- Dataset을 상속받아 다음 메소드들을 오버라이드 하여 커스텀 데이터셋을 만들기

In [1]:
# 필요한 기본적인 define은 3개
# 기본적인 뼈대
class CustomDataset(torch.utils.data.Dataset) : 
    # 데이터셋의 전처리를 해주는 부분
    def __init__(self) : 
    
    # 데이터셋의 길이(즉, 총 샘플의 수를 적어주는 부분)
    def __len__(self) : 
    
    # 데이터셋에서 특정 1개의 샘플을 가져오는 함수
    def __getitem__(self, idx) : 

IndentationError: expected an indented block (<ipython-input-1-d64e4415098f>, line 5)

- len(dataset)을 했을 때 데이터셋의 크기를 리턴할 len
- dataset[i]를 했을 때 i번째 샘플을 가져오도록 하는 인덱싱을 위한 get_item

---------------------------------------------------------------------------------------------------------------

#### 2. 커스텀 데이터셋으로 선형 회귀 구현하기

In [2]:
import torch
import torch.nn.functional as F

In [3]:
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

In [7]:
# Dataset 상속
class CustomDataset(Dataset) : 
    def __init__(self) :
        self.x_data = [[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]]
        self.y_data = [[152], [185], [180], [196], [142]]
    
    # 총 데이터의 개수를 리턴
    def __len__(self) :
        return len(self.x_data)
    
    # 인덱스를 입력받아 그에 맵핑되는 입출력 데이터를 파이토치의 Tensor 형태로 리턴
    def __getitem__(self, idx) : 
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])
        return x, y

In [8]:
dataset = CustomDataset()
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [9]:
model = torch.nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

In [11]:
nb_epochs = 20
for epoch in range(nb_epochs+1) : 
    for batch_idx, samples in enumerate(dataloader) : 
        x_train, y_train = samples
        
        # H(x)
        prediction = model(x_train)
        
        # cost
        cost = F.mse_loss(prediction, y_train)
        
        # cost로 H(x)계산
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()
        
        print('Epoch {:4d}/{} Batch{}/{} Cost: {:.6f}'.format(
            epoch, nb_epochs, batch_idx+1, len(dataloader), cost.item()
        ))

Epoch    0/20 Batch1/3 Cost: 15189.314453
Epoch    0/20 Batch2/3 Cost: 11422.295898
Epoch    0/20 Batch3/3 Cost: 2474.098389
Epoch    1/20 Batch1/3 Cost: 490.781647
Epoch    1/20 Batch2/3 Cost: 176.050064
Epoch    1/20 Batch3/3 Cost: 68.334938
Epoch    2/20 Batch1/3 Cost: 11.464089
Epoch    2/20 Batch2/3 Cost: 6.348492
Epoch    2/20 Batch3/3 Cost: 1.969736
Epoch    3/20 Batch1/3 Cost: 0.448524
Epoch    3/20 Batch2/3 Cost: 0.341893
Epoch    3/20 Batch3/3 Cost: 0.823115
Epoch    4/20 Batch1/3 Cost: 0.568900
Epoch    4/20 Batch2/3 Cost: 0.285623
Epoch    4/20 Batch3/3 Cost: 0.290440
Epoch    5/20 Batch1/3 Cost: 0.092388
Epoch    5/20 Batch2/3 Cost: 1.008724
Epoch    5/20 Batch3/3 Cost: 0.776397
Epoch    6/20 Batch1/3 Cost: 0.578729
Epoch    6/20 Batch2/3 Cost: 0.288138
Epoch    6/20 Batch3/3 Cost: 0.285055
Epoch    7/20 Batch1/3 Cost: 0.384105
Epoch    7/20 Batch2/3 Cost: 0.299663
Epoch    7/20 Batch3/3 Cost: 1.069338
Epoch    8/20 Batch1/3 Cost: 0.157791
Epoch    8/20 Batch2/3 Cost: 0.81

In [None]:
# 임의의 입력 선언
new_var = torch.FloatTensor([[73, 80, 75]])
# 입력한 값에 대해서 예측값 y를 리턴받아서 pred_y에 저장
