# **<u>7. 커스텀 데이터셋(Custom DataSet)</u>**
## **1. 커스텀데이터셋**
* `torch.utils.data.Dataset`을 상속받아 직접 커스텀 데이터셋을 만드는 경우 존재
* `torch.utils.data.Dataset`은 파이토치에서 데이터셋을 제공하는 추상 클래스
* Dataset을 상속받아 다음 메소드를 오버라이드하여 커스텀 데이터셋을 만들어봤음. 

In [None]:
class CustomDataset(torch.utils.data.Dataset):
    def __init__(self):
        # 데이터셋의 전처리

    def __len__(self):
        # 데이터셋의 길이. 즉, 총 샘플의 수를 반환
    
    def __getitem__(self, idx):
        # 데이터셋에서 특정 1개의 샘플을 가져옴. 

* 기본적인 뼈대는 다음과 같음. 
  * `init()`
    - 데이터의 전처리 수행 
  * `len()`
    - 데이터셋의 길이 리턴
    - `len(dataset)`을 했을때, 데이터셋의 크기를 리턴
  * `getitem()`
    - 데이터셋에서 특정 1개의 샘플을 가져옴. 
    - `dataset[i]`를 했을때 i번째 샘플을 가져오도록 하는 **인덱싱**

## **2. 커스텀 데이터셋으로 선형회귀 구현하기**

In [1]:
import torch 
import torch.nn.functional as F

In [3]:
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

In [4]:
# Dataset 상송
class CustomDataset(Dataset):
    def __init__(self):
        self.x_data=[[73,80,75],
                     [93,88,93],
                     [89,91,90],
                     [96,98,100],
                     [73,66,70]]
        self.y_data=[[152],[185],[180],[196],[142]]

    # 총 데이터의 개수 리턴
    def __len__(self):
        return len(self.x_data)
    
    # 인덱스를 입력받아 그에 맵핑되는 입출력 데이터를 파이토치의 Tensor 형태로 리턴
    def __getitem__(self,idx):
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])
        return x,y

In [5]:
dataset = CustomDataset()
dataloader = DataLoader(dataset,batch_size=2, shuffle=True) 

In [7]:
model=torch.nn.Linear(3,1)
optimizer=torch.optim.SGD(model.parameters(),lr=1e-5)

In [9]:
nb_epochs=30
for epoch in range(nb_epochs+1):
    for batch_idx,samples in enumerate(dataloader):
        print(batch_idx)
        print(samples)

        x_train,y_train=samples

        prediction=model(x_train)
        cost=F.mse_loss(prediction,y_train)

        #cost로 prediction 개선 
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()

        print('Epoch {:4d}/{} Batch {}/{} Cost:{:6f}'.format(epoch, nb_epochs,batch_idx,len(dataloader),cost.item()))

0
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch    0/30 Batch 0/3 Cost:1.153904
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch    0/30 Batch 1/3 Cost:0.514120
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]
Epoch    0/30 Batch 2/3 Cost:15.306988
0
[tensor([[73., 80., 75.],
        [89., 91., 90.]]), tensor([[152.],
        [180.]])]
Epoch    1/30 Batch 0/3 Cost:3.464334
1
[tensor([[ 73.,  66.,  70.],
        [ 96.,  98., 100.]]), tensor([[142.],
        [196.]])]
Epoch    1/30 Batch 1/3 Cost:5.094254
2
[tensor([[93., 88., 93.]]), tensor([[185.]])]
Epoch    1/30 Batch 2/3 Cost:3.410620
0
[tensor([[89., 91., 90.],
        [93., 88., 93.]]), tensor([[180.],
        [185.]])]
Epoch    2/30 Batch 0/3 Cost:0.861025
1
[tensor([[ 96.,  98., 100.],
        [ 73.,  66.,  70.]]), tensor([[196.],
        [142.]])]
Epoch    2/30 Batch 1/3 Cost:0.239669
2
[tensor([[73., 80., 75.]]), tensor([[152.]])]