### Dataset과 DataLoader의 개념

Dataset:

PyTorch의 Dataset 클래스는 데이터를 어떻게 저장하고 불러올지를 정의합니다.
사용자 지정 데이터셋을 만들기 위해 torch.utils.data.Dataset을 상속받아, __len__() (데이터셋의 길이)와 __getitem__() (특정 인덱스의 데이터 반환) 메서드를 구현합니다.


DataLoader:

Dataset을 기반으로 데이터를 배치 단위로 불러오고, 데이터 셔플, 병렬 처리 등 다양한 기능을 제공합니다.
DataLoader를 사용하면, 모델 학습 시에 데이터를 효율적으로 공급할 수 있습니다.

In [3]:
import torch
from torch.utils.data import Dataset

class custom(Dataset):
    def __init__(self):
        self.x_data=torch.linspace(0,10,100).unsqueeze(1)
        self.y_data=3*self.x_data+2

    def __len__(self):
        return len(self.x_data)

    def __getitem__(self,idx):
        return self.x_data[idx], self.y_data[idx]


dataset=custom()
print("Dataset 길이:", len(dataset))
print("첫 번째 데이터:", dataset[0])

Dataset 길이: 100
첫 번째 데이터: (tensor([0.]), tensor([2.]))


In [9]:
from torch.utils.data import DataLoader

dataloader=DataLoader(dataset, batch_size=3,shuffle=True)

for batch,(x_batch,y_batch) in enumerate(dataloader):
    print(f"\nBatch {batch+1}:")
    print("x_batch:\n", x_batch)
    print("y_batch:\n", y_batch)


Batch 1:
x_batch:
 tensor([[3.0303],
        [3.5354],
        [4.1414]])
y_batch:
 tensor([[11.0909],
        [12.6061],
        [14.4242]])

Batch 2:
x_batch:
 tensor([[6.6667],
        [2.1212],
        [9.1919]])
y_batch:
 tensor([[22.0000],
        [ 8.3636],
        [29.5758]])

Batch 3:
x_batch:
 tensor([[7.4747],
        [7.2727],
        [8.2828]])
y_batch:
 tensor([[24.4242],
        [23.8182],
        [26.8485]])

Batch 4:
x_batch:
 tensor([[6.2626],
        [8.6869],
        [8.5859]])
y_batch:
 tensor([[20.7879],
        [28.0606],
        [27.7576]])

Batch 5:
x_batch:
 tensor([[3.7374],
        [5.2525],
        [7.1717]])
y_batch:
 tensor([[13.2121],
        [17.7576],
        [23.5152]])

Batch 6:
x_batch:
 tensor([[2.5253],
        [8.9899],
        [2.8283]])
y_batch:
 tensor([[ 9.5758],
        [28.9697],
        [10.4848]])

Batch 7:
x_batch:
 tensor([[ 9.7980],
        [10.0000],
        [ 0.6061]])
y_batch:
 tensor([[31.3939],
        [32.0000],
        [ 3.8182