# Dataset 클래스
- 데이터 입력 형태를 정의하는 클래스이다.
- 데이터를 입력하는 방식의 표준화
- Image, Text, Audio 등에 따른 다른 입력을 정의한다.

# Dataset 클래스 생성시 유의점
- 데이터 형태에 따라 각 함수를 다르게 정의한다.
- 모든 것을 데이터 생성 시점에 처리할 필요는 없다.
: image의 Tensor변화는 학습에 필요한 시점에 변환
- 데이터 셋에 대한 표준화된 처리방법 제공 필요 -> 후속 연구자 또는 동료에게는 빛과 같다.
- 최근에는 HuggingFace 등 표준화된 라이브러리 사용

# DataLoader 클래스
- Data의 Batch를 생성해주는 클래스이다.
- 학습직전 데이터의 변환을 책임진다.
- Tensor로 변환 + Batch 처리가 메인 업무이다.
- 병렬적인 데이터 전처리 코드의 고민 필요

In [8]:
import torch
from torch.utils.data import Dataset, DataLoader

class CustomDataset(Dataset):
    def __init__(self, text, labels):
        self.labels = labels
        self.data = text

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        label = self.labels[idx]
        text = self.data[idx]
        sample = {"Text":text, "Class":label}
        return sample

In [9]:
text = ['Happy', 'Amazing', 'Sad', 'Unhappy', 'Glum']
labels = ["Positive","Positive","Negative","Negative","Negative"]
MyDataset = CustomDataset(text, labels)

list(MyDataset)

[{'Text': 'Happy', 'Class': 'Positive'},
 {'Text': 'Amazing', 'Class': 'Positive'},
 {'Text': 'Sad', 'Class': 'Negative'},
 {'Text': 'Unhappy', 'Class': 'Negative'},
 {'Text': 'Glum', 'Class': 'Negative'}]

In [10]:
MyDataLoader = DataLoader(MyDataset, batch_size=2, shuffle = True)
list(MyDataLoader)

[{'Text': ['Amazing', 'Sad'], 'Class': ['Positive', 'Negative']},
 {'Text': ['Happy', 'Unhappy'], 'Class': ['Positive', 'Negative']},
 {'Text': ['Glum'], 'Class': ['Negative']}]