# DATASET과 DATALOADER
- PyTorch는 `torch.utils.data.DataLoader` 와 `torch.utils.data.Dataset` 의 두 가지 데이터 기본 요소를 제공한다.


- 미리 준비된(pre-loaded) 데이터셋 뿐만 아니라 가지고 있는 데이터를 사용할 수 있도록 해준다.


- `Dataset`은 샘플과 정답(label)을 저장하고, `DataLoader`는 `Dataset`을 샘플에 쉽게 접근할 수 있도록 순회 가능한 객체(iterable)로 감싼다.


- PyTorch는 다양한 pre-loaded 데이터셋이 있다. `torch.utils.data.Dataset`의 하위 클래스로 개별 데이터를 특정하는 함수가 구현되어 있다.


- 이러한 데이터셋은 모델을 만들어보고 성능을 측정하는데 사용할 수 있다.

# 데이터셋 불러오기
- *TorchVision* 에서 Fashion-MNIST 데이터셋을 불러오는 예제를 살펴보자.
- 60,000개의 학습 예제와 10,000개의 테스트 예제로 이루어져 있다.
- 각 예제는 흑백(grayscale)의 28*28 이미지와 10개 분류(class)중 하나인 정답(label)로 구성된다.


- 다음 매개변수들을 사용하여 FashionMNIST 데이터셋을 불러온다.
    - `root` 는 학습/테스트 데이터가 저장되는 경로이다.
    - `train` 은 학습용 또는 테스트용 데이터셋 여부를 지정한다.
    - `download=True` 는 `root` 에 데이터가 없는 경우 인터넷에서 다운로드한다.
    - `transform` 과 `target_transform` 은 특징(feature)과 정답(label)을 변형(transform)을 지정한다.

In [None]:
import torch
from torch.utils.data import Dataset
from torchvision import datasets
from torchvision.transforms import ToTensor
import matplotlib.pyplot as plt

training_data = datasets.FashionMNIST(
    root = 'data',
    train = True,
    download = True,
    transform = ToTensor())

test_data = datasets.FashionMNIST(
    root = 'data',
    train = False,
    download = True,
    transform = ToTensor())

# 데이터셋을 순회하고 시각화하기
- `Dataset` 에 리스트(list)처럼 직접 접근(index)할 수 있습니다.
- `training_data[index]` , `matplotlib` 을 사용하여 학습 데이터 일부를 시각화해보자.

In [None]:
labels_map = {0: "T-Shirt", 1: "Trouser", 2: "Pullover", 3: "Dress", 4: "Coat",
              5: "Sandal", 6: "Shirt", 7: "Sneaker", 8: "Bag", 9: "Ankle Boot"}

fig = plt.figure(figsize=(8, 8))
cols, rows = 3, 3

for i in range(1, cols*rows + 1):
    sample_idx = torch.randint(len(training_data), size=(1,)).item()
    img, label = training_data[sample_idx]
    
    fig.add_subplot(rows, cols, i)
    plt.title(labels_map[label])
    plt.axis('off')
    plt.imshow(img.squeeze(), cmap='gray')

plt.show()