이번 튜토리얼에서는

PyTorch에 **내장(Built-in) 데이터셋**을 로드하는 방법에 대하여 알아보겠습니다.

**[참고]**

- `torchvision.transform`을 활용한 이미지 정규화는 [링크](https://teddylee777.github.io/pytorch/torchvision-transform)에서 확인해 주시기 바랍니다.


In [None]:
import numpy as np
import torch
from torch.utils.data import Dataset
from torchvision import datasets, transforms

## 내장(built-in) 데이터셋 로드

- `torchvision.datasets` 에서 데이터 로드
- 아래 링크에서 built-in datasets의 목록을 확인해 볼 수 있습니다.
  - [PyTorch Built-in Datsets](https://pytorch.org/vision/stable/datasets.html)


### STEP 1) Image Transform 정의


In [None]:
# Image Transform 정의
transform = transforms.Compose(
    [
        transforms.ToTensor(),
    ]
)

### STEP 2) 내장 데이터셋 로드

- `FashionMNIST` 데이터셋 로드하는 예제


- `root`: 데이터셋을 다운로드 받을 경로(폴더) 지정.
- `train`: `True`로 설정된 경우 `train` 데이터셋에서 로드하며, `False`인 경우 `test` 데이터셋에서 로드
- `download`: `True`로 설정된 경우, 인터넷으로부터 데이터셋을 다운로드 받아 지정된 `root` 디렉토리에 다운로드
- `transform`: 이미지 `transform` 적용


In [None]:
# train(학습용) 데이터셋 로드
train = datasets.FashionMNIST(root='data',
                              train=True,         # set True
                              download=True,      # 다운로드
                              transform=transform  # transform 적용. (0~1 로 정규화)
                              )

In [None]:
# test(학습용) 데이터셋 로드
test = datasets.FashionMNIST(root='data',
                             train=False,       # set to False
                             download=True,     # 다운로드
                             transform=transform  # transform 적용. (0~1 로 정규화)
                             )

`FashionMNIST` 데이터셋 시각화

- 총 10개의 카테고리로 구성되어 있으며, `Label`은 아래 코드에서 `labels_map`에 정의되어 있습니다.
- 출처: [zalandoresearch/fashion-mnist](https://github.com/zalandoresearch/fashion-mnist)


In [None]:
import matplotlib.pyplot as plt

labels_map = {
    0: "T-Shirt",
    1: "Trouser",
    2: "Pullover",
    3: "Dress",
    4: "Coat",
    5: "Sandal",
    6: "Shirt",
    7: "Sneaker",
    8: "Bag",
    9: "Ankle Boot",
}

figure = plt.figure(figsize=(12, 8))
cols, rows = 8, 5

for i in range(1, cols * rows + 1):
    sample_idx = torch.randint(len(train), size=(1,)).item()
    img, label = train[sample_idx]
    figure.add_subplot(rows, cols, i)
    plt.title(labels_map[label])
    plt.axis("off")
    plt.imshow(torch.permute(img, (1, 2, 0)), cmap="gray")
plt.show()

### STEP 3) torch.utils.data.DataLoader로 데이터셋 로더 구성


In [None]:
batch_size = 32  # batch_size 지정
num_workers = 8  # Thread 숫자 지정 (병렬 처리에 활용할 쓰레드 숫자 지정)

In [None]:
train_loader = torch.utils.data.DataLoader(train,
                                           batch_size=batch_size,
                                           shuffle=True,
                                           num_workers=num_workers)

In [None]:
test_loader = torch.utils.data.DataLoader(test,
                                          batch_size=batch_size,
                                          shuffle=False,
                                          num_workers=num_workers)