# Transform
- 데이터가 항상 머신러닝 학습에 필요한 처리가 된 형태로 제공괴지 않음
- 변형(transform)을 통해 데이터를 조작, 학습에 적합하게 변환

모든 TorchVision 데이터셋은 호출 가능한 객체(callable)를 받는 매개변수 두가지를 제공
- transform : feature를 변경하기 위함
- target_transform : label을 변경하기 위함

In [1]:
import torch
from torchvision import datasets
from torchvision.transforms import ToTensor, Lambda


# FashionMNIST의 feature는 PIL Image형식, Label은 정수 형식
# 학습을 위해 정규화된 tensor형태의 feature와 one-hot으로 encode된 tensor형태의 label이 필요
# 이러한 변형을 위해 Totensor와 Lambda를 사용
ds = datasets.FashionMNIST(
    root="data",
    train = True,
    download = True,
    transform = ToTensor(),
    target_transform = Lambda(lambda y: torch.zeros(10, dtype=torch.float).scatter_(0, torch.tensor(y), value=1))
)

- ToTensor : PIL Image, ndarray를 FloatTensor로 변환, 이미지 픽셀의 크기값을 [0., 1.] 범위로 비례하여 조정(scale).
- Lambda transform : 정수를 원-핫으로 부호화된 tensor로 바꾸는 함수를 정의. 데이터셋 정답개수인 크기 10의 zero tensor를 생성, scatter_를 호출하여 주어진 정답 y에 해당하는 인덱스에 value = 1을 할당
    - ex) 클래스 label이 3인경우 3번째 위치가 1, 나머지는 0인 길이 10의 tensor 반환
    - 즉 원-핫인코딩