In [1]:
%matplotlib inline

# 변형(Transform)

데이터가 항상 머신러닝 알고리즘의 학습에 필요한 최종 처리가 된 형태로 제공되지는 않는다. 학습에 적합하게
**변형(transform)**을 해야하는 경우가 많다.

모든 TorchVision 데이터셋들은 데이터의 사전 처리를 지원하기 위해서 두 개의 매개변수 ``transform``과 ``target_transform``을 요구한다. 

<!-- 변형 로직을 갖는, 호출 가능한 객체(callable)를 받는 매개변수 두개
( 특징(feature)을 변경하기 위한 ``transform`` 과 정답(label)을 변경하기 위한 ``target_transform`` )를 갖습니다
`torchvision.transforms <https://pytorch.org/vision/stable/transforms.html>`_ 모듈은
주로 사용하는 몇가지 변형(transform)을 제공합니다. -->

FashionMNIST 데이터셋에서 특징(feature)은 PIL Image 형식이며, 정답(label)은 정수(integer)이다. 학습을 하려면 이미지는 정규화(normalize)된 텐서 형태로 변환하고, 라벨은  원-핫(one-hot)으로 부호화(encode)해야 한다. 이러한 변형(transformation)을 하기 위해 ``ToTensor``와 ``Lambda``를 사용한다.


In [2]:
import torch
from torchvision import datasets
from torchvision.transforms import ToTensor, Lambda

ds = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor(),
    target_transform=Lambda(lambda y: torch.zeros(10, dtype=torch.float).scatter_(0, torch.tensor(y), value=1))
)

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz to data/FashionMNIST/raw/train-images-idx3-ubyte.gz


  0%|          | 0/26421880 [00:00<?, ?it/s]

Extracting data/FashionMNIST/raw/train-images-idx3-ubyte.gz to data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz to data/FashionMNIST/raw/train-labels-idx1-ubyte.gz


  0%|          | 0/29515 [00:00<?, ?it/s]

Extracting data/FashionMNIST/raw/train-labels-idx1-ubyte.gz to data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz to data/FashionMNIST/raw/t10k-images-idx3-ubyte.gz


  0%|          | 0/4422102 [00:00<?, ?it/s]

Extracting data/FashionMNIST/raw/t10k-images-idx3-ubyte.gz to data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz to data/FashionMNIST/raw/t10k-labels-idx1-ubyte.gz


  0%|          | 0/5148 [00:00<?, ?it/s]

Extracting data/FashionMNIST/raw/t10k-labels-idx1-ubyte.gz to data/FashionMNIST/raw



**Note:** 어떤 손실함수를 사용하느냐에 따라서 원-핫 인코딩을 하지 않아도 되는 경우도 있다. `Quick Start` 튜토리얼에서 사용한 `nn.CrossEntropyLoss()`는 원-핫 인코딩을 해주지 않아도 된다.

ToTensor()
------------------------------------------------------------------------------------------

[`ToTensor`](https://pytorch.org/vision/stable/generated/torchvision.transforms.ToTensor.html#torchvision.transforms.ToTensor)는 PIL Image나 NumPy ``ndarray`` 를  ``FloatTensor`` 로 변환하고, 이미지의 픽셀의 크기(intensity) 값을 [0., 1.] 범위로
비례하여 조정(scale)한다.




Lambda 변형(Transform)
------------------------------------------------------------------------------------------

Lambda 변형은 사용자 정의 람다(lambda) 함수를 적용한다. 여기에서는 정수를 원-핫으로 부호화된 텐서로 바꾸는 함수를 정의한다.
이 함수는 먼저 (데이터셋 정답의 개수인) 크기 10짜리 영 텐서(zero tensor)를 만들고,
[`scatter`](<https://pytorch.org/docs/stable/generated/torch.Tensor.scatter_.html>`)를 호출하여
주어진 정답 ``y``에 해당하는 인덱스에 ``value=1``을 할당한다.



In [3]:
target_transform = Lambda(lambda y: torch.zeros(
    10, dtype=torch.float).scatter_(dim=0, index=torch.tensor(y), value=1))