# [변형(TRANSFORM)](https://tutorials.pytorch.kr/beginner/basics/transforms_tutorial.html)

- 데이터가 항상 머신러닝 알고리즘 학습에 필요한 최종 처리가 된 형태로 제공되지 않으며, **변형(transform)** 을 해서 데이터를 조작하고 학습에 적합하게 만들어야 한다.

- 모든 TorchVision 데이터셋들은 변형 로직을 갖는, 호출 가능한 객체(callable)를 받는 매개변수 두개 (특징을 변경하기 위한 `transform`과 정답을 변경하기 위한 `target_transform`)를 갖는다.

- `torchvision.transforms` 모듈을 주로 사용하는 몇가지 변형(transform)을 제공한다.

- FashionMNIST 특징(feature)은 PIL Image 형식이며, 정답(label)은 정수(integer)이다.

- 학습을 하려면 정규화(normalize)된 텐서 형태의 특징(feature)과 원-핫(one-hot)으로 부호화(encode)된 텐서 형태의 정답(label)이 필요하다.

- 이러한 변형을 하기 위해 `ToTensor` 와 `Lambda` 를 사용한다.

In [1]:
# 라이브러리 불러오기
import torch
from torchvision import datasets
from torchvision.transforms import ToTensor, Lambda

In [2]:
data = datasets.FashionMNIST(
    root = "data",
    train = True,
    download = False,
    transform = ToTensor(),
    target_transform = Lambda(lambda y: torch.zeros(10, dtype = torch.float).scatter_(0, torch.tensor(y), value = 1)))

## ToTensor()

[ToTensor](https://pytorch.org/vision/stable/transforms.html#torchvision.transforms.ToTensor)는 PIL Image나 Numpy `ndarray`를 `FloatTensor` 로 변환하고, 이미지 픽셀의 크리(intensity) 값을 [0., 1.] 범위로 비례하여 조정(scale)한다.

## Lambda 변형(Transform)

Lambda 변형은 사용자 정의 람다(lambda) 함수를 적용한다.

현재 코드에서는 정수를 원-핫으로 부호화된 텐서로 바꾸는 함수를 정의한다.

이 함수는 먼저 크기 10짜리 Zero tensor를 만들고, [scatter_](https://pytorch.org/docs/stable/generated/torch.Tensor.scatter_.html)를 호출하여 주어진 정답 `y`에 해당하는 인덱스에 `value = 1`을 할당한다.

---

In [15]:
import pandas as pd

- 위에서 불러온 FashionMNIST 데이터를 좀 더 자세히 살펴보도록 하자.

- 불러온 데이터의 특징이 실제로 [0, 1] 사이의 값을 가지는지 확인해보고, 정답의 값들이 어떻게 변했는지 확인해보자.

In [27]:
print("Shape of tensor :", data.data.size(), "\n")

display(pd.DataFrame(data[0][0].flatten(), columns = ["Feature"]).describe())

Shape of tensor : torch.Size([60000, 28, 28]) 



Unnamed: 0,Feature
count,784.0
mean,0.381388
std,0.39944
min,0.0
25%,0.0
50%,0.172549
75%,0.823529
max,1.0


- 불러온 데이터의 모양은 일치함을 확인할 수 있으며, 요약통계량을 살펴보았을 때 특징 값들이 모두 [0, 1] 사이에 있다.

In [34]:
print("Unique labels of data :", data.targets.unique(), "\n")
print("Label of the first data :", data[0][1])

Unique labels of data : tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 

Label of the first data : tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 1.])


- FashionMNIST 데이터의 정답은 0부터 9까지 이루어져 있음을 확인할 수 있다.

- 첫 번째 데이터의 정답을 살펴보면 원핫인코딩이 수행되어 있음을 확인할 수 있다.

- `target_transform` 매개변수에 작성된 함수를 하나씩 살펴보도록 하자.

```python
target_transform = Lambda(lambda y: torch.zeros(10, dtype = torch.float).scatter_(0, torch.tensor(y), value = 1))
```