# Buổi 3. Chuyển đổi dữ liệu với Transforms

- Dữ liệu thường ở dạng raw &#8594; cần biến đổi chúng về dạng thích hợp để huấn luyện mô hình &#8594; **transforms**

In [9]:
import torch
from torchvision import datasets
from torchvision.transforms import ToTensor, Lambda
import numpy as np

## 1. Dùng transforms có sẵn
- Module `torchvision.transforms` có sẵn nhiều transforms phổ biến. Ví dụ: `ToTensor()`
- `ToTensor` chuyển PIL image hoặc NumPy `ndarray` thành `FloatTensor` và đưa giá trị pixel về khoảng [0., 1.]

<!-- scales the image's pixel intensity values in the range [0., 1.] -->




In [15]:
arr = np.array([[1., 2., 5.], [2., 3., 1.]])
display(arr)
ToTensor()(arr)

array([[1., 2., 5.],
       [2., 3., 1.]])

tensor([[[1., 2., 5.],
         [2., 3., 1.]]], dtype=torch.float64)

## 2. Dùng transforms tự định nghĩa

- Lambda transforms cho phép tự định nghĩa hàm chuyển đổi.
- Ví dụ chuyển 1 số nguyên về dạng one-hot vector: tạo 1 vector toàn 0 với `size = 10` --> dùng `torch.Tensor.scatter` để gán `value = 1` cho chỉ số tương ứng với số nguyên.


In [16]:
target_transform = Lambda(lambda y: torch.zeros(
    10, dtype=torch.float).scatter_(dim=0, index=torch.tensor(y), value=1))
display(target_transform(0))
display(target_transform(2))
display(target_transform(4))

tensor([1., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

tensor([0., 0., 1., 0., 0., 0., 0., 0., 0., 0.])

tensor([0., 0., 0., 0., 1., 0., 0., 0., 0., 0.])

## 3. Biến đổi bộ dữ liệu FashionMNIST
- Bộ dữ liệu FashionMNIST có quan sát ở dạng PIL Image, nhãn ở dạng số nguyên.
- Để đưa vào mô hình, ta cần quan sát ở dạng Tensors, nhãn ở dạng one-hot vector tensors.

<!-- To make these transformations, we use ``ToTensor`` and ``Lambda``. -->


In [17]:
ds = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor(),
    target_transform=Lambda(lambda y: torch.zeros(10, dtype=torch.float).scatter_(0, torch.tensor(y), value=1))
)

In [24]:
x, y = ds[0]
display(type(x))
display(y)

torch.Tensor

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 1.])

--------------


