### Trong pytorch, hai class chính quan trọng trong việc xử lý và load dữ liệu là `Dataset` và `DataLoader`

#### 1. `Dataset`
Một `Dataset` là một class nền tảng để biểu diễn dữ liệu. Bạn cần kế thừa subclass `torch.utils.data.Dataset` để tạo một dataset tùy chỉnh  
Class dataset tùy chỉnh đó phải có hai method sau:
- `__len__(self)` : Trả về kích thước của dataset

- `__getitem__(self, idx)` : Trả về data tại index `idx` 

Ví dụ về một dataset tùy chỉnh

In [7]:
import torch
from torch.utils.data import Dataset

class CustomDataset(Dataset):
    def __init__(self, data, labels, transform=None):
        self.data = data                            # Data là một mảng dữ liệu
        self.labels = labels                        # Lables là một mảng các nhãn
        self.transform = transform
    def __len__(self):
        return len(self.data)                       # Trả về kích thước dataset

    def __getitem__(self, idx):
        x = self.data[idx]                          # Lấy dữ liệu tại idx
        y = self.labels[idx]                        # Lấy nhãn tương ứng 
        
        if self.transform:
            x = self.transform(x)                   # Giả sử phép biến đổi đã có torchvision.transforms.ToTensor()
            return x, torch.tensor(y)
        else:
            return torch.tensor(x), torch.tensor(y)
            


#### 2. `DataLoader`
`DataLoader` cung cấp một cách hiệu quả để load dữ liệu thành các lô (batches) và có thể trộn, song song hóa dữ liệu sử dụng nhiều tiền trình con và thêm biến hóa (transformations)  
Ví dụ về sử dụng `DataLoader`

In [8]:
from torch.utils.data import DataLoader


data = [[1, 2], [3, 4], [5, 6]]
labels = [0, 1, 0]


dataset = CustomDataset(data, labels)


dataloader = DataLoader(dataset, batch_size=2, shuffle=True)


for batch_data, batch_labels in dataloader:
    print(batch_data)
    print(batch_labels)
    print("------------")


tensor([[3, 4],
        [1, 2]])
tensor([1, 0])
------------
tensor([[5, 6]])
tensor([0])
------------


Các tham số chính của `DataLoader`
- `batch_size` : Kích thước của một lô dữ liệu
- `shuffle` : Nếu là `True` thì tiền hành trộn dữ liệu tại điểm khởi đầu của mỗi epoch
- `num_worker` : Số lượng tiến trình con dùng để load dữ liệu song song

##### Phép biến đổi (transformations) với `DataLoader`


Đối với dataset là ảnh thì pytorch có hỗ trợ một module `torchvision.transforms` để thực hiện các biến đổi phổ biển  
Ví dụ:

In [None]:
from torchvision import transforms

transform = transforms.Compose([
    transforms.Resize((256, 256)),
    transforms.ToTensor(),
])


data = [[1, 2], [3, 4], [5, 6]]
labels = [0, 1, 0]


dataset = CustomDataset(data, labels, transform=transform)
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

for batch_data, batch_labels in dataloader:
    print(batch_data)
    print(batch_labels)
    print("------------")