# Data

In [4]:
import torch
from torch.utils.data import Dataset, DataLoader

## Dataset

可以使用 `torch.utils.data.Dataset` 创建一个 Dataset 类，只用完成三个方法：

- `__init__`: 传入数据特征与标签
- `__len__`: 返回数据集的大小
- `__getitem__`: 给定一个索引，定义怎么得到数据集中的样本

In [5]:
class myDataset(Dataset):
    
    def __init__(self, features, labels):
        self.features = features
        self.labels = labels
        
    def __len__(self):
        return len(self.labels)
    
    def __getitem__(self, idx):
        return self.features[idx], self.labels[idx]

## DataLoader

DataLoader 用于批量加载数据，提供数据的批次、打乱、并行等功能。
  
创建一个 `DataLoader` 需要以下参数：

- `dataset`: Dataset 对象
- `batch_size`: 一个批量的大小
- `shuffle`: 是否对数据进行打乱
- `drop_last`: 是否丢弃不成一个 batch 的数据
- `num_workers`: 进程数

DataLoader 返回数据集中一个 batch_size 的特征和标签。

In [6]:
X = torch.randn(100, 3, 32, 32)
y = torch.randint(0, 10, (100,))

dataset = myDataset(X, y)
dataloader = DataLoader(dataset, batch_size=32, shuffle=True, drop_last=True)

for X_batch, y_batch in dataloader:
    print(X_batch.shape)
    print(y_batch.shape)

torch.Size([32, 3, 32, 32])
torch.Size([32])
torch.Size([32, 3, 32, 32])
torch.Size([32])
torch.Size([32, 3, 32, 32])
torch.Size([32])
