In [1]:
import torch
from torch.utils.data import Dataset

In [7]:
class TensorDataset(Dataset):
    '''
    继承Dataset类，重载了3个方法:
    1. __init__()
    2. __getitem__()
    3.__len__()
    '''
    def __init__(self, data_tensor, target_tensor):
        self.data_tensor = data_tensor
        self.target_tensor = target_tensor
    def __getitem__(self, index):
        return self.data_tensor[index], self.target_tensor[index]
    def __len__(self):
        return self.data_tensor.size(0)

In [3]:
data_tensor = torch.randn(4,3)
target_tensor = torch.rand(4)
print("data_tensor shape:",data_tensor.shape)
print("target_tensor shape:",target_tensor.shape)

data_tensor shape: torch.Size([4, 3])
target_tensor shape: torch.Size([4])


In [8]:
# 将数据封装成dataset：
tensor_dataset = TensorDataset(data_tensor, target_tensor)
print(tensor_dataset[1])
print(len(tensor_dataset))

(tensor([ 0.2156,  0.4459, -0.5127]), tensor(0.0927))
4


## torch.utils.data.Dataloader
- dataset：这个就是pytorch已有的数据读取接口（比如torchvision.datasets.ImageFolder）或者自定义的数据接口的输出，该输出要么是torch.utils.data.Dataset类的对象，要么是继承自torch.utils.data.Dataset类的自定义类的对象。
- batch_size：根据具体情况设置即可。
- shuffle：随机打乱顺序，一般在训练数据中会采用。
- collate_fn：是用来处理不同情况下的输入dataset的封装，一般采用默认即可，除非你自定义的数据读取输出非常少见。
- batch_sampler：从注释可以看出，其和batch_size、shuffle等参数是互斥的，一般采用默认。
- sampler：从代码可以看出，其和shuffle是互斥的，一般默认即可。
- num_workers：从注释可以看出这个参数必须大于等于0，0的话表示数据导入在主进程中进行，其他大于0的数表示通过多个进程来导入数据，可以加快数据导入速度。
- pin_memory：注释写得很清楚了： pin_memory (bool, optional): If True, the data loader will copy tensors into CUDA pinned memory before returning them. 也就是一个数据拷贝的问题。
timeout：是用来设置数据读取的超时时间的，但超过这个时间还没读取到数据的话就会报错。


In [10]:
# 编写train_dataloader
from torch.utils.data import DataLoader
tensor_dataloader = DataLoader(tensor_dataset,
                              batch_size=2,
                              shuffle=True,
                              num_workers=0)

for data, target in tensor_dataloader:
    print(data, target)

tensor([[-1.1204, -1.7425,  0.7143],
        [ 0.2156,  0.4459, -0.5127]]) tensor([0.3745, 0.0927])
tensor([[2.0071, 0.1439, 2.2410],
        [0.0093, 0.2684, 0.6014]]) tensor([0.1460, 0.8138])
