## 数据的加载与预处理`torch.utils.data`

- torch.utils.data: 对常用的数据加载进行了封装，可以很容易的实现多线程数据预读和批量加载
- torchvision已经预先实现了常用图像数据集,torchvision已经预先实现了常用图像数据集

In [1]:
import torch
torch.__version__

'1.1.0'

### Dataset

- Dataset是个抽象类，为了方便读取，需要将使用的数据包包装成Dataset类
- 自定义的Dataset需要继承它并实现两个成员方法
     - `__getitem__()`: 该方法定义用索引获取一条数据
     - `__len__()`: 该方法返回数据的总长度

In [5]:
import pandas as pd
from torch.utils.data import Dataset
class BulldozerDataset(Dataset):
    def __init__(self,csv_file):
        self.df=pd.read_csv(csv_file)
    def __len__(self):
        return len(self.df)
    def __getitem__(self,idx):
        return self.df.iloc[idx].SalePrice

In [18]:
data_demo=BulldozerDataset('../data/median_benchmark.csv')

In [19]:
print(len(data_demo)) # 获取数据总数
print(data_demo[0]) # 直接访问数据

11573
24000.0


## DataLoader

- `torch.utils.data.DataLoader`提供了对Dataset的读取操作
- 常用参数
     - batch_size: 每个batch的大小
     - shuffle: 是否进行shuffle操作
     - num_workers: 加载数据时使用的几个子进程
- 加载后返回一个可迭代对象，使用迭代器分词获取数据

In [15]:
dl=torch.utils.data.DataLoader(data_demo,batch_size=16,shuffle=True,num_workers=0)

In [16]:
idata=iter(dl)
print(next(idata))

tensor([24000., 24000., 24000., 24000., 24000., 24000., 24000., 24000., 24000.,
        24000., 24000., 24000., 24000., 24000., 24000., 24000.],
       dtype=torch.float64)


In [17]:
for i, data in enumerate(dl):
    print(i,data)
    # 为了节约空间, 这里只循环一遍
    break

0 tensor([24000., 24000., 24000., 24000., 24000., 24000., 24000., 24000., 24000.,
        24000., 24000., 24000., 24000., 24000., 24000., 24000.],
       dtype=torch.float64)
