# 自定义数据集

我们经常可以看到Pytorch加载数据集会用到官方整理好的数据集。很多时候我们需要加载自己的数据集，这时候我们需要使用Dataset和DataLoader
- Dataset：是被封装进DataLoader里，实现该方法封装自己的数据和标签。
- DataLoader：被封装入DataLoaderIter里，实现该方法达到数据的划分。

## 加载iris数据集

In [1]:
import torch
import torch.nn as nn
import pandas as pd
import numpy as np
from torch.utils.data import DataLoader

In [2]:
iris = pd.read_csv("D:\\Jupyter notebook\\data\\iris_dataset\\iris.csv",header=None)

In [3]:
iris

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [4]:
train_data = np.array(iris.iloc[:,:4])
train_label = np.array(iris.iloc[:,4])

## Dataset

继承该方法必须实现两个方法：
- `_getitem_()`
- `_len_()`

In [5]:
# 定义GetLoader类，继承Dataset方法，并重写__getitem__()和__len__()方法
class GetLoader(torch.utils.data.Dataset):
    # 初始化函数，得到数据
    def __init__(self, data_root, data_label):
        self.data = data_root
        self.label = data_label
    # index是根据batchsize划分数据后得到的索引，最后将data和对应的labels进行一起返回
    def __getitem__(self, index):
        data = self.data[index]
        labels = self.label[index]
        return data, labels
    # 该函数返回数据大小长度，目的是DataLoader方便划分，如果不知道大小，DataLoader会一脸懵逼
    def __len__(self):
        return len(self.data)

In [6]:
torch_data = GetLoader(train_data, train_label)

In [7]:
torch_data.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [8]:
torch_data.label

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2], dtype=int64)

## DataLoader

提供对Dataset的操作，操作如下：

`torch.utils.data.DataLoader(dataset,batch_size,shuffle,drop_last，num_workers)`

参数含义如下：

- dataset： 加载torch.utils.data.Dataset对象数据
- batch_size： 每个batch的大小
- shuffle：是否对数据进行打乱
- drop_last：是否对无法整除的最后一个datasize进行丢弃
- num_workers：表示加载的时候子进程数

In [9]:
# 读取数据
datas = DataLoader(torch_data, batch_size=50, shuffle=True, drop_last=False)

## 查看数据

In [10]:
for i, data in enumerate(datas):
    # i表示第几个batch， data表示该batch对应的数据，包含data和对应的labels
    print("第 {} 个Batch \n{}".format(i, data))

第 0 个Batch 
[tensor([[6.3000, 2.5000, 5.0000, 1.9000],
        [6.6000, 2.9000, 4.6000, 1.3000],
        [6.1000, 2.8000, 4.0000, 1.3000],
        [4.9000, 3.0000, 1.4000, 0.2000],
        [5.6000, 3.0000, 4.5000, 1.5000],
        [7.7000, 3.8000, 6.7000, 2.2000],
        [6.6000, 3.0000, 4.4000, 1.4000],
        [4.9000, 3.1000, 1.5000, 0.1000],
        [4.4000, 3.2000, 1.3000, 0.2000],
        [6.3000, 3.3000, 6.0000, 2.5000],
        [7.3000, 2.9000, 6.3000, 1.8000],
        [7.2000, 3.2000, 6.0000, 1.8000],
        [6.2000, 2.8000, 4.8000, 1.8000],
        [6.3000, 2.9000, 5.6000, 1.8000],
        [5.8000, 4.0000, 1.2000, 0.2000],
        [5.8000, 2.7000, 5.1000, 1.9000],
        [5.7000, 4.4000, 1.5000, 0.4000],
        [5.7000, 2.8000, 4.5000, 1.3000],
        [5.9000, 3.2000, 4.8000, 1.8000],
        [6.9000, 3.2000, 5.7000, 2.3000],
        [4.7000, 3.2000, 1.3000, 0.2000],
        [5.0000, 3.2000, 1.2000, 0.2000],
        [4.6000, 3.1000, 1.5000, 0.2000],
        [5.6000, 2.50

# 训练模型

## 直接构建模型

In [26]:
net = torch.nn.Sequential(
    nn.Linear(4, 10),
    nn.ReLU(),
    nn.Linear(10,3)
)

In [27]:
net

Sequential(
  (0): Linear(in_features=4, out_features=10, bias=True)
  (1): ReLU()
  (2): Linear(in_features=10, out_features=3, bias=True)
)

In [28]:
def get_acc(outputs, labels):
    """计算acc"""
    _, predict = torch.max(outputs.data, 1)
    total_num = labels.shape[0]*1.0
    correct_num = (labels == predict).sum().item()
    acc = correct_num / total_num

    return acc

In [31]:
# 优化器
optim = torch.optim.Adam(net.parameters(), lr=0.0001)

# 损失
loss_fun = nn.CrossEntropyLoss()

In [32]:
# 训练
for e in range(1000):
    epoch_loss = 0
    epoch_acc = 0
    for i, (x, y) in enumerate(datas):
        optim.zero_grad()

        x = torch.as_tensor(x, dtype=torch.float)
        y = torch.as_tensor(y, dtype=torch.long)
        out = net(x)
        loss = loss_fun(out, y)

        loss.backward()
        optim.step()

        epoch_loss += loss.data
        epoch_acc += get_acc(out, y)

    if e % 200 == 0:
        print('epoch: %d, loss: %f, acc: %f' % (e, epoch_loss / 50, epoch_acc / 50))

epoch: 0, loss: 0.030020, acc: 0.050400
epoch: 200, loss: 0.025750, acc: 0.056000
epoch: 400, loss: 0.022585, acc: 0.058000
epoch: 600, loss: 0.019912, acc: 0.058000
epoch: 800, loss: 0.017524, acc: 0.058800
