# 自定义数据集

[![下载Notebook](https://gitee.com/mindspore/docs/raw/tutorials-develop/resource/_static/logo_notebook.png)](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/notebook/tutorials-develop/tutorials/zh_cn/mindspore_dataset.ipynb)&emsp;[![下载样例代码](https://gitee.com/mindspore/docs/raw/tutorials-develop/resource/_static/logo_download_code.png)](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/notebook/tutorials-develop/tutorials/zh_cn/mindspore_dataset.py)&emsp;[![查看源文件](https://gitee.com/mindspore/docs/raw/tutorials-develop/resource/_static/logo_source.png)](https://gitee.com/mindspore/docs/blob/tutorials-develop/tutorials/source_zh_cn/beginner/dataset.ipynb)

[mindspore.dataset](https://www.mindspore.cn/docs/api/zh-CN/master/api_python/mindspore.dataset.html)提供了部分常用数据集和标准格式数据集的加载接口，使得用户能够快速进行数据处理操作。对于图像数据集，用户可使用`mindvision.dataset`来加载和处理数据集。

`mindvision.dataset`是在`mindspore.dataset`的基础上开发的数据集接口。除提供数据集加载功能外，`mindvision.dataset`还提供数据集下载功能、数据处理和数据增强功能。本章首先介绍如何使用`mindvision.dataset.Cifar10`接口加载并处理CIFAR-10数据集，然后介绍如何使用`mindspore.dataset.GeneratorDataset`实现自定义数据集加载。

## 自定义数据集

对于MindSpore暂不支持直接加载的数据集，可以构造自定义数据集类，然后通过`mindspore.dataset.GeneratorDataset`接口实现自定义方式的数据加载。其中用户需要自定义的类函数如下：

+ `__init__`：定义数据初始化等操作，在实例化数据集对象时被调用。

+ `__getitem__`：定义该函数后可使其支持随机访问，能够根据给定的索引值`index`，获取数据集中的数据并返回。数据返回值类型是由NumPy数组组成   的Tuple。
+ `__len__`：返回数据集的样本数量。

示例如下，定义数据集类`DatasetGenerator`之后，就可以通过`GeneratorDataset`接口按照用户定义的方式加载并访问数据集样本。

In [2]:
import numpy as np
import mindspore.dataset as ds

np.random.seed(58)

class DatasetGenerator:
    '''自定义数据集'''
    def __init__(self):
        self.data = np.random.sample((5, 2))
        self.label = np.random.sample((5, 1))

    def __getitem__(self, index):
        return self.data[index], self.label[index]

    def __len__(self):
        return len(self.data)

# 加载数据集
dataset_generator = DatasetGenerator()
dataset = ds.GeneratorDataset(dataset_generator, ["data", "label"], shuffle=False)

# 迭代访问数据集
for data in dataset.create_dict_iterator():
    print(f"data: {data['data']}, label:{data['label']}")

data: [0.36510558 0.45120592], label:[0.78888122]
data: [0.49606035 0.07562207], label:[0.38068183]
data: [0.57176158 0.28963401], label:[0.16271622]
data: [0.30880446 0.37487617], label:[0.54738768]
data: [0.81585667 0.96883469], label:[0.77994068]


!!!赵宇，我看水琴的models相关文章里面，也有自定义数据集，其中一个自定义数据集用的是yield的方式输出数据，上面的代码只用了return的方式。第二点是，自定义数据集，应该包括multi label方式。