# README.ipynb文件
### 作用
README.ipynb文件主要用来描述数据集信息，由YAML元数据和Markdown文档内容组成，最终内容可通过数据集介绍标签页面进行查看。为了社区用户更好地了解和发现您的数据集，建议您认真维护此文件。您可以通过在页面上点击 README.ipynb右侧的编辑按钮，进入到编辑页以后，使用右上角的 “使用模板编辑器”来帮助您创建更为规范准确的自述文件。![image.png](./resources/1661138137815-86eabd4c-7c2a-40bb-8a39-b18c337601bb.png)
### 组成
我们推荐数据集卡片提供如下内容描述，可通过数据集介绍页面进行查看，包括但不限于：

- **数据集协议、标签信息**。其中标签包含系统推荐标签和用户自定义标签。
- **数据集描述与简介**。介绍该数据集的基础信息、使用场景、子数据集、用途、数据量等。
- **支持的模型**。明确该数据集支持的模型信息。
- **数据集的格式和结构**。 包含数据的schema信息，并提供必要的数据样本示范。
- **如何使用**。 可以给出简单示例介绍用户如何使用该数据集，包括所使用的框架、运行环境要求等。若给出代码范例供效果更佳。
- **数据集生成的相关信息**。可以包含原始数据来源、数据标注方式、标注过程等。
### 官方样例
一个有效的数据集卡片需要包含YAML头部信息和Markdown文本。 头部的YAML信息使用---分组进行区隔。一份完整的YAML部分的内容参考如下：
```
---
license: Apache License 2.0
#用户自定义标签
tags:
- Alibaba
- arxiv:1810.99999
- my free-style tag

text:
  #二级只能属于一个task_categories
  fill_mask:
    #三级可以多选
    languages:
    - en
    multilinguality:
    - monolingual
    
audio:
  automatic_speech_recognition:
    languages:
    - en
    - fr
    sampling_rates:
    - 16000 <!--- integer --->
    - 64000

image:
  Image-to-Text:
    resolutions:
      - 640 x 480 
      - 1024 x 720
    color_space:
    - rgb
    encoding:
    - jpeg

video:
  Object-Detection:
    resolutions:
    - 640 x 480
    - 1024 x 720
    encoding:
    - mpeg
   
multi_modal:
    Feature Extraction:
      resolutions:
      - 640 x 480
      encoding:
      - H264
      languages:
      - en
      multilinguality:
      - monolingual

    
---    
<!--- 以上YAML section提供属性/tags描述--->

<!--- 以下为markdown格式的dataset描述--->

## 数据集描述
数据集整体描述。

### 数据集简介
提供对于数据集的介绍，支持的使用场景（包括支持的语言等）。

### 数据集支持的任务
该数据集支持的训练任务，以及相关benchmark结果。


## 数据集的格式和结构

### 数据格式
对数据的格式进行描述，包括数据的schema，以及提供必要的数据样本示范。
如果数据集内含多个子数据集的话，每个字数据集都应该提供相对应的数据格式描述。


### 数据集加载方式
通过代码范例等方式，提供数据集通过MaaS/Dataset SDK进行加载和使用的详细说明。

### 数据分片
数据集是否进行了预分片（例如是否有预设的train/test/validation的数据分片）。
如果有，数据的分片时如何实现的。
如果没有预先分片，是否对于数据使用过程中的分片有什么推荐（比例等）。



## 数据集生成的相关信息

### 原始数据
描述原始数据的来源以及数据的初步收集是如何进行的，是否经过归一化等处理流程。

### 数据集标注
该数据集是否包含标注，若有的话，相关信息描述。

#### 标注过程
标注是通过什么方式实现的，流程如何。

#### 标注者
标注者相关信息，尤其是当标着和原始数据提供者有所区别时。



## 数据集版权信息

数据集相关的版权信息，授权使用的场景和用户。是否开源，以及采用哪个开源协议等等。

## 引用方式

数据集是否有相关联的文章，以及如果在研究论文中要引用该数据集是否有推荐的引用格式等等。

## 其他相关信息

该数据集可能包含的个人和敏感信息，使用数据集需要考虑的相关背景；
数据集可能包含的社会意义以及其中可能包含的bias信息和可能的局限性等等。
```
# 托管到ModelScope数据集文件规范
## CSV文件
### 作用
当您选择了创建一个“托管到ModelScope”的数据集时，CSV文件是用于描述您的数据文件（zip）里的数据和其对应的meta是如何组织的。
### 组成
**首行**为header， 采用 逗号分隔， 每个字段 采用   {字段名}:{类型} 作为标识， {类型} 可以没有，则默认文本（Value）, 字段名不允许有重复，**_字段名不要以英文下划线"_"开头，可能会与系统保留字段冲突_**。
**第二行开始**为具体的数据，依然采用逗号分隔，字段数和header保持一致，涉及到FILE类型的时候，请填写其相对路径。
支持的**{类型}** 枚举

- FILE    ：  媒资文件相对zip包的路径 （会根据后缀解析为Image， Video， Audio）
### 官方样例
```basic
Title,Description,Input Video:FILE,Generated Video:FILE,Category:LABEL
男士衣服,宽松连体,train/input/0001.mp4,train/output/0001.mp4,服装
儿童玩具,五彩缤纷,train/input/0002.mp4,train/output/0002.mp4,玩具
```

CSV Example ： 

- [demo_test.csv ](https://dataset-hub.oss-cn-hangzhou.aliyuncs.com/documentation/example/demo_test.csv)
- [demo_train.csv](https://dataset-hub.oss-cn-hangzhou.aliyuncs.com/documentation/example/demo_train.csv)
- [pictures.zip](https://dataset-hub.oss-cn-hangzhou.aliyuncs.com/documentation/example/pictures.zip)
## 同名JSON文件
### 作用
当您选择了创建一个“托管到ModelScope”的数据集时，JSON文件是用于描述多个CSV文件和多个数据文件是如何互相映射的，以及每对映射是用于哪个子数据集或用途。

### 组成
如下：
外层key， 记录 子数据集的名称，默认可以填写为“default”；
每个子数据集内层的key，记录用途名称，默认填写为“train” （可以从train ，test， validate 选择）；
最内层键值对 ，记录 CSV文件（Meta字段）到 ZIP数据文件（file字段）的映射关系。
**同一个Subset下不同的CSV文件，请保证Schema 一致，否则会报错。**
```sql
{
	"default": {
		"train": {
			"meta": "my_train.csv",
			"file": "pictures.zip"
		}
	},
	"subsetA": {
		"test": {
			"meta": "mytest.csv",
			"file": "pictures.zip"
		}
	},
	"videoSubset": {},
	"kangdiSubset": {
		"test": {
			"meta": "test_dataset.csv",
			"file": "pictures.zip"
		},
		"train": {
			"meta": "test_dataset.csv",
			"file": "pictures.zip"
		}
	}
}
```
创建一个“托管到ModelScope”的数据集会默认生成一个同名json文件。

在前端通过交互以后生成并更新，您当然也可以按照规范在，自行在本地编辑好上传：
![image.png](./resources/1659343035958-a9be78e7-efda-48de-941e-61800e88ee2f.png)
![image.png](./resources/1659343020769-f0e25a8a-5c90-4eb0-902a-d49dd3be7d86.png)

### 官方样例
```sql
{
	"default": {
		"train": {
			"meta": "demo_train.csv",
			"file": "pictures.zip"
		}
	},
	"subsetA": {
		"test": {
			"meta": "demo_test.csv",
			"file": "pictures.zip"
		}
	}
}
```
# 

## ZIP文件
### 作用
ZIP文件是您的真实媒资数据所在，可以通过前端上传：![image.png](./resources/1659343311875-d1602dbb-9ec8-4451-8758-edb232c76899.png)
目前小于5G的压缩包，我们都会为您解压缩，并根据CSV文件和同名JSON文件，为您提供数据预览功能，大于5G则不会进行解压和预览，只作为数据托管用途。
多文件
# 托管到公开Host数据集文件规范
## 同名Python文件
### 作用
如果您的数据已经托管在公开的Host上，在创建数据集时候，选择“托管到公开Host”，我们会为您自动生成一个数据集同名Python文件，Python文件是为了告诉ModelScope如何可以正确解析您提供的数据集，数据是怎样组织的。
### 组成
同名的py文件下有一个同名的Python class，继承了datasets.GeneratorBasedBuilder 类，有三个方法需要您来实现：

- _info  方法：主要是对数据集的基本描述，一些外链的信息组织；**_字段名不要以英文下划线"_"开头，可能会与系统保留字段冲突_**。
- _split_generators： 主要是告诉我们如何下载这个外链的数据集，并将数据集的组成根据用途进行划分，e.g. trian, split 或者 validate；
- _generate_examples : 主要是告诉我们每条数据是如何组织的，下载下来的数据如何可以被转换成一个便于被训练加载的记录；
### 官方样例


In [1]:
# coding=utf-8

# Lint as: python3
"""FashionMNIST Data Set"""


import struct

import numpy as np

import datasets
from datasets.tasks import ImageClassification


_CITATION = """\
@article{DBLP:journals/corr/abs-1708-07747,
  author    = {Han Xiao and
               Kashif Rasul and
               Roland Vollgraf},
  title     = {Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning
               Algorithms},
  journal   = {CoRR},
  volume    = {abs/1708.07747},
  year      = {2017},
  url       = {http://arxiv.org/abs/1708.07747},
  archivePrefix = {arXiv},
  eprint    = {1708.07747},
  timestamp = {Mon, 13 Aug 2018 16:47:27 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1708-07747},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}
"""

_DESCRIPTION = """\
Fashion-MNIST is a dataset of Zalando's article images—consisting of a training set of
60,000 examples and a test set of 10,000 examples. Each example is a 28x28 grayscale image,
associated with a label from 10 classes. We intend Fashion-MNIST to serve as a direct drop-in
replacement for the original MNIST dataset for benchmarking machine learning algorithms.
It shares the same image size and structure of training and testing splits.
"""

_HOMEPAGE = "https://github.com/zalandoresearch/fashion-mnist"
_LICENSE = "https://raw.githubusercontent.com/zalandoresearch/fashion-mnist/master/LICENSE"

_URL = "http://vpf-pre.oss-cn-hangzhou.aliyuncs.com/tmp/dataset/fashion/"
_URLS = {
    "train_images": "train-images-idx3-ubyte.gz",
    "train_labels": "train-labels-idx1-ubyte.gz",
    "test_images": "t10k-images-idx3-ubyte.gz",
    "test_labels": "t10k-labels-idx1-ubyte.gz",
}

_NAMES = [
    "T - shirt / top",
    "Trouser",
    "Pullover",
    "Dress",
    "Coat",
    "Sandal",
    "Shirt",
    "Sneaker",
    "Bag",
    "Ankle boot",
]


class FashionMnist(datasets.GeneratorBasedBuilder):
    """FashionMNIST Data Set"""

    BUILDER_CONFIGS = [
        datasets.BuilderConfig(
            name="fashion_mnist",
            version=datasets.Version("1.0.0"),
            description=_DESCRIPTION,
        )
    ]

    def _info(self):
        return datasets.DatasetInfo(
            description=_DESCRIPTION,
            features=datasets.Features(
                {
                    "image": datasets.Image(),
                    "label": datasets.features.ClassLabel(names=_NAMES),
                }
            ),
            supervised_keys=("image", "label"),
            homepage=_HOMEPAGE,
            citation=_CITATION,
            task_templates=[ImageClassification(image_column="image", label_column="label")],
        )

    def _split_generators(self, dl_manager):
        urls_to_download = {key: _URL + fname for key, fname in _URLS.items()}
        downloaded_files = dl_manager.download_and_extract(urls_to_download)

        return [
            datasets.SplitGenerator(
                name=datasets.Split.TRAIN,
                gen_kwargs={
                    "filepath": [downloaded_files["train_images"], downloaded_files["train_labels"]],
                    "split": "train",
                },
            ),
            datasets.SplitGenerator(
                name=datasets.Split.TEST,
                gen_kwargs={
                    "filepath": [downloaded_files["test_images"], downloaded_files["test_labels"]],
                    "split": "test",
                },
            ),
        ]

    def _generate_examples(self, filepath, split):
        """This function returns the examples in the raw form."""
        # Images
        with open(filepath[0], "rb") as f:
            # First 16 bytes contain some metadata
            _ = f.read(4)
            size = struct.unpack(">I", f.read(4))[0]
            _ = f.read(8)
            images = np.frombuffer(f.read(), dtype=np.uint8).reshape(size, 28, 28)

        # Labels
        with open(filepath[1], "rb") as f:
            # First 8 bytes contain some metadata
            _ = f.read(8)
            labels = np.frombuffer(f.read(), dtype=np.uint8)

        for idx in range(size):
            yield idx, {"image": images[idx], "label": int(labels[idx])}





45-51行的URL信息，就是您应该提供的URL信息，该信息，在94-95 行被下载和解压。

值得注意的是，许多公开数据集的文件地址在海外，平时难以下载，或者下载很慢，笔者这里预先将fashion_mnist的数据集zip包手动下载并放到了自己的oss上面，并设置为公共读权限。

建议在本地编写好Python文件以后，先验证一下:


In [1]:
>> from datasets import load_dataset
>> fashion_mnist = load_dataset('./fashion_mnist.py')





如果可以成功load 到数据集，则至少说明python文件是符合要求的。![image.png](./resources/1656324519707-cfa0660e-a4d6-4494-8422-02e9a34f39c5.png)


In [1]:
>>> fashion_mnist
DatasetDict({
    train: Dataset({
        features: ['image', 'label'],
        num_rows: 60000
    })
    test: Dataset({
        features: ['image', 'label'],
        num_rows: 10000
    })
})





## ZIP文件
### 作用
同【托管到ModelScope数据集文件规范】->【ZIP文件】。
# 
### 

# 

