GitHub - AITutorials/datasets: Integrate AI data sites worldwide!

精选数据网站

以下每个数据站点均已根据知识共享署名4.0国际许可协议获得许可。每个人都可以访问，并根据规则下载使用丰富的数据资源。

1. VisualData

VisualData 被称为最好的CV数据集合网站, 在这里你将发现丰富的可用数据资源，助力你的CV学习之旅。

[进入网站](https://www.visualdata.io/)

2. DatasetList

DatasetList 是综合性数据集合网站, 在这里你将发现NLP, CV, Audio所有类型的数据集，同时它更新和指引当前最流行的数据标注工具。

[进入网站](https://www.datasetlist.com/)

3. FigureEight

FigureEight 为整个数据科学社区提供经典的综合性数据集, 在这里你将可以查看和下载足够大的数据集以进行模型训练，如: 医学信息提取, 旧金山停车标志检测等。

[进入网站](https://www.figure-eight.com/datasets/)

4. Kaggle

Kaggele 作为以机器学习竞赛而享誉全球的站点，它仍然对外提供并征集免费的数据资源，如：具有300万条记录的美国事故数据集，2019冠状病毒数据集等。

[进入网站](https://www.kaggle.com/datasets/)

5. TFDS

TFDS 全称Tensorflow Datasets，由tensorflow团队提供的综合数据集工具，截止到2020年3月，共包含数据集155个，类型包括：文本，图片，视频，语音，结构化表格等AI基线数据集，当然除了提供下载外，它也包括许多数据集处理方法。

[进入网站](https://https//tensorflow.google.cn/datasets/catalog/overview?hl=zh-cn)

6. TorchVision

pytorch中的视觉工具包，除了包括一些视觉处理工具和模型，通过它也可以下载24种(截止到2020年3月)最常用的视觉数据集，例如：COCO，MNIST，VOC，FakeData等。

[进入网站](https://pytorch.org/docs/stable/torchvision/index.html?highlight=torchvision#module-torchvision)

7. TorchText

pytorch中的视觉工具包，除了包括一些视觉处理工具和模型，通过它也可以下载24种(截止到2020年3月)最常用的视觉数据集，例如：COCO，MNIST，VOC，FakeData等。

[进入网站](https://pytorch.org/text/datasets.html)

8. TorchAudio

pytorch中的语音工具包，除了包括一些语音处理工具和模型，通过它也可以下载4种(截止到2020年3月)最常用的语音数据集，如：COMMONVOICE，LIBRISPEECH，VCTK，YESNO。

[进入网站](https://pytorch.org/audio/datasets.html#librispeech)

9. Anki

Anki机器翻译数据站点几乎包含所有主流语言对英文的翻译，这些数据集能测试不同机器翻译模型效果，如果你正在从事这方面的研究，它将对你意义非凡。

[进入网站](http://www.manythings.org/anki/)

10. AwesomeDatasets

GitHub上获得星数最多的数据集项目，它同样是一个数据集向导，包括几乎所有类型的数据集！

[进入网站](https://github.com/awesomedata/awesome-public-datasets)

11. OpenSLR

OpenSLR是一个致力于托管语音和语言资源的网站，例如用于语音识别的训练语料库以及与语音识别有关的软件。让任何人都可以方便地放置他们创建的资源和公开下载它们。

[进入网站](http://www.openslr.org/resources.php)

12. CelebA

CelebA拥有大规模的人脸标准数据集，共有202,599张人脸图像，由香港中文大学多媒体实验室提供。

[进入网站](http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html)

13. CLUECorpus2020

这是中文语言理解测评基准的数据集，它已经被用于大量主流NLP模型的中文测试，其中包括：8G的新闻语料，3G的社区互动-语料，1.1G维基百科-语料，2.3G评论数据-语料。

[进入网站](https://github.com/CLUEbenchmark/CLUE)

14. WiderPerson

这是由中科院发布的用于户外密集行人检测的多样化数据集，它是人流量检测重要的参考数据集之一，也是该领域CV模型效果的衡量标准。该数据集一共13,382张图像，其中9,000已经被标注，其余用于提交测试。

[进入网站](http://www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson/)

15. CrowdHuman

这是由旷视发布的拥挤人群检测数据集，也是非常具有代表性的流量统计数据集，CrowdHuman标准数据丰富，包含分别用于训练，验证和测试的15000、4370和5000张图像。

[进入网站](https://www.crowdhuman.org/)

Name		Name	Last commit message	Last commit date
Latest commit History 88 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

精选数据网站

1. VisualData

2. DatasetList

3. FigureEight

4. Kaggle

5. TFDS

6. TorchVision

7. TorchText

8. TorchAudio

9. Anki

10. AwesomeDatasets

11. OpenSLR

12. CelebA

13. CLUECorpus2020

14. WiderPerson

15. CrowdHuman

About

Releases

Packages

Contributors 2

AITutorials/datasets

Folders and files

Latest commit

History

Repository files navigation

精选数据网站

1. VisualData

2. DatasetList

3. FigureEight

4. Kaggle

5. TFDS

6. TorchVision

7. TorchText

8. TorchAudio

9. Anki

10. AwesomeDatasets

11. OpenSLR

12. CelebA

13. CLUECorpus2020

14. WiderPerson

15. CrowdHuman

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Packages