Skip to content

AITutorials/datasets

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

88 Commits
 
 

Repository files navigation

精选数据网站

Logo Build Status


以下每个数据站点均已根据知识共享署名4.0国际许可协议获得许可。每个人都可以访问,并根据规则下载使用丰富的数据资源。


1. VisualData

VisualData 被称为最好的CV数据集合网站, 在这里你将发现丰富的可用数据资源,助力你的CV学习之旅。

[进入网站](https://www.visualdata.io/)

2. DatasetList

DatasetList 是综合性数据集合网站, 在这里你将发现NLP, CV, Audio所有类型的数据集,同时它更新和指引当前最流行的数据标注工具。

[进入网站](https://www.datasetlist.com/)

3. FigureEight

FigureEight 为整个数据科学社区提供经典的综合性数据集, 在这里你将可以查看和下载足够大的数据集以进行模型训练,如: 医学信息提取, 旧金山停车标志检测等。

[进入网站](https://www.figure-eight.com/datasets/)

4. Kaggle

Kaggele 作为以机器学习竞赛而享誉全球的站点,它仍然对外提供并征集免费的数据资源,如:具有300万条记录的美国事故数据集,2019冠状病毒数据集等。

[进入网站](https://www.kaggle.com/datasets/)

5. TFDS

TFDS 全称Tensorflow Datasets,由tensorflow团队提供的综合数据集工具,截止到2020年3月,共包含数据集155个,类型包括:文本,图片,视频,语音,结构化表格等AI基线数据集,当然除了提供下载外,它也包括许多数据集处理方法。

[进入网站](https://https//tensorflow.google.cn/datasets/catalog/overview?hl=zh-cn)

6. TorchVision

pytorch中的视觉工具包,除了包括一些视觉处理工具和模型,通过它也可以下载24种(截止到2020年3月)最常用的视觉数据集,例如:COCO,MNIST,VOC,FakeData等。

[进入网站](https://pytorch.org/docs/stable/torchvision/index.html?highlight=torchvision#module-torchvision)

7. TorchText

pytorch中的视觉工具包,除了包括一些视觉处理工具和模型,通过它也可以下载24种(截止到2020年3月)最常用的视觉数据集,例如:COCO,MNIST,VOC,FakeData等。

[进入网站](https://pytorch.org/text/datasets.html)

8. TorchAudio

pytorch中的语音工具包,除了包括一些语音处理工具和模型,通过它也可以下载4种(截止到2020年3月)最常用的语音数据集,如:COMMONVOICE,LIBRISPEECH,VCTK,YESNO。

[进入网站](https://pytorch.org/audio/datasets.html#librispeech)

9. Anki

Anki机器翻译数据站点几乎包含所有主流语言对英文的翻译,这些数据集能测试不同机器翻译模型效果,如果你正在从事这方面的研究,它将对你意义非凡。

[进入网站](http://www.manythings.org/anki/)

10. AwesomeDatasets

GitHub上获得星数最多的数据集项目,它同样是一个数据集向导,包括几乎所有类型的数据集!

[进入网站](https://github.com/awesomedata/awesome-public-datasets)

11. OpenSLR

OpenSLR是一个致力于托管语音和语言资源的网站,例如用于语音识别的训练语料库以及与语音识别有关的软件。让任何人都可以方便地放置他们创建的资源和公开下载它们。

[进入网站](http://www.openslr.org/resources.php)

12. CelebA

CelebA拥有大规模的人脸标准数据集,共有202,599张人脸图像,由香港中文大学多媒体实验室提供。

[进入网站](http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html)

13. CLUECorpus2020

这是中文语言理解测评基准的数据集,它已经被用于大量主流NLP模型的中文测试,其中包括:8G的新闻语料,3G的社区互动-语料,1.1G维基百科-语料,2.3G评论数据-语料。

[进入网站](https://github.com/CLUEbenchmark/CLUE)

14. WiderPerson

这是由中科院发布的用于户外密集行人检测的多样化数据集,它是人流量检测重要的参考数据集之一,也是该领域CV模型效果的衡量标准。该数据集一共13,382张图像,其中9,000已经被标注,其余用于提交测试。

[进入网站](http://www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson/)

15. CrowdHuman

这是由旷视发布的拥挤人群检测数据集,也是非常具有代表性的流量统计数据集,CrowdHuman标准数据丰富,包含分别用于训练,验证和测试的15000、4370和5000张图像。

[进入网站](https://www.crowdhuman.org/)

About

Integrate AI data sites worldwide!

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published