Skip to content
Collections of many datasets you may need and play with.
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
scripts
readme.md

readme.md

Datasets

人工智能智能时代,依旧无法离开数据。奇异AI的工作者们收集了大量的数据来源,甚至在官网开辟了一块领域让大家方便的快速进入各大数据集入口。我们从以下领域出发收集来包含18大领域,近300种各类数据集。但其中有许多还无法完全包含进来,如果你有好的数据集来源,再可用的情况下可以给我们send PR。

本数据集由奇异人工智能整理发布,转载请注明出处:http://strangeai.pro 国内最大的人工智能算法交易平台。商业合作请联系:jintianiloveu.

Updates

  • 2019.04.08: Add eVDS dataset

  • 2018.12.29: 新增几个图像分割数据集

  • 2018.11.26: 新录入中文语音识别数据集

  • 2018.11.6: 新录入文本生成数据集

图像数据集(分类检测分割)

该部分数据集可以直接在奇异AI官网首页快速进入: http://strangeai.pro

单(多)目标跟踪数据集

  • DAVIS: 视频分割跟踪数据集 https://davischallenge.org/, 可以用来训练视频分割与跟踪模型;

  • IMDB WIKI: 分男女的人脸标注数据集;

  • Central Pedestrian: 带有3D框标注的行人追踪数据集;

语音数据集

  • LJ: 语音识别合成数据集,英文,女声,质量高,2.6G左右

  • OpenSLR: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline. 一个开源的中文语音数据集,下载地址:http://www.openslr.org/33/

  • VCTK: English multi speaker datasets to train a TTS with multi sounds.

  • Nancy: Nancy datasets for text to speech system, this dataset more clear then LJ I think.

图像生成

Others

  1. 金融

    美国劳工部统计局官方发布数据 沪深股票除权除息、配股增发全量数据,截止 2016.12.31 上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票 深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票

    深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票

    深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票

    上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票

  2. 交通

    2013年纽约出租车行驶数据

    2013年芝加哥出租车行驶数据

    Udacity自动驾驶数据

  3. 商业

    Airbnb 开放的民宿信息和住客评论数据

  4. 推荐系统

    Netflix 电影评价数据

    MovieLens 20m 电影推荐数据集

Copyright

本仓库由奇异AI在互联网基础上添加整理,感谢其他人的贡献。我们希望更多人通过学习AI知识,紧跟时代潮流,实现人生理想。奇异AI是国内最大的Paas算法交易平台,欢迎学习者或企业合作者与我们进行深入的算法合作.

关注【奇异人工智能】公众号
获取更多更有趣的AI教程
微信公众号:奇异人工智能
奇异官网:http://strangeai.pro
You can’t perform that action at this time.