Skip to content
搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。
Jupyter Notebook
Branch: master
Clone or download
jinhuakst Merge pull request #3 from iamzn/master
1、新增安徽保险知道
Latest commit a0b781d Jan 17, 2019
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
datasets 更新 Jan 16, 2019
docs Add email of Mr. Cai Jan 3, 2019
README.md 修改下载地址链接 Jan 17, 2019

README.md

ChineseNlpCorpus

搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。

情感/观点/评论 倾向性分析

数据集 数据概览 下载地址
ChnSentiCorp_htl_all 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论 点击查看
waimai_10k 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条 点击查看
online_shopping_10_cats 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条,
包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店
点击查看
weibo_senti_100k 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条 点击查看
simplifyweibo_4_moods 36 万多条,带情感标注 新浪微博,包含 4 种情感,
其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条
点击查看
dmsc_v2 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 点击查看
yf_dianping 24 万家餐馆,54 万用户,440 万条评论/评分数据 点击查看
yf_amazon 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 点击查看

中文命名实体识别

数据集 数据概览 下载地址
dh_msra 5 万多条中文命名实体识别标注数据(包括地点、机构、人物) 点击查看

推荐系统

数据集 数据概览 下载地址
ez_douban 5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据 点击查看
dmsc_v2 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 点击查看
yf_dianping 24 万家餐馆,54 万用户,440 万条评论/评分数据 点击查看
yf_amazon 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 点击查看

FAQ 问答系统

数据集 数据概览 下载地址
保险知道 8000 多条保险行业问答数据,包括用户提问、网友回答、最佳回答 点击查看
安徽电信知道 15.6 万条电信问答数据,包括用户提问、网友回答、最佳回答 点击查看
金融知道 77 万条金融行业问答数据,包括用户提问、网友回答、最佳回答 点击查看
法律知道 3.6 万条法律问答数据,包括用户提问、网友回答、最佳回答 点击查看
联通知道 20.3 万条联通问答数据,包括用户提问、网友回答、最佳回答 点击查看
农行知道 4 万条农业银行问答数据,包括用户提问、网友回答、最佳回答 点击查看
保险知道 58.8 万条保险行业问答数据,包括用户提问、网友回答、最佳回答 点击查看

加入我们

You can’t perform that action at this time.