Skip to content

nlp related resources+all kinds of tutorials 中文自然语言处理相关资料

Notifications You must be signed in to change notification settings

ningshixian/NLP-zoo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

NLP-zoo

对中文的NLP资源做个汇总,以备不时之需

目录

中文NLP语料资源

https://mp.weixin.qq.com/s/CODsntmNYwHga9jHxDdbgw

闲聊

语料名称 语料Size 语料来源 语料描述
中文对白语料 chinese conversation corpus 可以用作聊天机器人的训练语料
chatterbot 560 开源项目 按类型分类,质量较高
qingyun(青云语料) 10W 某聊天机器人交流群 相对不错,生活化
xiaohuangji(小黄鸡语料) 45W 原人人网项目语料 有一些不雅对话,少量噪音
douban(豆瓣多轮) 352W 来自北航和微软的paper, 开源项目 噪音相对较少,原本是多轮(平均7.6轮)
weibo(微博语料) 443W 来自华为的paper 有一些噪音
中文闲聊语料库LCCC ??W 清华大学2020 大规模的中文闲聊语料库LCCC,从开源的文件上来看,这可能是目前开源的数量最大、质量最好的闲聊语料库了
使用方法
下载语料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex

执行命令即可
python main.py

生成结果
每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。
生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer

领域特定语料

语料名称 语料大小 语料来源 语料描述
保险行业QA语料库 未知 通过翻译 insuranceQA产生的数据集 train_data含有问题12,889条,数据 141779条,正例:负例 = 1:10; test_data含有问题2,000条,数据 22000条,正例:负例 = 1:10;valid_data含有问题2,000条,数据 22000条,正例:负例 = 1:10
翻译语料(translation2019zh) 520万个中英文平行语料( 原始数据1.1G,压缩文件596M) 单元格 中英文平行语料520万对

NER

语料名称 语料大小 语料来源 语料描述
weibo NER corpus 未知 未知 包含了1,890条,设计的实体有:人名、地点、组织、地理政治相关实体
boson数据(不维护了) 2000条 未知 包含人名、地名、时间、组织名、公司名、产品名这6种实体类型
1998人民日报 新闻一共有137万多条 未知 包含地名、人名和机构名三类
MSRA 未知 未知 5 万多条中文命名实体识别标注数据(IOB2 格式,符合 CoNLL 2002 和 CRF++ 标准)包含地名、人名和机构名三类
Resume NER data ACL 2018 paper 《Chinese NER Using Lattice LSTM》 爬虫新浪财经的的简历数据, CoNLL format (BIOES tag scheme),包括城市、学校、地点、人名、组织等
影视、音乐、书籍 未知 未知 类似于人名/地名/组织机构名的命名体识别数据集,大约10000条影视/音乐/书籍数据
1300W字的新闻 未知 未知 该语料可用于分词、NER、POS等任务。标记和格式请参考此文章(https://cloud.tencent.com/developer/article/1091906)
CCKS2017中文电子病例命名实体识别 北京极目云健康科技有限公司 数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理
CCKS2018中文电子病例命名实体识别 医渡云(北京)技术有限公司 CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体
CLUE Fine-Grain NER CLUE CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料

文本分类

语料名称 语料大小 语料来源 语料描述
2018中国‘法研杯’法律智能挑战赛数据 未知 未知 268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑
今日头条中文新闻(短文本) 共382688条 未知 15个分类中,包含民生、文化、娱乐、体育、财经、房产、骑车、教育、科技、军事、旅游、国际、证券、农业、电竞
SMP2017中文人机对话评测数据 - 未知 包含了两个任务的数据集,用户意图领域分类和特定域任务型人机对话在线评测。第一个数据集用得比较多。用户意图领域分类包含闲聊类、任务垂直类共三十一个类别,属于短文本分类的一个范畴

情感/观点/评论 倾向性分析

数据集 数据概览 下载地址
ChnSentiCorp_htl_all 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论 点击查看
waimai_10k 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条 点击查看
online_shopping_10_cats 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条,
包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店
点击查看
weibo_senti_100k 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条 点击查看
simplifyweibo_4_moods 36 万多条,带情感标注 新浪微博,包含 4 种情感,
其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条
点击查看
dmsc_v2 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 点击查看
yf_dianping 24 万家餐馆,54 万用户,440 万条评论/评分数据 点击查看
yf_amazon 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 点击查看

推荐系统

数据集 数据概览 下载地址
ez_douban 5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据 点击查看
dmsc_v2 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 点击查看
yf_dianping 24 万家餐馆,54 万用户,440 万条评论/评分数据 点击查看
yf_amazon 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 点击查看

FAQ 问答

数据集 数据概览 下载地址
保险知道 8000 多条保险行业问答数据,包括用户提问、网友回答、最佳回答 点击查看
安徽电信知道 15.6 万条电信问答数据,包括用户提问、网友回答、最佳回答 点击查看
金融知道 77 万条金融行业问答数据,包括用户提问、网友回答、最佳回答 点击查看
法律知道 3.6 万条法律问答数据,包括用户提问、网友回答、最佳回答 点击查看
联通知道 20.3 万条联通问答数据,包括用户提问、网友回答、最佳回答 点击查看
农行知道 4 万条农业银行问答数据,包括用户提问、网友回答、最佳回答 点击查看
保险知道 58.8 万条保险行业问答数据,包括用户提问、网友回答、最佳回答 点击查看
580万百度知道社群问答 包括超过580万的问题,每个问题带有问题标签。问答对983万个,每个问题的答案个数1.7个,问题标签个数5824个。 点击查看
DuReader 百度开源的一个QA和MRC数据集,共140万篇文档,30万个问题,及66万个答案。 点击查看
社区问答数据 含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个话题,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签 点击查看

最新任务型对话数据集大全

由哈工大SCIR博士生侯宇泰收集整理的一个任务型对话数据集大全

这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。 此外,为了帮助研究者更好的把握领域进展的脉络,以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。

数据集的地址如下:

https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey

超大型通用语料

语料名称 语料大小 语料来源 语料描述
维基百科json版(wiki2019zh) 104万个词条, 1.6G wiki 做预训练的语料或构建词向量,也可以用于构建知识问答
新闻语料json版(news2016zh) 250万篇新闻,原始数据9G 涵盖了6.3万个媒体,含标题、关键词、描述、正文 密码: film 包含了250万篇新闻。数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万
百科类问答json版(baike2018qa) 150万个问答,原始数据1G多 密码:fu45 含有150万个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别
社区问答json版(webtext2019zh) 410万个问答,过滤后数据3.7G 1400万个原始问答 含有410万个预先过滤过的、高质量问题和回复。

其他资源

NLP工具包

  • THULAC 中文词法分析工具包 by 清华 (C++/Java/Python)

  • LTP 语言技术平台 by 哈工大 (C++) pylyp LTP的python封装

  • BaiduLac by 百度 Baidu's open-source lexical analysis tool for Chinese, including word segmentation, part-of-speech tagging & named entity recognition.

  • HanLP (Java)

  • SnowNLP (Python) Python library for processing Chinese text

  • 小明NLP (Python) 轻量级中文自然语言处理工具

  • chinese_nlp (C++ & Python) Chinese Natural Language Processing tools and examples

  • CoreNLP by Stanford (Java) A Java suite of core NLP tools.

  • Stanza by Stanford (Python) A Python NLP Library for Many Human Languages

  • spaCy (Python) Industrial-Strength Natural Language Processing with a online course

  • gensim (Python) Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora.

  • Kashgari - Simple and powerful NLP framework, build your state-of-art model in 5 minutes for named entity recognition (NER), part-of-speech tagging (PoS) and text classification tasks. Includes BERT and word2vec embedding.

中文分词

Chatbot问答和聊天机器人

NLP相关论文

Attention

  1. SEO, Minjoon, et al. Bidirectional attention flow for machine comprehension. arXiv preprint arXiv:1611.01603, 2016.

  2. ZADEH, Amir, et al. Multi-attention recurrent network for human communication comprehension. arXiv preprint arXiv:1802.00923, 2018.

  3. CHEN, Kehai, et al. Syntax-Directed Attention for Neural Machine Translation. arXiv preprint arXiv:1711.04231, 2017.

词向量表示学习

  1. AutoExtend_ACL2014

  2. AutoExtend_ACL2017

  3. WELLER-DI MARCO, Marion; FRASER, Alexander; IM WALDE, Sabine Schulte. Addressing Problems across Linguistic Levels in SMT: Combining Approaches to Model Morphology, Syntax and Lexical Choice. In: Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers. 2017. p. 625-630.

  4. YAGHOOBZADEH, Yadollah; SCHÜTZE, Hinrich. Multi-level representations for fine-grained typing of knowledge base entities. arXiv preprint arXiv:1701.02025, 2017.

  5. TISSIER, Julien; GRAVIER, Christophe; HABRARD, Amaury. Dict2vec: Learning Word Embeddings using Lexical Dictionaries. In: Conference on Empirical Methods in Natural Language Processing (EMNLP 2017). 2017. p. 254-263.

  6. PINTER, Yuval; GUTHRIE, Robert; EISENSTEIN, Jacob. Mimicking word embeddings using subword RNNs. arXiv preprint arXiv:1707.06961, 2017.

  7. CHIU, Billy, et al. How to train good word embeddings for biomedical NLP. In: Proceedings of the 15th Workshop on Biomedical Natural Language Processing. 2016. p. 166-174.

  8. XIE, Ruobing, et al. Lexical sememe prediction via word embeddings and matrix factorization. In: Proceedings of the 26th International Joint Conference on Artificial Intelligence. AAAI Press, 2017. p. 4200-4206.

  9. CHE, Zhengping, et al. Exploiting convolutional neural network for risk prediction with medical feature embedding. arXiv preprint arXiv:1701.07474, 2017.

  10. YU, Liang-Chih, et al. Refining word embeddings for sentiment analysis. In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017. p. 534-539.

  11. FARUQUI, Manaal, et al. Retrofitting word vectors to semantic lexicons. arXiv preprint arXiv:1411.4166, 2014.

  12. ABEND, Omri; RAPPOPORT, Ari. The state of the art in semantic representation. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017. p. 77-89.

  13. WU, Ledell, et al. StarSpace: Embed All The Things!. arXiv preprint arXiv:1709.03856, 2017.

  14. CHEN, Liang-Wei; LEE, Wei-Chun; HWANG, Hsiang-Wei. When Word Embedding Meets Lexical Networks.

对抗GAN

  1. 王坤峰, et al. 生成式对抗网络 GAN 的研究进展与展望. 自动化学报, 2017, 43.3: 321-332.

  2. CHEN, Xinchi, et al. Adversarial multi-criteria learning for chinese word segmentation. arXiv preprint arXiv:1704.07556, 2017.

  3. LIU, Pengfei; QIU, Xipeng; HUANG, Xuanjing. Adversarial multi-task learning for text classification. arXiv preprint arXiv:1704.05742, 2017.

  4. LI, Zheng, et al. End-to-end adversarial memory network for cross-domain sentiment classification. In: Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI). 2017. p. 2237.

  5. GUI, Tao, et al. Part-of-speech tagging for twitter with adversarial neural networks. In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017. p. 2411-2420.

  6. KIM, Joo-Kyung, et al. Cross-Lingual Transfer Learning for POS Tagging without Cross-Lingual Resources. In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017. p. 2832-2838.

  7. CRESWELL, Antonia, et al. Generative Adversarial Networks: An Overview. IEEE Signal Processing Magazine, 2018, 35.1: 53-65.

多任务学习

  1. CRICHTON, Gamal, et al. A neural network multi-task learning approach to biomedical named entity recognition. BMC bioinformatics, 2017, 18.1: 368.

  2. Chen, X., Qiu, X., & Huang, X. (2016). A feature-enriched neural model for joint Chinese word segmentation and part-of-speech tagging. arXiv preprint arXiv:1611.05384.

  3. RUDER, Sebastian. An overview of multi-task learning in deep neural networks. arXiv preprint arXiv:1706.05098, 2017.

  4. LONG, Mingsheng, et al. Learning Multiple Tasks with Multilinear Relationship Networks. In: Advances in Neural Information Processing Systems. 2017. p. 1593-1602.

  5. AGUILAR, Gustavo, et al. A Multi-task Approach for Named Entity Recognition in Social Media Data. In: Proceedings of the 3rd Workshop on Noisy User-generated Text. 2017. p. 148-153.

关系抽取任务

  1. WU, Yi; BAMMAN, David; RUSSELL, Stuart. Adversarial training for relation extraction. In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017. p. 1778-1783.

  2. HUANG, Yi Yao; WANG, William Yang. Deep Residual Learning for Weakly-Supervised Relation Extraction. arXiv preprint arXiv:1707.08866, 2017.

  3. HUANG, Yi Yao; WANG, William Yang. Deep Residual Learning for Weakly-Supervised Relation Extraction. arXiv preprint arXiv:1707.08866, 2017.

  4. HE, Zhengqiu, et al. SEE: Syntax-aware Entity Embedding for Neural Relation Extraction. arXiv preprint arXiv:1801.03603, 2018.

  5. GANEA, Octavian-Eugen; HOFMANN, Thomas. Deep Joint Entity Disambiguation with Local Neural Attention. arXiv preprint arXiv:1704.04920, 2017.

  6. ADEL, Heike; SCHÜTZE, Hinrich. Global Normalization of Convolutional Neural Networks for Joint Entity and Relation Classification. arXiv preprint arXiv:1707.07719, 2017.

  7. Zeng, W., Lin, Y., Liu, Z., & Sun, M. (2016). Incorporating relation paths in neural relation extraction. arXiv preprint arXiv:1609.07479.

  8. TAY, Yi; LUU, Anh Tuan; HUI, Siu Cheung. Learning to Attend via Word-Aspect Associative Fusion for Aspect-based Sentiment Analysis. arXiv preprint arXiv:1712.05403, 2017.

  9. Zeng, X., He, S., Liu, K., & Zhao, J. (2018). Large Scaled Relation Extraction with Reinforcement Learning. Relation, 2, 3.

迁移学习

  1. KIM, Joo-Kyung, et al. Cross-Lingual Transfer Learning for POS Tagging without Cross-Lingual Resources. In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017. p. 2832-2838.

  2. YANG, Zhilin; SALAKHUTDINOV, Ruslan; COHEN, William W. Transfer learning for sequence tagging with hierarchical recurrent networks. arXiv preprint arXiv:1703.06345, 2017.

  3. PAN, Sinno Jialin; YANG, Qiang. A survey on transfer learning. IEEE Transactions on knowledge and data engineering, 2010, 22.10: 1345-1359.

  4. PAN, Sinno Jialin, et al. Domain adaptation via transfer component analysis. IEEE Transactions on Neural Networks, 2011, 22.2: 199-210.

情感分类

  1. WANG, Bailin; LU, Wei. Learning Latent Opinions for Aspect-level Sentiment Classification. 2018.

About

nlp related resources+all kinds of tutorials 中文自然语言处理相关资料

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published