Skip to content

Commit

Permalink
增加了 对联数据、表格数据、索引工具、对话工具
Browse files Browse the repository at this point in the history
  • Loading branch information
fighting41love committed Jul 13, 2020
1 parent 998aaf4 commit 5da5ac5
Showing 1 changed file with 39 additions and 1 deletion.
40 changes: 39 additions & 1 deletion README.md
Expand Up @@ -558,7 +558,7 @@ mail1
**72\. 中文nlp竞赛项目及代码汇总** [github](https://github.com/geekinglcq/CDCS)
- 文本生成、文本摘要:Byte Cup 2018 国际机器学习竞赛
- 知识图谱:瑞金医院MMC人工智能辅助构建知识图谱大赛
- 视频识别 问答:2018之江杯全球人工智能大赛:视频识别&问答
- 视频识别 问答:2018之江杯全球人工智能大赛:视频识别&问答

**73\. 中文字符数据** [github](https://github.com/skishore/makemeahanzi)
- 简/繁体汉字笔顺
Expand Down Expand Up @@ -632,6 +632,7 @@ mail1

**103\. 中文NLP数据增强(EDA)工具** [github](https://github.com/zhanlaoban/eda_nlp_for_Chinese)
- [ ] 英文NLP数据增强工具 [github](https://github.com/makcedward/nlpaug)
- [ ] 一键中文数据增强工具 [github](https://github.com/425776024/nlpcda)

**104\. 基于医药知识图谱的智能问答系统** [github](https://github.com/YeYzheng/KGQA-Based-On-medicine)

Expand Down Expand Up @@ -1208,3 +1209,40 @@ for word in misspelled:

**346\. SIMPdf:Python写的简单PDF文件文字编辑器** [github](https://github.com/shashanoid/Simpdf)

**347\. 《配色辞典》数据集** [github](https://github.com/mattdesl/dictionary-of-colour-combinations)

**348\. carefree-learn:(PyTorch)表格数据集自动化机器学习(AutoML)包** [github](https://github.com/carefree0910/carefree-learn)

**349\. token2index:与PyTorch/Tensorflow兼容的强大轻量词条索引库** [github](https://github.com/Kaleidophon/token2index)

**350\. 开源对话式信息搜索平台** [github](https://github.com/microsoft/macaw)

**351\. 对联数据** [github](https://github.com/wb14123/couplet-dataset)
- 700,000 couplets, 超过70万对对联
- 百度云盘:[链接](https://pan.baidu.com/s/1BBXBsoIbkyI5eBRUjnpcTw) 密码:egpt

**352\. 基于Pytorch的Bert应用,包括命名实体识别、情感分析、文本分类以及文本相似度等** [github](https://github.com/rsanshierli/EasyBert)

**353\. TaBERT:理解表格数据查询的新模型** [paper](https://scontent-hkt1-1.xx.fbcdn.net/v/t39.8562-6/106708899_597765107810230_1899215558892880563_n.pdf?_nc_cat=107&_nc_sid=ae5e01&_nc_ohc=4sN3TJwewSIAX8iliBD&_nc_ht=scontent-hkt1-1.xx&oh=eccb9795f027ff63be61ff4a5e337c02&oe=5F316505)

**354\. Dakshina数据集:十二种南亚语言的拉丁/本地文字平行数据集合** [github](https://github.com/google-research-datasets/dakshina)

**355\. NLP标注平台综述** [github](https://github.com/alvations/annotate-questionnaire)

**356\. 封闭域微调表格检测** [github](https://github.com/holms-ur/fine-tuning)

**357\. 深度学习情感文本语音合成** [github](https://github.com/Emotional-Text-to-Speech/dl-for-emo-tts)

**358\. 中文写作校对工具** [github](https://xiezuocat.com/#/)

**359\. 用Quora问题对训练的T5问题意译(Paraphrase)** [github](https://github.com/renatoviolin/T5-paraphrase-generation)

**360\. 情境互动多模态对话挑战2020(DSTC9 2020)** [github](https://github.com/facebookresearch/simmc)

**361\. nlpgnn:图神经网络自然语言处理工具箱** [github](https://github.com/kyzhouhzau/NLPGNN)

**362\. Macadam:以Tensorflow(Keras)和bert4keras为基础,专注于文本分类、序列标注和关系抽取的自然语言处理工具包** [github](https://github.com/yongzhuo/Macadam)

**363\. 用新版nlp库加载17GB+英文维基语料只占用9MB内存遍历速度2-3 Gbit/s** [github](https://gist.github.com/thomwolf/13ca2b2b172b2d17ac66685aa2eeba62)


1 comment on commit 5da5ac5

@hhucYang
Copy link

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

有新闻文本分类吗

Please sign in to comment.