Skip to content

A useful list of NLP(Natural Language Processing) resources

License

Notifications You must be signed in to change notification settings

Skywalker-Harrison/NLP-Resources

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

69 Commits
 
 
 
 
 
 

Repository files navigation

NLP Resources

A useful list of NLP(Natural Language Processing) resources

自然语言处理的相关资源列表,持续更新

Contents

NLP-Toolkits 自然语言工具包

  • Toolkits

    • CoreNLP: a set of natural language analysis tools written in Java,by Stanford

    • NLTK:a Python Natural Language Toolkit includes corpora, lexical resources and text processing libraries

    • gensimGithub,a Python library for topic modelling, document indexing and similarity retrieval with large corpora

    • LTP语言技术平台,中文NLP工具,支持Java & Python,by 哈工大

    • jieba:结巴中文分词,做最好的 Python 中文分词组件,现已覆盖几乎所有的语言和系统

    • fast jieba:使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数,速度得到大幅提升。

    • NLPIRJava 分词组件,by 中科院/北理工, PyNLPIR for Python

    • HanLP:中文NLP模型与算法工具包,支持Java & Python,by 上海林原信息科技有限公司

    • THULAC:高效的中文词法分析工具包,支持C++ & Java & Python,by 清华

    • pkuseg:多领域中文分词工具包,支持细分领域分词,支持Python,by 北大

    • FudanNLP:中文NLP工具包、机器学习算法和数据集,支持Java,by 复旦

    • Apache OpenNLP:支持常见的NLP任务,比如分词、断句、词性标注、命名实体抽取、组块分析、解析和指代消解,支持Java官网

    • SnowNLP 中文分词、词性标注、情感分析、文本分类(NB)、拼音转换(Trie树)、简繁转换(Trie树)、关键词提取(TextRank)、摘要提取(TextRank算法)、tf、idf、Tokenization、文本相似(BM25)

    • Ansj Seg Ansj中文分词,支持Java

NLP Corpus 自然语言处理语料库

Learning Materials 学习资料

  • ML Resources 机器学习书籍与资料

    • 《统计学习方法》 ML经典书籍,值得反复读,从公式推导到定理证明逻辑严谨,by 李航

    • 《机器学习》 俗称西瓜书,机器学习入门必备,by 周志华

    • 《深度学习(中文版)》 是一本皆在帮助学生和从业人员进入机器学习领域的教科书,以开源的形式免费在网络上提供Github,由学界领军人物 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 合力打造

    • Machine Learning 一些常见的机器学习算法的实现代码

    • Deep Learning 500 Questions 以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述

    • 神经网络与深度学习 介绍神经网络与深度学习中的基础知识、主要模型(卷积神经网络、递归神经网络等)以及在计算机视觉、自然语言处理等领域的应用,by 邱锡鹏

    • 吴恩达老师课程学习笔记:机器学习笔记深度学习笔记

    • Machine Learning Yearning 吴恩达老师根据自己多年实践经验整理出来的一本机器学习、深度学习实践经验宝典,重点不在于机器学习算法理论基础,而在于实践中使机器学习算法的实战经验

NLP Technology 自然语言处理相关技术

  • Text Similarity

    • Cilin and Hownet 综合了同义词词林扩展版与知网(Hownet)的词语相似度计算方法

    • Similarity Compute 基于同义词词林,知网,指纹,字词向量,向量空间模型的句子相似度计算

    • Siamese Sentence Similarity 基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集

    • SentenceSim,中文短文句相似度计算方法,包括基于知网、Onehot、word2vec、哈工大SDP及多个算法的融合以及LSTM算法

  • Text Generation

    • Texar Toolkit for Text Generation and Beyond

    • Awesome Text Generation A curated list of recent models of text generation and application

    • Ehud Reiter's Blog 博客对NLG技术、评价与应用进行了深入的探讨

    • Talk Latent slides of "Controlling Text Generation" by Alexander Rush

  • Sequence Labeling

    • Kashgari Simple and powerful NLP framework, build your state-of-art model in 5 minutes for named entity recognition (NER), part-of-speech tagging (PoS) and text classification tasks

  • Reading Comprehension

NLP Organizations 学术组织

排名不分先后,收集不全,欢迎完善

Reference

有部分资源来自于以下工作,在此表示感谢:

同时,对相关工作的作者一并表示感谢!

另外,相关资料的使用范围、授权请参考原始发布源(如果有的话),如有侵权,请联系我删除。

About

A useful list of NLP(Natural Language Processing) resources

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published