ChineseNaturalLanguageProcess

中⽂⾃然语⾔处理(Chinese NLP)

任务1：中⽂分词(Text segmentation) 中⽂分词指的是使⽤计算机⾃动对中⽂⽂本进⾏词语的切分，即像英⽂那样使得中⽂句⼦中的词之间有空格以标识。中⽂分词被认为是中⽂⾃然语⾔处理中的⼀个最基本的环节。例：原始句：南京市⻓江⼤桥。分词结果1：南京 / 市⻓ / 江⼤桥 / 。分词结果2：南京市 / ⻓江 / ⼤桥 / 。关键词：词典（dict），正向最⼤匹配（forward maximum matching），逆向最⼤匹配（backward maximum matching）。

任务2：中⽂新词发现(New word discovery) 处理中⽂时，词典举⾜轻重，但是词典并不全⾯，⽣僻词、新词没有收录，从⽽不能被正确切分出来。新词发现可以帮助分词器识别尚未收录进词典的⽣词，以提升分词性能；亦可⽤于舆情分析，发现热点信息。例：原始句：王尼玛表现出⼀脸蓝瘦⾹菇的样⼦。提取出的新词：王尼玛，蓝瘦⾹菇。如果没有使⽤新词发现技术，对于原始句的分词结果会是：王 / 尼 / 玛 / 表现 / 出 / ⼀脸 / 蓝 / 瘦 / ⾹菇 / 的 / 样⼦ / 。借助新词发现技术后进⾏分词的结果：王尼玛 / 表现 / 出 / ⼀脸 / 蓝瘦⾹菇 / 的 / 样⼦ / 。关键词：信息熵（information entropy）。

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
.settings		.settings
src		src
.classpath		.classpath
.gitignore		.gitignore
.project		.project
CREDITS.md		CREDITS.md
FAQ.md		FAQ.md
HISTORY.md		HISTORY.md
INSTALL.md		INSTALL.md
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ChineseNaturalLanguageProcess

About

Releases

Packages

Contributors 4

Languages

License

Cogode/ChineseNaturalLanguageProcess

Folders and files

Latest commit

History

Repository files navigation

ChineseNaturalLanguageProcess

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Languages

Packages