Skip to content

词典(dict),正向最⼤匹配(forward maximum matching),逆向最⼤匹配(backward maximum matching),信息熵(information entropy)。

License

Notifications You must be signed in to change notification settings

Cogode/ChineseNaturalLanguageProcess

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ChineseNaturalLanguageProcess

中⽂⾃然语⾔处理(Chinese NLP)

任务1:中⽂分词(Text segmentation) 中⽂分词指的是使⽤计算机⾃动对中⽂⽂本进⾏词语的切分,即像英⽂那样使得中⽂句⼦中的词之间有空格以标识。中⽂分词被认为是中⽂⾃然语⾔处理中的⼀个最基本的环节。 例: 原始句:南京市⻓江⼤桥。 分词结果1:南京 / 市⻓ / 江⼤桥 / 。 分词结果2:南京市 / ⻓江 / ⼤桥 / 。 关键词:词典(dict),正向最⼤匹配(forward maximum matching),逆向最⼤匹配(backward maximum matching)。

任务2:中⽂新词发现(New word discovery) 处理中⽂时,词典举⾜轻重,但是词典并不全⾯,⽣僻词、新词没有收录,从⽽不能被正确切分出来。新词发现可以帮助分词器识别尚未收录进词典的⽣词,以提升分词性能;亦可⽤于舆情分析,发现热点信息。 例: 原始句:王尼玛表现出⼀脸蓝瘦⾹菇的样⼦。 提取出的新词:王尼玛,蓝瘦⾹菇。 如果没有使⽤新词发现技术,对于原始句的分词结果会是: 王 / 尼 / 玛 / 表现 / 出 / ⼀脸 / 蓝 / 瘦 / ⾹菇 / 的 / 样⼦ / 。 借助新词发现技术后进⾏分词的结果: 王尼玛 / 表现 / 出 / ⼀脸 / 蓝瘦⾹菇 / 的 / 样⼦ / 。 关键词:信息熵(information entropy)。

About

词典(dict),正向最⼤匹配(forward maximum matching),逆向最⼤匹配(backward maximum matching),信息熵(information entropy)。

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •  

Languages