代码中使用的统计量有哪些？ #5

kwinww · 2015-01-28T09:07:24Z

问题

hi jannson
您在另一个项目的说明中说到该项目用的算法来源于Martrix67的那篇文章，但是在阅读您的代码之后，发现您使用的统计量主要是左右邻接熵，并未看到您使用凝固度，于是我在此基础上，又添加了凝固度统计量，可以又过滤一些“伪新词”，但是在有些语料上该工具的新词的发现能力有时候还是不太好,。

所以，请问您的代码中主要都用了哪些统计量？基于您的经验，如果要进一步优化，您觉得还需要做哪些方向的改进？谢谢！

K

jannson · 2015-01-29T06:31:42Z

有点久，我已经不大记得那篇论文的专业术语了。映像中就两点，每个词的词频，以及左右熵。
如果忽略左右熵，可以认为 “我的 ” 是一个词，因为 "我的“ 这个词出现了很多次，超过了某一个阀值

再加上左右熵，”我的“就不是词，因为它是一个很随机的组合，算不上是日常特定使用的词语。

上文所说的凝固统计量，是怎么个计算的？我看我在代码里面是不是我实现的意思~

irwenqiang · 2015-02-13T07:16:32Z

凝固度还是Matrix67那篇文章，计算联合概率

milalaliu · 2016-11-02T03:04:24Z

hi jannson
想请问一下您参考的那篇论文的名子是什么?

jannson · 2016-11-02T04:55:56Z

http://www.matrix67.com/blog/archives/5044

milalaliu · 2016-11-04T01:17:56Z

感谢!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

代码中使用的统计量有哪些？ #5

代码中使用的统计量有哪些？ #5

kwinww commented Jan 28, 2015

jannson commented Jan 29, 2015

irwenqiang commented Feb 13, 2015

milalaliu commented Nov 2, 2016

jannson commented Nov 2, 2016

milalaliu commented Nov 4, 2016

代码中使用的统计量有哪些？ #5

代码中使用的统计量有哪些？ #5

Comments

kwinww commented Jan 28, 2015

问题

jannson commented Jan 29, 2015

irwenqiang commented Feb 13, 2015

milalaliu commented Nov 2, 2016

jannson commented Nov 2, 2016

milalaliu commented Nov 4, 2016