Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

代码中使用的统计量有哪些? #5

Open
kwinww opened this issue Jan 28, 2015 · 5 comments
Open

代码中使用的统计量有哪些? #5

kwinww opened this issue Jan 28, 2015 · 5 comments

Comments

@kwinww
Copy link

kwinww commented Jan 28, 2015

问题

hi jannson
您在另一个项目的说明中说到该项目用的算法来源于Martrix67的那篇文章,但是在阅读您的代码之后,发现您使用的统计量主要是左右邻接熵, 并未看到您使用凝固度,于是我在此基础上,又添加了凝固度统计量,可以又过滤一些“伪新词”, 但是在有些语料上该工具的新词的发现能力有时候还是不太好,。

所以,请问您的代码中主要都用了哪些统计量? 基于您的经验,如果要进一步优化,您觉得还需要做哪些方向的改进?谢谢!

K

@jannson
Copy link
Owner

jannson commented Jan 29, 2015

有点久,我已经不大记得那篇论文的专业术语了。 映像中就两点,每个词的词频,以及左右熵。
如果忽略左右熵,可以认为 “我的 ” 是一个词,因为 "我的“ 这个词出现了很多次,超过了某一个阀值

再加上左右熵,”我的“就不是词,因为它是一个很随机的组合,算不上是日常特定使用的词语。

上文所说的凝固统计量,是怎么个计算的?我看我在代码里面是不是我实现的意思~

@irwenqiang
Copy link

凝固度还是Matrix67那篇文章,计算联合概率

@milalaliu
Copy link

hi jannson
想请问一下您参考的那篇论文的名子是什么?

@jannson
Copy link
Owner

jannson commented Nov 2, 2016

@milalaliu
Copy link

感谢!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants