凝固度存疑 #14

WangQi1024 · 2019-11-08T13:43:49Z

您好，求解答： “巧克力”中“巧客”和“力”的凝固程度很高，所以更倾向于把“巧克力”定义为一个词，为什么按凝固程度，程序会找出“巧客”这样半个词的片段（博文中这么写的）谢谢？？？？

jtyoui · 2019-11-11T00:59:00Z

你说的巧客应该是巧克的意思吧，这个算法是按词袋进行统计的，意思是在统计巧克力三个字是不是成词的时候，首先先统计巧克（两个字）是不是成词，当巧克力出现的次数不是很多的时候，巧克的次数差不多等于巧克力的次数时，那么巧克和巧克力的统计分析结果相差不大，自然会出现断字（巧克之类的词语）出现。根本原因是数据量不足导致的。你可以人为的调整参数很增大数据量来避免这样的断字出现，其实有一些断字是有意义的，比如：中华人民共和国、中华、中华人民、共和国等都是有意义的。你如果只想要最大粒度的词语，那么过滤掉就行，过滤的算法可以参考：https://github.com/jtyoui/Jtyoui/blob/master/jtyoui/data/methods.py 里面的110行remove_subset函数。

import jtyoui

print(jtyoui.remove_subset(['aa', 'a', 'ab']))  
# ['aa', 'ab']

jtyoui · 2019-11-11T07:08:59Z

您好，求解答： “巧克力”中“巧客”和“力”的凝固程度很高，所以更倾向于把“巧克力”定义为一个词，为什么按凝固程度，程序会找出“巧客”这样半个词的片段（博文中这么写的）谢谢？？？？

https://github.com/jtyoui/Jtyoui/issues/14#issue-520022018

WangQi1024 · 2020-01-10T06:53:18Z

Thank you for your answering!

…

------------------ 原始邮件 ------------------ 发件人: "Jtyoui"<notifications@github.com>; 发送时间: 2019年11月11日(星期一) 上午8:59 收件人: "jtyoui/Jtyoui"<Jtyoui@noreply.github.com>; 抄送: "王琦"<243011212@qq.com>; "Author"<author@noreply.github.com>; 主题: Re: [jtyoui/Jtyoui] 凝固度存疑 (#14) 你说的巧客应该是巧克的意思吧，这个算法是按词袋进行统计的，意思是在统计巧克力三个字是不是成词的时候，首先先统计巧克（两个字）是不是成词，当巧克力出现的次数不是很多的时候，巧克的次数差不多等于巧克力的次数时，那么巧克和巧克力的统计分析结果相差不大，自然会出现断字（巧克之类的词语）出现。根本原因是数据量不足导致的。你可以人为的调整参数很增大数据量来避免这样的断字出现，其实有一些断字是有意义的，比如：中华人民共和国、中华、中华人民、共和国等都是有意义的。你如果只想要最大粒度的词语，那么过滤掉就行，过滤的算法可以参考：https://github.com/jtyoui/Jtyoui/blob/master/jtyoui/data/methods.py 里面的110行remove_subset函数。 import jtyoui print(jtyoui.remove_subset(['aa', 'a', 'ab'])) # ['aa', 'ab'] — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

jtyoui closed this as completed Nov 25, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

凝固度存疑 #14

凝固度存疑 #14

WangQi1024 commented Nov 8, 2019

jtyoui commented Nov 11, 2019

jtyoui commented Nov 11, 2019

WangQi1024 commented Jan 10, 2020 via email

凝固度存疑 #14

凝固度存疑 #14

Comments

WangQi1024 commented Nov 8, 2019

jtyoui commented Nov 11, 2019

jtyoui commented Nov 11, 2019

WangQi1024 commented Jan 10, 2020 via email