是否可以考虑给mysql做一个类ngram的插件 #58

Closed
Smallthing opened this Issue Mar 14, 2016 · 5 comments

Projects

None yet

2 participants

@Smallthing

mysql5.7已经包含ngram和日本那个mecab

@yanyiwu yanyiwu added the enhancement label Mar 14, 2016
@yanyiwu
Owner
yanyiwu commented Mar 14, 2016

这个确实是一直想做的事情,但是一直无奈没有抽出时间熟悉mysql的插件开发,没有做成。看来这个得抓紧了。

@Smallthing

这个的提升会非常大,自带的ngram只是很傻的n元分词,仅仅索引14G utf8mb4数据(7000万中文帖子的标题和内容),出来的全文索引为21G(肯定的,因为有很多用不上的二元词,这还是我加了stopword的结果,不加还要更大)

ngram被用在建立索引和查询分词的时候,
如果可以用到结巴的分词能力,整个提升一个台阶,并且索引也会减少很多

https://dev.mysql.com/doc/refman/5.7/en/writing-full-text-plugins.html
5.7的文档还不错,而且相对前面的版本提升巨大,之前的版本我觉得完全可以放弃了

@yanyiwu
Owner
yanyiwu commented Mar 15, 2016

好的,谢谢你提供的资料,我看了一下,还没看完,确实不错。找时间看完实践一下。

@yanyiwu
Owner
yanyiwu commented Mar 26, 2016

@Smallthing 你好,不好意思最近太忙了。搞到现在才跑通这个插件。https://github.com/yanyiwu/sqljieba
你有空试一下,我对mysql插件开发不熟悉,都是现学现卖的。很多地方可能写的问题,目前处于能跑通的状态。期待你的反馈。

@yanyiwu
Owner
yanyiwu commented Mar 26, 2016

之后关于sqljieba的问题请在 https://github.com/yanyiwu/sqljieba 的issue里面讨论吧。这个issue就close掉了。谢谢反馈。

@yanyiwu yanyiwu closed this Mar 26, 2016
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment