Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

@talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具或者包? #67

Closed
baojie opened this issue Aug 9, 2014 · 10 comments

Comments

@baojie
Copy link
Contributor

baojie commented Aug 9, 2014

original question
http://m.weibo.cn/1087795407/3741717855814097?sourceType=sms&from=1044195010&wm=4260_0001

@talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj
http://www.weibo.com/5220650532/BhWdIDon6

@talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答: 来自@算文解字 的补充答案:

  1. 基于分布的:gensim是一款开源Topic Modeling 的Python工具,包括了传统bag-of-words (1-hot) vector representation模型,常见相似度表征,及最新的word2vec。
  2. 基于资源的:中文没有免费的类似wordnet的资源,hownet是要收费的。可以看看哈工大免费的扩展板"同义词词林" . 全部答案看 http://memect.co/jhVzQnO
@haoawesome
Copy link
Collaborator

word2vec可能有用,支持中文

@haoawesome
Copy link
Collaborator

@杜振东_java 深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考http://t.cn/RP0xXNx,代码在此http://t.cn/RP0xOx0,感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈]
http://www.weibo.com/1247953577/BhRfpyyJw

glove入门实战 http://blog.csdn.net/adooadoo/article/details/38505497

@haoawesome
Copy link
Collaborator

@刘知远THU 斯坦福Richard Socher在EMNLP2014发表新作:GloVe: Global Vectors for Word Representation 粗看是融合LSA等算法的想法,利用global word co-occurrence信息提升word vector学习效果,很有意思,在word analogy task上准确率比word2vec提升了11%。 http://t.cn/RPohHyc
http://www.weibo.com/1464484735/BhbLD70wa

@haoawesome
Copy link
Collaborator

@张成_ICT @yongsun

@haoawesome haoawesome changed the title 请问有没有好用的中文词汇的语义相似度计算工具或者包? @talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具或者包? Aug 12, 2014
@haoawesome
Copy link
Collaborator

http://cs.tju.edu.cn/szdw/jsfjs/fengwei/papers/ICASSP2013_Nie/icassp2013.pdf

http://www.keenage.com/ 知网
基于《知网》的词汇语义相似度计算, 刘群, 李素建

http://www.cs.york.ac.uk/semeval-2012/task4/index.php?id=contact
Peng Jin (jandp@pku.edu.cn) Leshan Normal University, Leshan, China
Yunfang Wu (wuyf@pku.edu.cn) Peking University, Beijing, China

@haoawesome
Copy link
Collaborator

@talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj

http://www.weibo.com/5220650532/BhWdIDon6?ref=

@haoawesome
Copy link
Collaborator

昊奋
对于ESA,如果单纯使用wikipedia,由于中文维基百科的语料相比英语小很多,所以其实不满足ESA本身需要有高覆盖率的好处,需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。
http://www.weibo.com/2045933955/BhWfr2LYv?ref=atme

@haoawesome
Copy link
Collaborator

@算文解字
基于分布的:Python gensim一般就够用了,包括了传统的bag-of-words (1-hot) vector representation基础上的模型,以及几种常见相似度表征,还有最新的word2vec都有。
基于资源的:中文没有免费的类似wordnet的资源,hownet是要收费的。然而也许会有帮助的一个免费资源是哈工大的扩展板"同义词词林"

@haoawesome
Copy link
Collaborator

感谢各位在[中文词汇的语义相似度计算]问答上的推荐, 整理了一下,看看还有什么要增补的?
https://github.com/memect/hao/blob/master/awesome/chinese-word-similarity.md

@haoawesome
Copy link
Collaborator

[资源整理 ] 中文词汇语义相似度计算方法与工具 https://github.com/memect/hao/blob/master/awesome/chinese-word-similarity.md 包括:python gensim,word2vector, GloVe, Explicit Semantic Analysis 资料卡片: http://hao.memect.com/?tag=ChineseWordSimilarity 感谢 @杜振东_java @刘知远THU @昊奋 @算文解字 @Mr_UnderWaterrrrrr @朱鉴 @西瓜大丸子汤 @董力at北航 @尘绳聋-SYSU

http://www.weibo.com/5220650532/BiYH4E1Gw?ref=home

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants