-
Notifications
You must be signed in to change notification settings - Fork 128
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于去重的一点疑问? #1
Comments
wordnet相当于一个word2vec,#brownbear和#ursusarctos在wordnet中的Embedding距离非常近。你可以把这个合并想象成一个层次聚类的过程,通过阈值,确定不同word的聚类类别。用这个聚类的类别表示这个聚类中心中的所有word。 |
感谢您的及时回复。 |
这个词之间的距离一般使用cos距离进行度量,通过阈值判断判断他们是否相似啊。去重的过程,你可以参考一下层次聚类算法,原理是一样的。 |
我的问题在于向量的获取,而不是之后聚类、阈值判断之类的处理。不过还是很感谢您的耐心回复,谢谢。 |
https://github.com/Embedding/Chinese-Word-Vectors |
谢谢。 |
wn.synsets('brown_bear')和wn.synsets('ursus_arctos')的结果一样 |
感谢你的回复。 |
文章中说了,x的取值包括hashtag,也包括在hashtag每个位置都插入空格组成的二元词组,wordnet里对二元词组求synset时需要把空格转成"_"才有结果,所以#brownbear和#ursusarctos有相同的synset |
谢谢你的告知。
关于文章提到的在每个位置都插入空格组成的二元词组这部分,我卡住的原因是我们无法确定插入几个空格,也就是说brownbear是二元词组,但是对三元词组要插入两个空格才行。
不过我觉得这个应该不需要考虑三元问题,bigrams已经足够了。谢谢
…On Tue, 10 Jul 2018 at 14:38, lingyunwu14 ***@***.***> wrote:
文章中说了,x的取值包括hashtag,也包括在hashtag每个位置都插入空格组成的二元词组,wordnet里对二元词组求synset时需要把空格转成"_"才有结果,所以#brownbear和#ursusarctos有相同的synset
—
You are receiving this because you authored the thread.
Reply to this email directly, view it on GitHub
<#1 (comment)>,
or mute the thread
<https://github.com/notifications/unsubscribe-auth/AQYqlJOZn1Vh9dArpfaHo_J2PR7NRwanks5uFKBTgaJpZM4UcQmV>
.
|
不客气,刚好今天参考这个去重方式 |
您好,我最近也在关注Exploring the Limits of Weakly Supervised Pretraining这篇文章,打算复现其中的数据清洗部分,因为感觉比较简单高效。
但是对于合并不同的可能对应同样的意思标签,例如:#brownbear和#ursusarctos都表示棕熊,我不太明白作者是怎么通过wordnet实现的?反复读了他文章中解释这部分的内容,他是在hashtag string中不同位置依次插入空格,分割出的string跟WordNet匹配,再合并所有的synsets,然后如果两个set of synsets完全一样则认为这两个hashtag string相近。
但在我复现中始终没有能把#brownbear和#ursusarctos识别成相同意思,不知是不是我理解有误。
The text was updated successfully, but these errors were encountered: