Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

doc2vec vs lda #1

Open
wanggaohang opened this issue Jan 6, 2016 · 1 comment
Open

doc2vec vs lda #1

wanggaohang opened this issue Jan 6, 2016 · 1 comment

Comments

@wanggaohang
Copy link

两者都是将文档降维成向量,不知 doc2vec 的实际效果怎么样?

@hiyijian
Copy link
Owner

hiyijian commented Jan 7, 2016

@wanggaohang ,你好
这个问题我没有认真的调研过。不过我猜实际效果取决于多种因素,比如参数是否都调优了,应用场景,数据规模和特点。笼统的说对比效果感觉意义不大
但我可以分享一些实战经验,
1\ doc2vec在短文本上效果较差。常常表现为无法抓住短文本的重点语义。比如在ReadMe中我展示了一个bad case: 与“遥感信息发展战略与对策”第二相似的是"我国观光果园的发展现状、存在问题与对策",这显然是由于doc2vec没有抓住句子的核心语义造成的。 所以我觉得这个东西也许要加上某种attention机制才会大放异彩。 最近没有精力关注这方面的前沿,如果你知道,请也告诉我。另一方面,在长文本上表现据报道是不错的,比如此文,但我没实际操作过
2\ 对于LDA,短文本依然存在1\中的问题,长文本效果能make sense。理论上考虑,改进的想象空间还是有的,你可以关注这个issue的进展

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants