Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

中文数据集做释义生成 #4

Open
Lier007 opened this issue Apr 10, 2019 · 3 comments
Open

中文数据集做释义生成 #4

Lier007 opened this issue Apr 10, 2019 · 3 comments

Comments

@Lier007
Copy link

Lier007 commented Apr 10, 2019

不好意思哈,为了表达清楚一些,直接上中文了
我在自己的中文数据集上尝试过Guu的Generating sentences by editing prototypes,发现效果挺不错的。后来看了您这篇论文,用您的模型试了下英文上的效果,发现也还挺不错
接下来想跑一下自己的中文数据集对比看看,不知道您之前有在中文上尝试过吗?效果如何?如果我想实现的话需要怎么处理数据呢

@NingMiao
Copy link
Owner

您好。
我也尝试过中文数据集,但是只在specific domain上做过,效果还可以呀。关键是中文的language model训好就可以了,强烈建议使用词而不是字作为基本的单元,这样就可以直接套原来的模型。

@Lier007
Copy link
Author

Lier007 commented Apr 12, 2019

1.喔喔我也试了下,感觉是我自己哪里出了bug,效果有点不是太好。
问一下 取关键词的时候依赖的ZPar(english-model),RAKE,是不是对中文不太友好哈,你那边跑中文的时候取关键词用的还是这俩包吗,还是换成其它方案了。

  1. 代码paraphrase/reader.py 79行 pos=zip(*[x.split('/') for x in pos_list])[0] 取0位置作POS感觉有点怪,不知道是不是我理解错了

3.额方便加个微信或者邮箱吗?这儿交流不是特别方便呢 (1005012904 微信邮箱都是)

@NingMiao
Copy link
Owner

1.ZPar有貌似有中文模型,可以直接换用,如果没有,就需要按论文搞一个。
2.这个应该没什么问题,不过我们可以邮件具体交流。
3.论文中邮箱哦,你可以随时联系我。就不粘在这里了,以防各种垃圾邮件。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants