Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

WDC-Dialogue数据来源问题 #27

Closed
jiangliqin opened this issue Mar 16, 2022 · 10 comments
Closed

WDC-Dialogue数据来源问题 #27

jiangliqin opened this issue Mar 16, 2022 · 10 comments

Comments

@jiangliqin
Copy link

您好,paper中提到WDC-Dialogue数据分别来源于社交平台的转发、网站论坛的评论转发、问答交流,请问能再分别详细说明下分别在哪些网站中通过什么方式采集的吗?
比如zhihu平台是什么入口,或者什么关键词搜索相关数据?
对这部分工作比较感兴趣,请帮忙说明下,谢谢~

@TissueC
Copy link
Member

TissueC commented Mar 16, 2022

主要有微博的转发和评论、豆瓣小组、百度贴吧和知乎问答等。采集的时候我们是直接采集的,没有设定关键词。

@jiangliqin
Copy link
Author

您好,请问原始未处理的数据可以提供吗?

@TissueC
Copy link
Member

TissueC commented Mar 16, 2022

抱歉,发布原始数据并不在我们的近期计划之中。

@jiangliqin
Copy link
Author

请问签订数据协议申请也不可以吗?

@t1101675
Copy link
Member

数据协议的问题可以咨询 aihuang@tsinghua.edu.cn

@jiangliqin
Copy link
Author

好的,谢谢

@jiangliqin
Copy link
Author

@t1101675 昨天下午jiangliqin@migu.cn 已向 aihuang@tsinghua.edu.cn 发送咨询邮件,暂时未收到回应,请帮忙确认下,谢谢!

@jiangliqin
Copy link
Author

您好,感谢你们的工作!
关于在WDC-Dialogue基础上数据扩充的几个问题:
1.www.opensubtitles.org平台的电影电视剧台词是非中文的,请问你们是翻译成了中文吗?数据量有多大?这部分数据可以开放吗?
2.从LOT-LongLM项目中的小说数据提取的对话数据量量有多大?小说包含哪些题材类型,不同题材的小说是不是会影响模型效果的风格?请问这部分可以开放吗?

@TissueC
Copy link
Member

TissueC commented Mar 22, 2022

我们选取了有中文的字幕;我们尽可能选择了通用题材的小说;两者所占数据总量约10%;数据开放问题同上。

@jiangliqin
Copy link
Author

请问,小说的对话数据你们是怎么做处理的?
1.是构造成上下文多轮的形式吗?那么对话话题是怎么区分的?
2.对话中包含姓名等和上下文强相关的信息,这部分怎么处理?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants