WDC-Dialogue数据来源问题 #27

jiangliqin · 2022-03-16T02:10:04Z

您好，paper中提到WDC-Dialogue数据分别来源于社交平台的转发、网站论坛的评论转发、问答交流，请问能再分别详细说明下分别在哪些网站中通过什么方式采集的吗？
比如zhihu平台是什么入口，或者什么关键词搜索相关数据？
对这部分工作比较感兴趣，请帮忙说明下，谢谢~

TissueC · 2022-03-16T03:57:13Z

主要有微博的转发和评论、豆瓣小组、百度贴吧和知乎问答等。采集的时候我们是直接采集的，没有设定关键词。

jiangliqin · 2022-03-16T06:33:15Z

您好，请问原始未处理的数据可以提供吗？

TissueC · 2022-03-16T07:04:08Z

抱歉，发布原始数据并不在我们的近期计划之中。

jiangliqin · 2022-03-16T07:09:58Z

请问签订数据协议申请也不可以吗？

t1101675 · 2022-03-17T06:54:28Z

数据协议的问题可以咨询 aihuang@tsinghua.edu.cn

jiangliqin · 2022-03-17T10:17:29Z

好的，谢谢

jiangliqin · 2022-03-18T04:22:30Z

@t1101675 昨天下午jiangliqin@migu.cn 已向 aihuang@tsinghua.edu.cn 发送咨询邮件，暂时未收到回应，请帮忙确认下，谢谢！

jiangliqin · 2022-03-22T07:03:54Z

您好，感谢你们的工作！
关于在WDC-Dialogue基础上数据扩充的几个问题：
1.www.opensubtitles.org平台的电影电视剧台词是非中文的，请问你们是翻译成了中文吗？数据量有多大？这部分数据可以开放吗？
2.从LOT-LongLM项目中的小说数据提取的对话数据量量有多大？小说包含哪些题材类型，不同题材的小说是不是会影响模型效果的风格？请问这部分可以开放吗？

TissueC · 2022-03-22T07:13:51Z

我们选取了有中文的字幕；我们尽可能选择了通用题材的小说；两者所占数据总量约10%；数据开放问题同上。

jiangliqin · 2022-03-30T01:14:48Z

请问，小说的对话数据你们是怎么做处理的？
1.是构造成上下文多轮的形式吗？那么对话话题是怎么区分的？
2.对话中包含姓名等和上下文强相关的信息，这部分怎么处理？

t1101675 closed this as completed Mar 17, 2022

Jiaxin-Wen mentioned this issue Mar 23, 2022

EVA2.0论文相关 #30

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

WDC-Dialogue数据来源问题 #27

WDC-Dialogue数据来源问题 #27

jiangliqin commented Mar 16, 2022

TissueC commented Mar 16, 2022

jiangliqin commented Mar 16, 2022

TissueC commented Mar 16, 2022

jiangliqin commented Mar 16, 2022

t1101675 commented Mar 17, 2022

jiangliqin commented Mar 17, 2022

jiangliqin commented Mar 18, 2022

jiangliqin commented Mar 22, 2022

TissueC commented Mar 22, 2022

jiangliqin commented Mar 30, 2022

WDC-Dialogue数据来源问题 #27

WDC-Dialogue数据来源问题 #27

Comments

jiangliqin commented Mar 16, 2022

TissueC commented Mar 16, 2022

jiangliqin commented Mar 16, 2022

TissueC commented Mar 16, 2022

jiangliqin commented Mar 16, 2022

t1101675 commented Mar 17, 2022

jiangliqin commented Mar 17, 2022

jiangliqin commented Mar 18, 2022

jiangliqin commented Mar 22, 2022

TissueC commented Mar 22, 2022

jiangliqin commented Mar 30, 2022