Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

顺手画了个数据血缘图 #3

Closed
nuoma opened this issue Dec 18, 2023 · 3 comments
Closed

顺手画了个数据血缘图 #3

nuoma opened this issue Dec 18, 2023 · 3 comments

Comments

@nuoma
Copy link

nuoma commented Dec 18, 2023

image

顺便问个问题hh

Q1.我看到你们尝试了sft两个yi的模型,虽然还没放链接,有没有什么初步的感受分享一下?

Q2.在这个sft的过程中,是不是考虑加一些真实对话的数据?(掏出宝贝
https://huggingface.co/datasets/lorinma/Wildchat_zh_sharegpt_Subsample_20K

Q3. 其实越想越觉得你们在做的其实有点 tulu 的那种感觉了,我理解coig-core是人工审核过质量较高的,但是不是和coig(以及-lite)比较diversity相对低一些。

@paralym
Copy link
Owner

paralym commented Dec 19, 2023

抱歉回复的有点晚,这个图很有意思hhh

对于问题的话

Q1:我们暂时还在实验来找到一个比较合适的数据配比,目前部分主观感受可能是相比其他中文模型少了些翻译腔,事实性这块更有特点,比如体现在如果提的问题有错误,回答有可能会指出来,也许是受到知乎“先问是不是,再问为什么”风气的影响。不过得看我们最终放出来的模型,尽量找到一个比较好的权衡。另外正式版数据(继续做了清洗和补充)、模型和论文尽量月末之前会出来。

Q2:我们很乐意加入真实对话数据,从您的数据介绍来看,是从WildChat中抽取出中文并过滤得到的吗,我认为也是对中文社区非常有意义的数据集,如果按照我们的流程将您的数据加入SFT的话,还需要人工验证一波回答,可能时间有点来不及了

Q3:确实和Tulu有些类似,混合了各种数据来源,其实很多来源在最开始并没有考虑,都是收集中看到质量高的就加进来的,coig-core这部分数据从子任务层面上看diversity也许没有原版的高,种类从原来的1k(coig-core中只含中英两种语言的files),筛选到了200左右,不过主观上我认为原版中很多任务相似度很高,我们筛选出来的子集已经具有一定代表性。后面我们会尝试从各指标来分析CQIA的diversity。

@nuoma
Copy link
Author

nuoma commented Dec 20, 2023

感谢你的回答,我也分享一下我的想法。

真实对话数据是从WildChat中抽取出中文并进行clustering得到的。我理解时间上来不及,如果你们有意愿把CQIA做成一个像tulu一样会更新到第二版,或一个长期持续更新的数据集,相信对于中文开源界会是非常大的贡献(which is extremely欠缺,SFT方面除了年初的moss003和coig以后就非常欠缺中文的开放数据集。

对于采用coig-core或者-lite,私以为将instruction通过大模型在不改变原意的情况下改写会是一个好的选择。

至于CQIA里面的不同class,我把instruction通过bert-base-chinese转成向量并做了一下umap的可视化,抱歉格式稀烂没有仔细调整,第一感觉是绝大部分(如知乎)语义上聚类没问题,但郊区的wikihow和电影推荐独自一坨确实没料到。

image

第二个可视化是CQIA和其他几个我觉得有代表性的中文数据集:kun, moss, wildchat, coig-pc-lite。通过放大观察,发现覆盖面最广的是Wildchat。kun,moss,coig各自语义有扎堆。而CQIA也能做到非常广泛的语义覆盖,并且很有趣的是在外围零散的点位会出现扎堆(coig-pc-lite也有,但这些地方往往都没有观察到wildchat的出现)。
image

同样的可视化手段,在英文领域对slim orca, tulu v2, sharegpt也做了一个(这是最一开始用的tsne,后来想想不对换成了umap),其实我觉得这张图能说明tulu v2 semantically include shareGPT, and roughly cover the semantic space of slim-orca
Image

语义覆盖可视化这件事情是这两天的突发奇想,还没有想的很明白。如果有初步结论的话,我认为:
1.通过类比英文领域的结果,CQIA暂时还做不到像tulu v2那样高的覆盖率。
2.但和已有的中文数据集做对比,CQIA已经能做到非常广泛的覆盖,如果能够结合COIG-PC-Lite这种的数据集,在郊区的覆盖率会更高。目前看来郊区是Wildchat这种并没有覆盖到的,考虑到他们的对话数据收集方式(hf spaces),可能是因为使用人群问的问题不如像英文shareGPT那样的广泛和多样。
3.当然了一个大前提是这么干semantic space visualization的方法是正确的,说实话也确实没看过有人这么干过。

anyway依然会持续关注你们的工作

@paralym
Copy link
Owner

paralym commented Dec 20, 2023

感谢您做的非常有趣的分析!不知道您最近有没有时间作为co-author加入我们论文的写作,您可以基于或继续扩展您现有的分析来撰写相应部分,如果您愿意加入,我们非常欢迎!我的微信是du33head

对于第二版数据,我个人是愿意继续贡献的,不过也需要看后续的项目安排。指令改写我觉得也可以,没准还能修正原有的错误。

CQIA的UMAP图的话,wikihow离主体比较远我个人也比较意外,知乎应该涵盖了类似的问题,也有可能确实wikihow这种“如何”的指令过短或和其他数据确实存在明显差异。电影推荐应该比较特殊,因为构造时是各种由多种模板拼接而成(直觉上sft时也不宜放太多)。

第二个和其他中文数据对比的图中,CQIA似乎在各方向的郊区有好几处扎堆?COIG-PC-lite在图下方扎堆的黄色您有看到主要是什么任务吗

对于您的初步结论我也基本都认同,做到tuluv2这样的覆盖率应该还有一段路要走,COIG-PC-Lite的这种现象也许是因为收集到的很少见的任务?semantic我认为基本可以看到数据集的趋势,我们也会尝试从其他方面分析和筛选数据,例如一些衡量数据质量的方式,如IFD

@nuoma nuoma closed this as completed Dec 21, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants