-
Notifications
You must be signed in to change notification settings - Fork 5
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
顺手画了个数据血缘图 #3
Comments
抱歉回复的有点晚,这个图很有意思hhh 对于问题的话 Q1:我们暂时还在实验来找到一个比较合适的数据配比,目前部分主观感受可能是相比其他中文模型少了些翻译腔,事实性这块更有特点,比如体现在如果提的问题有错误,回答有可能会指出来,也许是受到知乎“先问是不是,再问为什么”风气的影响。不过得看我们最终放出来的模型,尽量找到一个比较好的权衡。另外正式版数据(继续做了清洗和补充)、模型和论文尽量月末之前会出来。 Q2:我们很乐意加入真实对话数据,从您的数据介绍来看,是从WildChat中抽取出中文并过滤得到的吗,我认为也是对中文社区非常有意义的数据集,如果按照我们的流程将您的数据加入SFT的话,还需要人工验证一波回答,可能时间有点来不及了 Q3:确实和Tulu有些类似,混合了各种数据来源,其实很多来源在最开始并没有考虑,都是收集中看到质量高的就加进来的,coig-core这部分数据从子任务层面上看diversity也许没有原版的高,种类从原来的1k(coig-core中只含中英两种语言的files),筛选到了200左右,不过主观上我认为原版中很多任务相似度很高,我们筛选出来的子集已经具有一定代表性。后面我们会尝试从各指标来分析CQIA的diversity。 |
感谢您做的非常有趣的分析!不知道您最近有没有时间作为co-author加入我们论文的写作,您可以基于或继续扩展您现有的分析来撰写相应部分,如果您愿意加入,我们非常欢迎!我的微信是du33head 对于第二版数据,我个人是愿意继续贡献的,不过也需要看后续的项目安排。指令改写我觉得也可以,没准还能修正原有的错误。 CQIA的UMAP图的话,wikihow离主体比较远我个人也比较意外,知乎应该涵盖了类似的问题,也有可能确实wikihow这种“如何”的指令过短或和其他数据确实存在明显差异。电影推荐应该比较特殊,因为构造时是各种由多种模板拼接而成(直觉上sft时也不宜放太多)。 第二个和其他中文数据对比的图中,CQIA似乎在各方向的郊区有好几处扎堆?COIG-PC-lite在图下方扎堆的黄色您有看到主要是什么任务吗 对于您的初步结论我也基本都认同,做到tuluv2这样的覆盖率应该还有一段路要走,COIG-PC-Lite的这种现象也许是因为收集到的很少见的任务?semantic我认为基本可以看到数据集的趋势,我们也会尝试从其他方面分析和筛选数据,例如一些衡量数据质量的方式,如IFD |
顺便问个问题hh
Q1.我看到你们尝试了sft两个yi的模型,虽然还没放链接,有没有什么初步的感受分享一下?
Q2.在这个sft的过程中,是不是考虑加一些真实对话的数据?(掏出宝贝
https://huggingface.co/datasets/lorinma/Wildchat_zh_sharegpt_Subsample_20K
Q3. 其实越想越觉得你们在做的其实有点 tulu 的那种感觉了,我理解coig-core是人工审核过质量较高的,但是不是和coig(以及-lite)比较diversity相对低一些。
The text was updated successfully, but these errors were encountered: