-
Notifications
You must be signed in to change notification settings - Fork 421
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于语料 #30
Comments
@ZenXir 在
应该可以保留现有的格式继续 finetune |
好的 |
可以参考这里,#11 (comment) guanaco数据集中的多轮对话后面没有拼接Assistant:,belle对话后面有拼接Assistant:,可以注意一下(因为我们的prompt中有response这个字段所以理论不用拼接Assistant:,可以将belle后面的assistant处理掉)。 还需要注意的一点是,目前我们finetune中使用的全局instruction是通用形式的(如:Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.),是没有带多轮对话指令的(像chat.py或interaction.py中的指令,如:“The following is a conversation between an AI assistant called Assistant and a human user called User.”),虽然在推理的时候它还是能一定地理解它,但终究是和finetune的时候有一层gap,现在对话语料多了,可以考虑如下方式可能能提升对话效果:
如果要一起训练的话,目前推荐使用上面第一种,处理简单一点,也多占用不了多少token |
@Facico 大佬您好,我还有一个关于语料的问题。我看 |
@Evilran 统计了一下,指令+答案重复的大概有700条数据是存在重复,重复两次以上的是46条。不过在merge.json的数据规模下影响不会很大,毕竟在经过3个epoch的前提下,每条数据都会重复去finetune,不过可能会对里面某几个问题拟合程度可能会高一点。当然你也可以将重复的数据给去除掉,不过估计对模型整体效果影响不大。 |
这个belle数据挺好的,你们要训别用guanaco的那个chat数据了,里面全是猫娘。。。 |
@Facico 😂 好的,感谢大佬 |
[BELLE](https://huggingface.co/datasets/BelleGroup/multiturn_chat_0.8M)
这里公开了 8M的 80W条 多轮对话的语料
格式是这样:
这个语料可以直接用来finetune吗?还是需要把instruction里的多轮对话的上下文整理出来?
如果想让finetune的效果对多轮对话有较好支持 是不是保留现在格式 直接finetune比较好?
The text was updated successfully, but these errors were encountered: