Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

怎么做预训练,比如文档续写的,目前看到只能对话数据? #93

Closed
TccccD opened this issue Mar 28, 2023 · 9 comments

Comments

@TccccD
Copy link

TccccD commented Mar 28, 2023

怎么做预训练,比如文档续写的,目前看到只能对话数据?如果能的话,需要怎么给数据结构。
@ssbuild @sepilqi

@ssbuild
Copy link
Owner

ssbuild commented Mar 28, 2023

例如小说 , 按照篇章切分数据, question 为标题 , answer 为内容 (处理成单轮会话格式), 使用 doublesliding 策略就可以完成你这个需求。

@TccccD
Copy link
Author

TccccD commented Mar 29, 2023

例如小说 , 按照篇章切分数据, question 为标题 , answer 为内容 (处理成单轮会话格式), 使用 doublesliding 策略就可以完成你这个需求。

可以把q置为空的吗

@ssbuild
Copy link
Owner

ssbuild commented Mar 29, 2023

可以

@TccccD
Copy link
Author

TccccD commented Mar 29, 2023

@ssbuild
我预训练完成了,基于这个模型,再加上prompt数据再做finetuning,发现预训练的数据它全记不得了,只记得prompt相关的数据。。。有遇到过这类问题吗。

@TccccD
Copy link
Author

TccccD commented Mar 29, 2023

还是说,用prompt数据继续做finetuning的话,需要用lora的方式?

@ssbuild
Copy link
Owner

ssbuild commented Mar 29, 2023

需要设计专用魔板的,参考羊驼魔板自己想想设计。

@acadaiaca
Copy link

@TccccD 请问您的预训练数据还有instructions吗?instruction和q都设为空?

@TccccD
Copy link
Author

TccccD commented Mar 29, 2023

@TccccD 请问您的预训练数据还有instructions吗?instruction和q都设为空?
对的

@lancexiao
Copy link

还是说,用prompt数据继续做finetuning的话,需要用lora的方式?

大侠这个问题解决了吗,需要自行设计什么样的prompt

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants