怎么做预训练，比如文档续写的，目前看到只能对话数据？ #93

TccccD · 2023-03-28T02:55:11Z

怎么做预训练，比如文档续写的，目前看到只能对话数据？如果能的话，需要怎么给数据结构。
@ssbuild @sepilqi

ssbuild · 2023-03-28T03:06:41Z

例如小说，按照篇章切分数据， question 为标题， answer 为内容 (处理成单轮会话格式)，使用 doublesliding 策略就可以完成你这个需求。

TccccD · 2023-03-29T02:36:47Z

例如小说，按照篇章切分数据， question 为标题， answer 为内容 (处理成单轮会话格式)，使用 doublesliding 策略就可以完成你这个需求。

可以把q置为空的吗

ssbuild · 2023-03-29T02:38:06Z

可以

TccccD · 2023-03-29T10:15:08Z

@ssbuild
我预训练完成了，基于这个模型，再加上prompt数据再做finetuning，发现预训练的数据它全记不得了，只记得prompt相关的数据。。。有遇到过这类问题吗。

TccccD · 2023-03-29T10:15:59Z

还是说，用prompt数据继续做finetuning的话，需要用lora的方式？

ssbuild · 2023-03-29T10:17:50Z

需要设计专用魔板的，参考羊驼魔板自己想想设计。

acadaiaca · 2023-03-29T11:03:52Z

@TccccD 请问您的预训练数据还有instructions吗？instruction和q都设为空？

TccccD · 2023-03-29T11:30:20Z

@TccccD 请问您的预训练数据还有instructions吗？instruction和q都设为空？
对的

lancexiao · 2023-04-21T07:01:45Z

还是说，用prompt数据继续做finetuning的话，需要用lora的方式？

大侠这个问题解决了吗，需要自行设计什么样的prompt

ssbuild closed this as completed Apr 25, 2023

ssbuild mentioned this issue May 12, 2023

请问如何试用一般新闻语料对ChatGLM进行继续finetuing呢？ #221

Open

Provide feedback