faq_zh

常见问题

问题1：为什么没有像一期、二期项目一样做词表扩充？

答：综合以下几个原因：1）Llama-3词表已扩展至128K，相比其前两代已有较大扩展；2）在中文维基百科上的编码效率测试表明，Llama-3词表的编码效率与我们的中文LLaMA-2基本相当（约95%）；3）我们在中文Mixtral上的相关工作表明，扩展词表并非是大模型语言迁移的必要条件。相关实验可参阅我们的论文：https://arxiv.org/abs/2403.01851

问题2：会有70B版本发布吗？

答：目前暂不做保证。如有合适机会，会考虑进行训练。

问题3：为什么指令模型不叫Alpaca了？

答：受Llama-3许可证中对资源分发相关描述所限。

问题4：本仓库模型能否商用？

答：可以，但请提前仔细阅读原版Llama-3的商用许可要求。开发者应对使用相关模型的合规性负责，必要时寻求法务支持。本项目不对因使用相关模型产生的结果及其连带损失负责。

问题5：为什么不对模型做全量预训练而是用LoRA？

答：综合以下几个原因：1）训练成本和效率；2）Llama经历了三代，其中文能力也是逐步得到提升，通过LoRA增量训练能够快速地补充中文理解和生成能力；3）我们对开源社区的一些中文Llama-3模型进行了基准测试，发现全量参数训练的模型并不优于PEFT方法训练出的模型；综上所述，本项目使用LoRA是多种因素权衡之后的结果。

问题6：为什么Llama-3-Chinese对话效果不好？

答：Llama-3-Chinese是基础模型，不是对话模型，主要用于二次精调等用途。对话/问答等交互用途请使用Instruct版本。

问题7：为什么指令模型会回复说自己是ChatGPT？

答：我们在训练指令模型的时候并没有加入任何身份数据，因此模型的输出主要取决于SFT阶段的训练数据情况。由于SFT数据中添加了大量的ChatGPT爬取的数据，模型更倾向于拟合ChatGPT的行为，因此会回复自己是ChatGPT。建议用户不必纠结这一点。如有需要可以：1）编写系统指令，赋予模型身份信息；2）自行构造身份指令数据，在我们模型的基础上进一步精调。

问题8：为什么没有在Meta-Llama-3-Instruct上进行训练？

答：我们在中文Mixtral上的相关工作表明，如果要进行大规模预训练，则应选择基座模型进行PT+SFT，而不是在指令模型上进行PT+SFT。因此，本项目基于上述经验做出了相应的实验设置（并不是说Llama-3也是如此，只是基于经验做出的选择）。感兴趣的用户可阅读我们的论文了解相关实验细节：https://arxiv.org/abs/2403.01851

中文文档

English Docs

Model Reconstruction
Model Quantization, Inference and Deployment
System Performance
Training Scripts
- Pre-training Scripts
- Instruction Fine-tuning Scripts
FAQ

faq_zh

常见问题

问题1：为什么没有像一期、二期项目一样做词表扩充？

问题2：会有70B版本发布吗？

问题3：为什么指令模型不叫Alpaca了？

问题4：本仓库模型能否商用？

问题5：为什么不对模型做全量预训练而是用LoRA？

问题6：为什么Llama-3-Chinese对话效果不好？

问题7：为什么指令模型会回复说自己是ChatGPT？

问题8：为什么没有在Meta-Llama-3-Instruct上进行训练？

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

中文文档

English Docs

Clone this wiki locally