-
Notifications
You must be signed in to change notification settings - Fork 100
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
4个Qwen1.5微调代码中的问题 #149
Comments
|
extra-vocab-size是啥意思,为什么是293呀?152064-151643=421 |
我这边也出现了第一个问题,transformers版本是4.38.1,测试的7b模型 |
|
看我上面的回复,7B和14B的vocab_size不一样,293是7B的 |
hello,最近在微调qwen1.5-moe,请教一下: |
您好,我在学习和测试项目代码的时候,发现有如下的几个地方用项目原始代码跑不通,想请您看一下是否是我的使用方式有问题:
使用https://github.com/alibaba/Pai-Megatron-Patch/blob/main/toolkits/model_checkpoints_convertor/qwen/checkpoint_reshaping_and_interoperability_qwen1.5.py 将HF的模型转换为Megatron模型之后,需要手动将tokenizer的merges.txt复制过来,否则无法正确加载tokenizer
https://github.com/alibaba/Pai-Megatron-Patch/blob/main/megatron_patch/tokenizer/__init__.py#L104 这里读取的vocab_size和模型实际的embed_token维度不同,会导致后续无法加载模型权重。Qwen1.5的tokenizer词数(151643)和模型的embed_tokens维度(152064)对不上
使用pipeline parallel(PP为2)时,第二个GPU上的第一个layer拿到的hidden state会多一维,检查下来发现是hidden_states = self.input_tensor 这一行读取的input_tensor的第一维多了一维。这个问题目前不知道怎么解决
PP改为1后,第3个问题暂时不再出现,但是此时会在megatron_patch/training.py的第344行update_successful, grad_norm, num_zeros_in_grad = optimizer.step(args, timers)处报错RuntimeError: Unknown layout,这个问题也不知道怎么解决。
希望上述问题能得到您的回答,谢谢~
The text was updated successfully, but these errors were encountered: