Skip to content

LoRA训练Qwen3-Next-80B-A3B完毕后,想要将LoRA mcore权重转为HF权重,运行export merge,出现错误 #6185

@vbhome6666

Description

@vbhome6666

Describe the bug
Lora训练完毕,出现文件夹v0-20251015-111023/iter_0002400,想要合并为HF权重。
我想要做合并,按照官方脚本,运行
CUDA_VISIBLE_DEVICES=0
swift export
--mcore_adapters megatron_output/1015/v0-20251015-111023/iter_0002400
--to_hf true
--torch_dtype bfloat16
--output_dir megatron_output/1015/v0-20251015-111023/checkpoint-2400
--test_convert_precision true
前面精度检测和模型加载都是正常的,最后出现异常终止的情况:

Image 最后的文件夹里没有出现checkpoint-2400文件夹 麻烦大佬帮忙看看 **Your hardware and system info** modelscope-registry.cn-hangzhou.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.6.3-py311-torch2.7.1-vllm0.10.1.1-modelscope1.29.2-swift3.8.3

日志中的额外信息:
args:

Image 有一句奇怪的话: Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions