**Describe the bug** 使用最新swift框架、transformers、trl库,进行DPO训练报错  运行bash  **Your hardware and system info** ms-swift==2.6.0dev0(最新main分支) transformers==4.46.1 trl==0.12.0 pytorch==2.4.0+cu121 python==3.10.15 CUDA==12.2