sft的数据是否完整

我使用了提供的`bash run.sh examples/train_full/llama3_full_policy_web.yaml`脚本和提供的[web_policy_sft.json](https://github.com/THUDM/WebRL/blob/main/LLaMA-Factory/data/web_policy_sft.json)数据进行了微调，但是微调出来模型evaluate的score都处于0.08-0.12之间，和论文中提供的0.206有较大的差距。我想知道是脚本还是数据存在一定的出入，导致这样的结果的差距