我通过data_processing_pipeline.sh将视频处理为512分辨率的,将stage1.yaml配置文件都设置为512,遮罩mask.png也重新输出为512分辨率,并从头训练U-Net,但中途推理出的视频嘴巴一直有个遮罩,在sync confidence值较高时,遮罩相比于低分会淡一些,但我无法确定是否是因为,训练次数和sync confidence较低造成的,希望有大佬能帮我。 https://github.com/user-attachments/assets/88aa0a8a-3ca3-4773-9ce2-c676628df42e  [stage1.txt](https://github.com/user-attachments/files/19478480/stage1.txt)