-
Notifications
You must be signed in to change notification settings - Fork 15
Description
您好!
我正尝试使用您提供的 checkpoint_rl.pth 进行3D场景描述的推理。我的理解是,这个checkpoint是基于点云数据训练的(包含点云 detector 和 captioner)。
为了在仅有RGB图像和深度图(无点云)的环境下进行测试,我参考代码结构,尝试将输入替换为:
视觉编码器:SigLIP2(处理RGB) + Depth-Anything-V2(处理深度图)
Captioner部分:加载并使用checkpoint中训练好的 captioner.* 权重(Q-Former、投影层等)。
由此,我产生了两个核心疑问,希望能得到您的指点与确认:
模态对齐问题:checkpoint_rl.pth 中的 captioner(特别是Q-Former)是在点云特征空间中训练得到的。当输入变为由siglip、depthing提取的RGB和深度特征时,这是否与原有点云模态的 captioner 不匹配?是否可以沿用点云训练的captioner处理RGB和深度特征呢?
对图像和深度输入的支持:文档和代码中提到输入可选图像、深度,但权重只有基于点云训练的ckpt,这是否意味着需要专门训练一个支持siglip、depthing特征输入的captioner 权重?
请您指导与确认:
1、我的理解是否正确:“checkpoint_rl.pth这个checkpoint是基于点云数据训练的(包含点云 detector 和 captioner)。”
2、checkpoint_rl.pth 中的 captioner,输入变为由siglip、depthing提取的RGB和深度特征时,这是否与原有点云模态的 captioner 不匹配?是否可以沿用点云训练的captioner处理RGB和深度特征呢?
3、文档和代码中提到输入可选图像、深度,但权重只有基于点云训练的ckpt,这是否意味着需要专门训练一个支持siglip、depthing特征输入的captioner 权重?这部分有没有开源权重参考呢?