关于使用RGB、深度图输入运行3D-R1 checkpoint的问题


您好！

我正尝试使用您提供的 **checkpoint_rl.pth** 进行3D场景描述的推理。我的理解是，这个checkpoint是基于点云数据训练的（包含点云 detector 和 captioner）。

为了在仅有RGB图像和深度图（无点云）的环境下进行测试，我参考代码结构，尝试将输入替换为：

视觉编码器：SigLIP2（处理RGB） + Depth-Anything-V2（处理深度图）

Captioner部分：加载并使用checkpoint中训练好的 captioner.* 权重（Q-Former、投影层等）。


由此，我产生了两个核心疑问，希望能得到您的指点与确认：

模态对齐问题：checkpoint_rl.pth 中的 captioner（特别是Q-Former）是在**点云特征**空间中训练得到的。当输入变为由siglip、depthing提取的RGB和深度特征时，这是否与原有点云模态的 captioner 不匹配？是否可以沿用点云训练的captioner处理RGB和深度特征呢？

对图像和深度输入的支持：文档和代码中提到输入可选图像、深度，但权重只有基于点云训练的ckpt，这是否意味着需要专门训练一个支持siglip、depthing特征输入的captioner 权重？

请您指导与确认：
1、我的理解是否正确：“checkpoint_rl.pth这个checkpoint是基于点云数据训练的（包含点云 detector 和 captioner）。”
2、checkpoint_rl.pth 中的 captioner，输入变为由siglip、depthing提取的RGB和深度特征时，这是否与原有点云模态的 captioner 不匹配？是否可以沿用点云训练的captioner处理RGB和深度特征呢？
3、文档和代码中提到输入可选图像、深度，但权重只有基于点云训练的ckpt，这是否意味着需要专门训练一个支持siglip、depthing特征输入的captioner 权重？这部分有没有开源权重参考呢？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于使用RGB、深度图输入运行3D-R1 checkpoint的问题 #49

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

关于使用RGB、深度图输入运行3D-R1 checkpoint的问题 #49

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions