Skip to content

关于使用RGB、深度图输入运行3D-R1 checkpoint的问题 #49

@tengchenzeal

Description

@tengchenzeal

您好!

我正尝试使用您提供的 checkpoint_rl.pth 进行3D场景描述的推理。我的理解是,这个checkpoint是基于点云数据训练的(包含点云 detector 和 captioner)。

为了在仅有RGB图像和深度图(无点云)的环境下进行测试,我参考代码结构,尝试将输入替换为:

视觉编码器:SigLIP2(处理RGB) + Depth-Anything-V2(处理深度图)

Captioner部分:加载并使用checkpoint中训练好的 captioner.* 权重(Q-Former、投影层等)。

由此,我产生了两个核心疑问,希望能得到您的指点与确认:

模态对齐问题:checkpoint_rl.pth 中的 captioner(特别是Q-Former)是在点云特征空间中训练得到的。当输入变为由siglip、depthing提取的RGB和深度特征时,这是否与原有点云模态的 captioner 不匹配?是否可以沿用点云训练的captioner处理RGB和深度特征呢?

对图像和深度输入的支持:文档和代码中提到输入可选图像、深度,但权重只有基于点云训练的ckpt,这是否意味着需要专门训练一个支持siglip、depthing特征输入的captioner 权重?

请您指导与确认:
1、我的理解是否正确:“checkpoint_rl.pth这个checkpoint是基于点云数据训练的(包含点云 detector 和 captioner)。”
2、checkpoint_rl.pth 中的 captioner,输入变为由siglip、depthing提取的RGB和深度特征时,这是否与原有点云模态的 captioner 不匹配?是否可以沿用点云训练的captioner处理RGB和深度特征呢?
3、文档和代码中提到输入可选图像、深度,但权重只有基于点云训练的ckpt,这是否意味着需要专门训练一个支持siglip、depthing特征输入的captioner 权重?这部分有没有开源权重参考呢?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions