点云的feature与clip中text feature的问题 #11

jiatianzhi · 2022-06-18T03:00:36Z

想了解一下有考虑过用pointnet之类的学到的point cloud global feature加上全连接层做finetune然后与clip中的text feature比较这样的尝试吗，还是说因为clip中image encoder和text encoder学到的特征是对齐的，所以直接考虑了2d depth maps projection的思路，如果有考虑过前者的话，是效果不好吗？

ZrrSkywalker · 2022-06-18T17:15:22Z

对的，因为clip的image encoder已经通过预训练和text encoder形成了很好的对应关系，所以可以直接进行zero-shot分类；如果使用pointnet等3d网络，需要一段额外的训练步骤，使得pointnet和clip的text encoder相对应，我们进行过尝试，这样会伤害网络的transfer能力，并且不再是3d数据上的zero-shot分类了。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

点云的feature与clip中text feature的问题 #11

点云的feature与clip中text feature的问题 #11

jiatianzhi commented Jun 18, 2022

ZrrSkywalker commented Jun 18, 2022

点云的feature与clip中text feature的问题 #11

点云的feature与clip中text feature的问题 #11

Comments

jiatianzhi commented Jun 18, 2022

ZrrSkywalker commented Jun 18, 2022