You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
您好,“A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval” 这个工作是一个十分有价值的工作。我仔细学习了您提供的实验代码。不过发现了一个小问题,这个问题可能会避免日后研究的一些异常情况。
您好,“A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval” 这个工作是一个十分有价值的工作。我仔细学习了您提供的实验代码。不过发现了一个小问题,这个问题可能会避免日后研究的一些异常情况。
您对于缺失场景的实现策略似乎是这样的:
(1)一个batch内数据的图像和文本模态全部经过模型推理;
(2)将推理后的输出结果进行采样,获取一定百分比的缺失数据用于计算损失函数。
这样的方式不需要提前划分好缺失数据集,更加简洁。但是这种实现方式似乎存在一个问题:
该方法必须假设在网络推理过程中,batch内不同样本之间是不能存在信息交互的,如果发生了信息交互,即使在输出后的结果中,舍弃掉一部分数据构建缺失并计算损失,那这些被舍弃的数据虽然没进行损失计算,但是在推理阶段对其他样本产生了信息交互,因此可能不算是严格意义上的数据缺失(即依然可见)。典型的信息交互,比如BN层,会计算Batch内的均值和方差。
The text was updated successfully, but these errors were encountered: