关于参与计算loss_soft的特征 #7

hewumars · 2020-11-10T03:24:15Z

Line 257 in 5ab80d6

    
           loss_soft = (- F.softmax(sim_diff_label[:,:,0].contiguous().view(B,-1)/self.temp[gen], dim=1).detach() * log_sim_diff).mean(0).sum()

这里为什么只是取区域特征相似度得分图的sim_diff_label[:,:,0]第一行来计算loss？参与计算的只有[B,diff_pos_num,9]。

Line 94 in 5ab80d6

bc_features.data.copy_(torch.cat(features))

另外图片太多内存会爆，所以只取了1万类，query每类1张，gallery每类4张，是否需要把pos_num=4，neg_num=10？

yxgeee · 2020-11-10T03:56:55Z

yxgeee · 2020-11-10T03:57:49Z

我不清楚你的query和gallery具体如何划分, 你的query和gallery是否会有类别重叠? 如果你每张query最多只有4个positive, 那么pos_num最大为4, neg_num的话不一定是10, 可以就性能和GPU memory来做具体限制.

yxgeee · 2020-11-10T04:04:51Z

另外,如果你在reID上做实验的话,其实我建议在一个reID的codebase上加上这个region的loss. 因为这个code针对的是街景图,无论是图像预处理,还是training scheme都跟reID上最适合的不一样. netvlad也不一定在reID上能收敛的好.

hewumars · 2020-11-10T06:18:52Z

好的，感谢。我做局部特征的检索，我试验下直接用区域-区域之间是否可以通过这种无监督方式来做。netVLAD刚好也可以用提局部特征。

hewumars · 2020-11-10T11:27:43Z

还想请教下，sync_gather的两种模式，内存和显存占用有大概统计下极限吗？ True的时候11G显存超，False的时候128GB内存超。query+gallery大概5w多张样本。

yxgeee · 2020-11-10T12:17:51Z

超内存和超显存的代码位置应该不一样. 为false的时候哪句话超的内存?

hewumars · 2020-11-11T01:08:32Z

True: dist.all_gather(all_features, features)显存超
False：bc_features.data.copy_(torch.cat(features))内存超

hewumars · 2020-11-11T02:19:41Z

bc_features = torch.cat(features).cuda(gpu)
for k in range(world_size):
  bc_features.data.copy_(torch.cat(features))
  dist.broadcast(bt_features,k)

True显存超可能没法解决，False内存超这里有点疑问？
bc_features = torch.cat(features).cuda(gpu)这里定义在gpu上面，为啥copy_的时候是内存在涨？
copy_是不是应该移到循环外面？

yxgeee · 2020-11-11T06:35:03Z

这里features太多的时候确实可能超,应该是代码上有缺陷.
有人做了修改(#6) ,可以参考一下

yxgeee closed this as completed Dec 21, 2020

Provide feedback