增加卷积层性能下降 #31

mamingfa · 2021-09-19T09:49:38Z

您好!
很抱歉打扰到您，我想请问一下为什么我在PatchEmbed_overlap块增加convolution了以后性能大幅下降，我没有更改其他代码，只是将卷积层增加到了四层。这是我的部分代码：
self.conv1 = nn.Conv2d(in_chans, 128, kernel_size=7, stride=2, padding=3, bias=False)
self.bn1 = nn.BatchNorm2d(128)
self.relu = nn.ReLU(inplace=True)
self.proj = nn.Conv2d(128, embed_dim, kernel_size=new_patch_size, stride=new_patch_size)
def forward(self, x):
x = self.conv1(x)
x = self.bn1(x)
x = self.relu(x)

michuanhaohao · 2021-09-22T03:14:49Z

同学你好，关于convolution stem的使用需要考虑到两点：

convolution stem本身结构是有效的，当然现在比较好的设计是volo里面的堆叠三层conv bn relu，你这个一层效果不会特别显著
最根本的原因在于你新加的conv层没有预训练而是随机初始化，而vit的其他层全部都是ImageNet预训练的，导致网络输入全部错乱了，因此产生了掉点

你可以做以下实验来验证一下：

均不用ImageNet预训练参数，全部从头随机初始化来训练，看看加入conv之后是否有效
按照vit官方训练代码，加入conv之后你在ImageNet重新预训练模型，看看加入conv之后是否有效

另外额外补充一下，我们近期的工作表明，patch embed里面bn+relu是帮助vit训练的关键，conv层作用反而不是那么大，可以参考我们最近的论文：Scaled ReLU Matters for Training Vision Transformers

ljwwwiop · 2021-10-07T14:04:38Z

个人一点点分析
1 首先你的卷积核还是比较大的，在overlap时候可能会丢失部分感受野中比较重要的特征块，可以尝试使用的更小的卷积一块一块有的滑动处理操作更符合patch embed的特点。而且patch embed中最后的conv主要是用于通道修改操作。
2 个人觉得可以在这里可以尝试一下max Pooling 或者avg pooling替换卷积试试。

LiYanchao-lab · 2021-11-29T13:59:22Z

请问如果想在ImageNet重新预训练模型，有官方教程地址吗？感谢感谢

michuanhaohao · 2021-12-23T06:53:24Z

请问如果想在ImageNet重新预训练模型，有官方教程地址吗？感谢感谢

可以用timm库，很多人都用这个。

michuanhaohao closed this as completed Sep 1, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

增加卷积层性能下降 #31

增加卷积层性能下降 #31

mamingfa commented Sep 19, 2021 •

edited

michuanhaohao commented Sep 22, 2021 •

edited

ljwwwiop commented Oct 7, 2021

LiYanchao-lab commented Nov 29, 2021

michuanhaohao commented Dec 23, 2021

增加卷积层性能下降 #31

增加卷积层性能下降 #31

Comments

mamingfa commented Sep 19, 2021 • edited

michuanhaohao commented Sep 22, 2021 • edited

ljwwwiop commented Oct 7, 2021

LiYanchao-lab commented Nov 29, 2021

michuanhaohao commented Dec 23, 2021

mamingfa commented Sep 19, 2021 •

edited

michuanhaohao commented Sep 22, 2021 •

edited