Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

checkpoint的结果和论文不一致 #14

Closed
geek12138 opened this issue Nov 22, 2021 · 15 comments
Closed

checkpoint的结果和论文不一致 #14

geek12138 opened this issue Nov 22, 2021 · 15 comments

Comments

@geek12138
Copy link

您好,

ViT-B/16 | frame 32 在论文里面是83.8%,但是github里面写的是82.32%,我用这个checkpoint跑出来的结果是81.3%。

ViT-B/32 | frame 8的结果貌似上传错了,这个文件名和测试结果和ViT-B/16 | frame 32 的一样。

@icyzhang0923
Copy link

您好,

ViT-B/16 | frame 32 在论文里面是83.8%,但是github里面写的是82.32%,我用这个checkpoint跑出来的结果是81.3%。

ViT-B/32 | frame 8的结果貌似上传错了,这个文件名和测试结果和ViT-B/16 | frame 32 的一样。

83.8%是30crops的结果,但是作者似乎没有给30crops的测试脚本

@sallymmx
Copy link
Owner

sallymmx commented Nov 23, 2021

您好,

ViT-B/16 | frame 32 在论文里面是83.8%,但是github里面写的是82.32%,我用这个checkpoint跑出来的结果是81.3%。

ViT-B/32 | frame 8的结果貌似上传错了,这个文件名和测试结果和ViT-B/16 | frame 32 的一样。

  1. Please make sure that you use the right config yaml for testing, k400_test.yaml. Then change the input segments and model config.
  2. If everything is right, that I guess the gap may come from the dataset discrepancy, since the number of videos of K400 varies all the time.
  3. After your issue, we re-test our models (single-crop) using the published codes, results are as follows. No such a gap as you said happened.
    image

@geek12138
Copy link
Author

geek12138 commented Nov 23, 2021

您好,我检查了一下github上的结果和论文中single view是一致的,但是在用这个checkpoint测试出来的结果差距比较大。
下面是我的test的yaml文件。在单张3090上跑的

pretrain: checkpoint/vit-16-32f_8232.pt # 81.31584
seed: 1024
data:
dataset: kinetics400
modality: RGB
num_segments: 32
seg_length: 1
split: 1
batch_size: 1 # 原始设置: gpus=4, batch_size: 64
workers: 8
gpus: 1
num_classes: 400
image_tmpl: '{}.jpg'
val_list: 'data/kinetics400/kinetics_frame_val.txt' #
label_list: 'data/kinetics400/kinetics_400_labels.csv'
index_bias: 0
input_size: 224
random_shift: False
network:
arch: ViT-B/16 #ViT-B/32 ViT-B/16
init: True
tsm: False
drop_out: 0.0
emb_dropout: 0.0
bn_momentum: 0.1
consensus_type: avg
type: clip_k400
sim_header: "Transf" #Transf meanP LSTM Conv_1D Transf_cls
joint: False
describe:
ratio: 1
f_ratio: 10
logging:
print_freq: 10
eval_freq: 1

@geek12138
Copy link
Author

您好,
ViT-B/16 | frame 32 在论文里面是83.8%,但是github里面写的是82.32%,我用这个checkpoint跑出来的结果是81.3%。
ViT-B/32 | frame 8的结果貌似上传错了,这个文件名和测试结果和ViT-B/16 | frame 32 的一样。

83.8%是30crops的结果,但是作者似乎没有给30crops的测试脚本

谢谢回复,83.8果然是30 crops的结果,82.32是single view的

@17Skye17
Copy link

17Skye17 commented Jan 5, 2022

中single view是一致的,但是在用这个checkpoint测试出来的结果差距比较大。
下面是我的test的yaml文件。在单张3090上跑的

我的single crop测试结果vit16的8f,16f和32f都会比report的低1个点,不知是不是数据的问题。
ps.代码里test阶段drop last了可能会带来一些不一样

@geek12138
Copy link
Author

代码里test阶段drop last我试过去设置成Flase了,如果不设置的话,不同batch size下的测试跑出来的结果有可能会不一样。但是就算设置了还是低,讲道理应该不是数据的问题,因为我这里的数据去跑其它的github都是要略高一点点的

中single view是一致的,但是在用这个checkpoint测试出来的结果差距比较大。
下面是我的test的yaml文件。在单张3090上跑的

我的single crop测试结果vit16的8f,16f和32f都会比report的低1个点,不知是不是数据的问题。 ps.代码里test阶段drop last了可能会带来一些不一样

@17Skye17
Copy link

17Skye17 commented Jan 5, 2022

代码里test阶段drop last我试过去设置成Flase了,如果不设置的话,不同batch size下的测试跑出来的结果有可能会不一样。但是就算设置了还是低,讲道理应该不是数据的问题,因为我这里的数据去跑其它的github都是要略高一点点的

中single view是一致的,但是在用这个checkpoint测试出来的结果差距比较大。
下面是我的test的yaml文件。在单张3090上跑的

我的single crop测试结果vit16的8f,16f和32f都会比report的低1个点,不知是不是数据的问题。 ps.代码里test阶段drop last了可能会带来一些不一样

您好,我也是这种情况,然后我仔细检查了一下repo里的val list,发现其中有一些和我的不一样(大约180个),不知道是不是这份val set的数据有点偏差:

tCKnYXne_o
H-Ww0gGDWU
Sam59CH5_o
blRZN-6_ZM
gxLOV_s9wU
Q2OO6q6-iM
I3_52Xh7oU
sSTHZHHp-c
l309dqYR-8
ebcuq_qItc
7tTouR10Qro
6uq-NBo3Bk
D-Fa71ta14
ioNctElzaas
PcOAmaZMNZY
4SJ-uWc3PQ
WI7e5-wURs
JN0MXb-zi8
IyR-sGt0uw
UqI-TBQRgg
mMT4Nt_c-A
UxN_uuEZC0
6k2ntyDP-c
u8zlG-OS_E
8IjJv90K-M
fZ0IO-Q-ZQ
rrtLyJs-3w
06oD_bFxOQ
Lo3hFbum_o
a06xpsZj-U
5EvC-g-KUQ
GQ-4QfVpXc
TyWiE-4zpM
esH_aGzBrw
7mJ12n-xyM
LktSuL8_7M
Xfmjzt_n24
ctWolbJDJyc
H8Ny92IEyaM
OnU1Hr_jlY
7TZOYU_Ta0
2DwBhMUH-I
9ILBd-ArtM
LKhtbW5q-c
0-s1eu4sF4
jToAVyxs-g
clhd73_vDQ
LESFP2wh_8
NtUqv_6vdU
I02uj1Sc7TM
I0luMKjIZyg
5vTJ-N4jrI
hR-iDJcjgU
F-aEPmjERo
ITTI-fkvo
C84yBh-fQw
NMaC-IGv_Q
YGwB8HJj-g
SxAU4_1c_o
S6wwANH-EY
hu_Ld-ddk
blq_c14hGQ
isSe2P8T-4
owWHGvn_b0
OoJW-OeFtw
G_lySaTeNM
XH_50Lp8qQ
PBf_Wa6vO8
pUDgyU_KGc
DYPEKYAcEFg
HWxZHHT_l4
IAo-mNduUk
6Xp_ymM0Lg
ZY_EfSlzGA
Zpj4-Z2YRk
c3-qJC_azg
B_pr_4s7vY
sAA809R_u1E
6c-sV_gmq0
QfuO07EqYhI
D6-UmndVJk
eJVHxmkm-4
bVVs-nntQ
RZXH93_XNY
5-dvLrzE78
kZsdc1A_J8
54Bs-0kdhA
Y-fUYGcb7o
5g0IDBneA
yAlJ1P_SGg
AgJx-0yaFQ
P56BlJO-gw
J-8cbYBG7c
aQR-rCWaVQ
7qK_w-g3Y
0IEt9-NeV4
TL-9g8KBFA
PB0FuE-fdA
7Od7A1-B9s
egPJubR-CE
Etym1-30wM
3E3GBXAUc
j3eNzQR-EI
rQuS0w-1b8
JcZ7Ry_9kg
j4Anoe2ug8k
Eq_X-uRNm8
0ML-FXomBw
G2XYLk0-38
RlFMUo-JE
QbBRu7a_xM
CMel_KnSzw
W9AQZ-gUro
W07v4Ci-zY
5sx6NEtkd1E
jToBK-njO8
spJJybwq-g
wvsuK9HBif0
r5c12Eo_jY
FawHl2-DAg
dguKqz_F5w
GBKRR-OvqM
adU_0hUdr8
DWE7WQkBvBc
ieIssRi8iXU
Q_vnBY8YP8
afwq-zVgJk
JP5gc9_J4I
iox_MbwxNg
aGmWWA-h3s
vI8Vp2-gfiU
7-dud_cqq8
o9-ONbnlRw
aVXC13LEJgU
MPqy00mB-Y
d8_H5d2sd4
2C-yeMmge0
FGj7-Cxu_0
3FihEVl-R8
cMG2QyN-mE
UZLHav3t_NQ
t_T_nYKdh8
DNb_6w2cZM
D5-ZGEjiWI
58I5s_qDVU
gmBW-mkRXA
VP-VaZhno0
p1Cftd_xo
73Kg-MKmwE
k0w_3JFfmE
m-YKP0ReEE
pn5NxJmok
c96bD-9fHs
jR-X0LqwpY
96AfwOj-qw
LrBC1_yf04
Oni-SybW0
6yaNVdS-2E
4J-bkpjVb4
v7DhQiuKEd0
n0WAbM8z-o
m-2ka9iN9M
WRh2_MJLLs
3MhOA-vSO8
u5A74I0-M
kahgmRD-4g
b-YkpzFphk
vYfm8bO-TM
gtC_avp2gU
5Vu8HJ_eMg
wdnasc-fCg
xxBx1jv-ks
Ykfa-4qx0
UHRaVrN_us
JwMoMeZ_v8
0ew-c0w7uc
uVv1h-xAe0
u4SSk4kWqLA
2L8B_meOLE
c-YbuFrXbI
Bu-6oESyxQ

如果方便您可以check一下这些

@17Skye17
Copy link

17Skye17 commented Jan 5, 2022

代码里test阶段drop last我试过去设置成Flase了,如果不设置的话,不同batch size下的测试跑出来的结果有可能会不一样。但是就算设置了还是低,讲道理应该不是数据的问题,因为我这里的数据去跑其它的github都是要略高一点点的

中single view是一致的,但是在用这个checkpoint测试出来的结果差距比较大。
下面是我的test的yaml文件。在单张3090上跑的

我的single crop测试结果vit16的8f,16f和32f都会比report的低1个点,不知是不是数据的问题。 ps.代码里test阶段drop last了可能会带来一些不一样

ps.我的val set包含19887条数据,比这个repo的19357多一点

@geek12138
Copy link
Author

geek12138 commented Jan 5, 2022 via email

@geek12138
Copy link
Author

geek12138 commented Jan 5, 2022 via email

@17Skye17
Copy link

17Skye17 commented Jan 5, 2022

font{ line-height: 1.6; } ul,ol{ padding-left: 20px; list-style-position: inside; } 我测试的这个作者说的结果是82.32%,但是差了1%checkpoint/vit-16-32f_8232.pt  batch:1 Top1: 81.31295237131143, Top5: 95.91537176696868batch:2 Top1: 81.30694472565297, Top5: 95.91010325976919batch:4 Top1: 81.31706823243572, Top5: 95.91010325976919batch:8 Top1: 81.31328473066019, Top5: 95.90927501012555batch:16 Top1: 81.31584278768233, Top5: 95.91268233387358batch:32 Top1: 81.31584278768233, Top5: 95.91268233387358batch:64 Top1: 81.32102272727273, Top5: 95.90604707792207drop_last=Falsebatch:1 Top1: 81.31295237131143, Top5: 95.91537176696868batch:2 Top1: 81.3028293769297,  Top5: 95.9103102697778batch:4 Top1: 81.31295237131143, Top5: 95.9103102697778batch:8 Top1: 81.31295237131143, Top5: 95.9103102697778batch:16 Top1: 81.31295237131143, Top5: 95.9103102697778batch:32 Top1: 81.31295237131143, Top5: 95.9103102697778batch:64 Top1: 81.31295237131143, Top5: 95.9103102697778 497569188 @.*** 签名由 网易邮箱大师 定制 在2022年01月5日 @.> 写道: 代码里test阶段drop last我试过去设置成Flase了,如果不设置的话,不同batch size下的测试跑出来的结果有可能会不一样。但是就算设置了还是低,讲道理应该不是数据的问题,因为我这里的数据去跑其它的github都是要略高一点点的 中single view是一致的,但是在用这个checkpoint测试出来的结果差距比较大。 下面是我的test的yaml文件。在单张3090上跑的 我的single crop测试结果vit16的8f,16f和32f都会比report的低1个点,不知是不是数据的问题。 ps.代码里test阶段drop last了可能会带来一些不一样 ps.我的val set包含19887条数据,比这个repo的19357多一点 —Reply to this email directly, view it on GitHub, or unsubscribe.Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you authored the thread.Message ID: @.>

感谢回复,我这边vit-b-16 32frame的结果是:top1=81.05846 top5=95.65524,和你一样差不多低了1个点

@geek12138
Copy link
Author

geek12138 commented Jan 5, 2022 via email

@17Skye17
Copy link

17Skye17 commented Jan 5, 2022

想作者的测试集是不是删除了一些困难的样本

您好,我检查了下这个repo的val数据发现两个问题:

  1. 有一些样本无法从官方的val list找到,不确定是不是作者把原始视频重命名了还是混入了其他数据;
  2. 有一些官方的val list的数据在这个repo的val list里没有。

@geek12138
Copy link
Author

geek12138 commented Jan 5, 2022 via email

@dreamerlin
Copy link

dreamerlin commented Mar 11, 2022

我也测试了一下,发现作者的val list非常奇怪。他好像把开头为'-' 或者 “ _ ” 的 vid 都删去了'-' 和 " _ " 的字符。但即使复原后也会少差不多80+的数据,如下。

NtUqv_6vdU
3MhOA-vSO8
JwMoMeZ_v8
LrBC1_yf04
c96bD-9fHs
blq_c14hGQ
bVVs-nntQ
sSTHZHHp-c
WI7e5-wURs
iox_MbwxNg
IAo-mNduUk
2L8B_meOLE
wdnasc-fCg
NMaC-IGv_Q
OoJW-OeFtw
jR-X0LqwpY
c-YbuFrXbI
H-Ww0gGDWU
Xfmjzt_n24
I3_52Xh7oU
UqI-TBQRgg
RlFMUo-JE
Ykfa-4qx0
dguKqz_F5w
2DwBhMUH-I
u8zlG-OS_E
afwq-zVgJk
96AfwOj-qw
4SJ-uWc3PQ
esH_aGzBrw
xxBx1jv-ks
Zpj4-Z2YRk
HWxZHHT_l4
G_lySaTeNM
pUDgyU_KGc
GQ-4QfVpXc
D-Fa71ta14
u5A74I0-M
RZXH93_XNY
d8_H5d2sd4
Q_vnBY8YP8
7TZOYU_Ta0
fZ0IO-Q-ZQ
FawHl2-DAg
t_T_nYKdh8
7Od7A1-B9s
rQuS0w-1b8
n0WAbM8z-o
spJJybwq-g
OnU1Hr_jlY
LKhtbW5q-c
kUfOBKJZczk
vYfm8bO-TM
J-8cbYBG7c
a06xpsZj-U
uVv1h-xAe0
B_pr_4s7vY
YGwB8HJj-g
VP-VaZhno0
r5c12Eo_jY
yAlJ1P_SGg
ITTI-fkvo
GBKRR-OvqM
5Vu8HJ_eMg
D5-ZGEjiWI
06oD_bFxOQ
clhd73_vDQ
IyR-sGt0uw
hR-iDJcjgU
blRZN-6_ZM
G2XYLk0-38
FGj7-Cxu_0
LktSuL8_7M
S6wwANH-EY
gxLOV_s9wU
WRh2_MJLLs
UxN_uuEZC0
TyWiE-4zpM
rrtLyJs-3w
TL-9g8KBFA
5vTJ-N4jrI
HUiafDe-xTo
Etym1-30wM
4J-bkpjVb4
7-dud_cqq8
PBf_Wa6vO8
5EvC-g-KUQ

作者大大能不能把这部分给一下啊

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants