Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

train log #5

Closed
kendy201124 opened this issue Nov 16, 2023 · 12 comments
Closed

train log #5

kendy201124 opened this issue Nov 16, 2023 · 12 comments

Comments

@kendy201124
Copy link

你好大佬,请问可以提供训练的log吗?
我在3090上batch size为128的单卡训练需要25min/epoch,这正常吗?
谢谢大佬的工作
[train: 2, 50 / 468] FPS: 41.6 (138.7) , DataTime: 2.217 (0.097) , ForwardTime: 0.762 , TotalTime: 3.076 , Loss/cls: 5.12799 , Loss/total: 5.12799 , BboxAcc@0.5: 52.12500
[train: 2, 100 / 468] FPS: 41.6 (45.9) , DataTime: 2.222 (0.096) , ForwardTime: 0.762 , TotalTime: 3.080 , Loss/cls: 5.10653 , Loss/total: 5.10653 , BboxAcc@0.5: 53.73438

@Azong-HQU
Copy link
Owner

log文件当时没有保存。看你这训练日志,应该是正常的。

@kendy201124
Copy link
Author

这样,因为看上去data处理时间导致总时间比较长,所以怀疑是不是数据方面有问题
anyway,谢谢大佬的工作和回复

@newbie521
Copy link

你好大佬,请问可以提供训练的log吗? 我在3090上batch size为128的单卡训练需要25min/epoch,这正常吗? 谢谢大佬的工作 [train: 2, 50 / 468] FPS: 41.6 (138.7) , DataTime: 2.217 (0.097) , ForwardTime: 0.762 , TotalTime: 3.076 , Loss/cls: 5.12799 , Loss/total: 5.12799 , BboxAcc@0.5: 52.12500 [train: 2, 100 / 468] FPS: 41.6 (45.9) , DataTime: 2.222 (0.096) , ForwardTime: 0.762 , TotalTime: 3.080 , Loss/cls: 5.10653 , Loss/total: 5.10653 , BboxAcc@0.5: 53.73438

您好,我能咨询一下您数据集的问题嘛

@Azong-HQU
Copy link
Owner

你好大佬,请问可以提供训练的log吗? 我在3090上batch size为128的单卡训练需要25min/epoch,这正常吗? 谢谢大佬的工作 [train: 2, 50 / 468] FPS: 41.6 (138.7) , DataTime: 2.217 (0.097) , ForwardTime: 0.762 , TotalTime: 3.076 , Loss/cls: 5.12799 , Loss/total: 5.12799 , BboxAcc@0.5: 52.12500 [train: 2, 100 / 468] FPS: 41.6 (45.9) , DataTime: 2.222 (0.096) , ForwardTime: 0.762 , TotalTime: 3.080 , Loss/cls: 5.10653 , Loss/total: 5.10653 , BboxAcc@0.5: 53.73438

您好,我能咨询一下您数据集的问题嘛

请问数据集有什么问题呢?

@newbie521
Copy link

你好大佬,请问可以提供训练的log吗? 我在3090上batch size为128的单卡训练需要25min/epoch,这正常吗? 谢谢大佬的工作 [train: 2, 50 / 468] FPS: 41.6 (138.7) , DataTime: 2.217 (0.097) , ForwardTime: 0.762 , TotalTime: 3.076 , Loss/cls: 5.12799 , Loss/total: 5.12799 , BboxAcc@0.5: 52.12500 [train: 2, 100 / 468] FPS: 41.6 (45.9) , DataTime: 2.222 (0.096) , ForwardTime: 0.762 , TotalTime: 3.080 , Loss/cls: 5.10653 , Loss/total: 5.10653 , BboxAcc@0.5: 53.73438

您好,我能咨询一下您数据集的问题嘛

请问数据集有什么问题呢?

作者您好,由于我刚了解这方面的内容,对这部分领域不太了解。我想请问一下在数据集准备过程中从哪里可以下载到
otb_lang和refcoco数据集呀,我看找到的链接已经失效了。第二个是我想问一下这个文件(preprocessed json file of reforco dataset)应该放在哪里呀,是只有refcoco数据有这个preprocessed json file文件嘛。第三个是,我想请问一下我训练的时候必须下载所有的数据集嘛,我看所有的数据集蛮大的。感谢您在百忙之中回复我的信息!期待您的回复!

@Azong-HQU
Copy link
Owner

Azong-HQU commented Dec 12, 2023

你好大佬,请问可以提供训练的log吗? 我在3090上batch size为128的单卡训练需要25min/epoch,这正常吗? 谢谢大佬的工作 [train: 2, 50 / 468] FPS: 41.6 (138.7) , DataTime: 2.217 (0.097) , ForwardTime: 0.762 , TotalTime: 3.076 , Loss/cls: 5.12799 , Loss/total: 5.12799 , BboxAcc@0.5: 52.12500 [train: 2, 100 / 468] FPS: 41.6 (45.9) , DataTime: 2.222 (0.096) , ForwardTime: 0.762 , TotalTime: 3.080 , Loss/cls: 5.10653 , Loss/total: 5.10653 , BboxAcc@0.5: 53.73438

您好,我能咨询一下您数据集的问题嘛

请问数据集有什么问题呢?

作者您好,由于我刚了解这方面的内容,对这部分领域不太了解。我想请问一下在数据集准备过程中从哪里可以下载到 otb_lang和refcoco数据集呀,我看找到的链接已经失效了。第二个是我想问一下这个文件(preprocessed json file of reforco dataset)应该放在哪里呀,是只有refcoco数据有这个preprocessed json file文件嘛。第三个是,我想请问一下我训练的时候必须下载所有的数据集嘛,我看所有的数据集蛮大的。感谢您在百忙之中回复我的信息!期待您的回复!

  1. refcoco数据集可以从这里下载;具体信息我已经更新readme了,可以详细查看。
  2. OTB_Lang数据集下载太久我忘记在哪里下载了,稍后我将数据集上传到google云盘上,或者你可以自行查阅一下。
  3. 只有refcoco数据需要preprocessed json file文件,放在refcoco数据集目录下(readme中有数据集目录结构)。
  4. 训练阶段不需要全部数据集,没有的数据集在配置文件中注释掉即可。

@newbie521
Copy link

你好大佬,请问可以提供训练的log吗? 我在3090上batch size为128的单卡训练需要25min/epoch,这正常吗? 谢谢大佬的工作 [train: 2, 50 / 468] FPS: 41.6 (138.7) , DataTime: 2.217 (0.097) , ForwardTime: 0.762 , TotalTime: 3.076 , Loss/cls: 5.12799 , Loss/total: 5.12799 , BboxAcc@0.5: 52.12500 [train: 2, 100 / 468] FPS: 41.6 (45.9) , DataTime: 2.222 (0.096) , ForwardTime: 0.762 , TotalTime: 3.080 , Loss/cls: 5.10653 , Loss/total: 5.10653 , BboxAcc@0.5: 53.73438

您好,我能咨询一下您数据集的问题嘛

请问数据集有什么问题呢?

作者您好,由于我刚了解这方面的内容,对这部分领域不太了解。我想请问一下在数据集准备过程中从哪里可以下载到 otb_lang和refcoco数据集呀,我看找到的链接已经失效了。第二个是我想问一下这个文件(preprocessed json file of reforco dataset)应该放在哪里呀,是只有refcoco数据有这个preprocessed json file文件嘛。第三个是,我想请问一下我训练的时候必须下载所有的数据集嘛,我看所有的数据集蛮大的。感谢您在百忙之中回复我的信息!期待您的回复!

  1. refcoco数据集可以从这里下载;具体信息我已经更新readme了,可以详细查看。
  2. OTB_Lang数据集下载太久我忘记在哪里下载了,稍后我将数据集上传到google云盘上,或者你可以自行查阅一下。
  3. 只有refcoco数据需要preprocessed json file文件,放在refcoco数据集目录下(readme中有数据集目录结构)。
  4. 训练阶段不需要全部数据集,没有的数据集在配置文件中注释掉即可。

非常感谢您的回复!并且期待您关于OTB_Lang数据集的上传,我在网上没有找到对应链接,非常感谢您的热心帮助!

@kendy201124
Copy link
Author

https://isis-data.science.uva.nl/zhenyang/cvpr17-langtracker/data/OTB_sentences.zip

@newbie521
Copy link

这样,因为看上去data处理时间导致总时间比较长,所以怀疑是不是数据方面有问题 anyway,谢谢大佬的工作和回复

您好大佬,我用的是两张3090,batch size也是128,我的数据加载过程是不是也很慢,我感觉加载一次数据的时间有十几分钟甚至更久,而且这个数据加载时间没有统计在训练过程所统计的时间内,我想问一下您是不是也有这样的问题,因为我数据是挂载过去的,所以我担心是这个原因造成这个问题的。

@newbie521
Copy link

这样,因为看上去data处理时间导致总时间比较长,所以怀疑是不是数据方面有问题 anyway,谢谢大佬的工作和回复

因为等待50次的时间太过于漫长,所以我将每次迭代信息都进行了打印,感觉和您的时间也是相差很大
[train: 1, 2 / 234] FPS: 5.3 (63.6) , DataTime: 20.944 (0.165) , ForwardTime: 3.229 , TotalTime: 24.338 , Loss/cls: 7.56756 , Loss/total: 7.56756 , BboxAcc@0.5: 0.00000
[train: 1, 2 / 234] FPS: 5.3 (63.7) , DataTime: 20.664 (0.143) , ForwardTime: 3.539 , TotalTime: 24.346 , Loss/cls: 7.57003 , Loss/total: 7.57003 , BboxAcc@0.5: 0.39062

@kendy201124
Copy link
Author

这样,因为看上去data处理时间导致总时间比较长,所以怀疑是不是数据方面有问题 anyway,谢谢大佬的工作和回复

因为等待50次的时间太过于漫长,所以我将每次迭代信息都进行了打印,感觉和您的时间也是相差很大 [train: 1, 2 / 234] FPS: 5.3 (63.6) , DataTime: 20.944 (0.165) , ForwardTime: 3.229 , TotalTime: 24.338 , Loss/cls: 7.56756 , Loss/total: 7.56756 , BboxAcc@0.5: 0.00000 [train: 1, 2 / 234] FPS: 5.3 (63.7) , DataTime: 20.664 (0.143) , ForwardTime: 3.539 , TotalTime: 24.346 , Loss/cls: 7.57003 , Loss/total: 7.57003 , BboxAcc@0.5: 0.39062

是的,DataTime看上去是异常的,我是从固态硬盘读取数据,如果你从机械硬盘读取可能会慢些,或者其他程序影响了数据读取。

@newbie521
Copy link

这样,因为看上去data处理时间导致总时间比较长,所以怀疑是不是数据方面有问题
anyway,谢谢大佬的工作和回复

谢谢大佬的回复!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants