Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

A5000 batchsize=1 CUDAoom #16

Open
stq-hydra opened this issue Feb 23, 2023 · 5 comments
Open

A5000 batchsize=1 CUDAoom #16

stq-hydra opened this issue Feb 23, 2023 · 5 comments

Comments

@stq-hydra
Copy link

跑DSText的baseline的时候,设置batchsize=1,在A5000单卡上出现CUDAoom
按照readme里面的描述 8张32G的V100能跑batchsize=16 那么24G单卡跑batchsize=1应该是不会出现这种情况的才对、
请问这种情况下还要调整哪些参数来降低显存占用

@weijiawu
Copy link
Owner

您好,可以贴一下报错的截图吗,batchsize为1应该不会爆显存,还有可以贴一下https://github.com/weijiawu/TransDETR/blob/main/configs/r50_TransDETR_train_DSText.sh这个文件的截图吗

我猜测可能你没改对bach size

@stq-hydra
Copy link
Author

config_sh
CUDAoom_error
这是截图
早上进行测试的时候 将main.py中的dim_feedforward参数从1024改成了256之后可以勉强运行 但是两个小时之后仍然出现爆显存的情况

@weijiawu
Copy link
Owner

image

你把这里设置低一点,比如4,4,4 你这边的设置是需要处理9帧然后梯度反传

@stq-hydra
Copy link
Author

设置为4 4 4之后,显存占用大约在16G,可以成功运行。
感谢!

@tangpan360
Copy link

设置为4 4 4之后,显存占用大约在16G,可以成功运行。 感谢!

您好,我看您在关注作者的工作,并且已经在一张A5000上完成对这个项目的复现。我最近也在关注作者的这项工作,但是对于复现和结果上有一点疑问,可以通过邮箱跟您请教一点相关的问题吗?如果方便的话这是我的邮箱:ptang@shu.edu.cn。期待您的回复,万分感谢!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants