Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED #11

Closed
wokeyide1999 opened this issue Jul 13, 2022 · 5 comments
Closed

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED #11

wokeyide1999 opened this issue Jul 13, 2022 · 5 comments

Comments

@wokeyide1999
Copy link

wokeyide1999 commented Jul 13, 2022

您好,我在使用命令
python tools/train_net_da.py --config-file configs/SIGMA/sigma_vgg16_sim10k_to_cityscapes.yaml
运行中遇到了如下错误,不知道您是否能提供一些帮助,十分感谢!

微信截图_20220713210113

环境如下:
CUDA : 11.3, GCC : 7.5.0, Nvidia driver : 470.86
python : 3.7.9
conda:
cudatoolkit=10.1
pip:
torch==1.4.0
torchvision==0.2.1
scipy==1.6.0

python setup.py build develop所遇错误的解决方案(可成功编译,但不知道对实际运行的影响):
一、miniconda3/envs/SIGMA/lib/python3.7/site-packages/torch/utils/cpp_extension.py中添加了'8.6'架构
二、miniconda3/envs/SIGMA1/lib/python3.7/site-packages/torchvision/transforms/functional.py中由于pillow版本导致的错误故改为__version__

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED错误的已尝试方案(均无效):
一、按如下要求修改sigma_vgg16_sim10k_to_cityscapes.yaml
二、torch.backends.cudnn.enabled=False
三、pip install tensorboardX==2.1
四、修改cudatoolkit版本为11.1, 11.3

部分日志信息如下:
log.txt

@wymanCV
Copy link
Contributor

wymanCV commented Jul 13, 2022

您好,我发现你的gpu型号是a4000,我没有在这种型号的卡上配置过环境。不过我曾经尝试在3090上配置,需要注意的是由于有些新型号卡只支持cuda11的环境,而torch和cuda的版本也需要匹配上,所以我当时是用了更高版本的torch以及cuda11,这方面你可以检查下。我近期比较忙可能没办法帮你详细check,之后有时间的时候可以再详细帮你看看,如果还没有解决的话。

@wokeyide1999
Copy link
Author

您好,我发现你的gpu型号是a4000,我没有在这种型号的卡上配置过环境。不过我曾经尝试在3090上配置,需要注意的是由于有些新型号卡只支持cuda11的环境,而torch和cuda的版本也需要匹配上,所以我当时是用了更高版本的torch以及cuda11,这方面你可以检查下。我近期比较忙可能没办法帮你详细check,之后有时间的时候可以再详细帮你看看,如果还没有解决的话。

conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge
您好,我用如上述命令重新安装了torch,出现的版本不匹配问题已解决,当前代码可运行。
我使用代码原本的参数设置
包括
IMS_PER_BATCH: 4
MAX_ITER: 100000
MATCHING_CFG: 'o2o'
_C.DATALOADER.NUM_WORKERS = 4

我的显卡总显存为16117MiB,运行时所用显存为12659MiB,代码运行预估需要3天,请问这个时间是否正常,我如何设置参数才能减少运行时间?

日志信息如下:
log.txt

@wymanCV
Copy link
Contributor

wymanCV commented Jul 14, 2022

您好,我发现你的gpu型号是a4000,我没有在这种型号的卡上配置过环境。不过我曾经尝试在3090上配置,需要注意的是由于有些新型号卡只支持cuda11的环境,而torch和cuda的版本也需要匹配上,所以我当时是用了更高版本的torch以及cuda11,这方面你可以检查下。我近期比较忙可能没办法帮你详细check,之后有时间的时候可以再详细帮你看看,如果还没有解决的话。

conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge 您好,我用如上述命令重新安装了torch,出现的版本不匹配问题已解决,当前代码可运行。 我使用代码原本的参数设置, 包括 IMS_PER_BATCH: 4 MAX_ITER: 100000 MATCHING_CFG: 'o2o' _C.DATALOADER.NUM_WORKERS = 4 等 我的显卡总显存为16117MiB,运行时所用显存为12659MiB,代码运行预估需要3天,请问这个时间是否正常,我如何设置参数才能减少运行时间?

日志信息如下: log.txt

您好,适当减小训练迭代就可以:也就是减少MAX_ITER,我印象里大概只需要3w 左右的迭代就可以得到很近似的结果,我们用更长的时间训练是为了结果的稳定性。目前看来应该是可以正常运行的,而且似乎收敛速度比我们的实验更快一点,可能是高torch版本的原因。

@wokeyide1999
Copy link
Author

您好,我发现你的gpu型号是a4000,我没有在这种型号的卡上配置过环境。不过我曾经尝试在3090上配置,需要注意的是由于有些新型号卡只支持cuda11的环境,而torch和cuda的版本也需要匹配上,所以我当时是用了更高版本的torch以及cuda11,这方面你可以检查下。我近期比较忙可能没办法帮你详细check,之后有时间的时候可以再详细帮你看看,如果还没有解决的话。

conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge 您好,我用如上述命令重新安装了torch,出现的版本不匹配问题已解决,当前代码可运行。 我使用代码原本的参数设置, 包括 IMS_PER_BATCH: 4 MAX_ITER: 100000 MATCHING_CFG: 'o2o' _C.DATALOADER.NUM_WORKERS = 4 等 我的显卡总显存为16117MiB,运行时所用显存为12659MiB,代码运行预估需要3天,请问这个时间是否正常,我如何设置参数才能减少运行时间?
日志信息如下: log.txt

您好,适当减小训练迭代就可以:也就是减少MAX_ITER,我印象里大概只需要3w 左右的迭代就可以得到很近似的结果,我们用更长的时间训练是为了结果的稳定性。目前看来应该是可以正常运行的,而且似乎收敛速度比我们的实验更快一点,可能是高torch版本的原因。

十分感谢您的解答!

@wymanCV
Copy link
Contributor

wymanCV commented Jul 15, 2022

不客气!如果后续有问题可以重新开启issue哈

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants