RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED #11

wokeyide1999 · 2022-07-13T14:01:22Z

您好，我在使用命令
python tools/train_net_da.py --config-file configs/SIGMA/sigma_vgg16_sim10k_to_cityscapes.yaml
运行中遇到了如下错误，不知道您是否能提供一些帮助，十分感谢！

环境如下：
CUDA : 11.3, GCC : 7.5.0, Nvidia driver : 470.86
python : 3.7.9
conda：
cudatoolkit=10.1
pip：
torch==1.4.0
torchvision==0.2.1
scipy==1.6.0

python setup.py build develop所遇错误的解决方案（可成功编译，但不知道对实际运行的影响）：
一、miniconda3/envs/SIGMA/lib/python3.7/site-packages/torch/utils/cpp_extension.py中添加了'8.6'架构
二、miniconda3/envs/SIGMA1/lib/python3.7/site-packages/torchvision/transforms/functional.py中由于pillow版本导致的错误故改为__version__

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED错误的已尝试方案（均无效）：
一、按如下要求修改sigma_vgg16_sim10k_to_cityscapes.yaml
二、torch.backends.cudnn.enabled=False
三、pip install tensorboardX==2.1
四、修改cudatoolkit版本为11.1, 11.3

部分日志信息如下：
log.txt

wymanCV · 2022-07-13T14:43:59Z

您好，我发现你的gpu型号是a4000，我没有在这种型号的卡上配置过环境。不过我曾经尝试在3090上配置，需要注意的是由于有些新型号卡只支持cuda11的环境，而torch和cuda的版本也需要匹配上，所以我当时是用了更高版本的torch以及cuda11，这方面你可以检查下。我近期比较忙可能没办法帮你详细check，之后有时间的时候可以再详细帮你看看，如果还没有解决的话。

wokeyide1999 · 2022-07-14T08:38:11Z

您好，我发现你的gpu型号是a4000，我没有在这种型号的卡上配置过环境。不过我曾经尝试在3090上配置，需要注意的是由于有些新型号卡只支持cuda11的环境，而torch和cuda的版本也需要匹配上，所以我当时是用了更高版本的torch以及cuda11，这方面你可以检查下。我近期比较忙可能没办法帮你详细check，之后有时间的时候可以再详细帮你看看，如果还没有解决的话。

conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge
您好，我用如上述命令重新安装了torch，出现的版本不匹配问题已解决，当前代码可运行。
我使用代码原本的参数设置，
包括
IMS_PER_BATCH: 4
MAX_ITER: 100000
MATCHING_CFG: 'o2o'
_C.DATALOADER.NUM_WORKERS = 4
等
我的显卡总显存为16117MiB，运行时所用显存为12659MiB，代码运行预估需要3天，请问这个时间是否正常，我如何设置参数才能减少运行时间？

日志信息如下：
log.txt

wymanCV · 2022-07-14T09:10:55Z

您好，我发现你的gpu型号是a4000，我没有在这种型号的卡上配置过环境。不过我曾经尝试在3090上配置，需要注意的是由于有些新型号卡只支持cuda11的环境，而torch和cuda的版本也需要匹配上，所以我当时是用了更高版本的torch以及cuda11，这方面你可以检查下。我近期比较忙可能没办法帮你详细check，之后有时间的时候可以再详细帮你看看，如果还没有解决的话。

conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge 您好，我用如上述命令重新安装了torch，出现的版本不匹配问题已解决，当前代码可运行。我使用代码原本的参数设置，包括 IMS_PER_BATCH: 4 MAX_ITER: 100000 MATCHING_CFG: 'o2o' _C.DATALOADER.NUM_WORKERS = 4 等我的显卡总显存为16117MiB，运行时所用显存为12659MiB，代码运行预估需要3天，请问这个时间是否正常，我如何设置参数才能减少运行时间？

日志信息如下： log.txt

您好，适当减小训练迭代就可以：也就是减少MAX_ITER，我印象里大概只需要3w 左右的迭代就可以得到很近似的结果，我们用更长的时间训练是为了结果的稳定性。目前看来应该是可以正常运行的，而且似乎收敛速度比我们的实验更快一点，可能是高torch版本的原因。

wokeyide1999 · 2022-07-14T09:39:07Z

您好，我发现你的gpu型号是a4000，我没有在这种型号的卡上配置过环境。不过我曾经尝试在3090上配置，需要注意的是由于有些新型号卡只支持cuda11的环境，而torch和cuda的版本也需要匹配上，所以我当时是用了更高版本的torch以及cuda11，这方面你可以检查下。我近期比较忙可能没办法帮你详细check，之后有时间的时候可以再详细帮你看看，如果还没有解决的话。

conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge 您好，我用如上述命令重新安装了torch，出现的版本不匹配问题已解决，当前代码可运行。我使用代码原本的参数设置，包括 IMS_PER_BATCH: 4 MAX_ITER: 100000 MATCHING_CFG: 'o2o' _C.DATALOADER.NUM_WORKERS = 4 等我的显卡总显存为16117MiB，运行时所用显存为12659MiB，代码运行预估需要3天，请问这个时间是否正常，我如何设置参数才能减少运行时间？
日志信息如下： log.txt

您好，适当减小训练迭代就可以：也就是减少MAX_ITER，我印象里大概只需要3w 左右的迭代就可以得到很近似的结果，我们用更长的时间训练是为了结果的稳定性。目前看来应该是可以正常运行的，而且似乎收敛速度比我们的实验更快一点，可能是高torch版本的原因。

十分感谢您的解答！

wymanCV · 2022-07-15T10:06:43Z

不客气！如果后续有问题可以重新开启issue哈

wymanCV added the environment label Jul 14, 2022

wymanCV closed this as completed Jul 15, 2022

PungTeng mentioned this issue Nov 16, 2022

作者你好！我想请问一下训练各个模型的时间是多少？ #20

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED #11

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED #11

wokeyide1999 commented Jul 13, 2022 •

edited

Loading

wymanCV commented Jul 13, 2022

wokeyide1999 commented Jul 14, 2022

wymanCV commented Jul 14, 2022 •

edited

Loading

wokeyide1999 commented Jul 14, 2022

wymanCV commented Jul 15, 2022

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED #11

RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED #11

Comments

wokeyide1999 commented Jul 13, 2022 • edited Loading

wymanCV commented Jul 13, 2022

wokeyide1999 commented Jul 14, 2022

wymanCV commented Jul 14, 2022 • edited Loading

wokeyide1999 commented Jul 14, 2022

wymanCV commented Jul 15, 2022

wokeyide1999 commented Jul 13, 2022 •

edited

Loading

wymanCV commented Jul 14, 2022 •

edited

Loading