-
Notifications
You must be signed in to change notification settings - Fork 14
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED #11
Comments
您好,我发现你的gpu型号是a4000,我没有在这种型号的卡上配置过环境。不过我曾经尝试在3090上配置,需要注意的是由于有些新型号卡只支持cuda11的环境,而torch和cuda的版本也需要匹配上,所以我当时是用了更高版本的torch以及cuda11,这方面你可以检查下。我近期比较忙可能没办法帮你详细check,之后有时间的时候可以再详细帮你看看,如果还没有解决的话。 |
conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge 日志信息如下: |
您好,适当减小训练迭代就可以:也就是减少MAX_ITER,我印象里大概只需要3w 左右的迭代就可以得到很近似的结果,我们用更长的时间训练是为了结果的稳定性。目前看来应该是可以正常运行的,而且似乎收敛速度比我们的实验更快一点,可能是高torch版本的原因。 |
十分感谢您的解答! |
不客气!如果后续有问题可以重新开启issue哈 |
您好,我在使用命令
python tools/train_net_da.py --config-file configs/SIGMA/sigma_vgg16_sim10k_to_cityscapes.yaml
运行中遇到了如下错误,不知道您是否能提供一些帮助,十分感谢!
环境如下:
CUDA : 11.3, GCC : 7.5.0, Nvidia driver : 470.86
python : 3.7.9
conda:
cudatoolkit=10.1
pip:
torch==1.4.0
torchvision==0.2.1
scipy==1.6.0
python setup.py build develop所遇错误的解决方案(可成功编译,但不知道对实际运行的影响):
一、miniconda3/envs/SIGMA/lib/python3.7/site-packages/torch/utils/cpp_extension.py中添加了'8.6'架构
二、miniconda3/envs/SIGMA1/lib/python3.7/site-packages/torchvision/transforms/functional.py中由于pillow版本导致的错误故改为__version__
RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED错误的已尝试方案(均无效):
一、按如下要求修改sigma_vgg16_sim10k_to_cityscapes.yaml
二、torch.backends.cudnn.enabled=False
三、pip install tensorboardX==2.1
四、修改cudatoolkit版本为11.1, 11.3
部分日志信息如下:
log.txt
The text was updated successfully, but these errors were encountered: