-
Notifications
You must be signed in to change notification settings - Fork 45
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED #31
Comments
看起来像是torch以及对应的cudatookit 装错了,建议上torch官网根据自己的cuda版本重新装一下试试看,版本1.3.1以上应该是都可以的。 |
我用的是torch1.7.1+cu10.1好像没有什么问题,这个LSTM的报错是在哪里出现的呢? 不建议使用cpu,应该会非常久 |
我的系统cuda是11.4应该会向下兼容的吧 |
这个应该是保存的模型里的LSTM1在1.3版本和1.7版本不兼容的问题,你可以先试试看不用
如果确实需要预先训练好的模型进行预测的话,建议还是想办法使用torch1.3.1,可以查询一下网上的一些解决方案,比如这个 |
这个是我不加--test直接训练的,还挺奇怪的。
|
这个还是torch 1.3.1和1.7.1里LSTM函数不同导致的问题,我更新了代码修复了这个问题,你也可以直接修改你的
|
你好,我修改代码之后可以训练了,我训练了几轮之后,然后ctrl+c终止训练,也看到我的模型保存了,然后我加--test运行出现这样的问题。😭
|
发个完整的Traceback看一下,这个我看不出来 |
这个可以吗,麻烦了
|
修改了 |
改了之后发现我直接ctrl+c保存模型有这个问题,我重新把代码改回去好像还是有这个问题
然后我加--test的话就是下面这个问题,找不到配置文件,最开始我是没有更改yaml文件里的embedding_name进行训练,原来embedding_name是
|
第一个问题是你提前退出的太早了,模型在训练完第一个episode(不是epoch)得到模型accuracy之前不会保存best action。你可以复制一下预先训练好的模型里面的state 到你的模型保存路径试试看能不能跑起来 第二个问题,embedding_name是保证读取我预训练好的模型不会出错用的,你如果自己训练的话,所有的
如果这种情况下还是读取不了embedding的话可能得确认一下 |
现在可以了,感谢! |
我运行的命令是
CUDA_VISIBLE_DEVICES=0 python train.py --config config/conll_03_english.yaml --test
配置文件也没有修改过,会出现RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED
这个是我的cuda和torch版本,我的python是3.7.4的。
我试了在train.py禁用cudnn,
出现的是这个问题
感谢回复~
The text was updated successfully, but these errors were encountered: