New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
在训练模型时报了这个错Error: Blocking queue is killed because the data reader raises an exception #308
Comments
你修改过代码吗?你这是在什么情况下运行报错的,是训练,预测还是预测部署?然后你用的是哪个版本的 |
|
我没有修改过代码,用的是那个快速入门里面的代码,然后数据是自己本地的,调整了参数,然后版本应该是0.5?这个是在训练的时候报错的,数据校验的时候好像没啥问题(我也不是特别懂) |
你是根据这个教程在自己电脑上运行的吗?然后你训练日志也提供一下 |
是的,是这个教程,但是不好意思我不太清楚训练日志是什么(对不起我太菜了) |
你先根据我们提供给的示例数据集跑一遍教程,初步了解我们的运行过程,然后你也看一下我们的数据结构,你再根据我们的示例数据的格式替换自己的数据集就行了。 |
啊对不起我在下载你们的数据时有报这个错,能问问这是为什么吗,是Python版本的问题吗 File "dataset/download_optic.py", line 1 |
我这边运行正常,你把这一行删除了试试,不行的话你你直接自己下载解压数据集https://paddleseg.bj.bcebos.com/dataset/optic_disc_seg.zip |
对不起我照着你们给的例子修改了一下我的配置,还是报错,你们给的例子可以跑,但是我的数据集还是不行 |
您好,我还是没能解决问题,能再帮我看看吗 |
给我一下你的运行日志,你也可以跑一下python pdseg/check.py --cfg your.yaml 看一下数据是否有问题 |
您说的运行日志是这个吗 C:\Users\DELL\AppData\Local\Programs\Python\Python37\lib\site-packages\paddle\fluid\executor.py:1070: UserWarning: The following exception is not an EOF exception. C++ Call Stacks (More useful to developers):Windows not support stack backtrace yet. Python Call Stacks (More useful to users):File "C:\Users\DELL\AppData\Local\Programs\Python\Python37\lib\site-packages\paddle\fluid\framework.py", line 2610, in append_op Error Message Summary:Error: Blocking queue is killed because the data reader raises an exception |
然后我感觉数据校验是没问题的,那个detail文件内容如下:
|
print(grt.dtype)就行了 |
啊不好意思我是这么个情况,我在那个函数下面加了调用它报了这个错(不知道怎么办的我) 程序:
resize(img=None, grt=None, mode=ModelPhase.TRAIN) 然后报错是这样的: |
你就正常跑就行了,然后看打印出来的结果。而且你这边直接resize(img=None, grt=None)也没有数据传进。 另外你改动过代码吗? 把你的数据传几张给我看一下。 |
你这是两类分类,类别标签应该是0和1,你看看是否符合要求 |
是把NUM_CLASSES设置为2吗,但是我试了还是不行呀(对不起实在麻烦了) |
NUM_CLASSES为2. 另外你看看你标注图像是不是0和1,看你的图片,你的标注图像的数值像是0和255, 把255改成1重新保存 |
啊是我现在应该去重新标注图像的意思吗(对不起这个图像是学姐帮忙标注的我就不是很懂) |
不用重新标注,你直接读取然后重新保存就行了
|
label[label==255] =1 |
不是直接运行, 'xxx.png'要替换成你的图片路径。参照我给你的脚本自己把标注图像进行读取 修改数值 保存。 如果你不清楚opencv关于图片读取与保存的话,可以上网搜一下学习学习哈。 |
255改成1后,显示成黑的是正常的 |
非常感谢,上一个问题已经解决了,现在有个很尴尬的问题,报错是这样的Error Message Summary:ResourceExhaustedError: Out of memory error on GPU 0. Cannot allocate 396.162354MB memory on GPU 0, available memory is only 182.887500MB. Please check whether there is any other process using GPU 0.
at (D:\1.8.1\paddle\paddle\fluid\memory\allocation\cuda_allocator.cc:69) batch size我已经调到2了,然后我其他的我不太清楚还能终止些什么程序,我现在还能怎么办呢(麻烦啦) |
你跑的是什么模型,然后你的显存多大? |
那就是显存不足了,显存是随着模型的部署一步步增加的,这个是指这一步需要433m,但显存只剩下170m。 |
图像尺寸可能没办法,batchsize我也调到2了,还有别的办法吗(大哭) |
您好,我就我想问问咱们显卡编号是怎么设置的呀,集成显卡能用吗,要是实在不行我可能得放弃了(对不起麻烦你了) |
对不起我想问一下已经跑完的模型还占显存吗?我想试试其他模型但是突然显示显存不够了,报错大概是这个 |
集显用不了,得用独显。 没有显卡的话可以上AIStudio试试,上面提供免费的V100显卡算力, 16G显存。 |
程序结束后会自动释放显存的,除非进程没有正常推出,这也是有可能。你显存比较小还是一个一个跑吧。跑完一个如果没有正常退出就手动kill一下 |
Error: Blocking queue is killed because the data reader raises an exception
[Hint: Expected killed_ != true, but received killed_:1 == true:1.] at (D:\1.8.1\paddle\paddle/fluid/operators/reader/blocking_queue.h:141)
[operator < read > error]
W0703 11:51:43.316778 16908 operator.cc:187] read raises an exception class std::future_error, no state
F0703 11:51:43.316778 16908 exception_holder.h:37] std::exception caught, no state
*** Check failure stack trace: ***
去群里问说吧batch sise调小一点,检查数据,但是我检查了还是这么报错,求求大佬帮帮忙
The text was updated successfully, but these errors were encountered: