Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

训练检测模型时出现以下错误 #84

Closed
bboxzhen opened this issue May 21, 2020 · 10 comments
Closed

训练检测模型时出现以下错误 #84

bboxzhen opened this issue May 21, 2020 · 10 comments

Comments

@bboxzhen
Copy link

image
image

@LDOUBLEV
Copy link
Collaborator

LDOUBLEV commented May 21, 2020

问下,你是在自己的数据集上训练的吗,还是用的readme中提到的数据集。方便的话,提供下

  • 启动训练的指令
  • 训练环境:paddle版本,cuda版本等

初步怀疑是数据读取有问题

@bboxzhen
Copy link
Author

问下,你是在自己的数据集上训练的吗,还是用的readme中提到的数据集。方便的话,提供下

  • 启动训练的指令
  • 训练环境:paddle版本,cuda版本等

初步怀疑是数据读取有问题

readme上面的,应该是gpu内存不足
image

请问该如何减少训练模型大小

@LDOUBLEV
Copy link
Collaborator

训练模型很小了,轻量的模型只有4M多,你的GPU有多少内存,用的是哪一个算法

@LDOUBLEV
Copy link
Collaborator

watch nvidia-smi 看一下GPU内存使用情况,如果有其他程序占用了内存,但是GPU没有利用率,可以kill掉

@bboxzhen
Copy link
Author

训练模型很小了,轻量的模型只有4M多,你的GPU有多少内存,用的是哪一个算法
export PYTHONPATH=.&&/opt/conda_venv3.7/bin/python3 tools/train.py -c configs/det/det_mv3_db.yml -o Optimizer.base_lr=0.0001

image

@LDOUBLEV
Copy link
Collaborator

这个程序没有利用率,可能是python程序非正常关闭,但是进程依然存在,导致一直再占着显存

@bboxzhen
Copy link
Author

这个程序没有优化,可能是python程序非正常关闭,但是进程依然存在,导致一直再占着显存
可是我已经全部清理才开始跑的
sudo fuser -v /dev/nvidia* |awk '{for(i=1;i<=NF;i++)print "kill -9 " $i;}' | sudo sh
image

@LDOUBLEV
Copy link
Collaborator

那试试减小batchsize

@bboxzhen
Copy link
Author

batchsize

减少test_batch_size_per_card,train_batch_size_per_card可以解决问题,非常感谢

@LDOUBLEV
Copy link
Collaborator

batchsize

减少test_batch_size_per_card,train_batch_size_per_card可以解决问题,非常感谢

好的

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants