Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

训练人物被中断 #21

Closed
RonnieChenR opened this issue Sep 6, 2023 · 8 comments
Closed

训练人物被中断 #21

RonnieChenR opened this issue Sep 6, 2023 · 8 comments

Comments

@RonnieChenR
Copy link

训练人物:像是会被kill中断,这个有时又不会,训练人物是有成功过的,是不是有什么图像要求,这边上传的都是正面照
image

@wuziheng
Copy link
Collaborator

wuziheng commented Sep 6, 2023

我总结一下问题, 曾经完成过正常的训练流程,但截图表现在100step (validate的时候) 被意外中断了,并且这个中断不是你手动触发的(外部 ctrl+c)。

我来follow一下这个问题,我在之前的多次测试中从没有遇见过,可能要麻烦你提供你的机器环境

@bubbliiiing
Copy link
Collaborator

机器是否有内存与cpu的限制,可能是占用资源太多导致被系统kill,可以尝试减少num_works为0或者1
image

@RonnieChenR
Copy link
Author

机器是否有内存与cpu的限制,可能是占用资源太多导致被系统kill,可以尝试减少num_works为0或者1 image
内存cpu确实有限制,也有出现过GPU oom的情况,我先试试哈

@wuziheng
Copy link
Collaborator

wuziheng commented Sep 6, 2023

@RonnieChenR 后续如果确认这个问题可以通过调整参数解决,也可以提供一下您机器的配置,我们也方便在readme上的配置部分做一些提示,方便用户遇到类似问题,跳转到这里做一些参考。

@mmmz28
Copy link

mmmz28 commented Sep 6, 2023

我是第一次训练的时候就出现这个报错,
./webui.sh: line 254: 17164 Aborted "${python_cmd}" "${LAUNCH_SCRIPT}" "$@"
我的解决方法是:在webui.sh中第227行注释掉代码 # export LD_PRELOAD="${TCMALLOC}"

prepare_tcmalloc() {
    if [[ "${OSTYPE}" == "linux"* ]] && [[ -z "${NO_TCMALLOC}" ]] && [[ -z "${LD_PRELOAD}" ]]; then
        TCMALLOC="$(PATH=/usr/sbin:$PATH ldconfig -p | grep -Po "libtcmalloc(_minimal|)\.so\.\d" | head -n 1)"
        if [[ ! -z "${TCMALLOC}" ]]; then
            echo "Using TCMalloc: ${TCMALLOC}"
           # export LD_PRELOAD="${TCMALLOC}"  #注释掉
        else
            printf "\e[1m\e[31mCannot locate TCMalloc (improves CPU memory usage)\e[0m\n"
        fi
    fi
}

我不知道该方法是否合理,但是注释掉之后确实可以正常训练了。

@RonnieChenR
Copy link
Author

机器重启第一次训练结束后GPU高占用不下,
image

image
这个时候如进行第二次训练则会出错OOM

@RonnieChenR
Copy link
Author

@RonnieChenR 后续如果确认这个问题可以通过调整参数解决,也可以提供一下您机器的配置,我们也方便在readme上的配置部分做一些提示,方便用户遇到类似问题,跳转到这里做一些参考。

image
这个问题在更改num_works为0后得到了解决

@wuziheng
Copy link
Collaborator

wuziheng commented Sep 6, 2023

感谢 @RonnieChenR 我们会在下一个更新中 提供这个ISSUE 供后面的使用者参考。

@wuziheng wuziheng closed this as completed Sep 6, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants