Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

训练卡在Saving checkpoints for 0 ,请问什么原因? #12

Open
xkungfu opened this issue Nov 6, 2020 · 12 comments
Open

训练卡在Saving checkpoints for 0 ,请问什么原因? #12

xkungfu opened this issue Nov 6, 2020 · 12 comments

Comments

@xkungfu
Copy link

xkungfu commented Nov 6, 2020

INFO:tensorflow:Saving checkpoints for 0 into ...../model.ckpt.
I1107 14:10:38.075445 140053106304832 basic_session_run_hooks.py:606] Saving checkpoints for 0 into ....../model.ckpt.

到这就停了。
Top命令,也没找到python的进程。
4核cpu. ubuntu18.04.
有什么解决办法么?

@xkungfu xkungfu changed the title 相差特别大的句子,计算出的相似值却非常高,请问什么原因? 训练卡在Saving checkpoints for 0 ,请问什么原因? Nov 7, 2020
@sixmilesroad
Copy link

我也遇到这个问题了,请问你解决了吗

@xkungfu
Copy link
Author

xkungfu commented Nov 9, 2020

没有解决。我无能为力了。你如果找到解决办法了麻烦分享一下,谢谢!你QQ或微信方便加一下吗?

@xkungfu
Copy link
Author

xkungfu commented Nov 12, 2020

我可能知道是什么原因了,可能是和机器性能有关。需要高配机器。我是4核8G云服务器。训练完可能要好几天或者干脆无法结束。

@sixmilesroad
Copy link

我试试,有结果告诉你

@sixmilesroad
Copy link

我有个别的能跑的代码,没用这个,这两天我试试这个

@xkungfu
Copy link
Author

xkungfu commented Nov 12, 2020

谢谢。你有高配机器的话,可以试试。

我用了另一个可以跑通,并且作者一直在线回复问题:
https://github.com/yongzhuo/Keras-TextClassification

@sixmilesroad
Copy link

试了,能跑通,代码没有问题。

@Brokenwind
Copy link
Owner

INFO:tensorflow:Saving checkpoints for 0 into ...../model.ckpt.
I1107 14:10:38.075445 140053106304832 basic_session_run_hooks.py:606] Saving checkpoints for 0 into ....../model.ckpt.

到这就停了。
Top命令,也没找到python的进程。
4核cpu. ubuntu18.04.
有什么解决办法么?

建议用GPU训练模型,目前的代码都是在GPU上调试通过的,用CPU训练基于bert的模型有点不适合

@xkungfu
Copy link
Author

xkungfu commented Nov 14, 2020

试了,能跑通,代码没有问题。

训练好的模型文件可否上传到网盘分享一下呢?谢谢!

@xkungfu
Copy link
Author

xkungfu commented Nov 14, 2020

INFO:tensorflow:Saving checkpoints for 0 into ...../model.ckpt.
I1107 14:10:38.075445 140053106304832 basic_session_run_hooks.py:606] Saving checkpoints for 0 into ....../model.ckpt.
到这就停了。
Top命令,也没找到python的进程。
4核cpu. ubuntu18.04.
有什么解决办法么?

建议用GPU训练模型,目前的代码都是在GPU上调试通过的,用CPU训练基于bert的模型有点不适合

训练好的模型文件,是不是通用的呢,是不是只要有了这个文件就不需要再训练就可以直接使用呢。
训练好的模型文件,也需要在GPU环境下才能使用么。

@Brokenwind
Copy link
Owner

INFO:tensorflow:Saving checkpoints for 0 into ...../model.ckpt.
I1107 14:10:38.075445 140053106304832 basic_session_run_hooks.py:606] Saving checkpoints for 0 into ....../model.ckpt.
到这就停了。
Top命令,也没找到python的进程。
4核cpu. ubuntu18.04.
有什么解决办法么?

建议用GPU训练模型,目前的代码都是在GPU上调试通过的,用CPU训练基于bert的模型有点不适合

训练好的模型文件,是不是通用的呢,是不是只要有了这个文件就不需要再训练就可以直接使用呢。
训练好的模型文件,也需要在GPU环境下才能使用么。

训练好的参数文件是通用的,有了训练好的参数文件可以直接使用。
训练好的参数文件CPU,GPU环境可以使用

@Brokenwind
Copy link
Owner

Brokenwind commented Nov 17, 2020

试了,能跑通,代码没有问题。

训练好的模型文件可否上传到网盘分享一下呢?谢谢!

https://pan.baidu.com/s/19pR3PS8AVIPpKZAXPkHdSA
提取码:fud8

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants