nacos 长时间处于 starting #414

ldsdsy · 2023-05-17T02:01:37Z

同样的 operator 和 chart 包去部署 nacos 集群，在两套环境里的表现完全不一样，环境一里面部署，扩容都很正常，但环境二里面很容易失败，部署失败后重启 pod 有概率会成功，扩容操作肯定会失败，看节点日志，nacos 一直在 starting。这两套环境的区别，主要是环境一用的 nfs 持久化，环境二用的 Carina，不清楚是不是跟这有关系。有什么可能的原因可供参考吗？

wilsonwu · 2023-05-17T07:04:33Z

这个问题有点复杂，最好是能有日志辅助排查，不排除的是环境本身问题。

ldsdsy · 2023-05-17T07:23:21Z

需要哪些日志呢，如果是 nacos 节点的日志的话，就是一直打印 2023-05-17 14:16:36,855 INFO Nacos is starting...
当我调大一些内存资源时，环境二的部署成功概率提高了，扩容还是不行，扩容不行的原因就是新增的 nacos 节点一直处于 starting，如果重启，是有可能成功的，就感觉不是很稳定。

wilsonwu · 2023-05-17T08:55:54Z

嗯目前给的cpu和内存是多少？感觉现象很像内存不够。

ldsdsy · 2023-05-17T09:35:43Z

刚开始两个环境都是 1C2G，然后给环境二里的改成 1C3G。都设置了 JVM_XMX:2g JVM_XMS:2g JVM_XMN:1g 不知道跟这有没有关系。

wilsonwu · 2023-05-17T10:41:11Z

看样子资源也还是够的，或者你尝试一下给2c4g看看启动效率是不是会有大幅度提升，然后再削减资源看是不是资源产生的影响。

ldsdsy · 2023-05-19T02:34:05Z

尝试了一下 2c4g ，扩容的时候还是存在部分节点一直处于 starting 。我发现部署的时候节点都是同时启动的，但扩容时的顺序是新增节点先启动，然后旧节点再逆序重启，跟这个有关系吗？

wilsonwu · 2023-05-19T08:29:07Z

应该和这个问题没有关系，滚动升级是一个正常机制，或者再尝试增加资源看看？我也没有什么好思路了。

ldsdsy · 2023-05-19T08:54:46Z

好的，我再试试看。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

nacos 长时间处于 starting #414

nacos 长时间处于 starting #414

ldsdsy commented May 17, 2023

wilsonwu commented May 17, 2023

ldsdsy commented May 17, 2023

wilsonwu commented May 17, 2023

ldsdsy commented May 17, 2023

wilsonwu commented May 17, 2023

ldsdsy commented May 19, 2023

wilsonwu commented May 19, 2023

ldsdsy commented May 19, 2023

nacos 长时间处于 starting #414

nacos 长时间处于 starting #414

Comments

ldsdsy commented May 17, 2023

wilsonwu commented May 17, 2023

ldsdsy commented May 17, 2023

wilsonwu commented May 17, 2023

ldsdsy commented May 17, 2023

wilsonwu commented May 17, 2023

ldsdsy commented May 19, 2023

wilsonwu commented May 19, 2023

ldsdsy commented May 19, 2023