Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

nacos v2.2.3版本,微服务注册nacos疑问 #11258

Closed
zhangpk1996 opened this issue Oct 17, 2023 · 19 comments
Closed

nacos v2.2.3版本,微服务注册nacos疑问 #11258

zhangpk1996 opened this issue Oct 17, 2023 · 19 comments

Comments

@zhangpk1996
Copy link

nacos v2.2.3版本,k8s 微服务注册nacos,重启pod或者删除pod, nacos注册实例不会消失,一直显示健康

@stone-98
Copy link
Contributor

stone-98 commented Oct 18, 2023

是否有更加详细的信息,例如报错日志之类的?正常情况下,当删除pod,nacos服务端一段时间没有接收到sdk的心跳,会将该实例移除。

@zhangpk1996
Copy link
Author

zhangpk1996 commented Oct 18, 2023 via email

@stone-98
Copy link
Contributor

stone-98 commented Oct 18, 2023

你的nacos.log日志是没有上传吗?我这边没有显示,你可以把nacos.log上传一下,如果确定有问题,社区会进行修复的。目前提供的信息太少,无法判断原因。

@zhangpk1996
Copy link
Author

zhangpk1996 commented Oct 18, 2023 via email

@KomachiSion
Copy link
Collaborator

  1. 可能是出现了幽灵pod, 导致心跳依旧在发送或者连接一直未断开。
  2. 集群健康检查被关闭,可使用curl -X GET '127.0.0.1:8848/nacos/v1/ns/operator/switches'查看
  3. 可能是一个已知bug, 断网场景连接断开不会被感知到, 新版本将会修复。

@zhangpk1996
Copy link
Author

zhangpk1996 commented Oct 18, 2023 via email

@KomachiSion
Copy link
Collaborator

从描述上来看, 是幽灵pod的概率非常大。

  1. 幽灵pod指的是,k8s中已经看不到这个pod了, 但是这个pod的进程依旧在node中运行。
  2. nacos 断网长连接无法移除的bug是断网时,由于pingpong超时时间失效导致过期的数据未被及时移除,但是你描述的是杀了pod之后还在,一般杀pod会stop进程,连接会挥手断开,不会触发这个bug。

综上,大概率是幽灵pod导致的,可以看下node上是不是还有非预期的9848的连接。可以通过连接来定位到进程,直接从node上kill 进程试一下。

@zhangpk1996
Copy link
Author

zhangpk1996 commented Oct 25, 2023 via email

@KomachiSion
Copy link
Collaborator

你好,杨老师,经上所述测试结果 1、v2.2.3版本,进入微服务容器,kill -9  杀进程,实例是几秒钟就消失了。 2、v2.2.3版本,删除pod之后,使用命令netstat 查询k8s所有节点,未找到 此微服务 有关9848和8848,(或者nodeport对应的端口) 3、v2.1.1,v2.1.0 版本,删除pod,这两版本都会正常几秒钟就注销实例(和v2.2.3版本使用的是同一个微服务镜像)

------------------ 原始邮件 ------------------ 发件人: "alibaba/nacos" @.>; 发送时间: 2023年10月23日(星期一) 下午4:25 @.>; @.@.>; 主题: Re: [alibaba/nacos] nacos v2.2.3版本,微服务注册nacos疑问 (Issue #11258) 从描述上来看, 是幽灵pod的概率非常大。 幽灵pod指的是,k8s中已经看不到这个pod了, 但是这个pod的进程依旧在node中运行。 nacos 断网长连接无法移除的bug是断网时,由于pingpong超时时间失效导致过期的数据未被及时移除,但是你描述的是杀了pod之后还在,一般杀pod会stop进程,连接会挥手断开,不会触发这个bug。 综上,大概率是幽灵pod导致的,可以看下node上是不是还有非预期的9848的连接。可以通过连接来定位到进程,直接从node上kill 进程试一下。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

第二个场景, 在nacos-server测执行netstat 查看是否有9848连接呢。

@zhangpk1996
Copy link
Author

zhangpk1996 commented Oct 30, 2023 via email

@KomachiSion
Copy link
Collaborator

那就不是bug导致的, 需要你在自查一下环境是否有问题, 如果是bug导致的, 此时连接9848的连接还在,只是这个连接不会发送数据包了。

@wade-bigdata
Copy link

  1. 可能是出现了幽灵pod, 导致心跳依旧在发送或者连接一直未断开。
  2. 集群健康检查被关闭,可使用curl -X GET '127.0.0.1:8848/nacos/v1/ns/operator/switches'查看
  3. 可能是一个已知bug, 断网场景连接断开不会被感知到, 新版本将会修复。

我这边也遇到这个问题 nacos2.2.3+k8s,目前排查有如下几个特征
1.pod下线偶尔会遇到这个问题
2.ping和telnet下线的pod不通,运维协助也发现该pod确实已下线
3.排查日志发现pod实际下线后nacos就没有该pod的心跳日志,也没有下线日志

综合情况来看可能是你说的第三种情况,待下次浮现排查

@zhangpk1996
Copy link
Author

zhangpk1996 commented Nov 10, 2023 via email

@wade-bigdata
Copy link

wade-bigdata commented Nov 10, 2023

经过多次上下线浮现了这个问题,现象如下:100.95.66.131这个ip的pod确认已下线,但在nacos server容器用netstat命令看到 tcp soket连接还在,并且nacos后台长时间不下线,日志也无心跳日志
image

@zhangpk1996
Copy link
Author

zhangpk1996 commented Nov 10, 2023 via email

@wade-bigdata
Copy link

经过多次上下线浮现了这个问题,现象如下:100.95.66.131这个ip的pod确认已下线,但在nacos server容器用netstat命令看到 tcp soket连接还在,并且nacos后台长时间不下线,日志也无心跳日志 image

@KomachiSion 我这种情况是你说的第三情况么,如果是的化修复的版本计划是那个版本号呢?

@KomachiSion
Copy link
Collaborator

经过多次上下线浮现了这个问题,现象如下:100.95.66.131这个ip的pod确认已下线,但在nacos server容器用netstat命令看到 tcp soket连接还在,并且nacos后台长时间不下线,日志也无心跳日志 image

@KomachiSion 我这种情况是你说的第三情况么,如果是的化修复的版本计划是那个版本号呢?

2.3.0-BETA

@KomachiSion
Copy link
Collaborator

No more response from author, and the new version seems solved the problem.

@KomachiSion KomachiSion closed this as not planned Won't fix, can't repro, duplicate, stale Nov 24, 2023
@busishe
Copy link

busishe commented May 14, 2024

我们也遇到了类似问题,#12095

老版本nacos client 1.4无此问题,2.2.0稳定复现。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

5 participants