Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

夜莺v3版本 agent 停止时无法生产报警事件 #442

Closed
linux-david opened this issue Dec 5, 2020 · 14 comments
Closed

夜莺v3版本 agent 停止时无法生产报警事件 #442

linux-david opened this issue Dec 5, 2020 · 14 comments

Comments

@linux-david
Copy link

linux-david commented Dec 5, 2020

我将夜莺从v2版本重新部署成v3版本时其他报警可以正常的生成报警信息,agent 停止时无法生成告警事件

监控策略如下

{
"name": "监控agent失联",
"category": 1,
"alert_dur": 60,
"recovery_dur": 0,
"recovery_notify": 1,
"enable_stime": "00:00",
"enable_etime": "23:59",
"priority": 1,
"exprs": [
{
"eopt": "=",
"func": "nodata",
"metric": "proc.agent.alive",
"params": [],
"threshold": 0
}
],
"tags": [],
"enable_days_of_week": [
0,
1,
2,
3,
4,
5,
6
],
"converge": [
36000,
1
],
"endpoints": null
},

其余报警都正常,并且我的监控策略都是放置在一个主节点的
当agent停止时可以可以从监控看图正常的看到proc.agent.alive 监控项没有上报获取到信息
在未恢复报警中没有生成事件为啥
求大佬指点

@UlricQin
Copy link
Member

UlricQin commented Dec 5, 2020

具体是哪个版本?

@linux-david
Copy link
Author

具体是哪个版本?

https://github.com/didi/nightingale 安装这个git部署的应该是v3的最新版

@UlricQin
Copy link
Member

UlricQin commented Dec 5, 2020

源码编译安装的?拉最新代码试试,另外在所有历史告警中有没有

@UlricQin
Copy link
Member

UlricQin commented Dec 5, 2020

这个情况主要是因为浏览器的时间和服务端时间不同步导致的,后续我们会优化一个版本,对这种情况做容错展示

@linux-david
Copy link
Author

这个情况主要是因为浏览器的时间和服务端时间不同步导致的,后续我们会优化一个版本,对这种情况做容错展示

现在的话有什么处理方法没

@UlricQin
Copy link
Member

UlricQin commented Dec 5, 2020

所有历史告警中到底有没有,你这一会说有一会说没有的,我糊涂了

@linux-david
Copy link
Author

所有历史悠久中到底有没有,你这一会说某些会说没有的,我糊涂了
没有所有历史报警里面没有。就是说当agent 正常时,我的一些其他报警是正常的可以报警,当我把agent 停止时它不会生产报警事件

@linux-david
Copy link
Author

所有历史告警中到底有没有,你这一会说有一会说没有的,我糊涂了

按道理我agent停止的话应该要报警 监控agent失联 才对

@UlricQin
Copy link
Member

UlricQin commented Dec 5, 2020

截以下图看:

1、策略列表页面,把树和agent失联的策略都截上
2、策略详情页面,看看策略具体是如何配置的
3、用户资源中心资源列表页面,要看到绑定策略的树节点下面是否有对应的机器
4、告警历史-所有告警事件,这个页面截图,还是截取刚才配置策略的节点

@linux-david
Copy link
Author

截以下图看:

1,策略列表页面,把树和agent失联的策略都截上
2,策略列表,看看策略具体是如何配置的
3,用户资源中心资源列表页面,要看到绑定策略的树下面是否有对应的机器
4,重置历史-所有替换事件,这个页面截图,还是截取刚才配置策略的中断

我们公司这边做了限制上传不了图片,我这边安装你说的这4个方面排查下

@jiangzhen1002
Copy link

具体是哪个版本?

大佬你好。我也遇到一样的问题,agent停掉不告警,版本是3.3.0

@jiangzhen1002
Copy link

截以下图看:
1,策略列表页面,把树和agent失联的策略都截上
2,策略列表,看看策略具体是如何配置的
3,用户资源中心资源列表页面,要看到绑定策略的树下面是否有对应的机器
4,重置历史-所有替换事件,这个页面截图,还是截取刚才配置策略的中断

我们公司这边做了限制上传不了图片,我这边安装你说的这4个方面排查下

哥们,请问排查后有看出是哪里的问题吗?

@UlricQin
Copy link
Member

@jiangzhen1002 3.3.0 这个版本确实有问题 升级到3.3.1可以解决,changelog:https://github.com/didi/nightingale/blob/master/changelog

@jiangzhen1002
Copy link

@jiangzhen1002 3.3.0 这个版本确实有问题 升级到3.3.1可以解决,changelog:https://github.com/didi/nightingale/blob/master/changelog

已升级3.3.1,问题解决。谢谢!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants