-
Notifications
You must be signed in to change notification settings - Fork 1.4k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
夜莺v3版本 agent 停止时无法生产报警事件 #442
Comments
具体是哪个版本? |
https://github.com/didi/nightingale 安装这个git部署的应该是v3的最新版 |
源码编译安装的?拉最新代码试试,另外在所有历史告警中有没有 |
这个情况主要是因为浏览器的时间和服务端时间不同步导致的,后续我们会优化一个版本,对这种情况做容错展示 |
现在的话有什么处理方法没 |
所有历史告警中到底有没有,你这一会说有一会说没有的,我糊涂了 |
|
按道理我agent停止的话应该要报警 监控agent失联 才对 |
截以下图看: 1、策略列表页面,把树和agent失联的策略都截上 |
我们公司这边做了限制上传不了图片,我这边安装你说的这4个方面排查下 |
大佬你好。我也遇到一样的问题,agent停掉不告警,版本是3.3.0 |
哥们,请问排查后有看出是哪里的问题吗? |
@jiangzhen1002 3.3.0 这个版本确实有问题 升级到3.3.1可以解决,changelog:https://github.com/didi/nightingale/blob/master/changelog |
已升级3.3.1,问题解决。谢谢! |
我将夜莺从v2版本重新部署成v3版本时其他报警可以正常的生成报警信息,agent 停止时无法生成告警事件
监控策略如下
{
"name": "监控agent失联",
"category": 1,
"alert_dur": 60,
"recovery_dur": 0,
"recovery_notify": 1,
"enable_stime": "00:00",
"enable_etime": "23:59",
"priority": 1,
"exprs": [
{
"eopt": "=",
"func": "nodata",
"metric": "proc.agent.alive",
"params": [],
"threshold": 0
}
],
"tags": [],
"enable_days_of_week": [
0,
1,
2,
3,
4,
5,
6
],
"converge": [
36000,
1
],
"endpoints": null
},
其余报警都正常,并且我的监控策略都是放置在一个主节点的
当agent停止时可以可以从监控看图正常的看到proc.agent.alive 监控项没有上报获取到信息
在未恢复报警中没有生成事件为啥
求大佬指点
The text was updated successfully, but these errors were encountered: