告警模块按30秒周期检测DBService服务状态。当DBService服务不可用时产生该告警。
DBService服务恢复时,告警清除。
数据库服务不可用,无法对上层服务提供数据入库、查询等功能,使部分服务异常。
- 浮动IP不存在。
- 没有主DBServer实例。
- 主备DBServer进程都异常。
检查集群环境中是否存在浮动IP。
-
在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > DBService > 实例”。
-
查看是否有主实例存在。
-
以root用户登录上述IP所在主机,执行ifconfig命令查看DBService的浮动IP在该节点是否存在,用户密码为安装前用户自定义,请咨询系统管理员。
-
以root用户登录DBService浮动IP所在主机,执行以下命令删除浮动IP地址。
**ifconfig **_interface _down
-
在FusionInsight Manager首页,选择“ 集群 > 待操作集群的名称 > 服务 > DBService > 更多 > 重启服务”重启DBService服务,检查是否启动成功。
-
等待约两分钟,查看告警列表中的DBService服务不可用告警是否恢复。
- 是,处理完毕。
- 否,执行14。
检查主DBServer实例状态。
-
在“告警”页面,查看是否有上述IP所在主机DBServer实例“进程故障”告警产生。
-
等待5分钟,查看告警列表中的DBService服务不可用告警是否恢复。
- 是,处理完毕。
- 否,执行19。
检查主备DBServer数据库进程状态。
-
以root用户登录DBService浮动IP所在主机,执行su - omm命令切换至omm用户。
-
执行sh sbin/status-dbserver.sh命令查看DBService的主备HA进程状态,状态是否查询成功。
HAMode double NodeName HostName HAVersion StartTime HAActive HAAllResOK HARunPhase 10_5_89_12 host01 V100R001C01 2019-06-13 21:33:09 active normal Actived 10_5_89_66 host03 V100R001C01 2019-06-13 21:33:09 standby normal Deactived NodeName ResName ResStatus ResHAStatus ResType 10_5_89_12 floatip Normal Normal Single_active 10_5_89_12 gaussDB Active_normal Normal Active_standby 10_5_89_66 floatip Stopped Normal Single_active 10_5_89_66 gaussDB Standby_normal Normal Active_standby
-
在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > DBService > 更多 > 重启服务”重启DBService服务,查看界面是否提示重启成功。
-
等待约两分钟,查看告警列表中的DBService服务不可用告警是否恢复。
- 是,处理完毕。
- 否,执行19。
收集故障信息。
- 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
- 在“服务”中勾选待操作集群的“DBService”和“NodeAgent”。
- 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
- 请联系运维人员,并发送已收集的故障日志信息。
此告警修复后,系统会自动清除此告警,无需手工清除。
无。