告警模块按120秒周期检测HBase服务状态。当HBase服务不可用时产生该告警。
HBase服务恢复时,告警清除。
说明: 若集群启用了多实例功能且安装了多个HBase服务,请根据“定位信息”的“服务名”值来确定具体产生告警的HBase服务。例如HBase1服务不可用,则“定位信息”中显示服务名=HBase1,处理步骤中的操作对象也应由HBase调整为HBase1。
无法进行数据读写和创建表等操作。
- ZooKeeper服务异常。
- HDFS服务异常。
- HBase服务异常。
- 网络异常。
检查ZooKeeper服务状态。
-
在FusionInsight Manager的服务列表中,查看ZooKeeper运行状态是否为“良好”。
-
等待几分钟后检查本告警是否恢复。
- 是,处理完毕。
- 否,执行5。
检查HDFS服务状态。
-
等待几分钟后检查本告警是否恢复。
- 是,处理完毕。
- 否,执行8。
-
在FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > HDFS”,查看HDFS“安全模式”是否为“ON”。
-
以root用户登录HDFS客户端,用户密码为安装前用户自定义,请咨询系统管理员。执行cd命令进入客户端安装目录,然后执行source bigdata_env。
如果集群采用安全版本,要进行安全认证。预先向管理员获取hdfs用户的密码,执行kinit hdfs命令,按提示输入密码。
-
执行以下命令手动退出安全模式。
hdfs dfsadmin -safemode leave
-
等待几分钟后检查本告警是否恢复。
- 是,处理完毕。
- 否,执行12。
检查HBase服务状态。
-
查看2个HMaster的状态是否为一“主”一“备”。
-
单击“实例”,选择非主状态的HMaster实例,单击“更多 > 重启实例”重启HMaster,再次查看2个HMaster的状态是否为一“主”一“备”。
-
选择“集群 > 待操作集群的名称 > 服务 > HBase > HMaster(主)”,进入HMaster的WebUI页面。
说明: admin用户默认不具备其他组件的管理权限,如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时,可手动创建具备对应组件管理权限的用户进行登录。
-
查看Region Servers下是否存在至少一个RegionServer。
-
查看“Tables > System Tables”,如图1,查看该标签的“Table Name”列下是否存在“hbase:meta”、“hbase:namespace”和“hbase:acl”。
-
如图1,分别单击“hbase:meta”、“hbase:namespace”和“hbase:acl”超链接,查看所有页面是否能正常打开。如果页面能正常打开,说明表都正常。
-
如图2在“Tasks” 下有“RUNNING”的状态表示HMaster正在启动,“State”列有HMaster处于“RUNNING”状态的时间。如图3中的“COMPLETE”状态表示HMaster启动完成。
查看HMaster是否持续了很长一段时间处于“RUNNING”状态。
-
确认在不影响业务的情况下,登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > HBase > 更多 > 重启服务”,输入密码,单击“确定”。
-
- 是,处理完毕。
- 否,执行23。
检查HMaster和依赖组件之间的网络连接。
-
以omm用户通过24获取的IP地址登录主HMaster节点。
-
执行ping命令,查看主HMaster节点和依赖组件所在主机的网络连接是否正常。(依赖组件包括ZooKeeper、HDFS和Yarn等,获取依赖组件所在主机的IP地址的方式和获取主HMaster的IP地址的方式相同。)
-
在告警列表中,查看“HBase服务不可用”告警是否清除。
- 是,处理完毕。
- 否,执行29。
收集故障信息。
-
在“服务”中勾选待操作集群的如下节点信息。
- ZooKeeper
- HDFS
- HBase
-
请联系运维人员,并发送已收集的故障日志信息。
此告警修复后,系统会自动清除此告警,无需手工清除。
无。