系统每300秒周期性检测Spark2x服务状态,当检测到Spark2x服务不可用时产生该告警。
Spark2x服务恢复时,告警清除。
用户提交的Spark任务执行失败。
- KrbServer服务异常。
- LdapServer服务异常。
- ZooKeeper服务异常。
- HDFS服务异常。
- Yarn服务异常。
- 对应的Hive服务异常。
- Spark2x assembly包异常。
若告警原因为:Spark2x assembly包异常,则表示spark的包存在异常,等待10分钟左右,告警自动恢复。
检查Spark2x依赖的服务是否有服务不可用告警。
-
在FusionInsight Manager首页,选择“运维 > 告警 > 告警”。
-
在告警列表中,查看是否存在以下告警:
- ALM-25500 KrbServer服务不可用
- ALM-25000 LdapServer服务不可用
- ALM-13000 ZooKeeper服务不可用
- ALM-14000 HDFS服务不可用
- ALM-18000 Yarn服务不可用
- ALM-16004 Hive服务不可用
说明: 若集群启用了多实例功能且安装了多个Spark2x服务,请根据“定位信息”中的“服务名”值来查看具体产生告警的Spark2x服务,然后确认对应的Hive服务是否故障,Spark2x对应Hive,Spark2x1对应Hive1,以此类推。
-
告警全部恢复后,等待几分钟,检查本告警是否恢复。
- 是,处理完毕。
- 否,执行4。
收集故障信息。
-
在“服务”中勾选待操作集群的如下节点信息。(Hive为根据告警定位信息中的“服务名”确定的具体Hive服务。)
- KrbServer
- LdapServer
- ZooKeeper
- HDFS
- Yarn
- Hive
-
请联系运维人员,并发送已收集的故障日志信息。
此告警修复后,系统会自动清除此告警,无需手工清除。
无。