随着用户业务的增长,Core节点的扩容,CPU使用率变高,而Master节点规格已经不满足用户需求时,则需要升级Master节点规格。本章节介绍Master节点规格升级的操作流程。
确认是否开启了企业主机安全(Host Security Service,简称HSS)服务,如果已开启,升级Master节点规格前需要先暂时关闭HSS服务对MRS集群的监测。
- 仅支持2个Master节点的集群升级Master节点规格 。
- 不支持使用BMS类型规格的集群升级Master节点规格 。
- MRS 3.1.0及之后版本,请参考集群Master节点规格升级(一键升级)
- MRS 1.8.2及之后版本至MRS 3.x之前版本,请参考集群Master节点规格升级(一键升级)操作。
- MRS 1.8.2之前版本和MRS 3.0.5版本,请参考集群Master节点规格升级(分步升级)操作。
-
登录MRS管理控制台。
-
选择 “集群列表 > 现有集群“ ,选中需要升级Master节点规格的集群并单击集群名,进入集群信息页面。
-
在“节点管理“页签Master节点组的“操作”列选择“升级规格“,进入“升级Master规格“页面。
-
选择升级后的规格,单击“提交“成功提交升级Master规格任务。
节点规格升级过程需要时间,升级成功后集群状态更新为“运行中”,请您耐心等待。
Master节点规格升级前准备
-
选择 “集群列表 > 现有集群“ ,选中需要升级Master节点规格的集群并单击集群名,进入集群信息页面。
-
查看集群状态,确保集群状态为“运行中”。
-
在“节点管理“页签查看各节点状态,确保集群所有节点的状态为“运行中”。
-
登录Manager,进入集群管理页面,具体请参见访问MRS Manager(MRS 2.x及之前版本)。
-
选择“集群 > 服务 > ZooKeeper > 概览”,确保ZooKeeper服务的“运行状态“为“良好“。
-
用户根据自己的需要更新服务参数配置,具体请参考配置服务参数。
-
记录“NameNode(备)“的业务IP,当升级主Master节点规格时请记录“NameNode(主)“的业务IP,如图2所示。
-
单击“主机 ”,若集群类型为分析集群,则勾选9记录的“NameNode“的业务IP所对应的主机前的复选框。若集群类型为流式集群,则不区分主备节点,分别选择主机升级即可。
-
- 当升级Manager所在的节点时,可能出现Manager无法登录问题,是Manager所在的节点在进行主备倒换的正常现象,请稍后重新登录即可。若长时间无法登录,请联系运维人员处理。
- 停止所有角色后,可能出现如下告警,Master节点规格升级完成并启动所有角色后,告警将自动恢复。
- ALM-12006 节点故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12039 OMS数据库主备不同步
- ALM-14000 HDFS服务不可用
- ALM-14010 NameService服务异常
- ALM-14012 Journalnode数据不同步
- ALM-16004 Hive服务不可用
- ALM-18000 Yarn服务不可用
- ALM-19000 HBase服务不可用
- ALM-20002 Hue服务不可用
- ALM-23001 Loader服务不可用
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-43001 Spark2x服务不可用
Master节点规格升级操作
-
登录MRS管理控制台。
-
选择 “集群列表 > 现有集群“ ,选中需要升级Master节点规格的集群并单击集群名,进入集群信息页面。
-
在“节点管理“页签Master节点组的“操作”列选择“升级规格“。
-
选择升级后的规格,单击“下一步“。
-
在弹出的“确认“页面确认升级后的节点规格及费用,确认无误后单击“确认“。
-
确保已停止备Master节点的所有服务(详细操作请参考Master节点规格升级前准备的1-12),在“升级Master规格“页面勾选“我已确认关闭备master节点上的所有服务“和“若升级前未成功停止所有服务,可能导致数据保存失败或损坏“两项提示内容,并单击“提交订单“。
-
在弹出的“警告“页面,再次确认已确认关闭备master节点上的所有服务,然后单击“确定“开始升级备Master节点的规格。
节点规格升级需要时间,请耐心等待。升级成功后集群状态更新为“Master备节点升级完成”,否则请联系运维人员处理。
-
备Master节点升级成功后,参考Master节点规格升级后操作的1-11完成备Master节点所有服务的启动及参数配置。
-
备Master节点服务启动正常后,进行NameNode主备倒换。仅当集群类型为分析集群时执行该步骤,流式集群跳过该步骤。
-
分别访问主备节点的NameNode WebUI界面,NameNode WebUI访问方法请参考11。
-
分别在NameNode WebUI页面的标题栏选择“Overview”,查看并记录主备节点的Namenode ID。记录后不要关闭该页面。
-
任意登录一个Master节点的弹性云服务器,执行如下命令配置环境变量。
source /opt/Bigdata/client/bigdata_env
-
如果当前集群已启用Kerberos认证,执行以下命令认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。
kinit MRS集群用户
例如, kinit admin.
-
执行如下命令进行NameNode主备倒换。
hdfs haadmin -failover <主节点Namenode ID> <备节点Namenode ID>
-
进入9.b中未关闭的NameNode WebUI页面,然后刷新该页面,可以看到该NameNode已经主备倒换完成。
-
-
在“升级Master规格“页面勾选“我已确认启动备master节点上的所有服务“和“我已确认关闭主master节点的所有服务“,并单击“提交主节点升级订单“。
-
在弹出的“确认“页面再次确认已停止主Master节点的所有服务,然后单击“确定“开始升级主Master节点的规格。
节点规格升级过程需要时间,请您耐心等待。升级成功后集群状态更新为“Master升级规格成功”,否则请联系运维人员处理。
-
在“升级Master规格“页面勾选“我已确认启动主master节点上的所有服务“,并单击“确定“完成Master规格升级。
Master节点规格升级后操作
-
登录Manager,进入集群管理页面,具体请参见访问MRS Manager(MRS 2.x及之前版本)。
-
单击“主机 ”,查看Master节点规格升级前准备中9记录的“NameNode“的业务IP所对应的主机是否满足“运行状态“是为“良好“,“磁盘“、“内存“、“CPU使用率“显示正常(有数值),若满足执行9。若不满足执行下一步。
-
远程登录备Master节点,详情请参见登录集群节点。
-
执行以下命令切换为omm用户。
su - omm
-
执行以下命令启动Agent。
sh /opt/Bigdata/nodeagent/bin/start-agent.sh
-
执行以下命令确认Agent启动成功。
jps | grep NodeAgent
-
登录Manager,进入集群管理页面,具体请参考访问MRS Manager(MRS 2.x及之前版本)。
-
单击“主机 ”,查看Master节点规格升级前准备中9记录的“NameNode“的业务IP所对应的主机,确保其“运行状态“是为“良好“,“磁盘“、“内存“、“CPU使用率“显示正常(有数值)。
说明: Agent成功启动到主机状态显示正常,最长可能需要3分钟时间生效,请耐心等待。若长时间显示异常,请联系运维人员处理。
-
在Manager单击“主机 ”,勾选Master节点规格升级前准备中9记录的“NameNode“的业务IP所对应的主机前的复选框。
-
选择“更多> 启动所有实例”,并等待所有实例启动完成。
-
访问NameNode WebUI界面,查看NameNode启动状态。
-
在Manager页面选择“集群 > 服务 > HDFS > 概览”。
-
在“HDFS 概述”栏目,单击“NameNode WebUI“右侧升级完成的备节点或主节点的“NameNode“。
-
进入NameNode WebUI界面,在标题栏选择“Startup Progress”,确保Percent Complete显示100%后再执行下一步,如图5所示。
说明: 仅当集群类型为分析集群时执行11,流式集群跳过该步骤。
-