在日常运维中,华为云会对ECS实例所在底层宿主机的软硬件故障进行预测和主动规避。
当宿主机上的故障风险无法规避时,为避免因ECS实例的资源可用性或性能受损对您的业务造成的更大影响,系统会对受影响的实例生成事件并进行上报,例如实例重部署、本地盘换盘等,事件详细内容请参见事件类型。系统上报事件不会频繁发生。
您可通过云服务器控制台查看事件详情,包括事件类型,实例ID、事件状态等信息。也可以通过云监控服务的“事件监控”查看ECS实例的事件,详细内容请参见查看事件监控数据。
系统支持上报的事件如表1所示。
表 1 支持系统上报的事件
事件类型
|
事件说明
|
事件影响
|
用户侧处理建议
|
实例重部署
|
当系统检测到ECS实例的底层宿主机异常,计划将ECS实例部署到新主机时,会自动上报实例重部署事件。
|
实例重部署过程中,云服务器将会有短暂时间不可用。
系统会在计划事件执行时间前24~72小时发送该系统事件通知。
|
您可以根据业务需要选择如下处理方式,并在事件处理完成后,及时验证业务受损情况, 如遇问题,请联系技术支持。
授权重部署
建议您在授权时选择业务低谷期为开始时间,如不指定将会以当前时间为开始时间。
|
本地盘换盘
|
系统检测到ECS实例(含裸金属类型实例)的底层宿主机存在磁盘故障风险,会对受影响的ECS实例自动生成本地盘换盘事件。
|
本地盘换盘会丢失本地盘上的数据。
|
您可以根据业务需要选择如下处理方式,并在事件处理完成后,及时验证业务受损情况, 如遇问题,请联系技术支持。
须知: 本地盘换盘操作会丢失本地盘上的数据,如果无需保留本地盘数据,可根据业务需要选择如下处理方式。
- 立即重部署:会丢失所有本地盘数据
裸金属类型实例暂不支持该操作。
- 授权换盘:会丢失故障本地盘数据
建议您在授权时选择业务低谷期为开始时间,如不指定将会以当前时间为开始时间。
通常会在开始时间后5个工作日内完成本地盘换盘,请耐心等待。
|
实例迁移
|
当系统检测到ECS实例的底层宿主机异常,需要进行重启、关机、下线等系统维护时,计划对ECS实例进行迁移,会自动上报实例迁移事件。
|
系统会先尝试对云服务器进行热迁移,如遇异常,则会触发HA机制(云服务器将会有短暂时间不可用)。
|
建议您在事件处理完成后,及时验证业务受损情况, 如遇问题,请联系技术支持。
|
系统维护
|
系统检测到ECS实例(含裸金属类型实例)的宿主机存在软硬件故障风险,计划对受影响的实例进行维护操作,会自动生成系统维护事件。
|
系统维护过程中,宿主机可能会进入下电状态,云服务器不可用。
|
您可以根据业务需要选择如下处理方式,并在事件处理完成后,及时验证业务受损情况, 如遇问题,请联系技术支持。
授权维护
建议您在授权时确保实例的业务已离线并选择业务低谷期为开始时间,如不指定将会以当前时间为开始时间。
不同故障系统维护的耗时不同。通常会在授权开始时间后5个工作日内完成系统维护,请耐心等待。
|
系统上报的事件状态如表2所示,您可以根据状态判断系统上报事件的进展,也可以通过状态进行事件筛选。
表 2 事件状态
类型
|
描述
|
待授权
|
需要用户对事件操作进行授权, 授权时支持指定开始时间, 系统将会在一定时间内完成操作,详细内容请参见响应事件。
|
待执行
|
等待系统资源调度中。
|
执行中
|
系统已完成资源调度, 正在修复中。
|
执行成功
|
系统已完成事件执行。 请验证业务受损情况, 如遇异常,请联系技术支持。
|
执行失败
|
系统自动修复失败。
|
取消
|
该事件已被系统取消。
|