Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

SRE实践清单 #59

Open
bobenut opened this issue Mar 27, 2022 · 0 comments
Open

SRE实践清单 #59

bobenut opened this issue Mar 27, 2022 · 0 comments
Labels

Comments

@bobenut
Copy link
Owner

bobenut commented Mar 27, 2022

实践内容清单

  1. 评估
  2. 可控
  3. 观测
  4. 故障处理流程
  5. 故障复盘

1.评估

制定评估表,表中对体系中的每一项进行打分,设定评估周期迭代评估表,掌握每一个评估周期自身的能力,设定下一周期的目标建设。

2.可控

  • 制定测试、生产环境的发布流程,规范发布过程、人员角色、解决发布流程不清晰导致的混乱问题。
  • 操作安全管理,重点解决黑屏操作导致的人为稳定性问题,包括统一集群操作入口、集群操作权限管理、集群操作审计等。

3.观测

  • 监控
    • 设定SLI(service level indicator服务等级指标)、SLO(service level objective服务等级目标)、错误预算。
    • 建设合适的监控工具。
    • 建设报警系统。
  • 日志
    重点解决软件系统的问题可排查能力,包括日志收集/存储/查询/分析系统的搭建和维护。
  • 巡检
    重点解决软件系统功能是否正常的主动探测能力。包括巡检制度、巡检清单、巡检逻辑、自动化巡检服务。

4.故障处理流程(MTTR)

  • 建设On-Call机制。
    • 设立关键角色轮值。
    • 设立War Room。
    • 谁值守谁负责原则。
    • 设立升级机制、响应时间纳入考核。
    • 建设故障应急处置手册。
  • 建设故障指挥体系
    • IC(Incident Commander)故障指挥官,组织和协调,而非执行,所有角色接收IC指挥。
    • CL(Communication Lead)沟通引导,对内对外的信息收集和通报。
    • OL(Operation Lead)运维指挥,负责故障解决方案的执行和业务恢复。
    • IR(Incident Responders)所有参与到故障处理的各类人员。
  • 建立应急响应机制
    • 问题发生后的处置流程机制。
    • 处置过程中的反馈机制 。

5.故障复盘

  • 故障复盘黄金三问。
    • 故障原因有哪些。
    • 我们做什么,怎么做才能确保下次不会出现类似故障。
    • 当时如果我们做了什么,可以用更短的时间恢复业务。
  • 故障判定三原则 。
    • 健壮性原则,每个组件自身要具备一定的自愈和高可用能力,而非全部由下游依赖放兜底。
    • 三方默认无责,对内谁受影响谁改进,对外推进第三方改进(稳定性要做到相对自我可控,而不是完全依赖外部)。
    • 分段判定原则,对于原因较复杂或链路较长的故障,建议分阶段评估,不同阶段有不同的措施。这一原则的出发点是要摒弃“故障根因只有一个”的观点。
  • 做好复盘记录。
@bobenut bobenut added the SRE label Apr 15, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant