TiDB Error Root Cause Analysis
- 队长:朱俊杰(zjj1002)
- 队员:江坤(pupillord)
TiDB 集群由于自身组件较多,监控指标也非常的多,当在容器上进行大规模的TiDB 集群部署时,往往会出现告警风暴这类场景,运维人员需要不断的四处排查,经过长时间的分析,最终找到问题的根本原因。
而在该项目中,我们希望给大规模容器部署的TIDB集群赋予AI能力,通过不断的训练模型后,能够在面临告警风暴这类场景时,快速定位到根本问题所在,极大程度上简化TiDB问题排查的复杂度,并且减少TiDB集群的运维成本和难度。
- 通过chaos mesh 创造出K8S环境下 故障场景时候的监控数据收集 收集到 数据集和验证集;
- 争取集成AWS segamaker能力 把数据和AI框架的数据流打通;
- 在机器宕机 和 硬盘IOPS能力下降两个场景 实现根因分析的算法开发和特征数据清洗,并实时给出根因结果;