Skip to content

CPU load

StriveCode edited this page Mar 9, 2023 · 2 revisions

定义

CPU load:表示最近X分钟系统平均负载 系统平均负载被定义为在特定时间间隔内运行队列中(在 CPU 上运行或等待运行多少进程)的平均进程数

故障原因

1.如果进程启动时间与故障发生时间一致,可以判定为服务启动导致

解决:观察一段时间,3到5分钟,部门服务存在启动慢

2.排查系统是否存在多个业务进程同时运行,造成cpu负载高

排查容器或虚拟机运行程序个数

排查是否存在异常进程

解决:服务部署不合理,扩容相关容器或虚拟机配置,目的是提升cpu个数

3.因内存不足造成多个进程处于D状态(不可中断状态,一般指和硬件交互),引起负载过高

排查是否存在多个D状态进程 排查造成D状态的原因

解决:Jmap等性能分析工具判断内存是否存在泄漏、优化代码;对机器内存进行升级,优化代码等

4.磁盘IO使用率过高,引起负载过高

解决:容器迁移,磁盘硬件排查

Clone this wiki locally