Skip to content

Latest commit

 

History

History
98 lines (59 loc) · 5.21 KB

hpe_server_monitor.rst

File metadata and controls

98 lines (59 loc) · 5.21 KB

HPE服务器监控

我在自己的 hpe_dl360_gen9 服务器上构建硬件监控,基于 grafana 来观察:

  • 硬件是否工作正常,例如内存模块、风扇、主板等
  • 监控服务器温度,特别是处理器和GPU以及磁盘

HPE公司提供了一个

处理器

Intel 和 AMD 都开发了针对自家处理器的性能监控调试工具:

  • intel_pcm
  • amd_uprof

如果要采用通用型监控处理器温度,则可以采用 lm_sensor

基于 pcm-exporter

采用 intel_pcm 官方提供的 pcm-exporter 可以精细化监控Intel处理器(脑洞: 对于 kvm 虚拟化的处理器,能否模拟使用Intel PCM来监控?),直接输出 grafana

基于 amd_smi_exporter

由于 amd_uprof 尚未支持 metrics , 目前还不能基于uProf来构建AMD处理器的监控。不过,AMD开源了基于AMD SMI库输出为metrics的 amd_smi_exporter ,目前还没有完整方案,但可以尝试。

基于 hp_ilo

结合 prometheus

hp_ilo 提供了大量的基础监控数据,有人开发了 HP iLO Metrics Exporter (GitHub) 可以直接将 hp_ilo 监控数据输出为 metrics 。并且这个 prometheus_exportersgreenweb-cloud prometheus_exporters (GitHub) (这个项目综合了很多开源的exporter)收录。对应于 HP iLO Metrics Exporter 有一个 grafana Dashboard HP iLo 可以观察硬件设备是否工作正常:

0 - OK
1 - Degraded
2 - Dead (Other)

结合 influxdb

influxdb 有一个更好的结合 hp_ilo 监控方案,对应的 grafana Dashboard案例:

可以看到社区提供的 InfluxDB 有丰富的iLo集成数据,可以精细化监控服务器的温度和主频。

基于 ipmi

这样可以用来监控大规模服务器集群,并且生成告警。

基于 lm_sensor

sensor-exporter (GitHub) 基于 lm_sensor 提供了温度和风扇转速的 metrics 输出。对应 Grafana Dashboard: Sensors 提供了监控案例

基于 HPE OneView

HPE OneView 是HPE官方开发的监控服务器硬件和电路连接模块的软件,提供了 REST API 来搜集信息: power consumption (average and peak), ambient temperature, CPU utilization 等。基于 HPE OneView 有一些第三方监控插件:

不过这个监控主要是布尔值,也就是主要判断设备是否工作正常。

HPE Storage Array Exporter

Get started with Prometheus and Grafana on Docker with HPE Storage Array Exporter 提供了采用官方 HPE Storage Array Exporter 实现 prometheus 集成监控。这是一个企业级解决方案,适合集成到 Kubernetes 监控系统。

不过,我没有 HPE Storage Array 硬件设备,这里仅记录备用。

Integration of HPE OneView with Prometheus 是HPE提供的集成到 openshift 部署方案,也可以参考。

Note

根据资料对比,我准备实现:

  • 采用 prometheus 结合 ipmi_exporter 实现一个通用的服务器监控(适合任意服务器品牌)
  • 采用 influxdb 结合 iLo 实现一个针对HP服务器的特定监控
  • 采用 lm_sensor 结合 sensor-exporter (GitHub) 尝试做一个简化版温度监控