HPE服务器监控

我在自己的 hpe_dl360_gen9 服务器上构建硬件监控，基于 grafana 来观察:

硬件是否工作正常，例如内存模块、风扇、主板等
监控服务器温度，特别是处理器和GPU以及磁盘

HPE公司提供了一个

处理器

Intel 和 AMD 都开发了针对自家处理器的性能监控调试工具:

intel_pcm
amd_uprof

如果要采用通用型监控处理器温度，则可以采用 lm_sensor

基于 `pcm-exporter`

采用 intel_pcm 官方提供的 pcm-exporter 可以精细化监控Intel处理器(脑洞: 对于 kvm 虚拟化的处理器，能否模拟使用Intel PCM来监控?)，直接输出 grafana

基于 `amd_smi_exporter`

由于 amd_uprof 尚未支持 metrics ，目前还不能基于uProf来构建AMD处理器的监控。不过，AMD开源了基于AMD SMI库输出为metrics的 amd_smi_exporter ，目前还没有完整方案，但可以尝试。

基于 `hp_ilo`

结合 `prometheus`

hp_ilo 提供了大量的基础监控数据，有人开发了 HP iLO Metrics Exporter (GitHub) 可以直接将 hp_ilo 监控数据输出为 metrics 。并且这个 prometheus_exporters 被 greenweb-cloud prometheus_exporters (GitHub) (这个项目综合了很多开源的exporter)收录。对应于 HP iLO Metrics Exporter 有一个 grafana Dashboard HP iLo 可以观察硬件设备是否工作正常:

0 - OK
1 - Degraded
2 - Dead (Other)

结合 `influxdb`

influxdb 有一个更好的结合 hp_ilo 监控方案，对应的 grafana Dashboard案例:

Grafana Dashboard: HP ProLiant MicroServer Gen8
Grafana Dashboard: HP ProLiant DL380p Gen8

可以看到社区提供的 InfluxDB 有丰富的iLo集成数据，可以精细化监控服务器的温度和主频。

基于 `ipmi`

prometheus_exporters 有一个官方 ipmi_exporter 可以基于 ipmi 输出 metrics 。使用 grafana Dashboard IPMI Exporter
node_exporter with ipmitool text plugin 可以使用 grafana Dashboard IPMI for Prometheus

这样可以用来监控大规模服务器集群，并且生成告警。

基于 `lm_sensor`

sensor-exporter (GitHub) 基于 lm_sensor 提供了温度和风扇转速的 metrics 输出。对应 Grafana Dashboard: Sensors 提供了监控案例

基于 HPE OneView

HPE OneView 是HPE官方开发的监控服务器硬件和电路连接模块的软件，提供了 REST API 来搜集信息: power consumption (average and peak), ambient temperature, CPU utilization 等。基于 HPE OneView 有一些第三方监控插件:

hpe-oneview-prometheus (GitHub) 输出可以被 prometheus 采集的 metrics ，并且有一个配套的 grafana Dashboard ID 10233 提供各个组件的状态监控:

不过这个监控主要是布尔值，也就是主要判断设备是否工作正常。

HPE Storage Array Exporter

Get started with Prometheus and Grafana on Docker with HPE Storage Array Exporter 提供了采用官方 HPE Storage Array Exporter 实现 prometheus 集成监控。这是一个企业级解决方案，适合集成到 Kubernetes 监控系统。

不过，我没有 HPE Storage Array 硬件设备，这里仅记录备用。

Integration of HPE OneView with Prometheus 是HPE提供的集成到 openshift 部署方案，也可以参考。

Note

根据资料对比，我准备实现:

采用 prometheus 结合 ipmi_exporter 实现一个通用的服务器监控(适合任意服务器品牌)
采用 influxdb 结合 iLo 实现一个针对HP服务器的特定监控
采用 lm_sensor 结合 sensor-exporter (GitHub) 尝试做一个简化版温度监控

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

hpe_server_monitor.rst

hpe_server_monitor.rst

HPE服务器监控

处理器

基于 `pcm-exporter`

基于 `amd_smi_exporter`

基于 `hp_ilo`

结合 `prometheus`

结合 `influxdb`

基于 `ipmi`

基于 `lm_sensor`

基于 HPE OneView

HPE Storage Array Exporter

Files

hpe_server_monitor.rst

Latest commit

History

hpe_server_monitor.rst

File metadata and controls

HPE服务器监控

处理器

基于 pcm-exporter

基于 amd_smi_exporter

基于 hp_ilo

结合 prometheus

结合 influxdb

基于 ipmi

基于 lm_sensor

基于 HPE OneView

HPE Storage Array Exporter

基于 `pcm-exporter`

基于 `amd_smi_exporter`

基于 `hp_ilo`

结合 `prometheus`

结合 `influxdb`

基于 `ipmi`

基于 `lm_sensor`