Skip to content

Commit

Permalink
Merge pull request #339 from sakakibaraakio/master
Browse files Browse the repository at this point in the history
grafana-alert-fix
  • Loading branch information
btbf committed Jan 26, 2024
2 parents ffcbdc2 + 55dc421 commit 1ececae
Show file tree
Hide file tree
Showing 13 changed files with 64 additions and 68 deletions.
Binary file added docs/images/grafana-alert/1-0.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified docs/images/grafana-alert/1-1.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified docs/images/grafana-alert/1-10.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified docs/images/grafana-alert/1-11.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified docs/images/grafana-alert/1-2.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified docs/images/grafana-alert/1-3.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified docs/images/grafana-alert/1-4.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified docs/images/grafana-alert/1-5.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified docs/images/grafana-alert/1-6.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified docs/images/grafana-alert/1-7.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified docs/images/grafana-alert/1-8.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified docs/images/grafana-alert/1-9.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
132 changes: 64 additions & 68 deletions docs/operation/grafana-alert.md
Original file line number Diff line number Diff line change
Expand Up @@ -24,42 +24,38 @@ sudo apt update -y && sudo apt upgrade -y

通知の基準となるアラートルールを作成します。

1.左サイドメニューから「ベルマーク」→「Alert rules」→「Create alert rule」の順にクリックする
![](../images/grafana-alert/1-1.png)
1.「左サイドメニュー」→「Alerting」の右の矢印→「Alert rules」→「New alert rule」の順にクリックする
![](../images/grafana-alert/1-0.png)

### 2-1.ノードスロット監視

* ①:`Relay1-スロット監視`など任意のルール名
* ②:`Grafana managed alert`を選択
* ③:`Prometheus`を選択
* ④:`now-10m to now`を選択
* ⑤:`code`を選択
* ⑥:`Metrics Browser`をクリック
* ⑦:`cardano_node_metrics_slotInEpoch_int`を選択
* ⑧:`alias`を選択
* ⑨:監視するノード名を選択
* ⑩:`Option`をクリック
* ⑪:`Instant`を選択
* ⑫:`Use query`をクリック
* ②:`Metrics Browser`をクリック
* ③:`cardano_node_metrics_slotInEpoch_int`を選択
* ④:`alias`が選択されていることを確認
* ⑤:監視するノード名を選択
* ⑥:`Use query`をクリック
![](../images/grafana-alert/1-1.png)

* ⑦:`B`のゴミ箱マークをクリック
* ⑧:`C`のゴミ箱マークをクリック
* ⑨:`Add expression`をクリックし、`Classic_condition`を選択
![](../images/grafana-alert/1-2.png)

* ⑬:`Classic_condition`を選択
* ⑭:`last()` / `A` / `HAS NO VALUE`選択
* Cパネルは削除する
* ⑩:`last() / A / HAS NO VALUE`選択
* ⑪:`Set as alert condition`をクリックし、`Alert condition`の表示に変える
* ⑫:`New folder`を選択し、`SJG`を入力して`Create`
* ⑬:`New evaluation group`を選択し、`Evaluation group name``ノード監視``Evaluation interval``10s`を入力して`Create`
* ⑭:`20s`を入力
* ⑮:`Alerting`を選択
* ⑯:`Alerting`を選択
![](../images/grafana-alert/1-3.png)

* ⑮:`SJG`を入力し`+Add new`をクリックし`Enter`
* ⑯:`ノード監視`を入力し`+Add new`をクリック
* ⑰:`10s`を入力
* ⑱:`20s`を入力
* ⑲:`Alerting`を選択
* ⑳:`Alerting`を選択
* ㉑:削除
* ㉒:削除
* ㉓:`Summry`から`+Add new`をクリックし`検知内容`と入力
* 隣フィールドに検知メッセージを入力
* ⑰:`Add custom annotaion`を選択
* ⑱:`検知内容`を入力
* ⑲:フィールドに検知メッセージを入力
例)`Relay1のスロットを取得出来ませんでした。ノード起動状態を確認してください`
* ㉔:ページ上部へスクロールし、`Save and exit`をクリック
* ⑳:ページ上部の`Save rule and exit`を選択
![](../images/grafana-alert/1-4.png)


Expand All @@ -69,13 +65,13 @@ sudo apt update -y && sudo apt upgrade -y
![](../images/grafana-alert/1-5.png)

* ①を書き換える
* :`Metrics Browser`を書き換える
* :`Metrics Browser`を書き換える
例)
`cardano_node_metrics_slotInEpoch_int{alias="block-producing-node"}`
`cardano_node_metrics_slotInEpoch_int{alias="relaynode2"}`

* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える
* ㉔:ページ上部へスクロールし、Save and exitをクリック
* 「4 Add annotations」の検知内容のメッセージ内容を書き換える
* ⑳:ページ上部の`Save rule and exit`を選択



Expand All @@ -84,39 +80,39 @@ sudo apt update -y && sudo apt upgrade -y
![](../images/grafana-alert/1-5.png)

* ①:`BPリレー接続監視`など任意のルール名に書き換える
* :`Metrics Browser``cardano_node_metrics_peers_connectedPeers_int{alias="block-producing-node"}`に置き換える
* :`last()` / `A` / `IS BELOW`に切り替え`1`を入力
* :`Alerting`を選択
* :`Alerting`を選択
* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える
* :`Metrics Browser``cardano_node_metrics_peers_connectedPeers_int{alias="block-producing-node"}`に置き換える
* :`last()` / `A` / `IS BELOW`に切り替え`1`を入力
* :`Alerting`を選択
* :`Alerting`を選択
* 「4 Add annotation」の検知内容のメッセージ内容を書き換える
例)`BPからリレーへの接続が確認できません。接続状況を確認してください`
* ㉔:ページ上部へスクロールし、`Save and exit`をクリック
* ⑳:ページ上部の`Save rule and exit`を選択

### 2-3.チェーン密度監視
上記で作成したルールをコピーする
![](../images/grafana-alert/1-5.png)

* ①:`チェーン密度監視`など任意のルール名に書き換える
* :`Metrics Browser``cardano_node_metrics_density_real{alias="relaynode1"} * 100`に置き換える
* :`last()` / `A` / `IS BELOW`に切り替え`4.5`を入力
* :`OK`を選択
* :`OK`を選択
* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える
* :`Metrics Browser``cardano_node_metrics_density_real{alias="relaynode1"} * 100`に置き換える
* :`last()` / `A` / `IS BELOW`に切り替え`4.5`を入力
* :`OK`を選択
* :`OK`を選択
* 「4 Add annotation」の検知内容のメッセージ内容を書き換える
例)`チェーン密度が4.5%を下回っています。これはカルダノチェーン全体の問題です`
* ㉔:ページ上部へスクロールし、`Save and exit`をクリック
* ⑳:ページ上部の`Save rule and exit`を選択

### 2-4.ノードタイム監視
上記で作成したルールをコピーする
![](../images/grafana-alert/1-5.png)

* ①:`Relay1-ノードタイム監視`など任意のルール名に書き換える
* :`Metrics Browser``node_timex_maxerror_seconds{alias="relaynode1"} * 1000`に置き換える
* :`last()` / `A` / `IS ABOVE`に切り替え`100`を入力
* :`OK`を選択
* :`OK`を選択
* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える
* :`Metrics Browser``node_timex_maxerror_seconds{alias="relaynode1"} * 1000`に置き換える
* :`last()` / `A` / `IS ABOVE`に切り替え`100`を入力
* :`OK`を選択
* :`OK`を選択
* 「4 Add annotation」の検知内容のメッセージ内容を書き換える
例)`Relay1のノードタイムが100msを超えています。chronyを再起動してください`
* ㉔:ページ上部へスクロールし、`Save and exit`をクリック
* ⑳:ページ上部の`Save rule and exit`を選択


残り全てのノードのノードタイム監視を設定する
Expand All @@ -125,39 +121,39 @@ sudo apt update -y && sudo apt upgrade -y
![](../images/grafana-alert/1-5.png)

* ①を書き換える
* :`Metrics Browser`を書き換える
* :`Metrics Browser`を書き換える
例)
`node_timex_maxerror_seconds{alias="block-producing-node"} * 1000`
`node_timex_maxerror_seconds{alias="relaynode2"} * 1000`

* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える
* ㉔:ページ上部へスクロールし、Save and exitをクリック
* 「4 Add annotation」の検知内容のメッセージ内容を書き換える
* ⑳:ページ上部の`Save rule and exit`を選択

### 2-5.KES残り日数監視
上記で作成したルールをコピーする
![](../images/grafana-alert/1-5.png)

* ①:`BP-KES残り日数監視`など任意のルール名に書き換える
* :`Metrics Browser``(cardano_node_metrics_remainingKESPeriods_int * 1.5)`に置き換える
* :`last()` / `A` / `IS BELOW`に切り替え`10`を入力
* :`OK`を選択
* :`OK`を選択
* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える
* :`Metrics Browser``(cardano_node_metrics_remainingKESPeriods_int * 1.5)`に置き換える
* :`last()` / `A` / `IS BELOW`に切り替え`10`を入力
* :`OK`を選択
* :`OK`を選択
* 「4 Add annotation」の検知内容のメッセージ内容を書き換える
例)`KESキーの期限が迫っています。ブロック生成予定のないタイミングでKESキーを更新してください`
* ㉔:ページ上部へスクロールし、`Save and exit`をクリック
* ⑳:ページ上部の`Save rule and exit`を選択

### 2-6.ディスク使用率監視
上記で作成したルールをコピーする
![](../images/grafana-alert/1-5.png)

* ①:`Relay1-ディスク使用率監視`など任意のルール名に書き換える
* :`Metrics Browser``1 - node_filesystem_avail_bytes / node_filesystem_size_bytes{alias="relaynode1",mountpoint="/"}`に置き換える
* :`last()` / `A` / `IS ABOVE`に切り替え`0.9`を入力
* :`OK`を選択
* :`OK`を選択
* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える
* :`Metrics Browser``1 - node_filesystem_avail_bytes / node_filesystem_size_bytes{alias="relaynode1",mountpoint="/"}`に置き換える
* :`last()` / `A` / `IS ABOVE`に切り替え`0.9`を入力
* :`OK`を選択
* :`OK`を選択
* 「4 Add annotation」の検知内容のメッセージ内容を書き換える
例)`Relay1のディスク使用率が90%を超えています。100%に達する前に契約サーバーのアップグレードなどを行う必要があります`
* ㉔:ページ上部へスクロールし、`Save and exit`をクリック
* ⑳:ページ上部の`Save rule and exit`を選択


残り全てのノードのディスク使用率監視を設定する
Expand All @@ -166,13 +162,13 @@ sudo apt update -y && sudo apt upgrade -y
![](../images/grafana-alert/1-5.png)

* ①を書き換える
* :`Metrics Browser`を書き換える
* :`Metrics Browser`を書き換える
例)
`1 - node_filesystem_avail_bytes / node_filesystem_size_bytes{alias="block-producing-node",mountpoint="/"}`
`1 - node_filesystem_avail_bytes / node_filesystem_size_bytes{alias="relaynode2",mountpoint="/"}`

* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える
* ㉔:ページ上部へスクロールし、Save and exitをクリック
* 「4 Add annotation」の検知内容のメッセージ内容を書き換える
* ⑳:ページ上部の`Save rule and exit`を選択



Expand Down Expand Up @@ -206,7 +202,7 @@ sudo apt update -y && sudo apt upgrade -y
* 「Save tempelate」をクリック

## 5.通知先設定
*Contact points」をクリックし「Add contact point」をクリック
* 「Add contact point」をクリック
![](../images/grafana-alert/1-8.png)

通知先を指定する
Expand Down Expand Up @@ -242,7 +238,7 @@ sudo apt update -y && sudo apt upgrade -y
* `Group by``grafana_folder``alertname`を指定
* `Group interval``1 Minutes`に設定
* `Repeat interval``10 Minutes`に設定
* Saveをクリック
* 「Update default policy」をクリック
![](../images/grafana-alert/1-11.png)


Expand Down

0 comments on commit 1ececae

Please sign in to comment.