diff --git a/docs/images/grafana-alert/1-0.png b/docs/images/grafana-alert/1-0.png new file mode 100644 index 00000000..fba77d8a Binary files /dev/null and b/docs/images/grafana-alert/1-0.png differ diff --git a/docs/images/grafana-alert/1-1.png b/docs/images/grafana-alert/1-1.png index 42f63caf..743f3ef9 100644 Binary files a/docs/images/grafana-alert/1-1.png and b/docs/images/grafana-alert/1-1.png differ diff --git a/docs/images/grafana-alert/1-10.png b/docs/images/grafana-alert/1-10.png index 4fcdda34..555a8852 100644 Binary files a/docs/images/grafana-alert/1-10.png and b/docs/images/grafana-alert/1-10.png differ diff --git a/docs/images/grafana-alert/1-11.png b/docs/images/grafana-alert/1-11.png index c7e16359..60a9f144 100644 Binary files a/docs/images/grafana-alert/1-11.png and b/docs/images/grafana-alert/1-11.png differ diff --git a/docs/images/grafana-alert/1-2.png b/docs/images/grafana-alert/1-2.png index 054b8518..566afae3 100644 Binary files a/docs/images/grafana-alert/1-2.png and b/docs/images/grafana-alert/1-2.png differ diff --git a/docs/images/grafana-alert/1-3.png b/docs/images/grafana-alert/1-3.png index 65a3d30f..6056f77e 100644 Binary files a/docs/images/grafana-alert/1-3.png and b/docs/images/grafana-alert/1-3.png differ diff --git a/docs/images/grafana-alert/1-4.png b/docs/images/grafana-alert/1-4.png index dcb5db35..9ec002a3 100644 Binary files a/docs/images/grafana-alert/1-4.png and b/docs/images/grafana-alert/1-4.png differ diff --git a/docs/images/grafana-alert/1-5.png b/docs/images/grafana-alert/1-5.png index 0024f80c..284ad681 100644 Binary files a/docs/images/grafana-alert/1-5.png and b/docs/images/grafana-alert/1-5.png differ diff --git a/docs/images/grafana-alert/1-6.png b/docs/images/grafana-alert/1-6.png index 658e0bf0..0f501161 100644 Binary files a/docs/images/grafana-alert/1-6.png and b/docs/images/grafana-alert/1-6.png differ diff --git a/docs/images/grafana-alert/1-7.png b/docs/images/grafana-alert/1-7.png index 3b62b7e0..4406755d 100644 Binary files a/docs/images/grafana-alert/1-7.png and b/docs/images/grafana-alert/1-7.png differ diff --git a/docs/images/grafana-alert/1-8.png b/docs/images/grafana-alert/1-8.png index 6aaef222..6b9ad712 100644 Binary files a/docs/images/grafana-alert/1-8.png and b/docs/images/grafana-alert/1-8.png differ diff --git a/docs/images/grafana-alert/1-9.png b/docs/images/grafana-alert/1-9.png index b1c30ede..921dba50 100644 Binary files a/docs/images/grafana-alert/1-9.png and b/docs/images/grafana-alert/1-9.png differ diff --git a/docs/operation/grafana-alert.md b/docs/operation/grafana-alert.md index 615aaa5a..0021f1c0 100644 --- a/docs/operation/grafana-alert.md +++ b/docs/operation/grafana-alert.md @@ -24,42 +24,38 @@ sudo apt update -y && sudo apt upgrade -y 通知の基準となるアラートルールを作成します。 -1.左サイドメニューから「ベルマーク」→「Alert rules」→「Create alert rule」の順にクリックする -![](../images/grafana-alert/1-1.png) +1.「左サイドメニュー」→「Alerting」の右の矢印→「Alert rules」→「New alert rule」の順にクリックする +![](../images/grafana-alert/1-0.png) ### 2-1.ノードスロット監視 * ①:`Relay1-スロット監視`など任意のルール名 -* ②:`Grafana managed alert`を選択 -* ③:`Prometheus`を選択 -* ④:`now-10m to now`を選択 -* ⑤:`code`を選択 -* ⑥:`Metrics Browser`をクリック -* ⑦:`cardano_node_metrics_slotInEpoch_int`を選択 -* ⑧:`alias`を選択 -* ⑨:監視するノード名を選択 -* ⑩:`Option`をクリック -* ⑪:`Instant`を選択 -* ⑫:`Use query`をクリック +* ②:`Metrics Browser`をクリック +* ③:`cardano_node_metrics_slotInEpoch_int`を選択 +* ④:`alias`が選択されていることを確認 +* ⑤:監視するノード名を選択 +* ⑥:`Use query`をクリック +![](../images/grafana-alert/1-1.png) + +* ⑦:`B`のゴミ箱マークをクリック +* ⑧:`C`のゴミ箱マークをクリック +* ⑨:`Add expression`をクリックし、`Classic_condition`を選択 ![](../images/grafana-alert/1-2.png) -* ⑬:`Classic_condition`を選択 -* ⑭:`last()` / `A` / `HAS NO VALUE`選択 -* Cパネルは削除する +* ⑩:`last() / A / HAS NO VALUE`選択 +* ⑪:`Set as alert condition`をクリックし、`Alert condition`の表示に変える +* ⑫:`New folder`を選択し、`SJG`を入力して`Create` +* ⑬:`New evaluation group`を選択し、`Evaluation group name`に`ノード監視`、`Evaluation interval`に`10s`を入力して`Create` +* ⑭:`20s`を入力 +* ⑮:`Alerting`を選択 +* ⑯:`Alerting`を選択 ![](../images/grafana-alert/1-3.png) -* ⑮:`SJG`を入力し`+Add new`をクリックし`Enter` -* ⑯:`ノード監視`を入力し`+Add new`をクリック -* ⑰:`10s`を入力 -* ⑱:`20s`を入力 -* ⑲:`Alerting`を選択 -* ⑳:`Alerting`を選択 -* ㉑:削除 -* ㉒:削除 -* ㉓:`Summry`から`+Add new`をクリックし`検知内容`と入力 -* 隣フィールドに検知メッセージを入力 +* ⑰:`Add custom annotaion`を選択 +* ⑱:`検知内容`を入力 +* ⑲:フィールドに検知メッセージを入力 例)`Relay1のスロットを取得出来ませんでした。ノード起動状態を確認してください` -* ㉔:ページ上部へスクロールし、`Save and exit`をクリック +* ⑳:ページ上部の`Save rule and exit`を選択 ![](../images/grafana-alert/1-4.png) @@ -69,13 +65,13 @@ sudo apt update -y && sudo apt upgrade -y ![](../images/grafana-alert/1-5.png) * ①を書き換える -* ⑥:`Metrics Browser`を書き換える +* ②:`Metrics Browser`を書き換える 例) `cardano_node_metrics_slotInEpoch_int{alias="block-producing-node"}` `cardano_node_metrics_slotInEpoch_int{alias="relaynode2"}` -* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える -* ㉔:ページ上部へスクロールし、Save and exitをクリック +* 「4 Add annotations」の検知内容のメッセージ内容を書き換える +* ⑳:ページ上部の`Save rule and exit`を選択 @@ -84,39 +80,39 @@ sudo apt update -y && sudo apt upgrade -y ![](../images/grafana-alert/1-5.png) * ①:`BPリレー接続監視`など任意のルール名に書き換える -* ⑥:`Metrics Browser`を`cardano_node_metrics_peers_connectedPeers_int{alias="block-producing-node"}`に置き換える -* ⑭:`last()` / `A` / `IS BELOW`に切り替え`1`を入力 -* ⑲:`Alerting`を選択 -* ⑳:`Alerting`を選択 -* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える +* ②:`Metrics Browser`を`cardano_node_metrics_peers_connectedPeers_int{alias="block-producing-node"}`に置き換える +* ⑩:`last()` / `A` / `IS BELOW`に切り替え`1`を入力 +* ⑮:`Alerting`を選択 +* ⑯:`Alerting`を選択 +* 「4 Add annotation」の検知内容のメッセージ内容を書き換える 例)`BPからリレーへの接続が確認できません。接続状況を確認してください` -* ㉔:ページ上部へスクロールし、`Save and exit`をクリック +* ⑳:ページ上部の`Save rule and exit`を選択 ### 2-3.チェーン密度監視 上記で作成したルールをコピーする ![](../images/grafana-alert/1-5.png) * ①:`チェーン密度監視`など任意のルール名に書き換える -* ⑥:`Metrics Browser`を`cardano_node_metrics_density_real{alias="relaynode1"} * 100`に置き換える -* ⑭:`last()` / `A` / `IS BELOW`に切り替え`4.5`を入力 -* ⑲:`OK`を選択 -* ⑳:`OK`を選択 -* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える +* ②:`Metrics Browser`を`cardano_node_metrics_density_real{alias="relaynode1"} * 100`に置き換える +* ⑩:`last()` / `A` / `IS BELOW`に切り替え`4.5`を入力 +* ⑮:`OK`を選択 +* ⑯:`OK`を選択 +* 「4 Add annotation」の検知内容のメッセージ内容を書き換える 例)`チェーン密度が4.5%を下回っています。これはカルダノチェーン全体の問題です` -* ㉔:ページ上部へスクロールし、`Save and exit`をクリック +* ⑳:ページ上部の`Save rule and exit`を選択 ### 2-4.ノードタイム監視 上記で作成したルールをコピーする ![](../images/grafana-alert/1-5.png) * ①:`Relay1-ノードタイム監視`など任意のルール名に書き換える -* ⑥:`Metrics Browser`を`node_timex_maxerror_seconds{alias="relaynode1"} * 1000`に置き換える -* ⑭:`last()` / `A` / `IS ABOVE`に切り替え`100`を入力 -* ⑲:`OK`を選択 -* ⑳:`OK`を選択 -* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える +* ②:`Metrics Browser`を`node_timex_maxerror_seconds{alias="relaynode1"} * 1000`に置き換える +* ⑩:`last()` / `A` / `IS ABOVE`に切り替え`100`を入力 +* ⑮:`OK`を選択 +* ⑯:`OK`を選択 +* 「4 Add annotation」の検知内容のメッセージ内容を書き換える 例)`Relay1のノードタイムが100msを超えています。chronyを再起動してください` -* ㉔:ページ上部へスクロールし、`Save and exit`をクリック +* ⑳:ページ上部の`Save rule and exit`を選択 残り全てのノードのノードタイム監視を設定する @@ -125,39 +121,39 @@ sudo apt update -y && sudo apt upgrade -y ![](../images/grafana-alert/1-5.png) * ①を書き換える -* ⑥:`Metrics Browser`を書き換える +* ②:`Metrics Browser`を書き換える 例) `node_timex_maxerror_seconds{alias="block-producing-node"} * 1000` `node_timex_maxerror_seconds{alias="relaynode2"} * 1000` -* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える -* ㉔:ページ上部へスクロールし、Save and exitをクリック +* 「4 Add annotation」の検知内容のメッセージ内容を書き換える +* ⑳:ページ上部の`Save rule and exit`を選択 ### 2-5.KES残り日数監視 上記で作成したルールをコピーする ![](../images/grafana-alert/1-5.png) * ①:`BP-KES残り日数監視`など任意のルール名に書き換える -* ⑥:`Metrics Browser`を`(cardano_node_metrics_remainingKESPeriods_int * 1.5)`に置き換える -* ⑭:`last()` / `A` / `IS BELOW`に切り替え`10`を入力 -* ⑲:`OK`を選択 -* ⑳:`OK`を選択 -* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える +* ②:`Metrics Browser`を`(cardano_node_metrics_remainingKESPeriods_int * 1.5)`に置き換える +* ⑩:`last()` / `A` / `IS BELOW`に切り替え`10`を入力 +* ⑮:`OK`を選択 +* ⑯:`OK`を選択 +* 「4 Add annotation」の検知内容のメッセージ内容を書き換える 例)`KESキーの期限が迫っています。ブロック生成予定のないタイミングでKESキーを更新してください` -* ㉔:ページ上部へスクロールし、`Save and exit`をクリック +* ⑳:ページ上部の`Save rule and exit`を選択 ### 2-6.ディスク使用率監視 上記で作成したルールをコピーする ![](../images/grafana-alert/1-5.png) * ①:`Relay1-ディスク使用率監視`など任意のルール名に書き換える -* ⑥:`Metrics Browser`を`1 - node_filesystem_avail_bytes / node_filesystem_size_bytes{alias="relaynode1",mountpoint="/"}`に置き換える -* ⑭:`last()` / `A` / `IS ABOVE`に切り替え`0.9`を入力 -* ⑲:`OK`を選択 -* ⑳:`OK`を選択 -* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える +* ②:`Metrics Browser`を`1 - node_filesystem_avail_bytes / node_filesystem_size_bytes{alias="relaynode1",mountpoint="/"}`に置き換える +* ⑩:`last()` / `A` / `IS ABOVE`に切り替え`0.9`を入力 +* ⑮:`OK`を選択 +* ⑯:`OK`を選択 +* 「4 Add annotation」の検知内容のメッセージ内容を書き換える 例)`Relay1のディスク使用率が90%を超えています。100%に達する前に契約サーバーのアップグレードなどを行う必要があります` -* ㉔:ページ上部へスクロールし、`Save and exit`をクリック +* ⑳:ページ上部の`Save rule and exit`を選択 残り全てのノードのディスク使用率監視を設定する @@ -166,13 +162,13 @@ sudo apt update -y && sudo apt upgrade -y ![](../images/grafana-alert/1-5.png) * ①を書き換える -* ⑥:`Metrics Browser`を書き換える +* ②:`Metrics Browser`を書き換える 例) `1 - node_filesystem_avail_bytes / node_filesystem_size_bytes{alias="block-producing-node",mountpoint="/"}` `1 - node_filesystem_avail_bytes / node_filesystem_size_bytes{alias="relaynode2",mountpoint="/"}` -* 「4 Add details for your alert rule」の検知内容のメッセージ内容を書き換える -* ㉔:ページ上部へスクロールし、Save and exitをクリック +* 「4 Add annotation」の検知内容のメッセージ内容を書き換える +* ⑳:ページ上部の`Save rule and exit`を選択 @@ -206,7 +202,7 @@ sudo apt update -y && sudo apt upgrade -y * 「Save tempelate」をクリック ## 5.通知先設定 -* 「Contact points」をクリックし「Add contact point」をクリック +* 「Add contact point」をクリック ![](../images/grafana-alert/1-8.png) 通知先を指定する @@ -242,7 +238,7 @@ sudo apt update -y && sudo apt upgrade -y * `Group by`に`grafana_folder`と`alertname`を指定 * `Group interval`→ `1 Minutes`に設定 * `Repeat interval`→ `10 Minutes`に設定 -* Saveをクリック +* 「Update default policy」をクリック ![](../images/grafana-alert/1-11.png)