Droongaノードの不調の検出手順

考え方

Disk Fullの警告が上がってきて欲しい。
- ディスク全体の容量に対して、使用中の領域があらかじめ決めておいたパーセンテージ（例えば、80％など）を越えたら警告する。
単調増加のデータがあらかじめ決められたQuotaの上限に近づいている、という警告が上がってきて欲しい。
- Quotaの上限に対して、使用中の領域があらかじめ決めておいたパーセンテージ（例えば、80％など）を越えたら警告する。
応答が無くなっているノードについて、警告が上がってきて欲しい。
- ステータス取得用のコマンド（別途定める）を1分間隔で自動発行して、結果が返ってきたらそのノードは生きていると判断する。
  - ステータス取得では、簡単な検索を実行して、ヒット件数を見る？それだと負荷が大きすぎる？ sortByでlimit:1にすれば高速か？
【曖昧な項目：検索結果がおかしいと見なす判断基準】応答はあるが検索結果がおかしい、というノードについて、警告が上がってきて欲しい。
- これは、実際にそう言う事例が発生してから考えた方がよいか？　あまりに漠然としていて、事前に条件を特定できない。
  - 実運用においては、任意の検索クエリと期待される検索結果のパターンを登録できるようにしておく、というのも便利かも。

手作業での手順

ディスク使用量を計測して返す機能をDroongaに加える。
どれかのノードに、ディスク使用量を計測するコマンドを発行するcronjobを設定する。 cronjobは、結果が期待通りに返ってこなかったらエラーを返す（メールで通知する）ようにする。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Droongaノードの不調の検出手順

考え方

手作業での手順

自動化の指針

Clone this wiki locally