Skip to content

Droongaノードの不調の検出手順

YUKI "Piro" Hiroshi edited this page Apr 8, 2014 · 5 revisions

考え方

  • Disk Fullの警告が上がってきて欲しい。
    • ディスク全体の容量に対して、使用中の領域があらかじめ決めておいたパーセンテージ(例えば、80%など)を越えたら警告する。
  • 単調増加のデータがあらかじめ決められたQuotaの上限に近づいている、という警告が上がってきて欲しい。
    • Quotaの上限に対して、使用中の領域があらかじめ決めておいたパーセンテージ(例えば、80%など)を越えたら警告する。
  • 応答が無くなっているノードについて、警告が上がってきて欲しい。
    • ステータス取得用のコマンド(別途定める)を1分間隔で自動発行して、結果が返ってきたらそのノードは生きていると判断する。
      • ステータス取得では、簡単な検索を実行して、ヒット件数を見る? それだと負荷が大きすぎる? sortByでlimit:1にすれば高速か?
  • 【曖昧な項目:検索結果がおかしいと見なす判断基準】応答はあるが検索結果がおかしい、というノードについて、警告が上がってきて欲しい。
    • これは、実際にそう言う事例が発生してから考えた方がよいか? あまりに漠然としていて、事前に条件を特定できない。
      • 実運用においては、任意の検索クエリと期待される検索結果のパターンを登録できるようにしておく、というのも便利かも。

手作業での手順

  1. ディスク使用量を計測して返す機能をDroongaに加える。
  2. どれかのノードに、ディスク使用量を計測するコマンドを発行するcronjobを設定する。 cronjobは、結果が期待通りに返ってこなかったらエラーを返す(メールで通知する)ようにする。

自動化の指針