# 7章 テスト

* 機能が分散システムに及ぶ際に、効果的かつ効率的に機能をテストする方法には課題が残っている
* 本章では、粒度の細かいシステムのテストに関する問題を分析

## 7.1 テストの種類

<img  src="images/GM67J20DJO86D5D0FUQY4YN1GSDG8UCV.png"/>

* 下側は技術面でのテスト
  * 自動化される
* 上側は非技術系
  * 利害関係者がシステムを理解できるように


* 大量の手動テストを実施している場合には、ソフトウェアを迅速かつ効率的に検証できないとマイクロサービスの多くの利点が得られない

## 7.2 テストスコープ

<img  src="images/Y2BLGKQW7JM99PFLXNBACJB0HDRU4G7S.png"/>

* テストピラミッド
  * テストが扱わなければいけないスコープを考えるのに便利
  * 目指すべきさまざまな種類のテストの割合を考えるのにも役立つ
* 用語の意味が人によって異なる
  * サービスとは? 単体テストの範囲は?
  * UIテストはエンドツーエンドテストと呼ぶ

## 7.2.1 単体テスト

* 単体テスト: 1つの機能やメソッド呼び出しを検査するテスト
  * サービスを起動しない
  * 外部ファイルやネットワーク接続の使用を制限
  * 開発者を支援する技術側のテスト

## 7.2.2 サービステスト

* サービステスト: UIを迂回してサービスを直接テスト
  * サービスが複数ある場合は1つのサービスを単独でテスト
  * 外部のコラボレータをすべてスタブ化して実施

## 7.2.3 エンドツーエンドテスト

* エンドツーエンドテスト: システム全体に対して実行するテスト
  * 多くの場合、ブラウザを介してGUIを実行
  * ユーザ対話を模倣することもできる

## 7.2.4 トレードオフ

* テストピラミッドの上の方にいくほど
  * テストスコープは増える
  * テストの実行に時間がかかる
  * フィードバックサイクル時間が増える
  * テストの実行に失敗すると問題のある機能を判別するのが困難になる

* テストピラミッドの下の方にいくほど
  * テストが大幅に高速になる
  * フィードバックサイクル時間が減る
  * 問題のある機能を早く特定できる


* スコープの広いテストで失敗したら、高速な単体テストを追加してその問題を探す

## 7.2.5 いくつのテストを実施するか

* 優れた経験則として、ピラミッドを下るにつれて必要なテストの数が一桁増える


* アンチパターン: テストスノーコーン(Test Snow Cone)、または逆ピラミッド(Inverted Pyramid)
  * スコープの小さいテストがまったくないかほとんどない
  * テストやカバレッジはスコープの大きいテストによる
  * フィードバックサイクルが長くなる

## 7.3 サービステストの実装

* サービステストはすべてのコラボレータをスタブ化しなければいけない
* サービステストスイートはスタブサービスを起動（あるいは起動していることを確認）し、テスト対象のサービスをスタブに接続するように設定
* スタブサービスは実世界のサービスを模倣するようにレスポンスを返すようにする

## 7.3.1 モックかスタブか

* スタブはその呼び出し回数が何回か気にしない
* モックは呼び出しが行われたことを確認する
  * 期待する呼び出しが行われなかったらテスト失敗となる


* モックとスタブ以外にもフェイク、スパイ、ダミー
  * 違いを混同されがち
  * Martin Fowlerはこれらすべてをテストダブルと呼んでいる (http://bliki-ja.github.io/TestDouble/)

## 7.3.2 高度なスタブサービス

* mountebank (http://www.mbtest.org/): スタブ/モックサーバ
  * HTTPを介してスタブエンドポイントを自由に追加・削除できる
  * スタブを有効にするポート、プロトコル（現在はTCP, HTTP, HTTPS）、リクエスト送信時に送るレスポンスを指定するコマンド

## 7.4 面倒なエンドツーエンドテスト

* ユーザインタフェースを介して水面下のすべての機能を動作させ、システム全体の概観を示す
* 複数のサービスを一緒にデプロイし、そのすべてに対してテストを実行
  * スコープが大きく、システムが正しく機能する自信が増す
  * テストは遅くなりがちで、障害の診断がより困難


* サービスの新バージョンをデプロイするとき
  * そのサービスのパイプラインの最後にエンドツーエンドテストを追加する
  * 他のサービスのどのバージョンを使用するべきか
  * 他のサービスも同様にテストをしており、稼働待ちの状態であればどうするか

* 複数のパイプラインを1つにまとめる(ファンイン: fan in)

<img  src="images/RG3GRWE2RRVVBMEI1I059B5MHE1MQ8HH.png"/>

## 7.5 エンドツーエンドテストの欠点

## 7.6 信頼できない脆弱なテスト

* テストスコープが大きくなると可動部が増える
* 可動部はテスト本来の性質とは関係のない失敗を引き起こす
  * 複数のサービスを利用しているとき、いずれかのサービスがダウンしていたことによるテスト失敗
  * 複数スレッドで実行される機能のテストも同様の問題がある（競合状態、タイムアウト）
  * ときどき失敗するテストがあると、そのテストは信頼できない


* 逸脱の常態化（逸脱の標準化、normarization of deviance）
  * 間違っているものに慣れすぎて、それを正常で問題ないと徐々に受け入れ始めることがあるという考え方
  * ときどき失敗するテストをこういうものだと思ってしまう


* 信頼できないテストは排除
  * すぐに修正できない場合は排除してしまう
  * 信頼できないテストをスコープの小さいテストに置き換えてみる

## 7.6.1 誰がテストを書くか

* 特定のサービスのパイプラインで実行するテストは、そのサービスを所有するチームが書く
* 複数サービスにまたがったエンドツーエンドテストを誰が書くか


* アンチパターン1: すべてのチームがアクセスできるようにする
  * テストケースが急増しテストスノーコーンになることがある


* アンチパターン2: 専任チームが書く
  * 新しい機能のエンドツーエンドテストをテストチームが行うまで待たなければいけない
  * サイクル時間が長くなってしまう


* 最善のバランス
  * エンドツーエンドテストスイートを共同所有とする
  * チームは自由にチェックインできる
  * テストスイートの健全性の責任をサービスを開発したチーム間で共有しなければならない

## 7.6.2 実行期間

* エンドツーエンドテストは少なくとも1日かかるものがある（6週間かかった例も）
* 遅さと信頼できないテストが相まって、大きな問題となることがある
  * 終日かかった上にテストする機能とは異なる問題が発生したとき、特定に長い時間がかかる
* テストの高速化に時間をかけているチームに出会ったことはほとんどない


* テストを並行実行すること
  * Selenium Gridなどを活用
  * 必要亡くなったテストを削減することの代わりにはならない


* テストの削減
  * リスクと利益のトレードオフ
  * 削減したテストによってバグを見落としてしまったら
  * リスクをきちんと理解する必要があるが、人間はこれがとても不得意

## 7.6.3 積み上がる大きな山

* 問題のあるエンドツーエンドテストを修正している間に、新たな変更が積み上がってくる
* さらにテストを修正するのが難しくなる
* 頻繁にリリースするには小さな変更を準備ができたらできるだけ早くリリースするということが重要

## 7.6.4 メタバージョン

* エンドツーエンドテストステージでは、すべてのサービスが連携するのだからすべて一緒にデプロイすればいいのではと考えがち
* そうするとシステム全体で1つのバージョンをつけがちになる
  * マイクロサービスの利点である、他のサービスと独立してデプロイできる能力を失ってしまう
  * サービス同士が結合してしまう状況にも陥りがち

## 7.7 ストーリーではなくジャーニーをテストする

* 追加したすべての機能に新たなエンドツーエンドテストを追加すると、テストスイートはすぐに肥大化する
* 少数の中核となるジャーニーに焦点を絞ってシステム全体をテストする
* ジャーニーで対象となっていない機能は、互いに分離してサービステストで対処する必要がある

## 7.8 救いとなるコンシューマ駆動テスト

* 新しいサービスをデプロイしたときにコンシューマを壊さないようにする
* コンシューマ駆動契約(CDC: Consumer-Driven Contract)
  * コンシューマ側にテストとして要求しない
  * サービス（プロデューサ）に対するコンシューマのエクスペクテーション（期待）を定義
  * エクスペクテーションをテストコードとして記述し、プロデューサが実行


* 優れたプラクティス
  * プロデューサチームとコンシューマチームでテストの作成を共同で行う


* テストスコープ
  * スコープで見るとサービステストと同じ
  * 違反した場合に行うことが異なる
  * CDCのいずれかに違反していた場合、どのコンシューマに影響するのかすぐわかる

## 7.8.1 Pact

* コンシューマ駆動テストツール https://github.com/realestate-com-au/pact

<img  src="images/CO5YVUWLSIVF3BV2QQUPGTEYTBWBBGJF.png"/>

## 7.8.2 対話について

* サードパーティが提供するサービスを利用する場合や、一般公開するWebサービスAPIを作成する場合
  * 信頼関係をあまり築けていない場合がある
  * 信頼できないコンポーネントだけに関連する限定されたスコープの大きい統合テストで間に合わせなければならない

## 7.9 エンドツーエンドテストを使用すべきか

* 徐々にエンドツーエンドテストは必要とされなくなり、CDCのようなツールや改善された監視が好まれている
* 8章のセマンティック監視


* CDCや本番環境の監視を改善している間は、エンドツーエンドテストが有益な安全策となることがある
* 他の領域が改善されるとエンドツーエンドテストへの依存が薄れ、必要なくなる可能性がある

## 7.10 本番リリース後のテスト

* テストで定義したモデルが完璧でなければ、システムの使用時に問題が発生する
* モデルを改良しようとするとある時点で利点が減ってしまう
* デプロイ前のテストでは、障害の可能性をゼロにすることはできない

## 7.10.1 デプロイとリリースの分離

* スモークテストスイート: デプロイが正常に機能していることを確認するテストスイート
* ブルーグリーンデプロイメント: 同時にデプロイされているソフトウェア2つのうち、一方だけがリクエストを受ける

<img  src="images/LGHVAE3FF6UIEV64PQU53M0AP15LT4PV.png"/>

* 本番環境のトラフィックを送る前の状況でサービスをテストできる
* ソフトウェアのリリースに伴うダウンタイムを大幅に削減

## 7.10.2 カナリアリリース

* ブルーグリーンデプロイメントのように2バージョンのシステムを同時に動かす
* 本番環境のトラフィックの一部を新バージョンのシステムに送り動作を検証
  * 機能的、非機能的な多くのことを検証する
* 検証がうまくいっていれば、新バージョンに送るトラフィックの量を増やす
* トラフィック量を頻繁に変更することがブルーグリーンデプロイメントとは異なる


* トラフィックの一部を送る代わりに、本番環境のトラフィックをコピーすることもできる
  * カナリアリリースの障害をユーザに見せることなく検証を行える
  * トラフィックをコピーすることは、リクエストやイベントがべき等ではない場合、複雑になる


* ブルーグリーンデプロイメントよりも複雑で検討すべきことが増える
  * 2つのシステムが長時間共存するため、多くのハードウェアを長時間使うことになる
  * 高度なトラフィックルーティングが必要

## 7.10.3 平均故障間隔（MTBF）よりも平均修復時間（MTTR）か

* ブルーグリーンデプロイメントやカナリアリリースは本番環境内でのテスト
  * リリースする前にすべての問題を見つけることはできないと暗黙的に認めている


* 修復時間を短くするテクニック
  * ブルーグリーンデプロイメントのように高速なロールバック
  * 優れた監視（8章）


* 機能テストスイートに時間をかける組織は大抵、監視や障害からの復旧に対して労力を割かない
  * 最初に発生する不具合は減るかもしれないが、本番環境で不具合が起こった場合に対処する準備ができているとはいえない


* MTBFとMTTR以外のトレードオフ
  * 誰かが実際にソフトウェアを使うかどうかを分析したい場合
  * テストに注力せず、すぐにリリースした方が理にかなっていることがある

## 7.11 機能横断テスト

* 非機能要件
  * Webページの遅延の許容範囲
  * システムがサポートすべきユーザ数
  * 障害を持つユーザにとってのユーザインタフェースのアクセシビリティ
  * 顧客データのセキュリティ


* 機能横断要件(CFR: Cross-Functional Requirements)
  * 非機能要件のより適切な用語として
  * 多くのCFRは本番環境でしか満たされない
  * ただし、その目標を達成する方向に向かっているかどうかを確認するテスト戦略を規定できる → 4象限の性質テスト（この好例が性能テスト）


* 多くの場合、CFRに関する検討がされるのが遅すぎる
  * 早期に検討し、定期的に見直すべき

## 7.11.1 性能テスト

* マイクロサービスでは複数のサービス呼び出しがある
  * 複数の同期呼び出しがあるチェーンで、その一部が遅くなるとすべてが影響を受ける


* 性能をテストする手段を持つことが重要
  * 当初は十分なシステムが揃っていないことから実施が遅れがちになる
  * 本番環境に近い環境でテストすることは大変だが、ボトルネックを突き止めるという価値がある


* 性能テストを行うプラクティス
  * 時間がかかるため、チェックインのたびに実行するのは現実的ではない
  * 一部を毎日実行、大部分を毎週実行するのがよい
  * できるだけ定期的に実行すること
  * 性能テストを行わない期間が長くなるほど原因を突き止めづらくなる
  * 性能テストの結果をきちんと検討すること
  * 実際のシステム性能の監視と合わせて行うこと

## 7.2 まとめ