# 経営情報各論BⅡ：8. 検定

## (4)分割表（クロス集計表）の検定
ここでは統計的仮説検定の重要な応用である，分割表に対する独立性の検定を取り上げる．この検定手法は$\chi^2$検定（カイ二乗検定）とも呼ばれる．

### 分割表を用いるメリット
分割表に対する検定を学ぶ前に，分割表を用いるメリットから説明を始めます．分割表についての正しい知識を持つだけで，データ分析の質は大きく高まります．

例えば，Webサイトを運営しているとしましょう．商品の購入や問い合わせボタンなどのクリック率が，ボタンの色によって変わるかどうかを調べています．  
以下のようなデータが得られました．

| |押した人数|
|:---:|:---:|
|青いボタン|20|
|赤いボタン|10|

このデータだけを見ると，青いボタンの方が押されやすいように見えます．ではボタンの色は青にしようと思うかもしれません．  
しかし，このでーたには致命的な欠点があります．それは「ボタンが押されなかった時のデータ」がないことです．  
ボタンが押されなかった時のデータを加えたのが以下の表です．この形式を分割表，あるいはクロス集計表と呼びます．

| |押した|押さなかった|
|:---:|:---|:---:|
|青いボタン|20|180|
|赤いボタン|10|90|

分割表を見ると，青いボタンも赤いボタンも共に「押した：押さない」の比率が「１：９」となっていることがわかります．つまり，青いボタンの方が多く配置されていたので青いボタンが多く押されていただけであって，クリック率は両者ともに変わらなかったということです．

また，以下のようなデータが得られたとします．  
青いボタン：クリック率50%  
赤いボタン：クリック率10%  
これは青いボタンを採用すべきだと思うかもしれません．しかし，これが以下の分割表から計算されたものだとしたらどうでしょうか．

| |押した|押さなかった|
|:---:|:---|:---:|
|青いボタン|1|1|
|赤いボタン|10|90|

青いボタンでの調査数がとても少ないですね．サンプルサイズを大きくすると，青いボタンもやはり押される割合が低くなっていくかもしれません．こういった問題を見破るのに，分割表は多大なる効力を発揮します．

### ここで扱う例題
ここでは，先ほどと同様に，ボタンの押されやすさに関するデータに対して分析を試みます．以下の架空のクリック数データを対象とします．

![図10-2](https://drive.google.com/uc?id=1-30x4ygnF6FU51WG-eNlBpE8yHnndFBE)

実際の観測データを**観測度数**と呼びます．  
クリック率でみると，青いボタンが8%，赤いボタンが20%と，赤いボタンの方が高いように見えます．これが「意味のある」違いだといえるかどうかを，統計的仮説検定を用いて判断していきます．

### 期待度数を求める
色によって押されやすさが変わることを示すのが今回の目的でした．その前に，まずは「色によって押されやすさがまったく変わらなかったらどのような結果になるのか」を考えてみる．この時に期待される度数を**期待度数**と呼びます．

ボタンの押されやすさのデータの最下段を見ると，ボタンの色を無視したときの「押したor押さない」の比率は「押した：押さない＝30:270」すなわち1:9となっていることがわかります．色を無視すれば，全体の1割の人だけがボタンをおすということです．

ここで，実験対象者となった人数を確認します．

青いボタン250人  
赤いボタン50人

この中で１割の人だけがボタンを押すので，ボタンを押す人の期待度数は以下のようになる．

青いボタンを押す人25人  
赤いボタンを押す人5人

ボタンを押さなかった人数は，全体から押した人数を引けばよいので，期待度数は次のように求められます．

| |押した|押さなかった|
|:---:|:---|:---:|
|青いボタン|25|225|
|赤いボタン|5|45|

後は，この期待度数と，実際の観測された度数との違いを見ます．この違いが大きければ「ボタンの色によって押されやすさが変わる」とみてよいでしょう．  
なお，$\chi^2$検定を行う際は，期待度数がすべて5以上であることが求められます．

### 期待度数との差を求める
次に，以下の値を計算します．ただし$O_{ij}$は$i$行$j$列の観測度数で，$E_{ij}$は期待度数です．これを$\chi^2$統計量と呼びます．

$\displaystyle \chi^2=\sum^2_{i=1}\sum^2_{j=1}\frac{(O_{ij}-E_{ij})^2}{E_{ij}}$

これを実際に計算してみます．ボタンの押されやすさのデータの表と期待度数の表の数値と見比べてください．

$\begin{eqnarray} \displaystyle \chi^2 &=& \frac{(20-25)^2}{25}+\frac{(230-225)^2}{225}+\frac{(10-5)^2}{5}+\frac{(40-45)^2}{45}\\\displaystyle   &=& 1+\frac{1}{9}+5+\frac{5}{9}\\ &\fallingdotseq& 6.667 \end{eqnarray}$

今回のデータのような2行2列の分割表における$\chi^2$統計量の標本分布は，自由度1の$\chi^2$分布に漸近的に従うことが証明されています．後は$t$検定とほぼ同様です．$\chi^2$分布の累積分布関数は，Pythonを使うことで簡単に得られます．

### 実装：p値の計算
$p$値を計算します．まずは必要なライブラリの読み込みや表示桁数の設定などを行います．

In [1]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# グラフを描画するライブラリ
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 表示桁数の指定
%precision 3
# グラフをjupyter Notebook内に表示させるための指定
%matplotlib inline

自由度１の$\chi^2$分布の累積密度関数を用いて$p$値を計算します．

In [2]:
# p値を求める
1 - sp.stats.chi2.cdf(x = 6.667, df = 1)

0.010

0.05を下回りました．よって，色によってボタンの押されやすさが有意に変わると判断できることになります．

### 実装：分割表の検定
分割表の検定は，Pythonを使うことで簡単に計算できます．まずはデータを読み込みます．

In [3]:
# データの読み込み
click_data = pd.read_csv("ds2-testing-4-click_data.csv")
print(click_data)

  color  click  freq
0  blue  click    20
1  blue    not   230
2   red  click    10
3   red    not    40


分割表に変換します．

In [4]:
# 分割表形式に変換
cross = pd.pivot_table(
    data = click_data,
    values = "freq",
    aggfunc = "sum",
    index = "color",
    columns = "click"
)
print(cross)

click  click  not
color            
blue      20  230
red       10   40


検定を実行します．`sp.stats.chi2_contingency`関数を使います．標準ですと余計な補正が入ってしまうので『`correction=False`』として補正をしないようにしました．

In [5]:
# 検定の実行
sp.stats.chi2_contingency(cross, correction = False)

Chi2ContingencyResult(statistic=6.666666666666666, pvalue=0.009823274507519247, dof=1, expected_freq=array([[ 25., 225.],
       [  5.,  45.]]))

結果は，$\chi^2$統計量，$p$値，自由度，期待度数の表の順に出力されています．先ほどの結果と一致していることを確認してください．