In [1]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()
%precision 3
%matplotlib inline

# 分割表検定(x^2検定(カイ二乗検定))

分割表(クロス集計表)に対する独立性の検定

## クロス集計表

- 観測データを観測度数と呼ぶ
- 色によって押されやすさがまったく変わらないことを仮定した結果(=*期待度数*)はどのようになるかをみた上で分析する
- 以下は、青いボタンと赤いボタンにおけるクリック率を表している

|     | 押した | 押さない | 合計  | クリック率 |
|-----|-----|------|-----|-------|
| 青   | 25  | 225  | 250 | 10%   |
| 赤   | 5   | 45   | 50  | 10%   |
| 合計  | 30  | 270  | 300 | 10%   |


上記からは、赤いボタンの方がクリック率が高いように見えるが、これが「意味のある」違いだと言えるかを、統計的仮設検定を用いて判断していく(カイ二乗検定を行うためには、期待度数が5以上である必要がある)

## 期待度数との差を求める

$$
\mathcal{X^2} = \sum_{i=1}^2\sum_{j=1}^2 x_i \frac{(O_{ij}-E_{ij})^2}{E_{ij}}
$$

今回のデータのような2行2列の分割表におけるx^2統計量の標本分布は自由度1のx^2分布に漸近的に従うことが証明されている

In [2]:
1 - sp.stats.chi2.cdf(x=6.6666666667, df=1)

0.010

In [7]:
click_data = pd.read_csv('../data/3-10-1-click_data.csv')
click_data

Unnamed: 0,color,click,freq
0,blue,click,20
1,blue,not,230
2,red,click,10
3,red,not,40


In [8]:
cross = pd.pivot_table(
    data=click_data,
    values='freq',
    aggfunc='sum',
    index='color',
    columns='click',
)
cross

click,click,not
color,Unnamed: 1_level_1,Unnamed: 2_level_1
blue,20,230
red,10,40


In [9]:
stats.chi2_contingency(cross, correction=False)
# [0] : x^2統計量
# [1] : p_value
# [2] : 期待度数

(6.667,
 0.010,
 1,
 array([[ 25., 225.],
        [  5.,  45.]]))