In [1]:
# === 分析表の検定 ===

# 分析表や、観測度数、期待度数などの説明は省きます。
# この章ではボタンの押されやすさに関するデータの分析を試みます。

In [3]:
# p値の計算

import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

%precision 3
%matplotlib inline

In [4]:
# 自由度１のx**2分布の累積密度関数を用いてp値を計算します。
# x代入している６．６６７は本（p.224）で行った計算結果です。
1 - sp.stats.chi2.cdf(x = 6.667, df = 1)

0.010

In [5]:
# 分割表の検定

#　まずはデータの読み込み
# データの内容はクリックした人、クリックしなかった人を色ごとに示したもの
click_data = pd.read_csv('../statistics_python/3-10-1-click_data.csv')
print(click_data)

  color  click  freq
0  blue  click    20
1  blue    not   230
2   red  click    10
3   red    not    40


In [6]:
# 分割表に変換します
cross = pd.pivot_table(
    data = click_data,
    values = "freq",
    aggfunc = "sum",
    index = "color",
    columns = "click"
    )
print(cross)

click  click  not
color            
blue      20  230
red       10   40


In [7]:
# 検定を実行します
# 標準だと余計な補正が入ってしまうので「correction = False」で補正が入らないようにしました。
sp.stats.chi2_contingency(cross, correction = False)

(6.667, 0.010, 1, array([[  25.,  225.],
        [   5.,   45.]]))

In [8]:
# 結果は、x**2統計量、p値、自由度、期待度数の表の順に出力されています。