In [3]:
# 分割表について
# 複数の質的な変量に関する多変量データから、
# 変量の値の組み合わせごとの頻度を集計して表にしたもの
# 分割表における変量を「因子」、因子の取りうる値を「水準」と呼ぶ

# 分割表の具体例
import pandas as pd

smoke_df =pd.DataFrame({
  'sex' : ['女','男','男','女','男','女','女','男','男','男','女','女','男','女','女','男','女','女','女','女'],
  'smoke' : [1,0,1,1,0,0,0,0,0,1,0,0,1,1,0,0,1,0,0,0]
  })
pd.crosstab(smoke_df['sex'], smoke_df['smoke']) # 「sex」が因子、「smoke」が水準

smoke,0,1
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
女,8,4
男,5,3


In [7]:
# 適合度カイ二乗検定と尤度比検定

import numpy as np
from scipy import stats

contingency_table = np.array([[10, 28, 14, 12], [26, 38, 28, 18]])
 
fit_result = stats.chi2_contingency(contingency_table)
print("適合度カイ二乗検定を実施")
print(fit_result) # 検定統計量、p値、自由度、期待度数を表す分割表

# 
likelihood_result = stats.chi2_contingency(contingency_table, lambda_=0)
print("尤度比検定検定を実施")
print(likelihood_result) # 検定統計量(逸脱度)、p値、自由度、期待度数を表す分割表


適合度カイ二乗検定を実施
(2.5072417355371908, 0.4739837610894708, 3, array([[13.24137931, 24.27586207, 15.44827586, 11.03448276],
       [22.75862069, 41.72413793, 26.55172414, 18.96551724]]))
尤度比検定検定を実施
(2.545571854653499, 0.46711149520971695, 3, array([[13.24137931, 24.27586207, 15.44827586, 11.03448276],
       [22.75862069, 41.72413793, 26.55172414, 18.96551724]]))


In [9]:
# フィッシャーの正確検定

contingency_table_2_2 = [[367, 1364], [344, 126]]
fisher_result = stats.fisher_exact(contingency_table_2_2)
print("フィッシャーの正確検定を実施")
print(fisher_result) # オッズ比、P値

フィッシャーの正確検定を実施
(0.09855162654299938, 2.6906937468576903e-96)
