In [12]:
# 母比率の検定

# 試行回数n、成功確率Θの二項分布に従う確率変数Xを考える
# いま、与えられた比率Θ0に対して、Θ=Θ0を帰無仮説とする仮説検定を行いたいとする
# ここでΘ'=X/nはΘの最尤推定量である。棄却限界値には最尤推定量の漸近正規性を利用することが多い
# すなわち、帰無仮説のもとでn→∞のとき、√n*(Θ'-Θ0)/√(Θ0*(1-Θ0))が標準正規分布に分布収束することを利用する
# ここで分母にあるΘ0*(1-Θ0)は√n*(Θ'-Θ0)の分散である
# すると、近似的に有意水準αの検定方式、√n*(Θ'-Θ0)/√(Θ0*(1-Θ0))>=Za とすれば得られる
# ここでZaは標準正規分布の上側100%点である
# 両側対立仮説Θ≠Θ0の場合、上と同様にして有意水準αの棄却域は
# |√n*(Θ'-Θ0)/√(Θ0*(1-Θ0))|>=za/2となる

# サンプルデータで信頼度95%で両側検定を実行
import numpy as np
from scipy import stats

theta0 = 0.5 # 母比率

sample_n = 1000
sample_x = 535
theta_hat = sample_x/sample_n

z_val = (theta_hat-theta0)/np.sqrt((theta_hat*(1-theta_hat))/sample_n)
print(f"統計量Z:{z_val:.3f}")

alpha = 0.05
critical_val = abs(stats.norm.ppf(alpha/2))
print(f"棄却限界値:{critical_val:.3f}")
if(-critical_val<=z_val and critical_val>=z_val):
    print("H0を棄却しない")
else:
    print("H0を棄却しH1を採択する")

統計量Z:2.219
棄却限界値:1.960
H0を棄却しH1を採択する


In [13]:
# 母比率の差の検定

# 試行回数n1、成功確率Θ1の二項分布に従う確率変数X1と、
# 試行回数n2、成功確率Θ2の二項分布に従う確率変数X2が観測され、
# 帰無仮説Θ1=Θ2の検定を行いたいとする。つまり母比率に関する2標本問題である
# ここで帰無仮説においてΘ1(=Θ2)の値そのものは決めていないことに注意する
# 帰無仮説に限らずΘ1'-Θ2'の平均はΘ1-Θ2、分散はΘ1*(1-Θ1)/n1+Θ1\2*(1-Θ2)/n2であるから、
# 中心極限定理よりn1,n2がともに大きければ
# ((Θ1'-Θ2')-(Θ1-Θ2))/√(Θ1*(1-Θ1)/n1+Θ2*(1-Θ2)/n2) は近似的に標準正規分布に従う
# ここで分母に現れるΘ1,Θ2をΘ1',Θ2'に置き換え、また帰無仮説のもとでΘ1-Θ2=0に代入することにより、
# 有意水準の検定方式 (Θ1'-Θ2')/√(Θ1'*(1-Θ1')/n1+Θ2'*(1-Θ2')/n2) >=za が得られる

# サンプルデータで信頼度95%で両側検定を実行

a_n = 1000
a_x = 535
theta_a = a_x/a_n

b_n = 1000
b_x = 450
theta_b = b_x/b_n

z_val = (theta_a-theta_b)/np.sqrt(theta_a*(1-theta_a)/a_n+theta_b*(1-theta_b)/b_n)
print(f"統計量Z:{z_val:.3f}")

alpha = 0.05
critical_val = abs(stats.norm.ppf(alpha/2))
print(f"棄却限界値:{critical_val:.3f}")
if(-critical_val<=z_val and critical_val>=z_val):
    print("H0を棄却しない")
else:
    print("H0を棄却しH1を採択する")


統計量Z:3.816
棄却限界値:1.960
H0を棄却しH1を採択する


In [14]:
# ポアソン分布に関する検定

# パラメータλのポアソン分布に従う確率変数Xを考える
# λ'=Xはλの最尤推定量である。真のλの値が十分大きければ、λ'の分布は正規分布で近似される
# ポアソン分布のの分散はλなので、帰無仮説の下では(λ'-λ0)/√λ0 が近似的に標準積分布に従う
# これに基づく棄却域は(λ'-λ0)/√λ0>=Za である

# サンプルデータで信頼度95%で両側検定を実行
lambda0 = 15

lambda_hat = 25

z_val = (lambda_hat-lambda0)/np.sqrt(lambda0)
print(f"統計量Z:{z_val:.3f}")

alpha = 0.05
critical_val = abs(stats.norm.ppf(alpha/2))
print(f"棄却限界値:{critical_val:.3f}")
if(-critical_val<=z_val and critical_val>=z_val):
    print("H0を棄却しない")
else:
    print("H0を棄却しH1を採択する")

統計量Z:2.582
棄却限界値:1.960
H0を棄却しH1を採択する


In [19]:
# 適合度検定

# カテゴリかるデータに関する検定には、尤度比検定のほかに「適合度検定」がよく用いられる
# カテゴリの個数Iとし、それぞれの生起確率をpi(1<=i<=I)とおく。
# また総度数をn、カテゴリiの観測度数をxiとおき、帰無仮説のもとでのpiの最尤推定量をpi'とおく
# このとき、ピアソンのカイ二乗適合度検定量を
# T(x) = Σ((xi-n*pi')/n*pi'), x=(x1,..,xI) と定義する。分母と分子に現れるn*pi'は期待度数とよばれる
# T(x)は帰無仮説の下で漸近的に自由度d=I-1-kのカイ二乗分布に収束する
# ここでkは帰無仮説のもとで自由に動けるパラメータの個数を表し、またI-1は
# 生起確率に制約のないフルモデルにおいて自由に動けるパラメータの個数を意味する
# 度数が十分に大きくない場合には、「イエーツの補正」が用いられることがある
# これは、T(x)の(xi-n*pi')を(|xi-n*pi'|-0.5)**2に置き換える補正法である

# サンプルデータで信頼度95%で両側検定を実行

#A型:55、O型:22, B型:16, AB型:7
n = 100
n_list = [55, 22, 16, 7] 
pi_hat_list = [0.4, 0.3, 0.2, 0.1]

chi_val = 0
for i, item in enumerate(n_list):
    chi_val += (item-100*pi_hat_list[i])**2/np.sum(100*pi_hat_list[i])
print(f"統計量T(x):{chi_val:.3f}")

alpha_l = 0.025
alpha_r = 0.975
critical_val_l = abs(stats.chi.ppf(alpha_l, len(n_list)-1))
critical_val_r = abs(stats.chi.ppf(alpha_r, len(n_list)-1))
print(f"棄却限界値(右側):{critical_val_r:.3f}")
print(f"棄却限界値(左側):{critical_val_l:.3f}")
if(chi_val<=critical_val_l or critical_val_r<=chi_val):
    print("H0を棄却しH1を採択する")
else:
    print("H0を棄却しない")

# 上記と同様の検定は、scipyのchisquareを使用すれば簡単に実行できる
print(f"chisquareの実行結果:{stats .chisquare(n_list, f_exp=[pi*n for pi in pi_hat_list])}")

統計量T(x):9.458
棄却限界値(右側):3.058
棄却限界値(左側):0.465
H0を棄却しH1を採択する
chisquareの実行結果:Power_divergenceResult(statistic=9.458333333333334, pvalue=0.02377878015426507)


In [None]:
# 尤度比検定

# 汎用的な検定の構成法として「尤度比検定」がある
# パラメータのベクトルΘが2つの部分に分かれており、Θ=(Θ1, Θ2)とする
# ただし、Θ1の次元(要素数)をp、Θ2の次元をqとする
# 大きさnの観測値xnの確率密度関数をfn(xn;Θ1,Θ2)と書く。帰無仮説をH0:Θ1=Θ10とし、
# 尤度比を λn = maxΘ1,Θ2 fn(xn;Θ1,Θ2)/maxΘ2 fn(xn;Θ10,Θ2) と定義する
# 一般的にHoのもとでn→∞のとき、2*logλnの分布は自由度pのカイ二乗分布に従うことが示される
# これより2*logλn>=χ**2α(p)のときにHoを棄却すれば、近似的に有意水準αとなる