# 母比率の検定

試行回数$n$、成功確率$\theta$の二項分布に従う確率変数$X$を考える。  
いま、与えられた比率$\theta_0 \in (0,1)$に対して、$\theta=\theta_0$を帰無仮説とする仮説検定を行いたいとする。  
ここで$\hat{\theta}=X/n$は$\theta$の最尤推定量である。  
ここで棄却限界値をいかに定めるかが問題となるが、これには最尤推定量の漸近正規性を利用することが多い。  
すなわち、帰無仮説のもとで$n \rightarrow \infty$のとき
$$
\frac{\sqrt{n} (\hat{\theta} - \theta_0)}{\sqrt{\theta_0(1-\theta_0)}}
$$
が標準正規分布に分布収束することを利用する。  
ここで分母にある$\theta_0(1-\theta_0)$は$\sqrt{n} (\hat{\theta} - \theta_0)$の分散である。    
すると、近似的に有意水準$\alpha$の検定方式は、
$$
\frac{\sqrt{n} (\hat{\theta} - \theta_0)}{\sqrt{\theta_0(1-\theta_0)}} \geq z_{\alpha}
$$
とすれば得られる。ここで$a_{\alpha}$は標準正規分布の上側$100 \alpha %$点である。  
両側対立仮説$\theta \neq \theta_0$の場合、上と同様にして有意水準$\alpha$の棄却域は
$$
\left|\frac{\sqrt{n} (\hat{\theta} - \theta_0)}{\sqrt{\theta_0(1-\theta_0)}} \right| \geq z_{\alpha /2}
$$
となる。

In [1]:
# サンプルデータで信頼度95%で両側検定を実行
import numpy as np
from scipy import stats

theta0 = 0.5 # 母比率

sample_n = 1000
sample_x = 535
theta_hat = sample_x/sample_n

z_val = (theta_hat-theta0)/np.sqrt((theta_hat*(1-theta_hat))/sample_n)
print(f"統計量Z:{z_val:.3f}")

alpha = 0.05
critical_val = abs(stats.norm.ppf(alpha/2))
print(f"棄却限界値:{critical_val:.3f}")
if(-critical_val<=z_val and critical_val>=z_val):
    print("H0を棄却しない")
else:
    print("H0を棄却しH1を採択する")

統計量Z:2.219
棄却限界値:1.960
H0を棄却しH1を採択する


# 母比率の差の検定

試行回数$n_1$、成功確率$\theta_1$の二項分布に従う確率変数$X_1$と、試行回数$n_2$、成功確率$\theta_2$の二項分布に従う確率変数$X_2$が観測され、帰無仮説$\theta_1=\theta_2$の検定を行いたいとする。  
つまり母比率に関する2標本問題である。ここで帰無仮説において$\theta_1=(\theta2)$の値そのものは決めていないことに注意する。  
帰無仮説に限らず$\hat{\theta_1}-\hat{\theta_2}$の平均は$\theta_1-\theta_2$、分散は$\theta_1(1-\theta_1)/n_1 + \theta_2(1-\theta_2)/n_2$であるから、中心極限定理より$n_1$,$n_2$がともに大きければ
$$
\frac{(\hat{\theta_1}-\hat{\theta_2})-(\theta_1-\theta_2)}{\sqrt{\frac{\theta_1(1-\theta_1)}{n_1} + \frac{\theta_2(1-\theta_2)}{n_2}}} 
$$
は近似的に標準正規分布に従う。  
ここで分母に現れる$\theta_1$,$\theta_2$を$\hat{\theta_1}$,$\hat{\theta_2}$に置き換え、また帰無仮説のもとで$\theta_1-\theta_2$=0に代入することにより、有意水準$\alpha$の検定方式
$$
\frac{(\hat{\theta_1}-\hat{\theta_2})-(\theta_1-\theta_2)}{\sqrt{\frac{\hat{\theta_1}(1-\hat{\theta_1})}{n_1} + \frac{\hat{\theta_2}(1-\hat{\theta_2})}{n_2}}} \geq z_{\alpha}
$$
が得られる。両側検定の場合も同様である。

In [3]:
# サンプルデータで信頼度95%で両側検定を実行
a_n = 1000
a_x = 535
theta_a = a_x/a_n

b_n = 1000
b_x = 450
theta_b = b_x/b_n

z_val = (theta_a-theta_b)/np.sqrt(theta_a*(1-theta_a)/a_n+theta_b*(1-theta_b)/b_n)
print(f"統計量Z:{z_val:.3f}")

alpha = 0.05
critical_val = abs(stats.norm.ppf(alpha/2))
print(f"棄却限界値:{critical_val:.3f}")
if(-critical_val<=z_val and critical_val>=z_val):
    print("H0を棄却しない")
else:
    print("H0を棄却しH1を採択する")

統計量Z:3.816
棄却限界値:1.960
H0を棄却しH1を採択する


# ポアソン分布に関する検定

パラメータ$\lambda$のポアソン分布に従う確率変数$X$を考える。
$$
P(X=x) = \frac{\lambda^x}{x!} e^{- \lambda}
$$
与えられた$\lambda_0 > 0$に対して$\lambda = \lambda_0$を帰無仮説とする仮説検定を行いたいとする。  
対立仮説が$\lambda > \lambda_0$の場合、棄却域を
$$
\hat{\lambda} - \lambda_0 \geq c
$$
と置くのが自然である。ここで$\hat{\lambda}=X$は$\lambda$の最尤推定量である。  
真の$\lambda$の値が十分大きければ、$\hat{\lambda}$の分布は正規分布で近似される。  
ポアソン分布の分散は$\lambda$なので、帰無仮説の下では
$$
\frac{\hat{\lambda} - \lambda_0}{\sqrt{\lambda_0}}
$$
が近似的に標準積分布に従う。これに基づく棄却域は
$$
frac{\hat{\lambda} - \lambda_0}{\sqrt{\lambda_0}} \geq z_{\alpha}
$$
である。両側検定も同様である。

In [4]:
# サンプルデータで信頼度95%で両側検定を実行
lambda0 = 15

lambda_hat = 25

z_val = (lambda_hat-lambda0)/np.sqrt(lambda0)
print(f"統計量Z:{z_val:.3f}")

alpha = 0.05
critical_val = abs(stats.norm.ppf(alpha/2))
print(f"棄却限界値:{critical_val:.3f}")
if(-critical_val<=z_val and critical_val>=z_val):
    print("H0を棄却しない")
else:
    print("H0を棄却しH1を採択する")

統計量Z:2.582
棄却限界値:1.960
H0を棄却しH1を採択する


# 適合度検定

カテゴリかるデータに関する検定には、尤度比検定のほかに**適合度検定**がよく用いられる。  
カテゴリの個数$I$とし、それぞれの生起確率を$pi(1 \leq i \leq I)$とおく。  
また総度数を$n$、カテゴリ$i$の観測度数を$x_i$とおき、帰無仮説のもとでの$p_i$の最尤推定量を$\tilde{p_i}$とおく。  
このとき、ピアソンのカイ二乗適合度検定量を
$$
T(X) = \sum_{i=1}^{I} \frac{(x_i - n \tilde{p_i})^2}{n \tilde{p_i}}, \quad x=(x_1,...,x_I)
$$
と定義する。分母と分子に現れる$n \tilde{p_i}$は期待度数とよばれる。  
$T(X)$は帰無仮説の下で漸近的に自由度$d=I-1-k$のカイ二乗分布に収束する。  
ここで$k$は帰無仮説のもとで自由に動けるパラメータの個数を表し、また$I-1$は生起確率に制約のないフルモデルにおいて自由に動けるパラメータの個数を意味する。  
度数が十分に大きくない場合には、**イエーツの補正**が用いられることがある。  
これは、$T(X)$の分子にある$(x_i - n \tilde{p_i})^2$を
$$
(|x_i - n \tilde{p_i}| - 0.5)^2
$$
に置き換える補正法である。

In [5]:
# サンプルデータで信頼度95%で両側検定を実行
n = 100
n_list = [55, 22, 16, 7] 
pi_hat_list = [0.4, 0.3, 0.2, 0.1] #A型:55、O型:22, B型:16, AB型:7

chi_val = 0
for i, item in enumerate(n_list):
    chi_val += (item-100*pi_hat_list[i])**2/np.sum(100*pi_hat_list[i])
print(f"統計量T(x):{chi_val:.3f}")

alpha_l = 0.025
alpha_r = 0.975
critical_val_l = abs(stats.chi.ppf(alpha_l, len(n_list)-1))
critical_val_r = abs(stats.chi.ppf(alpha_r, len(n_list)-1))
print(f"棄却限界値(右側):{critical_val_r:.3f}")
print(f"棄却限界値(左側):{critical_val_l:.3f}")
if(chi_val<=critical_val_l or critical_val_r<=chi_val):
    print("H0を棄却しH1を採択する")
else:
    print("H0を棄却しない")

# 上記と同様の検定は、scipyのchisquareを使用すれば簡単に実行できる
print(f"chisquareの実行結果:{stats .chisquare(n_list, f_exp=[pi*n for pi in pi_hat_list])}")

統計量T(x):9.458
棄却限界値(右側):3.058
棄却限界値(左側):0.465
H0を棄却しH1を採択する
chisquareの実行結果:Power_divergenceResult(statistic=9.458333333333334, pvalue=0.02377878015426507)


 尤度比検定

汎用的な検定の構成法として**尤度比検定**がある。  
パラメータのベクトル$\theta$が2つの部分に分かれており、$\theta = (\theta_1, \theta_2)$とする。
ただし、$\theta_1$の次元(要素数)を$p$、$\theta_2$の次元を$q$とする。  
大きさ$n$の観測値$x_n$の確率密度関数を$f_n(x_n;\theta_1, \theta_2)$と書く。  
帰無仮説を$H_0:Θ_1=Θ_{10}$とし、尤度比を
$$
\lambda_n = \frac{max_{\theta_1,\theta_2} f_n(x_n;\theta_1, \theta_2)}{max_{\theta_2} f_n(x_n;\theta_{10}, \theta_2)}
$$
と定義する。  
一般的に$H_0$のもとで$n \rightarrow \infty$のとき、$2 \log \lambda_n$の分布は自由度$p$のカイ二乗分布に従うことが示される。  
これより$2 \log \lambda_n \geq \chi^2_{\alpha}(p)$のときに$H_0$を棄却すれば、近似的に有意水準$\alpha$となる。