In [14]:
# 1標本の平均の検定(分散が既知の場合)

# 確率変数X1,...Xnが互いに独立に平均μ、分散σ**2に従うとする
# 実際には想定しにくいが、分散σ**2既知とする
# 帰無仮説H0:μ=μ0に対してい、次の3通りのH1を考える
# (1)H1:μ>μ0(片側対立仮説、右側対立仮説)
# (2)H1:μ<μ0(片側対立仮説、左側対立仮説)
# (3)H1:μ≠μ0(両側対立仮説)
# 検定の有意水準は、(1)(2)の元ではα/2、(3)ではαとする
# 帰無仮説H0のもとで、標本平均X'は平均μ0、分散σ**2/nの正規分布に従う
# これにより、統計検定量Z = (X'-μ0)/σ/√n は標準正規分布に従う
# 各対立仮説に応じて、次の条件のもとで帰無仮説H0を棄却する
# (1)「H1:μ>μ0」: Z>=zα/2
# (2)「H1:μ<μ0」: Z=<-zα/2
# (3)「H1:μ≠μ0」: |Z|>=zα/2 *zα/2は標準正規分布の上側100α/2%点である

# サンプルデータで信頼度95%で両側検定を実行
import numpy as np
from scipy import stats

pop_mean = 3.0 # 母平均
pop_sigma2 = 2.0 # 母分散

sample_size = 50
rng = np.random.default_rng()
sample_data = rng.normal(4, 3, size=sample_size)

x_bar = sample_data.mean()

z_val = (x_bar-pop_mean)/np.sqrt(pop_sigma2/sample_size)
print(f"統計量Z:{z_val:.3f}")

alpha = 0.05
critical_val = abs(stats.norm.ppf(alpha/2))
print(f"棄却限界値:{critical_val:.3f}")
if(-critical_val<=z_val and critical_val>=z_val):
    print("H0を棄却しない")
else:
    print("H0を棄却しH1を採択する")

統計量Z:2.931
棄却限界値:1.960
H0を棄却しH1を採択する


In [15]:
# 1標本の平均の検定(分散が未知の場合)

# 分散σ**2は未知のとき標本分散s**2(分散の不偏推定量)でσ**2を推定する。
# 標本平均とs**2は互いに独立であるから、帰無仮説H0:μ=μ0のもとで、
# 統計検定量T = (X'-μ0)/s/√n は自由度n-1のt分布に従う
# 各対立仮説に応じて、次の条件のもとで帰無仮説H0を棄却する
# (1)「H1:μ>μ0」: T>=tα/2(n-1)
# (2)「H1:μ<μ0」: T=<-ztα/2(n-1)
# (3)「H1:μ≠μ0」: |T|>=tα/2(n-1) *tα/2(n-1)は自由度n-1のt分布の上側100α/2%点である
# 検定統計量Tがt分布に従うことから、この検定は「t検定」と呼ばれる

# サンプルデータで信頼度95%で両側検定を実行
pop_mean = 2.0 # 母平均

sample_size = 50
rng = np.random.default_rng()
sample_data = rng.normal(4, 3, size=sample_size)

x_bar = sample_data.mean()
x_s = np.std(sample_data, ddof=1)

t_val = (x_bar-pop_mean)/(x_s/np.sqrt(sample_size))
print(f"統計量T:{t_val:.3f}")

alpha = 0.05
critical_val = abs(stats.t.ppf(alpha/2, sample_size-1))
print(f"棄却限界値:{critical_val:.3f}")
if(-critical_val<=t_val and critical_val>=t_val):
    print("H0を棄却しない")
else:
    print("H0を棄却しH1を採択する")

# 上記と同様の検定は、scipyのttest_1sampを使用すれば簡単に実行できる
print(f"ttest_1sampの実行結果:{stats.ttest_1samp(sample_data, popmean=pop_mean)}")

統計量T:4.605
棄却限界値:2.010
H0を棄却しH1を採択する
ttest_1sampの実行結果:Ttest_1sampResult(statistic=4.604704714442018, pvalue=2.9563272731449117e-05)


In [16]:
# 2標本の平均の検定(分散が既知の場合)

# 群Aの参加者iの確率変数をXAiとし、互いに独立に、平均μAi、分散σAi**2の正規分布に従うとする
# 同様に群Bの参加者iの確率変数をXBiとし、互いに独立に、平均μBi、分散σBi**2の正規分布に従うとする
# 実際には想定しにくいが、分散σA**2とσB**2は既知とする
# 群Aと群Bの平均の差をδ=μA-μBとし、帰無仮説H0:δ=δ0に対して、次の3通りの対立仮説H1を考える
# (1)H1:δ>δ0(片側対立仮説、右側対立仮説)
# (2)H1:δ<δ0(片側対立仮説、左側対立仮説)
# (3)H1:δ≠δ0(両側対立仮説)
# δ0の値は解析の目的に応じて設定されるが、δ0=0を考えるケースが多い
# 1標本の場合と同様に、検定の有意水準は、(1)(2)の元ではα/2、(3)ではαとする
# 各群の標本平均をXA',XB'とする。XA'とXB'は互いに独立であるから、
# 帰無仮説H0のもとで、XA'-XB'は平均δ0、分散σA**2/nA+σB**2/nBの正規分布に従う
# これより、帰無仮説H0のもとで、検定統計量 Z = (XA'-XB'-δ0)/√(σA**2/nA+σB**2/nB) は標準正規分布に従う
# 各対立仮説に応じて、次の条件のもとで帰無仮説H0を棄却する
# (1)「H1:δ>δ0」: Z>=zα/2
# (2)「H1:δ<δ0」: Z=<-zα/2
# (3)「H1:δ≠δ0」: |Z|>=zα/2 *zα/2は標準正規分布の上側100α/2%点である
# ただし、2つの分散が異なる場合は、「ベーレンス・フィッシャー問題」という問題が生じる
# σA**2 = σB**2 = σ**2という条件を加えると、統計検定料量はZ = (XA'-XB'-δ0)/σ*√(1/nA+1/nB) となる

# サンプルデータで信頼度95%で両側検定を実行
delta_0 = 0 # δ0=0とおく

rng = np.random.default_rng()

a_size = 50
a_pop_sigma2 = 2.0 # Aの母分散
a_data = rng.normal(2, a_pop_sigma2, size=a_size)
a_bar = a_data.mean()

b_size = 50
b_pop_sigma2 = 2.0 # Bの母分散
b_data = rng.normal(0, b_pop_sigma2, size=b_size)
b_bar = b_data.mean()

z_val = (a_bar-b_bar-delta_0)/np.sqrt(a_pop_sigma2/a_size+b_pop_sigma2/b_size)

print(f"統計量Z:{z_val:.3f}")

alpha = 0.05
critical_val = abs(stats.norm.ppf(alpha/2))
print(f"棄却限界値:{critical_val:.3f}")
if(-critical_val<=z_val and critical_val>=z_val):
    print("H0を棄却しない")
else:
    print("H0を棄却しH1を採択する")


統計量Z:6.877
棄却限界値:1.960
H0を棄却しH1を採択する


In [17]:
# 2標本の平均の検定(分散が未知の場合)

# 分散σA**2とσB**2が未知のとき、標本分散sA**2とsB**2(分散の不偏推定量)でσA**2とσB**2を推定する。
# 共通の母分散σA**2 = σB**2 = σ**2を仮定すると、2つの群をプールした標本分散
# s**2 = ((nA-1)*sA**2*(nB-1)*sB**2)/(nA+nB-2) でσ**2を推定する
# 共通の母分散を仮定するとXA'-XB'とs**2は互いに独立であるから、
# 帰無仮説H0:δ=δ0のもとで、統計検定量 T = (XA'-XB'-δ0)/s*√(1/nA*1/nB) は
# 自由度nA+nB-2のt分布に従う。各対立仮説に応じて、次の条件のもとで帰無仮説H0を棄却する
# (1)「H1:δ>δ0」: T>=tα/2(nA+nB-2)
# (2)「H1:δ<δ0」: T=<-ztα/2(nA+nB-2)
# (3)「H1:δ≠δ0」: |T|>=tα/2(nA+nB-2) *tα/2(nA+nB-2)は自由度nA+nB-2のt分布の上側100α/2%点である

# サンプルデータで信頼度95%で両側検定を実行
delta_0 = 0 # δ0=0とおく

rng = np.random.default_rng()

a_size = 50
a_data = rng.normal(2, 2.0, size=a_size)
a_bar = a_data.mean()
a_s = np.std(a_data, ddof=1)

b_size = 50
b_data = rng.normal(0, 2.0, size=b_size)
b_bar = b_data.mean()
b_s = np.std(b_data, ddof=1)

s_val = ((a_size-1)*(a_s**2)+(b_size-1)*(b_s**2))/(a_size+b_size-2)
print(f"プールした標本分散:{s_val:.3f}")

t_val = (a_bar-b_bar-delta_0)/(s_val*np.sqrt(1/a_size+1/b_size))

print(f"統計量Z:{t_val:.3f}")

alpha = 0.05
critical_val = abs(stats.t.ppf(alpha/2, a_size+b_size-2))
print(f"棄却限界値:{critical_val:.3f}")
if(-critical_val<=t_val and critical_val>=t_val):
    print("H0を棄却しない")
else:
    print("H0を棄却しH1を採択する")

プールした標本分散:3.337
統計量Z:2.419
棄却限界値:1.984
H0を棄却しH1を採択する


In [18]:
# 1標本の分散の検定

# 平均μは未知とする。分散σ**2が特定の値σ0**2に等しいという帰無仮説H0:σ**2=σ0**2のもとで、
# 統計検定量 V = (n-1)*s**2/σ0**2は自由度n-1のカイ二乗分布に従う
# 各対立仮説に応じて、次の条件のもとで帰無仮説H0を棄却する
# (1)「H1:σ**2>σ0**2」: V>=χ**2α/2(n-1)
# (2)「H1:σ**2<σ0**2」: V=<-χ**1-α/2(n-1)
# (3)「H1:σ**2≠σ0**2」: V>=χ**2α/2(n-1)またはV=<-χ**1-α/2(n-1)

# サンプルデータで信頼度95%で両側検定を実行
sigma_0 = 2.0 # σ0=2とおく

rng = np.random.default_rng()

sample_size = 50
sample_data = rng.normal(2, 3.0, size=sample_size)
sample_std = np.std(sample_data, ddof=1)

v_val = (sample_size-1)*(sample_std**2)/(sigma_0**2)
print(f"統計量V:{v_val:.3f}")

alpha_l = 0.025
alpha_r = 0.975
critical_val_l = abs(stats.chi2.ppf(alpha_l, sample_size-1))
critical_val_r = abs(stats.chi2.ppf(alpha_r, sample_size-1))
print(f"棄却限界値(右側):{critical_val_r:.3f}")
print(f"棄却限界値(左側):{critical_val_l:.3f}")
if(v_val<=critical_val_l or critical_val_r<=v_val):
    print("H0を棄却しH1を採択する")
else:
    print("H0を棄却しない")

統計量V:111.626
棄却限界値(右側):70.222
棄却限界値(左側):31.555
H0を棄却しH1を採択する


In [19]:
# 2標本の分散の検定

# 平均μAとμBは未知とする。2つの群の分散が等しいという帰無仮説H0:σA**2=σB**2のもとで、
# 検定統計量 F = sB**2/sA**2 は自由度(nB-1, nA-1)のF分布にしたがう
# 各対立仮説に応じて、次の条件のもとで帰無仮説H0を棄却する
# (1)「H1:σA**2<σB**2」: F>=Fα/2(nB-1, nA-1)
# (2)「H1:σA**2>σB**2」: F=<F1-α/2(nB-1, nA-1)
# (3)「H1:σA**2≠σB**2」: F>=Fα/2(nB-1, nA-1)またはF=<F1-α/2(nB-1, nA-1)

# サンプルデータで信頼度95%で両側検定を実行
rng = np.random.default_rng()

a_size = 50
a_data = rng.normal(2, 4.0, size=a_size)
a_bar = a_data.mean()
a_s = np.std(a_data, ddof=1)

b_size = 50
b_data = rng.normal(0, 2.0, size=b_size)
b_bar = b_data.mean()
b_s = np.std(b_data, ddof=1)

f_val = (b_s**2)/(a_s**2)
print(f"統計量F:{f_val:.3f}")

alpha_l = 0.025
alpha_r = 0.975
critical_val_l = abs(stats.f.ppf(alpha_l, b_size-1, a_size-1))
critical_val_r = abs(stats.f.ppf(alpha_r, b_size-1, a_size-1))
print(f"棄却限界値(右側):{critical_val_r:.3f}")
print(f"棄却限界値(左側):{critical_val_l:.3f}")
if(f_val<=critical_val_l or critical_val_r<=f_val):
    print("H0を棄却しH1を採択する")
else:
    print("H0を棄却しない")

統計量F:0.270
棄却限界値(右側):1.762
棄却限界値(左側):0.567
H0を棄却しH1を採択する
