# Chapter11 統計的仮説検定

- 公表されているフライドポテトの重さの平均 130g
- サンプルサイズ14個の標本平均 128.451g
- 14個の標本平均 128.451g は、ただの偶然か？

In [12]:
# ライブラリーの準備
import numpy as np
import pandas as pd
from scipy import stats

%precision 3
np.random.seed(1111)

In [13]:
# データの準備
df = pd.read_csv('../data/ch11_potato.csv')
sample = np.array(df['重さ'])
sample

array([122.02, 131.73, 130.6 , 131.82, 132.05, 126.12, 124.43, 132.89,
       122.79, 129.95, 126.14, 134.45, 127.64, 125.68])

In [14]:
# 標本平均の求める
s_mean = np.mean(sample)
s_mean

128.451

## 11.1 | 統計的仮説検定とは

- 統計的仮説検定（statistical hypothesis testing）
  - 母集団の母数に関する2つの仮設をたて、標本から計算される統計量を用いてどちらの仮設が正しいかを判断する統計的な枠組み。

### 11.1.1 統計的仮説検定の基本

- 母平均が 130g より少ないかどうか？
- フライドポテトの母集団が「正規分布」にしたがっていて、母分散が「9」とする。
- 仮説検定では、
  - 「母平均が130g」と仮定する。
  - この仮定のもとで、14個の標本は$X_1, X_2, ..., X_14 \sim^i.i.d. N(130, 9)$ にしたがう。
  - 標本平均 $\overline{X}$ は $N(130, 9/14)$ にしたがうことになる。
  - ここで、標本平均 $\overline{X}$ が $P(\overline{X} \leq x) = 0.05$ を満たす $x$ を考える。

In [15]:
rv = stats.norm(130, np.sqrt(9/14))
rv.isf(0.95)

128.681

- $P(\overline{X} \leq 128.681) = 0.05$ となる。
- 標本平均が「128.681g」以下の重さになることは「5%」の確率で発生する。
- Aさんが抽出した標本平均が「128.451g」となったのは、5%の確率で発生する出来事と言える。
- 仮説検定の大枠の考え方
  - 「標本平均が 128.451g という 128.681g 以下の重さとなった」のは、「母平均 130g」という仮説のもとで「5% の確率でしか発生しない出来事」が偶然起きたのではなく、もともと「母平均が 130g より少ない」と考える。
  - これによって、「母平均が 130g より少ない」と結論づける。

- 仮説検定では母数に関する2つの仮説をたてる。
  - 帰無仮説（null hypothesis）$H_0$
    - 対立仮説とは逆の仮説。「差がない」、「効果がない」
  - 対立仮説（alternative hypothesis）$H_1$
    - 主張したい仮説。「差がある」、「効果がある」
- 仮説検定から得られる結論
  - 帰無仮説を棄却する（reject the null hypothesis）
    - 「帰無仮説は正しくない」という結論。
  - 帰無仮説を採択する（accept the null hypothesis）
    - 「帰無仮説が正しくないとはいえない」という解釈
    - 「帰無仮説が正しいかどうかわからない」という保留の結論
  - 帰無仮説の「棄却・採択」の判断
    - 帰無仮説を仮定したもとで標本から計算される統計量が珍しい値がどうかで判断する。
    - 珍しい値が得られたら、「それは偶然ではなく何か意味のある値だ」と考えて帰無仮説を棄却する。
    - そうでなければ、帰無仮説を採択する。
  - 有意である（significant）
    - 偶然ではなく何か意味がるということ。
  - 棄却域（rejection region）
    - 帰無仮説が棄却される区間のこと
  - 採択域（acceptance region）
    - 帰無仮説が採択される区間のこと
  - 有意水準（level of significance）
    - 棄却域に入る確率
  - 臨界値（critical value）
    - しきい値
  - 検定統計量（test statistic）
    - 検定に使われる統計量
  - p値（p-value）
    - 検定統計量より左側の領域の面積
- フライドポテトの例では、
  - 有意水準: 5%
  - 検定統計量: 標本平均
  - 臨界値: 128.681

フライドポテトの重さの平均値について仮説検定を考える

- 帰無仮説「母平均は 130g」を仮定
- 14個のフライドポテトは互いに独立に $N(130, 9)$ にしたがう。
- 標本平均 $\overline{X}$ は $N(130, 9/14)$ にしたがう。
- 一般化して説明するため、標本平均 $\overline{X}$ を標準化する。
  - $Z = (\overline{X} - 130) / \sqrt{\frac{9}{14}}$
- 標準化することで上側$100\alpha\%$点を $z_alpha$ で表すことができる。
- 臨界値 $P((\overline{X} - 130)/\sqrt{\frac{9}{14}} \leq x) = 0.05$ を満たす $x$、すなわち $x = z_{0.95}$ を求めることができる。
- $(\overline{X} - 130)/\sqrt{\frac{9}{14}} \leq  z_{0.95}$ であれば、帰無仮説を棄却する。
- $(\overline{X} - 130)/\sqrt{\frac{9}{14}} \geq  z_{0.95}$ であれば、帰無仮説を採択する。

In [16]:
# 検定統計量を求める
z = (s_mean - 130) / np.sqrt(9/14)
z

-1.932

In [17]:
# 臨界値を求める
rv = stats.norm()
rv.isf(0.95)

-1.645

- 検定統計量と臨界値を比較する
  - 検定統計量のほうが小さい値になっている。
  - 帰無仮説が棄却される。
  - 平均は 130g より少ないという結論になる。

In [18]:
# p値を求める
rv.cdf(z)

0.027

- p値が 0.027 という有意水準 0.05 より小さい値になったので、帰無仮説は棄却される。

- 仮説検定の流れ
  - 仮説をたてる（帰無仮説・対立仮説）
  - 有意水準を決める
  - 検定統計量を計算する
  - p値を計算する
  - 有意水準より大きいか？
    - yes: 帰無仮説を採択
    - no: 帰無仮説を棄却

### 11.1.2 片側検定と両側検定

- 片側検定
  - 「母平均 130g より少ない」という対立仮説
- 両側検定
  - 「母平均 130g ではない」という対立仮説
  - 「母平均 130g」より少ない場合と、「母平均 130g」より多い場合を考える。

In [19]:
# 検定統計量
z = (s_mean - 130) / np.sqrt(9/14)
z

-1.932

In [20]:
# 両側検定の臨界値
# 標準正規分布の95%信頼区間
rv = stats.norm()
rv.interval(0.95)

(-1.960, 1.960)

- 臨界値と検定統計量を比較する
- 検定統計量が採択域に入っている。
- 両側検定では帰無仮説は棄却されない。
- 片側検定のほうが帰無仮説を棄却しやすい。

In [21]:
# 両側検定のp値
# 上側と下側の両方の面積を考慮するため累積密度関数の値を2倍する
rv.cdf(z) * 2

0.053

- p値が有意水準 0.05 より大きくなっていることから、帰無仮説は棄却されない。

### 11.1.3 仮説検定における2つの過誤

仮説検定は標本を用いて確率的に結論を導いているため、判断を間違うこと（過誤）がある。
- 第1種の過誤
  - 帰無仮説が正しいときに、帰無仮説を棄却してしまう過誤
  - 誤検出（false positive）
  - 本来検出するべきでないものを検出している。
  - 「平均が 130g」であるにもかかわらず、「平均は 130g より少ない」と結論づけてしまう状況。
- 危険率 $\alpha$
  - 第1種の過誤を犯す確率
  - 危険率は有意水準と一致するため、分析者が制御できる確率。

- 第2種の過誤
  - 対立仮説が正しいときに、帰無仮説を採択してしまう過誤
  - 検出漏れ（false negative）
  - 本来検出するべきものを検出できていない。
  - 「平均が 130g よりも少ない」にもかかわらず、「母平均は 130g より少ない」という結論を得ることができない状況。
- 検出力（power）$1 - \beta$
  - 第2種の過誤を犯す確率 $\beta$
  - $\beta$ は母集団の情報に依存する。
  - 本来、母集団の情報はわからないものなので、$\beta$ は分析者が制御できない。

In [22]:
# 第1種の過誤（誤検出）がどのくらいの割合で発生してしまうかのシミュレーション
# 「母平均が130g」であるにもかかわらず、「母平均は130gより少ない」と結論づけてしまう割合
rv = stats.norm(130, 3)
c = stats.norm().isf(0.95)
n_samples = 10_000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ -130) / np.sqrt(9/14)
    if z < c:
        cnt += 1
cnt / n_samples

0.053

In [23]:
# 第2種の過誤（検出漏れ）がどのくらいの割合で発生してしまうかのシミュレーション
# 「母平均は130gより少ない」にもかかわらず、「母平均は130gより少ない」という結論を得ることができない割合
rv = stats.norm(128, 3)
c = stats.norm().isf(0.95)
n_samples = 10_000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    if z >= c:
        cnt += 1
cnt / n_samples


0.197

## 11.2 | 基本的な仮説検定

### 11.2.1 正規分布の母平均の検定（母分散既知）

$X_1, X_2, ..., X_n \sim^{i.i.d.} ~ N(\mu, \sigma^2)$ とする。

このとき母平均 $\mu$ に関する有意水準 $\alpha$ の両側検定

- 帰無仮説: $\mu = \mu_0$
- 対立仮説: $\mu \neq \mu_0$

は、検定統計量に $Z = (\overline{X} - \mu_0) / \sqrt{\frac{\sigma^2}{n}}$ を使い、

$$
\begin{cases}
Z < z_{1-\alpha/2} ~ または ~ z_{\alpha/2} < Z ~ ならば帰無仮説を棄却 \\
z_{1-\alpha/2} \leq Z \leq z_{\alpha/2} ~ ならば帰無仮説を採択
\end{cases}
$$

で行われる。

In [25]:
# 正規分布の母平均の検定（母分散既知）の実装
def pmean_test(sample, mean0, p_var, alpha=0.05):
    """正規分布の母平均の検定（母分散既知）"""
    s_mean = np.mean(sample)
    n = len(sample)
    rv = stats.norm()
    interval = rv.interval(1 - alpha)

    z = (s_mean - mean0) / np.sqrt(p_var/n)

    if interval[0] <= z <= interval[1]:
        print("帰無仮説を採択")
    else:
        print("帰無仮説を棄却")

    if z < 0:
        p = rv.cdf(z) * 2
    else:
        p = (1 - rv.cdf(z)) * 2
    print(f"p値: {p:.3f}")


In [26]:
# フライドポテトの標本データ
pmean_test(sample, 130, 9)

帰無仮説を採択
p値: 0.053


### 11.2.2 正規分布の母分散の検定

$X_1, X_2, ..., X_n \sim^{i.i.d.} ~ N(\mu, \sigma^2)$ とする。

このとき母分散 $\sigma^2$ に関する有意水準 $\alpha$ の両側検定

- 帰無仮説: $\sigma^2 = \sigma_0^2$
- 対立仮説: $\sigma^2 \neq \sigma_0^2$

は、検定統計量に $Y = (n - 1)s^2 / \sigma_0^2$ を使い、

$$
\begin{cases}
Y < \chi_{1-\alpha/2}^2 (n - 1) ~ または ~ \chi_{\alpha/2}^2 (n - 1) < Y ~ ならば帰無仮説を棄却 \\
\chi_{1-\alpha/2}^2 (n - 1) \leq Y \leq \chi_{\alpha/2}^2 (n - 1) ~ ならば帰無仮説を採択
\end{cases}
$$

で行われる。

In [27]:
# 正規分布の母分散の検定の実装
def pvar_test(sample, var0, alpha=0.05):
    """正規分布の母分散の検定"""
    u_var = np.var(sample, ddof=1)
    n = len(sample)
    rv = stats.chi2(df=n-1)
    interval = rv.interval(1 - alpha)

    y = (n - 1) * u_var / var0

    if interval[0] <= y <= interval[1]:
        print("帰無仮説を採択")
    else:
        print("帰無仮説を棄却")
    
    if y < rv.isf(0.5):
        p = rv.cdf(y) * 2
    else:
        p = (1 - rv.cdf(y)) * 2
    print(f"p値: {p:.3f}")

In [28]:
# フライドポテトの標本データ
pvar_test(sample, 9)

帰無仮説を採択
p値: 0.085


### 11.2.3 正規分布の母分散の検定（母分散未知）

- 1標本の t 検定（1sample t-test）
  - 母分散がわからない状況における正規分布の母平均の検定
  - t 検定統計量 $t = (\overline{X} - \mu_0) / \sqrt{\frac{s^2}{n}}$ を検定料として使う。
  - 自由度 $n - 1$ の t分布にしたがう。

&nbsp;

$X_1, X_2, ..., X_n \sim^{i.i.d.} ~ N(\mu, \sigma^2)$ とする。

このとき母平均 $\mu$ に関する有意水準 $\alpha$ の両側検定

- 帰無仮説: $\mu = \mu_0$
- 対立仮説: $\mu \neq \mu_0$

は、検定統計量に $t = (\overline{X} - \mu_0) / \sqrt{\frac{s^2}{n}}$ を使い、

$$
\begin{cases}
t < t_{1-\alpha/2}(n - 1) ~ または ~ t_{\alpha/2}(n - 1) < t ~ ならば帰無仮説を棄却 \\
t_{1-\alpha/2}(n - 1) \leq t \leq t_{\alpha/2}(n - 1) ~ ならば帰無仮説を採択
\end{cases}
$$

で行われる。

In [31]:
# 正規分布の母分散の検定（母分散未知）の実装
def pmean_test(sample, mean0, alpha=0.05):
    """正規分布の母分散の検定（母分散未知）"""
    s_mean = np.mean(sample)
    u_var = np.var(sample, ddof=1)
    n = len(sample)
    rv = stats.t(df=n-1)
    interval = rv.interval(1 - alpha)

    t = (s_mean - mean0) / np.sqrt(u_var/n)

    if interval[0] <= t <= interval[1]:
        print("帰無仮説を採択")
    else:
        print("帰無仮説を棄却")

    if t < 0:
        p = rv.cdf(t) * 2
    else:
        p = (1 - rv.cdf(t)) * 2
    print(f"p値: {p:.3f}")

In [32]:
# フライドポテトの標本データ
pmean_test(sample, 130)

帰無仮説を採択
p値: 0.169


In [34]:
t, p = stats.ttest_1samp(sample, 130)
t, p

(-1.455, 0.169)