# Chapter11 統計的仮説検定

- 公表されているフライドポテトの重さの平均 130g
- サンプルサイズ14個の標本平均 128.451g
- 14個の標本平均 128.451g は、ただの偶然か？

In [43]:
# ライブラリーの準備
import numpy as np
import pandas as pd
from scipy import stats

%precision 3
np.random.seed(1111)

In [44]:
# データの準備
df = pd.read_csv('../data/ch11_potato.csv')
sample = np.array(df['重さ'])
sample

array([122.02, 131.73, 130.6 , 131.82, 132.05, 126.12, 124.43, 132.89,
       122.79, 129.95, 126.14, 134.45, 127.64, 125.68])

In [45]:
# 標本平均の求める
s_mean = np.mean(sample)
s_mean

128.451

## 11.1 | 統計的仮説検定とは

- 統計的仮説検定（statistical hypothesis testing）
  - 母集団の母数に関する2つの仮設をたて、標本から計算される統計量を用いてどちらの仮設が正しいかを判断する統計的な枠組み。

### 11.1.1 統計的仮説検定の基本

- 母平均が 130g より少ないかどうか？
- フライドポテトの母集団が「正規分布」にしたがっていて、母分散が「9」とする。
- 仮説検定では、
  - 「母平均が130g」と仮定する。
  - この仮定のもとで、14個の標本は$X_1, X_2, ..., X_14 \sim^i.i.d. N(130, 9)$ にしたがう。
  - 標本平均 $\overline{X}$ は $N(130, 9/14)$ にしたがうことになる。
  - ここで、標本平均 $\overline{X}$ が $P(\overline{X} \leq x) = 0.05$ を満たす $x$ を考える。

In [46]:
rv = stats.norm(130, np.sqrt(9/14))
rv.isf(0.95)

128.681

- $P(\overline{X} \leq 128.681) = 0.05$ となる。
- 標本平均が「128.681g」以下の重さになることは「5%」の確率で発生する。
- Aさんが抽出した標本平均が「128.451g」となったのは、5%の確率で発生する出来事と言える。
- 仮説検定の大枠の考え方
  - 「標本平均が 128.451g という 128.681g 以下の重さとなった」のは、「母平均 130g」という仮説のもとで「5% の確率でしか発生しない出来事」が偶然起きたのではなく、もともと「母平均が 130g より少ない」と考える。
  - これによって、「母平均が 130g より少ない」と結論づける。

- 仮説検定では母数に関する2つの仮説をたてる。
  - 帰無仮説（null hypothesis）$H_0$
    - 対立仮説とは逆の仮説。「差がない」、「効果がない」
  - 対立仮説（alternative hypothesis）$H_1$
    - 主張したい仮説。「差がある」、「効果がある」
- 仮説検定から得られる結論
  - 帰無仮説を棄却する（reject the null hypothesis）
    - 「帰無仮説は正しくない」という結論。
  - 帰無仮説を採択する（accept the null hypothesis）
    - 「帰無仮説が正しくないとはいえない」という解釈
    - 「帰無仮説が正しいかどうかわからない」という保留の結論
  - 帰無仮説の「棄却・採択」の判断
    - 帰無仮説を仮定したもとで標本から計算される統計量が珍しい値がどうかで判断する。
    - 珍しい値が得られたら、「それは偶然ではなく何か意味のある値だ」と考えて帰無仮説を棄却する。
    - そうでなければ、帰無仮説を採択する。
  - 有意である（significant）
    - 偶然ではなく何か意味がるということ。
  - 棄却域（rejection region）
    - 帰無仮説が棄却される区間のこと
  - 採択域（acceptance region）
    - 帰無仮説が採択される区間のこと
  - 有意水準（level of significance）
    - 棄却域に入る確率
  - 臨界値（critical value）
    - しきい値
  - 検定統計量（test statistic）
    - 検定に使われる統計量
  - p値（p-value）
    - 検定統計量より左側の領域の面積
- フライドポテトの例では、
  - 有意水準: 5%
  - 検定統計量: 標本平均
  - 臨界値: 128.681

フライドポテトの重さの平均値について仮説検定を考える

- 帰無仮説「母平均は 130g」を仮定
- 14個のフライドポテトは互いに独立に $N(130, 9)$ にしたがう。
- 標本平均 $\overline{X}$ は $N(130, 9/14)$ にしたがう。
- 一般化して説明するため、標本平均 $\overline{X}$ を標準化する。
  - $Z = (\overline{X} - 130) / \sqrt{\frac{9}{14}}$
- 標準化することで上側$100\alpha\%$点を $z_alpha$ で表すことができる。
- 臨界値 $P((\overline{X} - 130)/\sqrt{\frac{9}{14}} \leq x) = 0.05$ を満たす $x$、すなわち $x = z_{0.95}$ を求めることができる。
- $(\overline{X} - 130)/\sqrt{\frac{9}{14}} \leq  z_{0.95}$ であれば、帰無仮説を棄却する。
- $(\overline{X} - 130)/\sqrt{\frac{9}{14}} \geq  z_{0.95}$ であれば、帰無仮説を採択する。

In [47]:
# 検定統計量を求める
z = (s_mean - 130) / np.sqrt(9/14)
z

-1.932

In [48]:
# 臨界値を求める
rv = stats.norm()
rv.isf(0.95)

-1.645

- 検定統計量と臨界値を比較する
  - 検定統計量のほうが小さい値になっている。
  - 帰無仮説が棄却される。
  - 平均は 130g より少ないという結論になる。

In [49]:
# p値を求める
rv.cdf(z)

0.027

- p値が 0.027 という有意水準 0.05 より小さい値になったので、帰無仮説は棄却される。

- 仮説検定の流れ
  - 仮説をたてる（帰無仮説・対立仮説）
  - 有意水準を決める
  - 検定統計量を計算する
  - p値を計算する
  - 有意水準より大きいか？
    - yes: 帰無仮説を採択
    - no: 帰無仮説を棄却

### 11.1.2 片側検定と両側検定

- 片側検定
  - 「母平均 130g より少ない」という対立仮説
- 両側検定
  - 「母平均 130g ではない」という対立仮説
  - 「母平均 130g」より少ない場合と、「母平均 130g」より多い場合を考える。

In [50]:
# 検定統計量
z = (s_mean - 130) / np.sqrt(9/14)
z

-1.932

In [51]:
# 両側検定の臨界値
# 標準正規分布の95%信頼区間
rv = stats.norm()
rv.interval(0.95)

(-1.960, 1.960)

- 臨界値と検定統計量を比較する
- 検定統計量が採択域に入っている。
- 両側検定では帰無仮説は棄却されない。
- 片側検定のほうが帰無仮説を棄却しやすい。

In [52]:
# 両側検定のp値
# 上側と下側の両方の面積を考慮するため累積密度関数の値を2倍する
rv.cdf(z) * 2

0.053

- p値が有意水準 0.05 より大きくなっていることから、帰無仮説は棄却されない。

### 11.1.3 仮説検定における2つの過誤

仮説検定は標本を用いて確率的に結論を導いているため、判断を間違うこと（過誤）がある。
- 第1種の過誤
  - 帰無仮説が正しいときに、帰無仮説を棄却してしまう過誤
  - 誤検出（false positive）
  - 本来検出するべきでないものを検出している。
  - 「平均が 130g」であるにもかかわらず、「平均は 130g より少ない」と結論づけてしまう状況。
- 危険率 $\alpha$
  - 第1種の過誤を犯す確率
  - 危険率は有意水準と一致するため、分析者が制御できる確率。

- 第2種の過誤
  - 対立仮説が正しいときに、帰無仮説を採択してしまう過誤
  - 検出漏れ（false negative）
  - 本来検出するべきものを検出できていない。
  - 「平均が 130g よりも少ない」にもかかわらず、「母平均は 130g より少ない」という結論を得ることができない状況。
- 検出力（power）$1 - \beta$
  - 第2種の過誤を犯す確率 $\beta$
  - $\beta$ は母集団の情報に依存する。
  - 本来、母集団の情報はわからないものなので、$\beta$ は分析者が制御できない。

In [53]:
# 第1種の過誤（誤検出）がどのくらいの割合で発生してしまうかのシミュレーション
# 「母平均が130g」であるにもかかわらず、「母平均は130gより少ない」と結論づけてしまう割合
rv = stats.norm(130, 3)
c = stats.norm().isf(0.95)
n_samples = 10_000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ -130) / np.sqrt(9/14)
    if z < c:
        cnt += 1
cnt / n_samples

0.053

In [54]:
# 第2種の過誤（検出漏れ）がどのくらいの割合で発生してしまうかのシミュレーション
# 「母平均は130gより少ない」にもかかわらず、「母平均は130gより少ない」という結論を得ることができない割合
rv = stats.norm(128, 3)
c = stats.norm().isf(0.95)
n_samples = 10_000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    if z >= c:
        cnt += 1
cnt / n_samples


0.197

## 11.2 | 基本的な仮説検定

### 11.2.1 正規分布の母平均の検定（母分散既知）

$X_1, X_2, ..., X_n \sim^{i.i.d.} ~ N(\mu, \sigma^2)$ とする。

このとき母平均 $\mu$ に関する有意水準 $\alpha$ の両側検定

- 帰無仮説: $\mu = \mu_0$
- 対立仮説: $\mu \neq \mu_0$

は、検定統計量に $Z = (\overline{X} - \mu_0) / \sqrt{\frac{\sigma^2}{n}}$ を使い、

$$
\begin{cases}
Z < z_{1-\alpha/2} ~ または ~ z_{\alpha/2} < Z ~ ならば帰無仮説を棄却 \\
z_{1-\alpha/2} \leq Z \leq z_{\alpha/2} ~ ならば帰無仮説を採択
\end{cases}
$$

で行われる。

In [55]:
# 正規分布の母平均の検定（母分散既知）の実装
def pmean_test(sample, mean0, p_var, alpha=0.05):
    """正規分布の母平均の検定（母分散既知）"""
    s_mean = np.mean(sample)
    n = len(sample)
    rv = stats.norm()
    interval = rv.interval(1 - alpha)

    z = (s_mean - mean0) / np.sqrt(p_var/n)

    if interval[0] <= z <= interval[1]:
        print("帰無仮説を採択")
    else:
        print("帰無仮説を棄却")

    if z < 0:
        p = rv.cdf(z) * 2
    else:
        p = (1 - rv.cdf(z)) * 2
    print(f"p値: {p:.3f}")


In [56]:
# フライドポテトの標本データ
pmean_test(sample, 130, 9)

帰無仮説を採択
p値: 0.053


### 11.2.2 正規分布の母分散の検定

$X_1, X_2, ..., X_n \sim^{i.i.d.} ~ N(\mu, \sigma^2)$ とする。

このとき母分散 $\sigma^2$ に関する有意水準 $\alpha$ の両側検定

- 帰無仮説: $\sigma^2 = \sigma_0^2$
- 対立仮説: $\sigma^2 \neq \sigma_0^2$

は、検定統計量に $Y = (n - 1)s^2 / \sigma_0^2$ を使い、

$$
\begin{cases}
Y < \chi_{1-\alpha/2}^2 (n - 1) ~ または ~ \chi_{\alpha/2}^2 (n - 1) < Y ~ ならば帰無仮説を棄却 \\
\chi_{1-\alpha/2}^2 (n - 1) \leq Y \leq \chi_{\alpha/2}^2 (n - 1) ~ ならば帰無仮説を採択
\end{cases}
$$

で行われる。

In [57]:
# 正規分布の母分散の検定の実装
def pvar_test(sample, var0, alpha=0.05):
    """正規分布の母分散の検定"""
    u_var = np.var(sample, ddof=1)
    n = len(sample)
    rv = stats.chi2(df=n-1)
    interval = rv.interval(1 - alpha)

    y = (n - 1) * u_var / var0

    if interval[0] <= y <= interval[1]:
        print("帰無仮説を採択")
    else:
        print("帰無仮説を棄却")
    
    if y < rv.isf(0.5):
        p = rv.cdf(y) * 2
    else:
        p = (1 - rv.cdf(y)) * 2
    print(f"p値: {p:.3f}")

In [58]:
# フライドポテトの標本データ
pvar_test(sample, 9)

帰無仮説を採択
p値: 0.085


### 11.2.3 正規分布の母分散の検定（母分散未知）

- 1標本の t 検定（1sample t-test）
  - 母分散がわからない状況における正規分布の母平均の検定
  - t 検定統計量 $t = (\overline{X} - \mu_0) / \sqrt{\frac{s^2}{n}}$ を検定料として使う。
  - 自由度 $n - 1$ の t分布にしたがう。

&nbsp;

$X_1, X_2, ..., X_n \sim^{i.i.d.} ~ N(\mu, \sigma^2)$ とする。

このとき母平均 $\mu$ に関する有意水準 $\alpha$ の両側検定

- 帰無仮説: $\mu = \mu_0$
- 対立仮説: $\mu \neq \mu_0$

は、検定統計量に $t = (\overline{X} - \mu_0) / \sqrt{\frac{s^2}{n}}$ を使い、

$$
\begin{cases}
t < t_{1-\alpha/2}(n - 1) ~ または ~ t_{\alpha/2}(n - 1) < t ~ ならば帰無仮説を棄却 \\
t_{1-\alpha/2}(n - 1) \leq t \leq t_{\alpha/2}(n - 1) ~ ならば帰無仮説を採択
\end{cases}
$$

で行われる。

In [59]:
# 正規分布の母分散の検定（母分散未知）の実装
def pmean_test(sample, mean0, alpha=0.05):
    """正規分布の母分散の検定（母分散未知）"""
    s_mean = np.mean(sample)
    u_var = np.var(sample, ddof=1)
    n = len(sample)
    rv = stats.t(df=n-1)
    interval = rv.interval(1 - alpha)

    t = (s_mean - mean0) / np.sqrt(u_var/n)

    if interval[0] <= t <= interval[1]:
        print("帰無仮説を採択")
    else:
        print("帰無仮説を棄却")

    if t < 0:
        p = rv.cdf(t) * 2
    else:
        p = (1 - rv.cdf(t)) * 2
    print(f"p値: {p:.3f}")

In [60]:
# フライドポテトの標本データ
pmean_test(sample, 130)

帰無仮説を採択
p値: 0.169


In [61]:
t, p = stats.ttest_1samp(sample, 130)
t, p

(-1.455, 0.169)

## 11.2 | 基本的な仮説検定

- 2標本問題（two-sample problem）
  - 2つの母集団に関する検定

2標本の代表値の差の検定

||正規分を仮定できる|正規分布を仮定できない|
|:--:|:--:|:--:|
|データに対応あり|対応のある t 検定|ウィルコクソンの符号付き順位検定|
|データに対応なし|対応のない t 検定|マン・ホイットニーの U 検定|

- データに対応があるとは、
  - 2つのデータが同一の個体を異なる条件で測定したデータになっていること
  - 同じ被験者に薬の「投与前」と「投与後」の2つの条件で血圧を計測したデータ
  - ある試薬に血圧を上昇させる効果があるかを確かめるなど
- データに対応がないとは、
  - 2つのデータで個体が異なるデータになっていること
  - A組のテストの点数とB組のテストの点数
  - 2つのクラスで平均点に差があるかを確かめるなど
- 独立性の検定
  - WebマーケティングにおけるA/Bテストでもよく使われる検定手法
  - 広告Aと広告Bで商品の購入割合が変わったかどうか調べることができる

### 11.3.1 対応のあるt検定

- 対応のある t 検定（paired t-test）
  - 「データに対応があり」、「差に正規分布を仮定できる」場合の「平均値の差」の検定

In [62]:
# データの準備
training_rel = pd.read_csv('../data/ch11_training_rel.csv')
print(training_rel.shape)
training_rel.head()

(20, 2)


Unnamed: 0,前,後
0,59,41
1,52,63
2,55,68
3,61,59
4,59,84


- 筋トレに集中力を向上させる効果があるかどうか
- 筋トレ前後の集中力テストの平均点を比較する
- 筋トレ前の集中力テストの平均点 $\mu_{before}$
- 筋トレ後の集中力テストの平均点 $\mu_{after}$
- 平均の差の検定
  - 帰無仮説: $\mu_{after} - \mu_{before} = 0$
  - 対立仮説: $\mu_{after} - \mu_{before} \neq 0$

In [63]:
training_rel['差'] = training_rel['後'] - training_rel['前']
training_rel.head()

Unnamed: 0,前,後,差
0,59,41,-18
1,52,63,11
2,55,68,13
3,61,59,-2
4,59,84,25


- もし筋トレが集中力テストに与える影響がないのであれば、その差はランダムにばらつき平均が「0」の分布となるはず。
- そのため、この仮説検定は差の平均を $\mu_{diff}$ として、
  - 帰無仮説: $\mu_{diff} = 0$
  - 対立仮説: $\mu_{diff} \neq 0$

と言い換えることができる。

- 平均の差がそれぞれ独立に同一の正規分布にしたがっていると仮定できると、
- 母分散のわからない場合の正規分布の母平均の検定（1標本のt検定）に帰着できる。

In [64]:
t, p = stats.ttest_1samp(training_rel['差'], 0)
p

0.040

- p値が有意水準を下回ったため、帰無仮説は棄却される。
- どうやら筋トレは集中力テストに有意な差をもたらすよう。

In [65]:
t, p = stats.ttest_rel(training_rel['後'], training_rel['前'])
p

0.040

### 11.3.2 対応のないt検定

- 対応のない t 検定（independent t-test）
  - データに対応がなく、2標本の母集団に正規分布を仮定できる場合の平均値の差の検定

In [66]:
# データの準備
training_ind = pd.read_csv('../data/ch11_training_ind.csv')
print(training_ind.shape)
training_ind.head()

(20, 2)


Unnamed: 0,A,B
0,47,49
1,50,52
2,37,54
3,60,48
4,39,51


- 筋トレに集中力を向上させる効果があるかどうか
- 文化系（クラスA）と体育会系（クラスB）の集中力テストの平均点を比較する
- クラスAの平均点 $\mu_1$
- クラスBの平均点 $\mu_2$
- 仮説検定
  - 帰無仮説: $\mu_1 - \mu_2 = 0$
  - 対立仮説: $\mu_1 - \mu_2 \neq 0$
- クラスAの標本、クラスBの標本は別々の母集団から抽出されたものと考える
- それらの母集団に正規分布を仮定できると、
  - クラスAの点数 $X_1, X_2, ..., X_{n1} ~ \sim^{i.i.d.} ~ N(\mu_1, \sigma_1^2)$
  - クラスBの点数 $Y_1, Y_2, ..., Y_{n2} ~ \sim^{i.i.d.} ~ N(\mu_2, \sigma_2^2)$
- と書くことができる

これらの仮定のもとで検定統計量には、

$$
t = \dfrac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}
{\sqrt{\frac{s_1^2}{n_1}} + \frac{s_2^2}{n_2}}
$$

で表される t を使う。

この t は自由度が、

$$
df = \dfrac{(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2})^2}
{\frac{s_1^4}{n_1^2(n_1 - 1)} + \frac{s_2^4}{n_2^2(n_2 - 1)}}
$$

の t 分布にしたがう。（これをウェルチの方法という）

In [67]:
# ウェルチの方法
t, p = stats.ttest_ind(training_ind['A'], training_ind['B'], equal_var=False)
p

0.087

- 帰無仮説が採択される。
- 文化系（クラスA）と体育会系（クラスB）の間に平均点に有意な差があるとはいえないという結論

### 11.3.3 ウィルコクソンの符号付き順位検定

- ウィルコクソンの符号付き順位検定（Wilcoxon signed=rank test）
  - データに対応あり、差に正規分布を仮定できない場合の「中央値」の差の検定

In [68]:
# データの準備
training_rel = pd.read_csv('../data/ch11_training_rel.csv')
toy_df = training_rel[:6].copy()
toy_df

Unnamed: 0,前,後
0,59,41
1,52,63
2,55,68
3,61,59
4,59,84
5,45,37


In [69]:
diff = toy_df['後'] - toy_df['前']
toy_df['差'] = diff
toy_df

Unnamed: 0,前,後,差
0,59,41,-18
1,52,63,11
2,55,68,13
3,61,59,-2
4,59,84,25
5,45,37,-8


In [70]:
# 差の絶対値が小さいものから順位付けを行う
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['順位'] = rank
toy_df

Unnamed: 0,前,後,差,順位
0,59,41,-18,5
1,52,63,11,3
2,55,68,13,4
3,61,59,-2,1
4,59,84,25,6
5,45,37,-8,2


In [71]:
# 「差の符号がマイナスの順位の和」と
# 「差の符号がプラスの順位の和」を求める
r_minus = np.sum((diff < 0) * rank)
r_plus = np.sum((diff > 0) * rank)

r_minus, r_plus

(8, 13)

- `r_minus, r_plus` のうち小さい方が検定統計量になる。
- `r_minus = 8` 
- ウィルコクソンの符号付き順位検定では、検定統計量が臨界値より小さい場合に
  - 帰無仮説が棄却されるような片側検定を行う。

中央値に差がある状況を作る

- 筋トレ後のテスト結果が全員向上した状況を作る

In [72]:
toy_df['後'] = toy_df['前'] + np.arange(1, 7)
diff = toy_df['後'] - toy_df['前']
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['差'] = diff
toy_df['順位'] = rank
toy_df

Unnamed: 0,前,後,差,順位
0,59,60,1,1
1,52,54,2,2
2,55,58,3,3
3,61,65,4,4
4,59,64,5,5
5,45,51,6,6


In [73]:
# 「差の符号がマイナスの順位の和」と
# 「差の符号がプラスの順位の和」を求める
r_minus = np.sum((diff < 0) * rank)
r_plus = np.sum((diff > 0) * rank)

r_minus, r_plus

(0, 21)

中央値に差がない状況を作る

- 筋トレ後のテスト結果が上がった人、下がった人がいる状況を作る

In [74]:
toy_df['後'] = toy_df['前'] + [1, -2, -3, 4, 5, -6]
diff = toy_df['後'] - toy_df['前']
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['差'] = diff
toy_df['順位'] = rank
toy_df

Unnamed: 0,前,後,差,順位
0,59,60,1,1
1,52,50,-2,2
2,55,52,-3,3
3,61,65,4,4
4,59,64,5,5
5,45,39,-6,6


In [75]:
# 「差の符号がマイナスの順位の和」と
# 「差の符号がプラスの順位の和」を求める
r_minus = np.sum((diff < 0) * rank)
r_plus = np.sum((diff > 0) * rank)

r_minus, r_plus

(11, 10)

- 差に偏りがあると
  - 「差の符号がマイナスの順位の和」と「差の符号がプラスの順位の和」に差が大きくなる。
  - 検定統計量は小さい値になる。
- 差に偏りがないと
  - 「差の符号がマイナスの順位の和」と「差の符号がプラスの順位の和」に差が小さくなる。
  - 検定統計量は大きい値になる。
- この理屈よって
  - 検定統計量が臨界値を下回れば、中央値に差があると主張できる。
- scipy.stats.wilcoxon()関数
  - 符号付きの順位和を計算したあとに、標準化を行い正規分で検定を行う

In [76]:
# scipy.stats.wilcoxon()関数を使用して検定する
T, p = stats.wilcoxon(training_rel['前'], training_rel['後'])
T, p

(49.500, 0.036)

In [77]:
T, p = stats.wilcoxon(training_rel['後'] - training_rel['前'])
T, p

(49.500, 0.040)

- ウィルコクソンの符号付き順位検定は、母集団が正規分布にしたがう場合でも使える。
- 母集団が正規分布に従っている場合、ウィルコクソンの符号付き順位検定は対応ありのt検定に比べて、検出力が下がる。

In [79]:
# 差は、N(3, 4^2)にしたがうとして、サンプルサイズ20の標本データを1万組用意する
n = 10_000
diffs = np.round(stats.norm(3, 4).rvs(size=(n, 20)))

In [80]:
# 対応ありのt検定の検出力
cnt = 0
alpha = 0.05
for diff in diffs:
    t, p = stats.ttest_1samp(diff, 0)
    if p < alpha:
        cnt += 1
cnt / n

0.883

In [81]:
# ウィルコクソンの符号付き順位検定の検出力
cnt = 0
alpha = 0.05
for diff in diffs:
    T, p = stats.wilcoxon(diff)
    if p < alpha:
        cnt += 1
cnt / n



0.873

### 11.3.4 マン・ホイットニーのU検定

- マン・ホイットニーのU検定（Mann-Whitney rank test）
  - データに対応がなく、2標本の母集団に正規分布を仮定できない場合の中央値の差の検定。
  - ウィルコクソンの順位和検定ともいう。

In [82]:
# データの準備
training_ind = pd.read_csv('../data/ch11_training_ind.csv')
toy_df = training_ind[:5].copy()
toy_df


Unnamed: 0,A,B
0,47,49
1,50,52
2,37,54
3,60,48
4,39,51


In [83]:
# U検定では、データ全体に対して値が小さい順に順位付けを行う
rank = stats.rankdata(np.concatenate([toy_df['A'], toy_df['B']]))
rank_df = pd.DataFrame({
    'A': rank[:5],
    'B': rank[5:10]
}).astype(int)
rank_df

Unnamed: 0,A,B
0,3,5
1,6,8
2,1,9
3,10,4
4,2,7


- 検定統計量には「A」を使う。
- 「A」によい順位が集まっていると、「A」の順位和は小さくなり、
- 「A」に悪い順位が集まっていると、「A」の順位和は大きくなる。
- 順位和は、2標本間のデータの偏りをうまく反映する。
- U検定の検定統計量は、「A」についての順位和から「A」の大きさを $n_1$として、
  - $n_1(n_1 + 1) / 2$ を引いたもの

In [84]:
n1 = len(rank_df['A'])
u = rank_df['A'].sum() - (n1 * (n1 + 1)) / 2
u

7.000

- $n_1(n_1 + 1) / 2$は検定統計量の最小値を「0」にするため。
  - $\sum_{i=1}^n = n(n + 1)/2$
- 「A」の順位和が最小となるのは、「A」によい順位がすべて集まった場合。

In [85]:
# 「A」によい順位が集まった場合のデータを作る
rank_df = pd.DataFrame(
    np.arange(1, 11).reshape(2, 5).T,
    columns=['A', 'B']
)
rank_df

Unnamed: 0,A,B
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [86]:
# U検定の検定統計量を計算する
u = rank_df['A'].sum() - (n1 * (n1 + 1)) / 2
u

0.000

In [87]:
# 「A」に悪い順位が集まった場合のデータを作る
rank_df = pd.DataFrame(
    np.arange(1, 11).reshape(2, 5)[::-1].T,
    columns=['A', 'B']
)
rank_df


Unnamed: 0,A,B
0,6,1
1,7,2
2,8,3
3,9,4
4,10,5


In [88]:
# U検定の検定統計量を計算する
u = rank_df['A'].sum() - (n1 * (n1 + 1)) / 2
u

25.000

- 「A」によい順位ばかりが集まっている場合でも、
- 「A」に悪い順位ばかりが集まっている場合でも、
- 2標本の中央値に偏りがあることに変わりはない。
- そのため、U検定は両側検定を行う。
- 臨界値
  - scipy.stats.mannwhitneyu()
  - 引数: alternative='two-sided'

In [89]:
u, p = stats.mannwhitneyu(
    training_ind['A'], training_ind['B'],
    alternative='two-sided'
)
u, p

(130.000, 0.059)

- U検定は母集団が正規分布にしたがっている場合、対応なしのt検定に比べて検出力が低くなる。

### 11.3.5 カイ二乗検定

- 独立性の検定（test for independence）
  - 2つの変数 $X と Y$ について、「$X と Y$ は独立である」という帰無仮説
  - 2つの変数 $X と Y$ について、「$X と Y$ は独立ではない」という対立仮説
- によって行われる検定。
  - カイ二乗検定（chi-square test）とも呼ばれる。
  - カイ二乗分布が使われるため。

In [90]:
# データの準備
ad_df = pd.read_csv('../data/ch11_ad.csv')
n = len(ad_df)
print(n)
ad_df.head()

1000


Unnamed: 0,広告,購入
0,B,しなかった
1,B,しなかった
2,A,した
3,A,した
4,B,しなかった


- クロス集計表
  - 2変数版の度数分布のようなもの
  - pd.crosstab()

In [91]:
ad_cross = pd.crosstab(ad_df['広告'], ad_df['購入'])
ad_cross

購入,した,しなかった
広告,Unnamed: 1_level_1,Unnamed: 2_level_1
A,49,351
B,51,549


In [92]:
# 広告A, Bのそれぞれで商品を購入した割合を計算する
ad_cross['した'] / (ad_cross['した'] + ad_cross['しなかった'])

広告
A    0.1225
B    0.0850
dtype: float64

In [93]:
# 広告A, Bのいずれかの商品を購入した人数、購入しなかった人数
n_yes, n_not = ad_cross.sum()
n_yes, n_not

(100, 900)

In [94]:
# 広告A, Bのいずれかの広告を見た人数
n_adA, n_adB = ad_cross.sum(axis=1)
n_adA, n_adB

(400, 600)

- もし広告と購入が独立で、広告によって購入した割合が変わらないのであれば、
- クロス集計はどのような結果になるのが、妥当かということを考える。
- 期待度数（expected frequency）
  - 広告と購入が独立な変数のときに期待される度数のこと
- 観測度数（observed frequency）
  - 実際に観測されたデータ

In [95]:
# 期待度数の計算
ad_ef = pd.DataFrame({
    'した': [n_adA * n_yes / n, n_adB * n_yes / n],
    'しなかった': [n_adA * n_not / n, n_adB * n_not / n]
}, index=['A', 'B'])
ad_ef

Unnamed: 0,した,しなかった
A,40.0,360.0
B,60.0,540.0


- カイ二乗検定では、期待度数と観測度数の乖離を測ることで検定を行う。

$$
Y = \sum_i \sum_j \dfrac{(O_{ij} - E_{ij})^2}{E_{ij}}
$$

- $O_{ij}$ : 観測度数の$i$行$j$列
- $E_{ij}$ : 期待度数の$i$行$j$列

In [98]:
y = ((ad_cross - ad_ef) ** 2 / ad_ef).sum().sum()
y

3.750

- $Y$ は、自由度「1」のカイ二乗分布に近似的にしたがうことが知られている。

In [99]:
# p値を求める
rv = stats.chi2(1)
1 - rv.cdf(y)

0.053

- これにより、帰無仮説は採択される。
- 広告A,Bに有意な差は認められないという結論
- scipy.stats.chi2_contingency()
  - 返り値: 検定統計量、p値、自由度、期待度数

In [100]:
chi2, p, dof, ef = stats.chi2_contingency(
    ad_cross, correction=False
)
chi2, p, dof, ef

(3.750,
 0.053,
 1,
 array([[ 40., 360.],
        [ 60., 540.]]))