# 第5章 統計的仮説検定

In [16]:
# ライブラリのインポート
import numpy as np
import pandas as pd
import scipy.stats as st
import matplotlib.pyplot as plot
%matplotlib inline

## 5.1 統計的仮説検定の必要性

標本からの相関を示すと以下のような反論をうける可能性がある
- 「母集団全体では全く相関がなくても、そこから一部を抽出してきた標本では相関関係が見られることがある」と言われてしまう
- 「母集団全体からデータを得たら相関係数はゼロになるのに、たまたま相関関係が見られるような標本を抽出したのではないか」

上記に対して反論する方法
- 「標本にたまたま相関が見られる」ということは現実的には起こり得ないと示すこと:「統計的仮説検定」

## 5.2 到底敵仮説検定の手順と用語

| 手順 |  やること　 |
|  ---  |  ---  |
|1|母集団に関する帰無仮説と対立仮説を設定する|
|2|検定統計量を選ぶ|
|3|有意水準$\alpha$を選ぶ|
|4|データを収集したあと、データから検定統計量の実現値を求める|
|5|検定統計量の実現値が棄却域に入れば帰無仮説を棄却して、対立仮説を採択する。棄却域に入らなければ、帰無仮説を採択する|

### 5.2.1 帰無仮説と対立仮説

#### 帰無仮説
- 「差がない」「効果がない」という仮設
- 帰無仮説は$H_0$という記号で示される
- 一般的には主張したいことと逆の仮設

#### 対立仮説
- 帰無仮説が棄却されたときに採択される仮設
- $H_1$という記号で示される

### 5.2.2 検定統計量
- 統計的仮説検定を行う場合は、標本統計量を利用
- 統計的仮説検定のために用いられる標本統計量のことを**検定統計量**という
- 標本から計算された検定統計量の具体的な値を**検定統計量の実現値**という

### 5.2.3 有意水準と棄却域

- どの程度低い確率の結果が示されたら帰無仮説を棄却するかという基準：**有意水準**
- 有意水準は5%または1%で設定されることがおおい
- 有意水準は$\alpha$で示される
- 帰無仮説のもとでの標本分布を**帰無分布＊＊という
- 帰無仮説のもとで、非常に生じにくい検定統計量の値の範囲を**棄却域**と呼ぶ
- 棄却域以外の部分を**採択域**
- 棄却域と採択域の境界の値を**臨界値*+という

### 5.2.4 統計的仮説検定の結果の報告
- 検定統計量の実現値が棄却域に入った場合の判断を「検定家一家は5%水準で**有意**である」という
- 棄却域に入らなかった場合を「有意な差は認められなかった」「有意でない」

### 5.2.5 $p$値

- $p$値とは、帰無仮説が正しいという仮定のもとで、標本から計算した検定統計量の実現値以上の値が得られる確率のこと
- $p$値が有意水準$\alpha$より小さい時に帰無仮説を棄却する

### 5.2.6 第１種の誤りと第２種の誤り

#### 1種の誤り
- 帰無仮説が真のとき、これを棄却してしまう誤り
- 本当は差がないのに差があると判断してしまうこと

#### 2種の誤り
- 帰無仮説が偽のとき、これを採択する誤り
- 本当は差があるのに、差がないと判断してしまうこと

### 5.2.7 検定力

#### 検定力
- 帰無仮説が偽のときに、第２種の誤りを犯す確率と第２種の誤りを犯さない確率の合計は1
- 検定力：帰無仮説が偽の場合、全体の確率1から第２種の誤り$\beta$を引いた確率$1-\beta$

## 5.3 標準正規分布を用いた検定

### 【問題】
指導法データの心理学テストの得点が$N(12, 10)$からの無作為抽出と考えてもよいか

In [4]:
df = pd.read_csv("../data/method_data.csv")
df = df['psychology_test']

In [5]:
df

0     13
1     14
2      7
3     12
4     10
5      6
6      8
7     15
8      4
9     14
10     9
11     6
12    10
13    12
14     5
15    12
16     8
17     8
18    12
19    15
Name: psychology_test, dtype: int64

#### (1) 帰無仮説と対立仮説の設定

- 帰無仮説$H_0: \mu=12$（心理学テストの母平均は12）
- 対立仮説$H_0: \mu\neq12$（心理学テストの母平均は12ではない）

#### (2) 検定統計量の選択

#### (3) 有意水準$\alpha$の決定
$\alpha=0.05$とする

#### (4) 検定統計量の実現値を求める

In [11]:
# 分子
df.mean() - 12

-2.0

In [13]:
# 分母
np.sqrt(10/len(df))

0.7071067811865476

In [14]:
# Z検定統計量
Z = (df.mean() - 12) / (np.sqrt(10/len(df)))

In [15]:
Z

-2.82842712474619

In [17]:
# 下側検定
st.norm.ppf(0.025)

-1.9599639845400545

In [18]:
# 上側検定
st.norm.ppf(0.975)

1.959963984540054