# 第14回演習の概要

今回の演習では，統計的検定に関わる2種類の誤りについて，仮想実験を行う。今回は簡単のため，差の平均値の検定（対応のあるt検定）を題材とするが，対応のないt検定やその他の検定においても同様の考え方を適用することができる。

In [None]:
# 必要なパッケージの読み込み
import matplotlib.pyplot as plt
from numpy.random import default_rng
from scipy.stats import t as t_dist

rng = default_rng()

# 様々な関数の準備（復習）

復習として，以下の関数を作成すること。できるかぎり，記憶を頼りに書いてほしい。変数を中心化する関数などを自作しても構わない。

$$
Mean_x = \bar{x} = \frac{1}{n}\sum^n_{i=1}x_i
$$

In [None]:
# 平均
def mean(atai_list):


（標本）分散を計算する関数を書け。分散は以下の数式で計算される統計量である。

$$
Var = \frac{1}{n}\sum_{i = 1}^{n}(x_i-\bar{x})^2
$$

In [None]:
# 標本分散 mean()を使っても良い
def var(atai_list):


分散 var 関数を用いて，（標本）標準偏差を求める関数を書け。

$$
SD = \textstyle\sqrt{\frac{1}{n}\sum_{i = 1}^{n}(x_i-\bar{x})^2}
$$


In [None]:
# 標本標準偏差。var()を使うこと。
def sd(atai_list):


不偏分散を計算する関数を作成せよ。標本分散の関数`var()`を用いても良い。

$$
Var_{unbiased} = \frac{1}{n - 1}\sum_{i = 1}^{n}(x_i-\bar{x})^2
$$

In [None]:
# 不偏分散
def var_unbiased(atai_list):


不偏標準偏差を計算する関数を作成せよ。

$$
SD_{unbiased} = \textstyle\sqrt{\frac{1}{n-1}\sum_{i = 1}^{n}(x_i-\bar{x})^2}
$$


In [None]:
# 不偏標準偏差。var_unbiased()を使うこと。
def sd_unbiased(atai_list):


# 演習1: 第1種の過誤（type 1 error）

第1種の過誤は，母集団において差がない（$\mu =$ 0）にもかかわらず，検定によって「差がある（$\mu \neq$ 0）」と判断してしまうことである。

演習1では（演習2もだが），同じ参加者が比較したい2つの条件の両方の心理課題を遂行し，その差があるかどうかについて検定を行うことを考える。このときの検定は，条件間の差が，母平均$\mu$ の正規分布から標本抽出されていると考える。

演習1では，2条件の間に差がない，つまり，差の母平均 $\mu =$ 0であっても，（標本抽出を何度も繰り返した時に）p値が0.05を下回る場合があることを体験する。

In [None]:
# 母平均0, 母標準偏差10の正規分布からランダムに数値を抽出する関数
# 引数 n に指定する整数でデータ数が決まる
def sampling_diff0(n):
    return list(rng.normal(0, 10, n))

In [None]:
sampling_diff0(5)

## ステップ1: 各種統計量の計算（復習）

`sampling_diff0(30)`を使って30個の差のデータを1セットだけ生成し，各種統計量を計算せよ。

In [None]:
# データの生成。変数に入れておくこと。


In [None]:
# 差の母平均の推定値


In [None]:
# 差の母標準偏差の推定値


差の母平均推定値の標準誤差は，以下の式で計算される（前回と同じ）。

$$
SE = \sqrt{\frac{Var_{unbiased}}{n}} = \frac{SD_{unbiased}}{\sqrt{n}}
$$



In [None]:
# 差の母平均の標準誤差


## ステップ2: t値・自由度・p値の計算

t値を計算せよ。t値は以下の式で求まる検定統計量である。

$$
t = \frac{Mean_{diff}}{SE}
$$

In [None]:
# t値


また，自由度を計算せよ。対応のあるt検定の場合，自由度（degree of freedom, 以下df）は以下の式で求まる。

$$
df = n - 1
$$

In [None]:
# 自由度


計算したt値と自由度から，以下の`pvalue`関数を用いて，p値を計算せよ。

In [None]:
# t値と自由度を入れるとp値を計算する関数
def pvalue(t_value, df):
    # t_dist.cdf() は，-∞から引数に指定したt値までの面積（その範囲の値が得られる確率）を計算する関数
    # たとえば，t_dist.cdf(-2, 29)とすると，自由度29のt分布において-∞から-2までの面積を計算する
    # 2倍することで，もう一方の面積（上の例だと 2から∞までの面積）も含めた値になる。
    return (t_dist.cdf(-abs(t_value), df)) * 2 # 両側検定

In [None]:
# p値の計算


## ステップ3: 標本抽出とp値の計算を繰り返す

ステップ1のデータの生成から，ステップ2のp値の計算までをfor文を使って10000回反復し，各回で計算されたp値が入ったリストを作成せよ。

## ステップ4: p値のヒストグラム

ステップ3で作成した10000個のp値のヒストグラムを描け。

In [None]:
# ヒストグラムの作成。0.1刻みで表示されることに注意。


# 演習2: 第2種の過誤（type 2 error）

第2種の過誤は，母集団において差がある（$\mu \neq$ 0）にもかかわらず，検定の結果から「差がある」と**判断しない**ことである。つまり，p > 0.05となってしまうことである（有意水準が5%であれば）。

演習2では，差の母集団の母平均が $\mu =$ 5 のときであっても，

- 検定結果が有意にならない場合があること，また，
- その確率がデータ数（サンプルサイズ）によって変動すること

を体験する。

In [None]:
# 母平均5, 母標準偏差10の正規分布からランダムに数値を抽出する関数
# 引数 n に指定する整数でデータ数が決まる
def sampling_diff5(n):
    return list(rng.normal(5, 10, n))

## n = 10

演習1と同じ要領で，標本抽出→t検定を10000回行い，p値のリストを作成せよ。

このとき，`sampling_diff5(10)`を使って，母平均$\mu =$ 5 の正規分布から10個のデータを標本抽出すること。

In [None]:
# 標本抽出とp値の計算を10000回繰り返す。
# sampling_diff5(10) を使う。


10000個のp値のヒストグラムを描け

In [None]:
# ヒストグラムの作成。0.1刻みで表示されることに注意。


10000個のp値のうち，p > 0.05となるp値の個数を数えよ。`if`文を使えばよい。`count = 0`という変数を用意し，p > 0.05のときに`count = count + 1`をする（第11回の演習を参照）。

In [None]:
# p > 0.05の個数


10000個中のp > 0.05の個数の割合が，「真の差」があるにもかかわらず，**誤って**「差がない」と判断される（=第2種の過誤）確率に相当する。

## n = 50の場合

抽出するデータの数を50に変更し（つまり，`sampling_diff5(50)`を使う），同様のことを実施せよ。正しく動作していれば，p > 0.05となる回数はかなり少なくなるはずである。

In [None]:
# 標本抽出とp値の計算を10000回繰り返す


In [None]:
# ヒストグラムの作成。0.1刻みで表示されることに注意。


In [None]:
# p > 0.05の個数


# 発展問題: サンプルサイズ設計

`rng.normal(mu, sigma, n)`は，母平均`mu`, 母標準偏差`sigma`の正規分布から`n`個のデータをランダムに標本抽出する関数である。例えば，以下のケースでは，母平均 5, 母標準偏差 10の正規分布から 30個のデータを抽出している。

```python
data = rng.normal(5, 10, 30)
```

ここまでの演習では，この関数に事前に値を指定しておいた関数を利用していた。この問題では，自身で母平均`mu`, 母標準偏差`sigma`を設定し，いくつかの`n`に対する第2種の過誤を演習2の要領で計算する。

## ステップ1: 関数の作成

任意の母平均`mu`, 母標準偏差`sigma`，サンプルサイズ（データ数）`n`における第2種の過誤を仮想実験によって計算する関数`type2error`を作成せよ。演習2の処理を関数としてまとめればよい。つまり，

- `rng.normal(mu, sigma, n)`から標本抽出を行い
- そのデータからt値と
- さらにp値を計算する
- p値をリストに入れる
- これを10000回繰り返す
- 最終的に，10000個のうち，p > 0.05のp値の割合を返す

という関数である。以下にすでに示してあるように，引数でサンプルサイズ（データの数）を指定できるようにする。関数中の処理においてデータ数が必要な部分については`n`を使用すること。

In [None]:
# データの数（サンプルサイズ）n を指定したら，そのデータ数での
# 第2種の過誤（type 2 error）の確率を（仮想実験によって）求める関数
def type2error(n):


## ステップ2: 第2種の過誤の計算

`for`文を使って，いくつかの`n`（例えば，10, 20, ..., 90, 100の10個）に対して設定した母平均と母標準偏差における第2種の過誤を算出し，その結果が入ったリストを作成せよ。`n`の種類が多いほど計算時間がかかるので注意すること。

## ステップ3: 折れ線グラフで図示

横軸に`n`，縦軸に第2種の過誤となる折れ線グラフを作成せよ。20%を下回る`n`はあるか確認せよ。

## ステップ4: 標準化平均値で考える

実は実際の研究でサンプルサイズ設計を行う際，（差の）母集団正規分布の`mu`，`sigma`の両方の設定を考える必要はなく，`mu / sigma`で標準化された平均値を考える（**標準化効果量**と呼ばれる）。この時，`rng.normal()`の`sigma`には1を指定する。つまり，`rng.normal(mu/simga, 1, n)`となる。例えば，演習2では母平均5, 母標準偏差10の正規分布での第2種の過誤を計算（仮想実験）したが，これは，`rng.normal(0.5, 1, n)`で行っても同じ結果が得られる。

得られたデータについても，「平均値 / 不偏標準偏差」をすることで標準化効果量の推定値が得られる。心理学では，差の検定の場合，0.2 ~ 1くらいの標準化効果量が報告されているのを目にする。

さて，この発展問題のステップ1~3では`rng.normal(mu, sigma, n)`としていたと思うが，これを`rng.normal(mu/simga, 1, n)`に変更し，第2種の過誤の数値について同様の結果が得られることを確認せよ。



