# 統計的仮設検定

## 1変量データの t検定

* 対象: 平均値
* 判定すること: 平均値がある値と異なると言えるか

$$
t値 = \frac{標本平均-比較対象値}{標準偏差/\sqrt{サンプルサイズ
}} = \frac{標本平均-比較対象値}{\sqrt{標準誤差}}
$$



In [9]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()
%precision 3
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

## 統計的仮設検定

* 帰無仮説: 棄却される対象となる最初の仮定
* 対立仮説: 帰無仮説に対立する仮説

例
- 帰無仮説: スナック菓子の平均重量は50gである
- 対立仮説: スナック菓子の平均重量は50gと異なる

p値: 標本と帰無仮説との矛盾の目安となる指標(p値は確率として表現)

* 片側検定: 「スナック菓子の平均重量は50gより小さい」と言ったことを調べる検定方法(大きいということは想定しない」
* 両側検定: 「スナック菓子の平均重量は50gと異なる」ということを調べる検定手法

以下のデータを対象に、1標本のt検定を実行

* 帰無仮説: スナック菓子の平均重量は50gである
* 対立仮説: スナック菓子の平均重量は50gと異なる
* 有意水準: 5% (= p値=0.05を下回れば、帰無仮説は棄却され、スナック菓子の重量は有意に50gと異なると主張できる)

In [17]:

junk_food = pd.read_csv('../data/3-8-1-junk-food-weight.csv')['weight']

mu = sp.mean(junk_food)
df = len(junk_food) -1
sigma = sp.std(junk_food, ddof=1)
se = sigma/sp.sqrt(len(junk_food))
# t_value
t_value = (mu - 50) / se
print(f't_value = {t_value}')
# p_value = (1 - alpha) * 2 両側検定ver
alpha = stats.t.cdf(t_value, df=df)
print(f'p_value = {(1 - alpha) * 2}')


t_value = 2.7503396831713434
p_value = 0.012725590012524046


In [18]:
# 1標本のt検定を行うための関数
# statistic: t_value, pvalue= p_value
stats.ttest_1samp(junk_food, 50)

Ttest_1sampResult(statistic=2.750339683171343, pvalue=0.012725590012524182)

## p値のシミュレーション

* p値は「帰無仮説が正しいと仮定して、何度も標本抽出~t値計算を繰り返した時、t_標本と同じかそれより大きなt値が得られる割合」を意味している
* この割合が小さいということは、t_標本を超えることが滅多にないということ
* t_標本が十分に大きいと考えられ、有意差が得られるということ



In [21]:
size = len(junk_food)
sigma = sp.std(junk_food, ddof=1)
N = 50000
t_value_array = np.zeros(N)
np.random.seed(1)
norm_dist = stats.norm(loc=50, scale=sigma)

for i in range(0, N):
    sample = norm_dist.rvs(size=size)
    sample_mean = sp.mean(sample)
    sample_std = sp.std(sample, ddof=1)
    sample_se = sample_std / sp.sqrt(size)
    t_value_array[i] = (sample_mean -50) / sample_se

# 50000個のt値のうち、t_標本を上回った割合
# 理論上、Ttest_1sampResult(statistic=2.750339683171343, pvalue=0.012725590012524182)に近似
(sum(t_value_array > t_value) / N) *2

0.013

In [22]:
junk_food.describe()

count    20.000000
mean     55.384966
std       8.756119
min      41.681692
25%      50.049822
50%      53.172125
75%      59.910525
max      74.446169
Name: weight, dtype: float64