# 第6部　統計的仮説検定

## 1章　母平均に関する1標本のt検定

### 実装：分析の準備

In [1]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd
from scipy import stats

In [2]:
# 表示設定(書籍本文のレイアウトと合わせるためであり、必須ではありません)
np.set_printoptions(linewidth=60)
pd.set_option('display.width', 60)

from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 8, 4

In [3]:
# データの読み込み
junk_food = pd.read_csv('6-1-1-junk-food-weight.csv')['weight']
junk_food.head()

0    58.529820
1    52.353039
2    74.446169
3    52.983263
4    55.876879
Name: weight, dtype: float64

### 実装：t値の計算

In [4]:
# 標本平均
x_bar = np.mean(junk_food)
round(x_bar, 3)

55.385

In [5]:
# 自由度
n = len(junk_food)
df = n - 1
df

19

In [6]:
# 標準誤差
u = np.std(junk_food, ddof = 1)
se = u / np.sqrt(n)
round(se, 3)

1.958

In [7]:
# t値
t_sample = (x_bar - 50) / se
round(t_sample, 3)

2.75

### 実装：棄却域の計算

In [8]:
# t分布の2.5%点
round(stats.t.ppf(q=0.025, df=df), 3)

-2.093

### 実装：p値の計算

In [9]:
# p値
p_value = stats.t.cdf(-np.abs(t_sample), df=df) * 2
round(p_value, 3)

0.013

In [10]:
# t検定
stats.ttest_1samp(junk_food, 50)

Ttest_1sampResult(statistic=2.750339683171343, pvalue=0.012725590012524182)

### 実装：シミュレーションによるp値の計算

In [11]:
# 標本の情報(一部再掲)
n = len(junk_food)
u = np.std(junk_food, ddof=1)

In [12]:
# t値を格納する変数
t_value_array = np.zeros(50000)

In [13]:
# 母平均が50(帰無仮説が正しい)と仮定してt値を計算することを50000回繰り返す
np.random.seed(1)
norm_dist = stats.norm(loc=50, scale=u)
for i in range(0, 50000):
    # 標本の抽出
    sample = norm_dist.rvs(size=n)
    # t値の計算
    sample_x_bar = np.mean(sample)    # 標本平均
    sample_u = np.std(sample, ddof=1) # 標準偏差
    sample_se = sample_u / np.sqrt(n) # 標準誤差
    t_value_array[i] = (sample_x_bar - 50) / sample_se # t値

In [14]:
p_sim = (sum(t_value_array >= t_sample) / 50000) * 2
round(p_sim, 3)

0.013