# 第3部　Pythonによるデータ分析｜Pythonで学ぶ統計学入門

## 8章　統計的仮説検定

### t検定の実装：分析の準備

In [1]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# グラフを描画するライブラリ
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 表示桁数の指定
%precision 3
# グラフをjupyter Notebook内に表示させるための指定
%matplotlib inline

In [2]:
# データの読み込み
junk_food = pd.read_csv(
    "3-8-1-junk-food-weight.csv")["weight"]
junk_food.head()

0    58.529820
1    52.353039
2    74.446169
3    52.983263
4    55.876879
Name: weight, dtype: float64

### t検定の実装：t値の計算

In [4]:
# 標本平均
mu = sp.mean(junk_food)
mu

55.385

In [5]:
# 自由度
df = len(junk_food) - 1
df

19

In [6]:
# 標準誤差
sigma = sp.std(junk_food, ddof = 1)
se = sigma / sp.sqrt(len(junk_food))
se

1.958

In [7]:
# t値
t_value = (mu - 50) / se
t_value

2.750

### t検定の実装：p値の計算

In [8]:
# p値
alpha = stats.t.cdf(t_value, df = df)
(1 - alpha) * 2

0.013

In [10]:
# t検定
stats.ttest_1samp(junk_food, 50)

Ttest_1sampResult(statistic=2.7503396831713429, pvalue=0.012725590012524182)

### シミュレーションによるp値の計算

In [11]:
# 標本の情報(一部再掲)
size = len(junk_food)
sigma = sp.std(junk_food, ddof = 1)

In [12]:
# t値を格納する変数
t_value_array = np.zeros(50000)

In [13]:
# 母平均が50(帰無仮説が正しい)と仮定してt値を計算することを50000回繰り返す
np.random.seed(1)
norm_dist = stats.norm(loc = 50, scale = sigma)
for i in range(0, 50000):
    sample = norm_dist.rvs(size = size)
    sample_mean = sp.mean(sample)
    sample_std = sp.std(sample, ddof = 1)
    sample_se = sample_std / sp.sqrt(size)
    t_value_array[i] = (sample_mean - 50) / sample_se

In [14]:
(sum(t_value_array > t_value) / 50000) * 2

0.013