In [1]:
# === t検定の実装 ===

import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

%precision 3
%matplotlib inline

In [2]:
junk_food = pd.read_csv('../statistics_python/3-8-1-junk-food-weight.csv')["weight"]
junk_food.head()

0    58.529820
1    52.353039
2    74.446169
3    52.983263
4    55.876879
Name: weight, dtype: float64

In [3]:
# === 以下の要領で検定を行います ===
# 帰無仮説 : スナック菓子の平均重量は５０gである
# 対立仮説 : スナック菓子の平均重量は５０gと異なる

# 有意水準は５％とし、p値が０．05を下回れば帰無仮説は棄却され、スナック菓子の重量は
# 有意に５０gと異なると主張することができます。

In [4]:
# t値の計算

# t値　＝　標本平均　ー　比較対象値　/　標準誤差

#まずは標本平均を求める
mu = sp.mean(junk_food)
mu

55.385

In [5]:
# 続いて標準誤差を求めます
# 標準誤差　＝　標準偏差　÷　サンプルサイズの平方根

sigma = sp.std(junk_food, ddof = 1)
se = sigma / sp.sqrt(len(junk_food))
se

1.958

In [6]:
# 最後にt値の算出
t_value = (mu - 50) / se
t_value

2.750

In [7]:
# p値の計算
    
# p値 = (1 - a) * 2  , a　：　「母平均を５０と仮定した時に、t値がt標本を上回る確率」


In [9]:
df = len(junk_food) - 1  # 自由度
alpha = stats.t.cdf(t_value, df = df)
(1 - alpha) * 2

0.013

In [10]:
# p値が有意水準0.05を下回っているので有意差あり、と見なせます。
# スナック菓子の平均重量は５０gと有意に異なっていると判断できる。

In [11]:
# stats.ttest_1samp関数を使うとより簡単にt検定を行うことができる
stats.ttest_1samp(junk_food, 50)

Ttest_1sampResult(statistic=2.7503396831713429, pvalue=0.012725590012524182)

In [12]:
# === シミュレーションによるp値の計算 ===

# まずは今回の標本の情報を変数に格納しておきます
size = len(junk_food)
sigma = sp.std(junk_food, ddof = 1)

In [13]:
# シミュレーションをして５００００回t値を計算します。
# それを格納する入れ物を用意します。

t_value_array = np.zeros(50000)

In [14]:
np.random.seed(1)
norm_dist = stats.norm(loc = 50,scale= sigma) # loc = 期待値, scale = 標準偏差からインスタンスを作成

for i in range(0, 50000):
    sample = norm_dist.rvs(size = size) # .rvs = 乱数、ランダムデータの生成
    sample_mean = sp.mean(sample) # ランダムデータの平均値を取得
    sample_std = sp.std(sample, ddof = 1) # ランダムデータを基に標準偏差を取得
    sample_se = sample_std / sp.sqrt(size) # 標準誤差を取得（　標準誤差　＝　標準偏差÷サンプルサイズ）
    t_value_array[i] = (sample_mean - 50) / sample_se

In [15]:
# ５００００個のt値のうち、t標本を上回った割合を求めます。
# これに２をかけるとp値になります。

(sum(t_value_array > t_value) / 50000) * 2

0.013

In [None]:
# 今求めたp値と上から９ブロック目付近で行ったp値の計算結果が（ほぼ）一致していることが確認できます