In [1]:
import numpy as np
import pandas as pd
from scipy import stats

%precision 3
np.random.seed(1111)

In [2]:
df = pd.read_csv('/Users/yuya/Desktop/Python_Static/python_stat_sample/data/ch11_potato.csv')
sample = np.array(df['重さ'])
sample

array([122.02, 131.73, 130.6 , 131.82, 132.05, 126.12, 124.43, 132.89,
       122.79, 129.95, 126.14, 134.45, 127.64, 125.68])

In [3]:
# 標本平均を求める
s_mean = np.mean(sample)
s_mean

128.4507142857143

In [4]:
# 母平均は130gという仮定で仮説検定を行う
# ※フライドポテトの母集団は正規分布で、その分散は9とする

# 標本平均XがP(X<=x) = 0.05 を満たすxを考える
rv = stats.norm(130, np.sqrt(9/14))
rv.isf(0.95)

128.68118313069039

In [5]:
# 上記の計算により、標本平均が128.68g以下になる確率は
# 5%である事が分かった
# Aさんの抽出した標本平均が128.451gなので、
# これは5%しか起きない珍しい出来事だと考えられる

# 標準化した値で再計算してみる
# 検定統計量
z = (s_mean - 130) / np.sqrt(9/14)
z

-1.932298779026813

In [6]:
# 臨界値を求める
rv = stats.norm()
rv.isf(0.95)

-1.6448536269514722

In [7]:
# 検定統計量 < 臨界値
# だったので、帰無仮説は棄却され、「平均は130gより少ない」という結論になる

# p値を使った仮説検定
# p値を求める
rv.cdf(z)

0.026661319523126635

In [8]:
# 130gより多い・少ない場合の両方を考える
# →両側検定

# フライドポテトの例で有意水準5%の両側検定を行う
z = (s_mean - 130) / np.sqrt(9/14)
z

-1.932298779026813

In [11]:
rv = stats.norm()
rv.interval(0.95)

(-1.959963984540054, 1.959963984540054)

In [12]:
rv.cdf(z) * 2

0.05332263904625327

In [13]:
# 第一種の過誤→帰無仮説が正しいときに、帰無仮説を棄却してしまう過誤
# 第二種の過誤→対立仮説が正しいときに、帰無仮説を採択してしまう過誤

# 今回の例でいうと
# 第一種の過誤→「平均が130g」であるにも関わらず、「平均は130gより少ない」
rv = stats.norm(130, 3)

In [17]:
# 第一種の過誤
# この母集団から14個の標本を抽出して仮説検定を行うという
# 作業を10000回行い、「平均が130g」であるのにも関わらず
# 「平均は130gより少ない」と結論づけてしまう割合を算出
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0

for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    if z < c:
        cnt += 1
        
cnt / n_samples

# 第一種の過誤を犯す確率を危険率と呼ぶ
# 危険率は有意水準と一致するので、分析のパラメータ決め次第で
# 制御する事ができる

0.051

In [None]:
# 第二種の過誤
# 実際は「母平均が130gより少ない」にも関わらず「母平均は130gより少ない」
# という結論を得ることができない状況です
# 