1. 통계적 가설검정
- 1-1. 통계적 가설검정의 기본

In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

np.random.seed(1111)
%precision 3
%matplotlib inline

In [5]:
df = pd.read_csv('../data/ch11_potato.csv')
sample = np.array(df['무게'])
sample

array([122.02, 131.73, 130.6 , 131.82, 132.05, 126.12, 124.43, 132.89,
       122.79, 129.95, 126.14, 134.45, 127.64, 125.68])

In [7]:
# 표본 평균
s_mean = np.mean(sample)
s_mean

128.451

- 귀무가설 : 감자튀김의 평균 무게는 130
- 대립가설 : 모평균은 130보다 작음

In [8]:
rv = stats.norm(130, np.sqrt(9/14))
rv.isf(0.95)

128.681

표본 평균이 128.681보다 작다면 귀무가설을 기각되고, 128.681보다 크면 귀무가설이 채택됨

In [9]:
# 검정 통계량
z = (s_mean -130) / np.sqrt(9/14)
z

-1.932

In [10]:
# 임계값
rv = stats.norm()
rv.isf(0.95)

-1.645

검정 통계량이 임계값 보다 작음 -> 귀무가설은 기각되고 평균은 130보다 작다고 판단

In [11]:
# p값
rv.cdf(z)

0.027

p값은 0.027로 유의수준 0.05보다 작은 값 -> 따라서 귀무가설은 기각됨

- 1-2. 단측검정과 양측검정

- 귀무가설 : 모평균은 130
- 대립가설 : 모평균은 130이 아님

In [12]:
# 검정통계량은 단측 검정때와 같음

z = (s_mean - 130) / np.sqrt(9/14)
z

-1.932

In [13]:
rv = stats.norm()
rv.interval(0.95)

(-1.960, 1.960)

In [14]:
# 누적밀도 함수의 값을 2배로 설정
rv.cdf(z) * 2

0.053

p 값이 0.05보다 크기 때문에 귀무가설을 기각하지 않음

- 1-3. 가설 검정의 두 가지 오류


- 제 1종 오류 : 귀무가설이 옳을 때, 귀무가설을 기각하는 오류
- 제 2종 오류 : 대립가설이 옳을 때, 귀무가설을 채택하는 오류

In [15]:
# 제 1종 오류의 확률
rv = stats.norm(130,3)

In [16]:
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    
    if z < c:
        cnt += 1
        
cnt / n_samples

0.053