In [1]:
import numpy as np
import pandas as pd
from scipy import stats

%precision 3
np.random.seed(1111)

In [2]:
df = pd.read_csv('../data/ch11_potato.csv')
sample = np.array(df['무게'])
sample

array([122.02, 131.73, 130.6 , 131.82, 132.05, 126.12, 124.43, 132.89,
       122.79, 129.95, 126.14, 134.45, 127.64, 125.68])

In [4]:
s_mean = np.mean(sample)
s_mean

128.4507142857143

# 통계적 가설검정

## 통계적 가설검정의 기본

In [5]:
# 검정통계량: 표본평균
rv = stats.norm(130, np.sqrt(9/14))
rv.isf(0.95)

128.68118313069039

In [6]:
# 검정통계량: z
z = (s_mean-130)/np.sqrt(9/14)
z

-1.932298779026813

In [7]:
rv = stats.norm()
rv.isf(0.95)

-1.6448536269514722

In [8]:
# 검정통계량: p-value
rv.cdf(z)

0.026661319523126635

## 단측검정과 양측검정

In [9]:
# 검정통계량: z
z = (s_mean-130)/np.sqrt(9/14)
z

-1.932298779026813

In [10]:
# 양측검정은 단측검정보다 귀무가설을 기각하기가 어렵다
rv = stats.norm()
rv.interval(0.95)

(-1.959963984540054, 1.959963984540054)

In [11]:
# 검정통계량: p-value
rv.cdf(z) * 2

0.05332263904625327

## 가설검정의 두 가지 오류

In [12]:
rv = stats.norm(130, 3)

In [13]:
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    if z < c:
        cnt += 1
cnt / n_samples

0.053

# 기본적인 가설검정

## 정규분포의 모평균에 대한 검정: 모분산을 알고 있는 경우

In [14]:
def pmean_test(sample, mean0, p_var, alpha=0.05):
    s_mean=np.mean(sample)
    n = len(sample)
    rv = stats.norm()
    interval = rv.interval(1-alpha)
    
    z = (s_mean - mean0) / np.sqrt(p_var/n)
    if interval[0] <= z <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')
        
    if z < 0:
        p = rv.cdf(z) * 2
    else:
        p = (1-rv.cdf(z)) * 2
    print(f'p값은 {p:.3f}')

In [15]:
pmean_test(sample, 130, 9)

귀무가설을 채택
p값은 0.053


## 정규분포의 모분산에 대한 검정

In [17]:
def pvar_test(sample, var0, alpha=0.05):
    u_var = np.var(sample, ddof=1)
    n = len(sample)
    rv = stats.chi2(df=n-1)
    interval=rv.interval(1-alpha)
    
    y = (n-1) * u_var/var0
    if interval[0] <= y <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')
        
    if y < rv.isf(0.5):
        p = rv.cdf(y) * 2
    else:
        p = (1-rv.cdf(y)) * 2
    print(f'p값은 {p:.3f}')

In [18]:
pvar_test(sample, 9)

귀무가설을 채택
p값은 0.085


## 정규분포의 모평균에 대한 검정: 모분산을 모르는 경우

In [19]:
def pmean_test(sample, mean0, alpha=0.05):
    s_mean = np.mean(sample)
    u_var = np.var(sample, ddof=1)
    n = len(sample)
    rv = stats.t(df=n-1)
    interval = rv.interval(1-alpha)

    t = (s_mean - mean0) / np.sqrt(u_var/n)
    if interval[0] <= t <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')

    if t < 0:
        p = rv.cdf(t) * 2
    else:
        p = (1 - rv.cdf(t)) * 2
    print(f'p값은 {p:.3f}')

In [20]:
pmean_test(sample, 130)

귀무가설을 채택
p값은 0.169


In [21]:
t, p = stats.ttest_1samp(sample, 130)
t, p

(-1.4551960206404198, 0.16933464230414275)