## 5-1 일표본(One-sample)

모평균의 추정과 가설 검정 : Z분포, t분포

[추정]
+ 표본의 크기가 30 이상이거나 모집단의 분산을 아는 경우 : Z 분포
+ 표본의 크기가 30 미만이고 모집단의 분산을 모르느 경우 : t 분포

In [8]:
import pandas as pd
import numpy as np

## 모표준편차를 아는 경우
# 모평균의 추정
x = 31100 # 표본평균
n = 36 # 표본크기
sigma = 4500 # 모표준편차
conf_a = 0.05 # 신뢰수준

from scipy.stats import norm # 표준정규분포 Z 를 이용
SE = sigma / np.sqrt(n) # 표준오차
conf_z = norm.ppf(1-conf_a/2) # 신뢰계수
ME = conf_z * SE # 오차한계

print('[추정]')
print('점 추정량 :', x)
print('구간 추정량 :{} ~ {}'.format(x-ME, x+ME))
print('오차의 한계 :', ME)
print()

# 오차의 한계에 따른 표본 규모
# 오차의 한계가 500 이하일 확률이 0.95가 되도록 모집단의 평균의 추정치를 원하는 경우
# 포본 규모는 얼마가 되어야 하는가?

ME = 500
conf_a = 0.05 # 신뢰수준(유의수준)
conf_z = norm.ppf(conf_a/2)
ssize = conf_z ** 2 * sigma ** 2 / ME ** 2
print('유의수준 {} 에서 오차의 한계를 {} 이하로 하려면 표본 규모 {} 이상'.format(conf_a, ME, ssize))

[추정]
점 추정량 : 31100
구간 추정량 :29630.02701159496 ~ 32569.97298840504
오차의 한계 : 1469.9729884050405

유의수준 0.05 에서 오차의 한계를 500 이하로 하려면 표본 규모 311.15816447622433 이상


In [24]:
# 모평균의 가설 검정
# H0 : mu = mu0, H1 : mu != mu0

x = 31100 # 표본평균
n = 36 # 표본 크기
sigma = 4500 # 모표준편차
mu0 = 30000 # 귀무가설의 모평균
test_a = 0.05 # 가설검정을 위한 유의수준

SE = sigma / np.sqrt(n) # 표준오차
zstat = (x-mu0) / SE # 검정통계량

# 단측/양측 검정에 따른 유의확률과 임계값
ways = 'two' # two, one-right, one-left
if ways == 'two':
    sp = (1-norm.cdf(np.abs(zstat))) * 2 # 유의확률
    cv = norm.ppf(1-test_a/2) # 임계값
    cv = '+/-{}'.format(cv)

elif ways == 'one-right':
    sp = 1-norm.cdf(zstat)
    cv = norm.ppf(1-test_a)

elif ways == 'one-left':
    sp = norm.cdf(zstat)
    cv = norm.ppf(test_a)

print('[검정]')
print('임계값 : {}, 검정통계량 : {}'.format(cv, zstat))
print('유의수준 : {}, 유의확률 : {}'.format(test_a, sp))

[검정]
임계값 : +/-1.959963984540054, 검정통계량 : 1.4666666666666666
유의수준 : 0.05, 유의확률 : 0.14246675482797233


In [16]:
## 모표준편차를 모르는 경우
# 모평균의 추정
x = 650
n = 16
s = 55
conf_a = 0.05
df = n-1

from scipy.stats import t
SE = s / np.sqrt(n)
conf_t = t.ppf(1-conf_a/2, df)
ME = conf_t * SE

print('[추정]')
print('점 추정량 :', x)
print('구간 추정량 :{} ~ {}'.format(x-ME, x+ME))
print('오차의 한계 :', ME)
print()

# 오차의 한계가 20 이하일 확률이 0.95가 되도록 모집단 평균의 추정치를 원하는 경우
# 표본 규모는 얼마가 되어야 하는가

ME2 = 20
conf_a2 = 0.05
conf_t2 = t.ppf(conf_a/2, df)
ssize = conf_t2 **2 * s **2 / ME2 ** 2

print('유의수준 {}에서 오차의 한계를 {} 이하로 하려면 표본 크기 {} 이상'.format(conf_a2, ME2, ssize))

[추정]
점 추정량 : 650
구간 추정량 :620.6925687485593 ~ 679.3074312514407
오차의 한계 : 29.30743125144069

유의수준 0.05에서 오차의 한계를 20 이하로 하려면 표본 크기 34.357021062316896 이상


In [25]:
# 모평균의 가설 검정
# H0 : mu = mu0, H1 : mu != mu0
mu0 = 600  # 귀무가설의 모평균
test_a = 0.05 # 가설검정을 위한 유의수준
x = 650
n = 16
s = 55
df = n-1

SE = s / np.sqrt(n) # 표준 오차
tstat = (x-mu0) / SE

# 단측/양측 검정에 따른 유의확률과 임계값
ways = 'one-right' # two, one-right, one-left
if ways == 'two':
    sp = (1-t.cdf(np.abs(tstat), df)) * 2 # 유의확률
    cv = t.ppf(1-test_a/2, df) # 임계값
    cv = '+/-{}'.format(cv)

elif ways == 'one-right':
    sp = 1-t.cdf(tstat, df)
    cv = t.ppf(1-test_a, df)

elif ways == 'one-left':
    sp = t.cdf(tstat,df)
    cv = t.ppf(test_a, df)

print('[검정]')
print('임계값 : {}, 검정통계량 : {}'.format(cv, tstat))
print('유의수준 : {}, 유의확률 : {}'.format(test_a, sp))


[검정]
임계값 : 1.7530503556925547, 검정통계량 : 3.6363636363636362
유의수준 : 0.05, 유의확률 : 0.0012185096017776065


모분산의 추정과 가설 검정 : 카이제곱 분포

In [29]:
### 모평균을 모르는 경우
# 모분산 추정
n = 10 # 표본크기
v = 3.4 # 표본 분산
df = n-1 # 자유도
conf_a = 0.05 # 유의수준

from scipy.stats import chi2
conf_c1 = chi2.ppf(1-conf_a/2, df)
conf_c2 = chi2.ppf(conf_a/2, df)
CR1 = df * v / conf_c1
CR2 = df * v / conf_c2

print('[추정]')
print('점 추정량 :', v)
print('구간 추정령 : {:.3f} ~ {:.3f}'.format(CR1, CR2))


[추정]
점 추정량 : 3.4
구간 추정령 : 1.609 ~ 11.332


In [30]:
# 가설검정
# H0 : sigma^2 = v0, H1 : sigma^2 != v0
n = 10 # 표본크기
v = 3.4 # 표본 분산
df = n-1 # 자유도
v0 = 3.6 # 모분산
test_a = 0.05 # 유의수준

cstat = df * v / v0 # 카이제곱 통계량

# 단측 / 양측 검정에 따른 유의확률과 임계값
ways = 'one-left' # two, one-right, one-left
if ways == 'two':
    if chi2.cdf(cstat, df) < 0.5:
        sp = (chi2.cdf(cstat, df)) * 2
    else:
        sp = (1-chi2.cdf(cstat, df)) * 2
    
    cv1 = chi2.ppf(test_a/2, df)
    cv2 = chi2.ppf(1-test_a/2, df)
    cv = '{}와 {}'.format(cv1, cv2)

elif ways == 'one-right':
    sp = 1-chi2.cdf(cstat, df)
    cv = chi2.ppf(1-test_a, df)

elif ways == 'one-left':
    sp = chi2.cdf(cstat, df)
    cv = chi2.ppf(test_a, df)

print('[검정]') # 귀무가설을 기각할 수 없다.
print('임계값 :{}, 검정통계량 : {}'.format(cv, cstat))
print('유의수준 :{}, 유의확률:{}'.format(test_a, sp))

[검정]
임계값 :3.325112843066815, 검정통계량 : 8.5
유의수준 :0.05, 유의확률:0.5153541141736069


## 이표본(Two-sample)

독립표본 모평균 차이의 추정과 가설 검정 : Z분포, t분포