In [16]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import norm, t
%matplotlib inline

### 일표본(one-sample)

- 모평균의 추정과 가설 검정: Z분포, t분포

In [15]:
# 모표준편차를 아는 경우의 추정
# 모평균의 추정
x = 31100     # 표본평균
n = 36        # 표본크기
sigma = 4500  # 모표준편차
conf_a = 0.05 # 구간추정을 위한 유의수준

# 표준정규분포
SE = sigma / np.sqrt(n)         # 표준오차
conf_z = norm.ppf(1 - conf_a/2) # 신뢰구간을 구하기 위한 Z통계량
ME = conf_z * SE                # 오차의 한계 = 허용초차(margin of error)

print('[추정]')
print(f' 점 추정량: {x:.3f}')
print(f' 구간 추정량: {x-ME:.3f}~{x+ME:.3f}')
print(f' 오차의 한계: {ME:.3f}')

# 오차의 한계에 따른 표본 규모
# (위의 조건에 이어서) 오차의 한계가 500이하힐 확률이 0.95가 되도록
# 모집단 평균의 추정치를 원하는 경우, 표본 규모는 얼마가 되어야 할까?
ME = 500
conf_a = 1-0.95
conf_z = norm.ppf(conf_a/2)
ssize = conf_z**2 * sigma**2 / ME**2
print('[표본 규모]')
print(f' 유의수준 {conf_a:.2f}에서 오차의 한계를 {ME} 이하로 하려면: 표본 크기 {ssize:.1f} 이상', '\n')

# 모평균의 가설 검정
# H0: mu = mu0
# H1: mu != mu0
mu0 = 30000             # 귀무가설의 모평균
test_a = 0.05           # 가설검정을 위한 유의수준

SE = sigma / np.sqrt(n)
zstat = (x - mu0) / SE  # 신뢰구간을 구하기 위한 z 값
conf_z = norm.ppf(1-test_a/2)
ME = conf_z * SE

# 단측(one)/양측(two) 검정에 따른 유의확률과 임계값
ways = 'two'  # 대립가설 기준
if ways == 'two' : 
    sp = (1-norm.cdf(np.abs(zstat)))*2
    cv = norm.ppf(1-test_a/2)  # critical value
    cv = f'+/-{cv:.3f}'
elif ways == 'one-right' : 
    sp = 1 - norm.cdf(zstat)
    cv = norm.ppf(1-test_a)
    cv = f'{cv:.3f}'
elif ways == 'one-left' : 
    sp = norm.cdf(zstat)
    cv = norm.ppf(test_a)
    cv = f'{cv:.3f}'

print('[검정]')  # 귀무가설 채택
print(f' 임계값: {cv}, 검정통계량: {zstat:.3f}')
print(f' 유의수준: {test_a:.3f}, 유의확률: {sp:.3f}')
print(f'신뢰구간: {x-ME:.3f}~{x+ME:.3f}, 검정하고자 하는 값: {mu0:.3f}\n')

[추정]
 점 추정량: 31100.000
 구간 추정량: 29630.027~32569.973
 오차의 한계: 1469.973
[표본 규모]
 유의수준 0.05에서 오차의 한계를 500 이하로 하려면: 표본 크기 311.2 이상 

[검정]
 임계값: +/-1.960, 검정통계량: 1.467
 유의수준: 0.050, 유의확률: 0.142
신뢰구간: 29630.027~32569.973, 검정하고자 하는 값: 30000.000



In [22]:
# 모표준편차를 모르는 경우
# 모평균의 추정
x = 650
n = 16
s = 55  # 표본 표준편차
conf_a = 0.05
df = n-1
SE = s / np.sqrt(n)
conf_t = t.ppf(1-conf_a/2, df)
ME = conf_t * SE


print('[추정]')
print(f' 점 추정량: {x:.3f}')
print(f' 구간 추정량: {x-ME:.3f}~{x+ME:.3f}')
print(f' 오차의 한계: {ME:.3f}\n')

'''
오차의 한계에 따른 표본 규모
(위의 조건에 이어서) 오차의 한계가 20 이하일 확률이 0.94가 되도록 모집단 평균의 추정치를 
원하는 경우, 표본 규모는 얼마나 되어야 하는가?
'''
ME2 = 20
conf_a2 = 1-0.95
conf_t2 = t.ppf(conf_a2/2, df)
ssize = conf_t2**2 * s**2 / ME2**2
print(['표본 규모'])
print(f' 유의수준 {conf_a2:.2f}에서 오차의 한계를 {ME2:.2f} 이하로 하려면: 표본 크기 {ssize:.1f} 이상\n')

# 모평균의 가설 검정(one-sample t-test)


[추정]
 점 추정량: 650.000
 구간 추정량: 620.693~679.307
 오차의 한계: 29.307

['표본 규모']
 유의수준 0.05에서 오차의 한계를 20.00 이하로 하려면: 표본 크기 34.4 이상

