# 5. 추정과 가설검정(p135)

- 점추정: 모집단의 모수를 하나의 수치로 추정하는 방법(표본평균, 표본분산, 표본비율)
- 구간추정: 모집단의 모수가 일정한 신뢰수준 하에 포함될 것으로 예상되는 구간을 추정하는 방법
  - 유의수준(a): 제1종 오류(귀무가설이 참인데 대립가설을 선택할 확률)
  - 검정력(1-b): b는 제2종 오류로 대립가설이 참인데 귀무가설을 기각하지 않는 오류를 범할 확률
  *두 오류 간에는 상호 역의 관계 성립, 제1종 오류를 고정한 다음 제2종 오류를 줄이려면 표본의 크기를 늘려야 함

| 유형       | 검정 종류                        | 조건 요약                                      | 사용 분포           | 통계량 공식                                                                                          | 신뢰구간 / 비고                                                |
|------------|----------------------------------|------------------------------------------------|---------------------|-------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------|
| **일표본** | Z-검정                           | 모분산 σ² 알고 있음 또는 n ≥ 30                | Z-분포              | $Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$                                                       | $\bar{x} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$        |
|             -| t-검정                           | 모분산 모름, n < 30, 정규성 가정              | t-분포(df = n−1)    | $t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$                                                            | $\bar{x} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}}$        |
| **이표본** | 독립 2표본 Z-검정                | 두 집단 모두 모분산 알고 있음                 | Z-분포              | $Z = \frac{\bar{x}_1 - \bar{x}_2 - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$            |                                                                 |
|            -| 독립 2표본 t-검정 (등분산)       | 모분산 모름, 정규성, 등분산 가정              | t-분포(df = n₁+n₂−2)| $t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$ ($s_p$: 풀링표준편차) |                                                                 |
|            -| 독립 2표본 t-검정 (이분산)       | 분산 다름 (Welch)                              | t-분포 (df 근사)    | $t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}$                      |                                                                 |
|            -| 대응표본 t-검정                  | 짝 데이터 (전후비교 등), 정규성 가정          | t-분포(df = n−1)    | $t = \frac{\bar{d}}{s_d / \sqrt{n}}$ ($\bar{d}$: 차이 평균)                                           |                                                                 |
| **K표본**  | 일원분산분석 (One-way ANOVA)     | 집단 ≥3, 정규성, 등분산 가정                  | F-분포              | $F = \frac{MS_{between}}{MS_{within}}$                                                                | 사후검정 필요 (Tukey HSD 등)                                   |
|            -| 이원분산분석 (Two-way ANOVA)     | 두 개 범주형 독립변수, 상호작용 포함 가능     | F-분포              | 교호작용 포함된 분산비 산출                                                                           |                                                                 |
|            -| 반복측정 ANOVA                   | 동일 집단 반복 측정, 구형성 가정 필요         | F-분포              | 피험자 내 요인 고려                                                                                  | Mauchly's Test로 구형성 확인                                   |
|            -| 혼합설계 ANOVA (Mixed)           | 독립 + 반복 측정 요인 혼합 설계               | F-분포              | 반복요인, 독립요인 동시 고려                                                                          | 설계 복잡도 ↑                                                  |





  
## 1. 일표본(One-sample)
- 모평균 추정과 가설검정: Z분포, t분포

In [1]:
import numpy as np
from scipy.stats import norm 

#모표준편차를 아는 경우 모평균의 추정
s_mean = 31100 #표본평균
n = 36 #표본크기
sd = 4500 #표본편차
a = 0.05 #신뢰수준

se = sd / np.sqrt(n) #표준오차
z = norm.ppf(1-a/2) #신뢰계수(양측이니 2로 나눔)
me = se*z #허용오차

print(f"점추정(평균): {s_mean}")
print(f"구간추정(유의수준 5%): {s_mean-me:.2f} ~ {s_mean+me:.2f}")
print(f"오차의 한계: {me:.3f}")

점추정(평균): 31100
구간추정(유의수준 5%): 29630.03 ~ 32569.97
오차의 한계: 1469.973


In [2]:
#오차의 한계에 따른 표본 규모
#오차의 한계(허용오차)가 500 이하일 확률이 0.95(95%)가 되도록 모집단 평균의 추정치를 원하는 경우, 표본규모는?
me = 500
a = 0.05 #신뢰수준 95% 기준
z = norm.ppf(1-a/2)
sample_size = np.square(sd)/np.square(me/z) # 분산/[(허용오차/z값)^2]

print(f"유의수준 5%하 허용오차가 500 이하일 확률이 95%일 경우 표본 수는 {sample_size:.2f} 이상")

유의수준 5%하 허용오차가 500 이하일 확률이 95%일 경우 표본 수는 311.16 이상


In [3]:
#모평균의 가설검정
# H0: 평균은 0이다. / H1: 평균은 0이 아니다.

x = 31100 #표본평균
n = 36 #표본수
sd = 4500 #모표준편차
mu0 = 30000 #귀무가설의 모평균
test_a = 0.05 # 신뢰수준 5%

se = sd/np.sqrt(n) #표준오차
zstat = (x-mu0)/se #검정통계량 z

#단측(right, left)/양측 검정에 따른 유의확률과 임계값

def choice_oneway(op): #0: 양측, 1:right, 2:left
    if op == 0:
        z = norm.ppf(1-test_a/2)
        true_r = [x - z*se, x + z*se] #신뢰구간
        p_value = (1-norm.cdf(np.abs(zstat)))*2 #양측이니까 *2
        
    elif op == 1:
        z = norm.ppf(1-test_a)
        true_r = [x+z*se]
        p_value = 1-norm.cdf(zstat)
    else:
        z = norm.ppf(test_a)
        true_r = [x-z*se]
        p_value = norm.cdf(zstat)
    print(f"검정통계량: {zstat:.3f}")
    print(f"신뢰구간: {true_r}")
    print(f"p_value {p_value:.3f}로 귀무가설을", "기각" if p_value < 0.05 else "기각하지 못함")

choice_oneway(0)

검정통계량: 1.467
신뢰구간: [29630.02701159496, 32569.97298840504]
p_value 0.142로 귀무가설을 기각하지 못함


In [4]:
#모표준편차를 모르는 경우: t분포
from scipy.stats import t

x = 650
n = 16 # 표본집단이 30 미만이므로 중심극한정리 사용 x
s = 55 #표본표준오차
a = 0.05
df = n-1 #t분포 자유도

se = s/np.sqrt(n)
conf_t = t.ppf(1-a/2, df)
me = conf_t*se

print("<모표준편차를 모르는 경우: t분포")
print(f"점추정(평균): {x}")
print(f"구간추정(유의수준 5%): {x-me:.2f} ~ {x+me:.2f}")
print(f"오차의 한계: {me:.3f}")

<모표준편차를 모르는 경우: t분포
점추정(평균): 650
구간추정(유의수준 5%): 620.69 ~ 679.31
오차의 한계: 29.307


In [5]:
# (위 조건에 이어서) 오차의 한계가 20이하일 확률이 0.95가 되도록 모집단 평균의 추정치를 원하는 경우, 표본 규모는?

me2 = 20
a = 0.05
tt = t.ppf(1-a/2, df)
sample_size = np.square(s)/np.square(me2/tt)
print(f"유의수준 5% 하 허용오차가 20 이하일 확률이 95%일 경우 표본 수는 {sample_size:.1f} 이상")

유의수준 5% 하 허용오차가 20 이하일 확률이 95%일 경우 표본 수는 34.4 이상


In [6]:
#모평균의 가설검정(one-sample t-test)
#H0: mu=0 / H1: mu != 0

mu0 = 600
test_a = 0.05
x = 650
n = 16
s = 55
df = n-1

se = s / np.sqrt(n)
tstat = (x-mu0)/se

#단측, 양측 검정에 따른 유의확률과 임계값
#단측(right, left)/양측 검정에 따른 유의확률과 임계값

def choice_t_oneway(op): #0: 양측, 1:right, 2:left
    if op == 0:
        tt = t.ppf(1-test_a/2, df) #t a/2
        true_r = [x - tt*se, x + tt*se] #신뢰구간
        p_value = (1-t.cdf(np.abs(tstat), df))*2 #양측이니까 *2
        
    elif op == 1:
        tt = t.ppf(1-test_a, df)
        true_r = [x+tt*se]
        p_value = 1-t.cdf(tstat, df)
    else:
        tt = t.ppf(test_a, df)
        true_r = [x-z*se]
        p_value = t.cdf(tstat, df)
    print(f"검정통계량: {tstat:.3f}")
    print(f"신뢰구간: {true_r}")
    print(f"p_value {p_value:.3f}로 귀무가설을", "기각" if p_value < 0.05 else "기각하지 못함")

# one-right(mu > mu0)
choice_t_oneway(1)

검정통계량: 3.636
신뢰구간: [674.1044423907726]
p_value 0.001로 귀무가설을 기각


## 모비율의 추정과 가설검정: Z분포
- p: 모비율, p0: 귀무가설 모비유, ^p: 표본비율, n: 표본크기, Za/2: 신뢰계수

In [7]:
# 모비율 추정
n = 500 #표본크기
p = 220/n #표본비율
a = 0.05
se = np.sqrt((p*(1-p))/n)
z = norm.ppf(1-a/2)
me = z*se


print(f"점추정(모비율): {p}")
print(f"구간추정(유의수준 5%): {p-me:.3f} ~ {p+me:.3f}")
print(f"오차의 한계: {me:.3f}")

점추정(모비율): 0.44
구간추정(유의수준 5%): 0.396 ~ 0.484
오차의 한계: 0.044


In [8]:
#표본규모 계산: 모비율 p를 아는 경우 p 사용, 아니면 표본비율 p 로 계산, 두 정보 모두 모르면 p=0.5로 계산
# 오차의 한계가 0.03 이하일 확률이 0.99가 되도록 모집단 비율의 추정치를 원하는 경우 표본규모는?

me = 0.03
a = 0.01
z = norm.ppf(1-a/2)

p_sample_size = (p*(1-p))/np.square(me/z)

print(f"오차의 한계가 0.03일 확률이 99%인 경우의 표본규모는 {p_sample_size:.1f} 이상")

오차의 한계가 0.03일 확률이 99%인 경우의 표본규모는 1816.5 이상


In [9]:
# 모비율의 가설검정
# H0: P = P0 / H1: P!= P0

n = 500
p = 220/n
p0 = 0.5 # 귀무가설 모비율
test_a = 0.05

se = np.sqrt((p0*(1-p0))/n)
zstat = (p - p0)/se 

def choice_pz_oneway(op): #0: 양측, 1:right, 2:left
    if op == 0:
        z = norm.ppf(1-test_a/2) #z a/2
        true_r = [p - z*se, p + z*se] #신뢰구간
        p_value = (1-norm.cdf(np.abs(zstat)))*2 #양측이니까 *2
        
    elif op == 1:
        z = norm.ppf(1-test_a)
        true_r = [x+z*se]
        p_value = 1-norm.cdf(zstat)
    else:
        z = norm.ppf(test_a)
        true_r = [x-z*se]
        p_value = norm.cdf(zstat)
    print(f"검정통계량: {zstat:.3f}")
    print(f"신뢰구간: {true_r}")
    print(f"p_value {p_value:.3f}로 귀무가설을", "기각" if p_value < 0.05 else "기각하지 못함")

# two
choice_pz_oneway(0)

검정통계량: -2.683
신뢰구간: [0.3961738729711709, 0.4838261270288291]
p_value 0.007로 귀무가설을 기각


## 2. 이표본(Two-sample)
### 독립표본 모평균 차이의 추정과 가설검정: Z분포, t분포
- u1 - u2: 모평균의 차
- u0(1) - u0(2): 귀무가설의 모평균의 차
- X1 - X2: 표본평균의 차

| **검정 유형**         | **사용 조건**                     | **자유도(df) 공식**                                                                                                                                                                        | **비고**               |
| ----------------- | ----------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | -------------------- |
| **단일표본 t검정**      | 하나의 표본 평균 vs 모평균 비교           | $df = n - 1$                                                                                                                                                                          | n: 표본 크기             |
| **대응표본 t검정**      | 동일 집단의 전후 비교 (쌍별 비교)          | $df = n - 1$                                                                                                                                                                          | n: 쌍의 개수 (차이값 개수)    |
| **이표본 t검정 (등분산)** | 독립된 두 집단, 등분산 가정              | $df = n_1 + n_2 - 2$                                                                                                                                                                  | Pooled variance 사용   |
| **이표본 t검정 (이분산)** | 독립된 두 집단, 등분산 가정하지 않음 (Welch) | $df = \frac{ \left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2 }{ \frac{ \left( \frac{s_1^2}{n_1} \right)^2 }{n_1 - 1} + \frac{ \left( \frac{s_2^2}{n_2} \right)^2 }{n_2 - 1} }$ | **소수점 df** 사용, 계산 복잡 |


In [75]:
#표본의 크기가 30이상이고 모집단의분산을 아는 경우 독립표본 모평균 차이의 추정(z)
x1 = 78 #1번 모집단의 표본평균
x2 = 70 #2번 모집단 표본평균
std1 = 4.8 #1번 모집단 모표준편차
std2 = 3.1 #2번 모집단 모표준편차
n1= 16 #1번 모집단 수
n2 = 25 #2번 모집단 수
a = 0.05 #신뢰수준

d = x1 - x2 # 두 모평균 차이의 점추정값
se = np.sqrt(std1**2/n1 + std2**2/n2)
z = norm.ppf(1-a/2)
me = z*se

print(f"점추정량: {d:.3f}")
print(f"오차의 한계: {me}")
print(f"구간추정량: {x1-x2-me:.3f} ~ {x1-x2+me:.3f}")

점추정량: 8.000
오차의 한계: 2.6473302537602597
구간추정량: 5.353 ~ 10.647


In [77]:
#독립표본 모평균 차이의 가설검정
# H0: 모평균의 차 0(두 독립표본의 평균은 같다.) / H1: 모평균의 차 0 아님(두 독립표본의 평균은 차이있음)
#신뢰구간 상에 0이 포함 x

test_a = 0.05
d = x1 - x2
se = np.sqrt(std1**2/n1  + std2**2/n2)
zstat = (x1-x2-0)/se #u1-u2=0(귀무)

def choice_z_twoway(op): #0: 양측, 1:right, 2:left
    if op == 0:
        z = norm.ppf(1-test_a/2) #z a/2
        true_r = [d - z*se, d + z*se] #신뢰구간
        p_value = (1-norm.cdf(np.abs(zstat)))*2 #양측이니까 *2
        
    elif op == 1:
        z = norm.ppf(1-test_a)
        true_r = [d+z*se]
        p_value = 1-norm.cdf(zstat)
    else:
        z = norm.ppf(test_a)
        true_r = [d-z*se]
        p_value = norm.cdf(zstat)
    print(f"검정통계량: {zstat:.3f}")
    print(f"신뢰구간: {true_r}")
    print(f"p_value {p_value:.3f}로 귀무가설을", "기각" if p_value < 0.05 else "기각하지 못함")
choice_z_twoway(0)

검정통계량: 5.923
신뢰구간: [5.352669746239741, 10.64733025376026]
p_value 0.000로 귀무가설을 기각


In [80]:
#표본의 크기가 30미만이고, 모집단의 분산을 모르지만 같다는 것을 알고 있는 경우
# 독립표본 모평균 차이의 추정(t분포)

x1 = 85
x2 = 81
s1 = 4
s2 = 5
n1 = 12
n2 = 10
a = 0.05

d = x1 - x2
df = n1+n2 -2
pv = ((n1-1)*(s1**2)+(n2-1)*(s2**2))/df #합동분산

se = np.sqrt(pv)*np.sqrt(1/n1+1/n2)
tstat = t.ppf(1-a/2, df)
me = tstat*se

print(f"점추정량: {d}")
print(f"오차의 한계: {me:.3f}")
print(f"구간추정량: {d-me:.3f} ~ {d+me:.3f}")

점추정량: 4
오차의 한계: 3.999
구간추정량: 0.001 ~ 7.999


In [83]:
# 독립표본 모평균 차이의 가설검정
# H0: 모평균의 차 0(두 독립표본의 평균은 같다.) / H1: 모평균의 차 0 아님(두 독립표본의 평균은 차이있음)
test_a = 0.05
d0 = 0
d = x1 - x2
df = n1 + n2 -2
pv = ((n1-1)*(s1**2)+(n2-1)*(s2**2))/df
se = np.sqrt(pv)*np.sqrt(1/n1+1/n2)
tstat = (d-d0)/se

def choice_t_twoway(op): #0: 양측, 1:right, 2:left
    if op == 0:
        tt = t.ppf(1-test_a/2, df)
        true_r = [d - tt*se, d + tt*se] #신뢰구간
        p_value = (1-t.cdf(np.abs(tstat), df))*2 #양측이니까 *2
        
    elif op == 1:
        tt = t.ppf(1-test_a, df)
        true_r = [d+tt*se]
        p_value = 1-t.cdf(tstat)
    else:
        tt = t.ppf(test_a, df)
        true_r = [d-tt*se]
        p_value = t.cdf(tstat)
    print(f"검정통계량: {tstat:.3f}")
    print(f"신뢰구간: {true_r}")
    print(f"p_value {p_value:.3f}로 귀무가설을", "기각" if p_value < 0.05 else "기각하지 못함")
choice_t_twoway(0)

검정통계량: 2.086
신뢰구간: [0.0006943213868382259, 7.999305678613162]
p_value 0.050로 귀무가설을 기각


In [86]:
#표본의 크기가 30미만이고 모집단의 분산을 모르지만 다르다고 알고 있을 경우
# 독립표본 모평균 차이의 추정
x1 = 85
x2 = 81
s1 = 4
s2 = 5
n1 = 12
n2 = 10
a = 0.05

d = x1 - x2
df = (s1**2/n1+s2**2/n2)**2/(1/(n1-1)*(s1**2/n1)**2 + 1/(n2-1)*(s2**2/n2)**2)

se = np.sqrt(s1**2/n1 + s2**2/n2)
tstat = t.ppf(1-a/2, df)
me = tstat*se

print(f"점추정량: {d}")
print(f"오차의 한계: {me:.3f}")
print(f"구간추정량: {d-me:.3f} ~ {d+me:.3f}")
print(f"자유도: {df:.3f}")

점추정량: 4
오차의 한계: 4.128
구간추정량: -0.128 ~ 8.128
자유도: 17.165


In [87]:
# 위 조건에 따른 가설검정
test_a = 0.05
d0 = 0
d = x1 - x2
tstate = (d-d0)/se


def choice_t2_twoway(op): #0: 양측, 1:right, 2:left
    if op == 0:
        tt = t.ppf(1-test_a/2, df)
        true_r = [d - tt*se, d + tt*se] #신뢰구간
        p_value = (1-t.cdf(np.abs(tstat), df))*2 #양측이니까 *2
        
    elif op == 1:
        tt = t.ppf(1-test_a, df)
        true_r = [d+tt*se]
        p_value = 1-t.cdf(tstat)
    else:
        tt = t.ppf(test_a, df)
        true_r = [d-tt*se]
        p_value = t.cdf(tstat)
    print(f"검정통계량: {tstat:.3f}")
    print(f"신뢰구간: {true_r}")
    print(f"p_value {p_value:.3f}로 귀무가설을", "기각" if p_value < 0.05 else "기각하지 못함")
choice_t2_twoway(0)

검정통계량: 2.108
신뢰구간: [-0.12776068933965323, 8.127760689339652]
p_value 0.050로 귀무가설을 기각하지 못함


In [89]:
# 위 내용과 똑같은 라이브러리
from scipy.stats import ttest_ind
X1 = [1, 3, 5, 7, 9]
X2 = [9, 11, 13, 15]

#equal_var : 모집단의 분산이 동일한지 여부
#alternative: two-sided, less, greater

tstat, p = ttest_ind(X1, X2, equal_var=True, alternative='two-sided')

print(f"검정통계량/p-value: {tstat:.3f} / {p:.3f}")


검정통계량/p-value: -3.564 / 0.009


## 대응표본 모평균 차이의 추정과 가설검정: z분포, t분포

In [None]:
#표본의 크기가 30미만인 경우
#대응표본 모평균 차이의 추정
x1 = [75, 83, 96, 77, 81, 90, 82, 67, 94, 85, 78, 82, 96, 80, 87, 81]
x2 = [80, 90, 92, 75, 86, 90, 81, 70, 89, 88, 82, 79, 91, 90, 78, 89]

n = len(x1)
df = n - 1
a = 0.05

d = x1 - x2 #두 데이터의 차이
d_mean = d.mean()
std = np.sqrt(sum(d-d_mean)**2/df)
se
