In [1]:
import pandas as pd
import numpy as np

from scipy import stats

# 5. 추정과 가설 검정
- 구간추정 : 점추정 + 오차의 개념
- 가설검정 : 귀무가설과 대립가설을 세우고, 귀무가설의 모수와 표본에서 얻은 값으로 검정통계량을 계산하여 귀무가설의 기각여부 판단
    - 검정 통계량이 채택역에 있는지 여부 / 유의수준과 유의확률의 비교 / 검정하고자 하는 값의 신뢰구간 아래 여부
- 1종오류 : 귀무가설이 참인데 대립가설을 채택하는 오류
- 2종오류 : 대립가설이 참인데 귀무가설을 채택하는 오류 (1-2종오류 : 검정력)
    - 두 오류는 트레이드 오프
    
## 5-1 일표본
### 모평균의 추정과 가설 검정 : Z분포, t분포
$\mu:\ 모평균,\ \mu_0:\ 귀무가설의\ 모평균,\ \sigma:\ 모표준편차,\ X:\ 표본평균,\ S:\ 표본표준편차,\\ n:\ 표본의\ 크기, \ z_{\alpha/2}:\ 신뢰계수,\ t_{\alpha/2,(n-1)}:\ 신뢰계수 $
- 추정
    - 표본의 크기가 30 이상이거나, 모집단의 분산을 아는 경우
    $$ Z=\frac{X-\mu}{\sigma/\sqrt{n}}\sim N(0,1) \\ \bar{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}<\mu<bar{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$$
    - 표본의 크기가 30 미만이고, 모집단의 분산을 모르는 경우
    $$ t=\frac{X-\mu}{S/\sqrt{n}}\sim t_{(n-1)} \\ \bar{X}-t_{\alpha/2, (n-1)}\frac{S}{\sqrt{n}}<\mu<bar{X}+t_{\alpha/2,(n-1)}\frac{S}{\sqrt{n}}$$
- 가설검정
    - 표본의 크기가 30 이상이거나 모집단의 분산을 아는 경우 $Z=\frac{X-\mu_0}{\sigma/\sqrt{n}} \sim N(0,1)$
    - 표본의 크기가 30 미만이고 모집단의 분산을 모르는 경우 $t=\frac{X-\mu_0}{S/\sqrt{n}} \sim t_{(n-1)}$
- 중심극한정리 : 표본의 개수가 커질수록 표본평균의 확률분포는 정규분포에 가까워짐
- 큰 수의 법칙 : 표본 개수가 커질수록 표본평균의 값은 모평균의 값에 가까워짐

In [2]:
# 모표준편차를 아는 경우
## 모평균 추정
x = 31100; n = 36; sigma = 4500; conf_a = 0.05

se = sigma / np.sqrt(n)
conf_z = stats.norm.ppf(1-conf_a/2)
me = conf_z * se # 허용오차 margin of error

print("[추정]\n 점 추정량: {:.3f} \n 구간추정량 : {:.3f}~{:.3f}\n 오차의 한계: {:.3f}".format(x, x-me, x+me, me))

[추정]
 점 추정량: 31100.000 
 구간추정량 : 29630.027~32569.973
 오차의 한계: 1469.973


In [3]:
# 오차의 한계에 따른 표본 규모
## 오차의 한계가 500 이하일 확률이 0.95가 되도록 모집단 평균의 추정치를 원하는 경우, 표본 규모는 얼마가 되어야 하는가?
me = 500; conf_a = 1-0.95; conf_z = stats.norm.ppf(conf_a/2)
ssize = conf_z**2 * sigma**2 / me**2
print("[표본 규모]")
print("유의수준 {:.2f}에서 오차의 한계를 {} 이하로 하려면: 표본 규모 {:.1f} 이상".format(conf_a, me, ssize))

[표본 규모]
유의수준 0.05에서 오차의 한계를 500 이하로 하려면: 표본 규모 311.2 이상


In [4]:
# 모평균의 가설검정
# H0 : mu = mu0, H1 : mu != mu0
x = 31100; n = 36; sigma = 4500; mu0 = 30000; test_a = 0.05

se = sigma/np.sqrt(n)
zstat = (x-mu0)/se

ways = 'two'
if ways == 'two':
    sp = (1-stats.norm.cdf(np.abs(zstat)))*2
    cv = stats.norm.ppf(1-test_a/2)
    cv = "+/-{:.3f}".format(cv)
elif ways == 'one-right':
    sp = (1-stats.norm.cdf(zstat))
    cv = stats.norm.ppf(1-test_a)
    cv = "{:.3f}".format(cv)
elif ways == 'one-left':
    sp = (1-stats.norm.cdf(zstat))
    cv = stats.norm.ppf(test_a)
    cv = "{:.3f}".format(cv)

print("[검정]")        
print(" 임계값 : {}, 검정통계량: {:.3f}".format(cv, zstat))
print(" 유의수준 : {:.3f}, 유의확률: {:.3f}".format(test_a, sp))

[검정]
 임계값 : +/-1.960, 검정통계량: 1.467
 유의수준 : 0.050, 유의확률: 0.142


In [5]:
# 모표준편차 모르는 경우
## 모평균의 추정
x = 650; n = 16; s = 55; conf_a = 0.05 ; df = n-1

se = s / np.sqrt(n)
conf_t = stats.t.ppf(1-conf_a/2, df)
me = conf_t * se

print("[추정]")
print(" 점 추정량 : {:.3f}".format(x))
print(" 구간 추정량 : {:.3f}~{:.3f}".format(x-me, x+me))
print(" 오차의 한계 : {:.3f}".format(me))

[추정]
 점 추정량 : 650.000
 구간 추정량 : 620.693~679.307
 오차의 한계 : 29.307


In [6]:
## 오차의 한계에 따른 표본 규모
## 오차의 한계가 20이하일 확률이 0.95가 되도록 모집단의 평균 추정치를 원하는 경우, 표본 규모는 얼마?

me2 = 20; conf_a2 = 1-0.95; conf_t2 = stats.t.ppf(conf_a2/2, df)
ssize = conf_t2**2 * s**2 / me2**2

print("[표본규모]")
print(f" 유의수준 {conf_a2:.2f}에서 오차의 한계를 {me2:.2f} 이하로 하려면: 표본크기 {ssize:.1f} 이상")

[표본규모]
 유의수준 0.05에서 오차의 한계를 20.00 이하로 하려면: 표본크기 34.4 이상


In [7]:
# 모평균의 가설검정 (one-sample t-test)
# H0 : mu = mu0, H1 : mu > mu0
mu0 = 600; test_a = 0.05; x = 650; n = 16; s = 55; df = n-1

se = s / np.sqrt(n)
tstat = (x-mu0)/se

ways = 'one-right'
if ways == 'two':
    sp = (1-stats.t.cdf(np.abs(zstat), df))*2
    cv = stats.t.ppf(1-test_a/2, df)
    cv = "+/-{:.3f}".format(cv)
elif ways == 'one-right':
    sp = (1-stats.t.cdf(zstat, df))
    cv = stats.t.ppf(1-test_a, df)
    cv = "{:.3f}".format(cv)
elif ways == 'one-left':
    sp = (1-stats.t.cdf(zstat, df))
    cv = stats.t.ppf(test_a, df)
    cv = "{:.3f}".format(cv)

print("[검정]")        
print(" 임계값 : {}, 검정통계량: {:.3f}".format(cv, zstat))
print(" 유의수준 : {:.3f}, 유의확률: {:.3f}".format(test_a, sp))

[검정]
 임계값 : 1.753, 검정통계량: 1.467
 유의수준 : 0.050, 유의확률: 0.082


### 모비율의 추정과 가설검정 : Z 분포
$p: 모비율, p_0:귀무가설의 모비율, \hat{p}:표본비율, n: 표본의 크기, z_{\alpha/2}:신뢰계수$

[추정]
$$
Z=\frac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})}/n}\quad \sim N(0,1) \\
\hat{p} - z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} < p < \hat{p} + z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$

[가설검정]
$$ Z=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)}/n}\quad \sim N(0,1) $$

In [8]:
# 모비율의 추정
n = 500; p = 220/500 ; conf_a = 0.05
se = np.sqrt(p*(1-p)/n)
conf_z = stats.norm.ppf(1-conf_a/2)
me = conf_z * se

print("[추정]")
print(" 점 추정량 : {:.3f}".format(p))
print(" 구간 추정량 : {:.3f}~{:.3f}".format(p-me, p+me))
print(" 오차의 한계 : {:.3f}".format(me))

[추정]
 점 추정량 : 0.440
 구간 추정량 : 0.396~0.484
 오차의 한계 : 0.044


In [9]:
# 표본규모 계산 : 모비율 p를 아는 경우에는 P를 사용, 아니면 표본비율 p로 계산, 두 정보 모두 없다면 p=0.5로 계산
## 오차의 한계가 0.03 이하일 확률이 0.99가 되도록 모집단 비율의 추정치를 원하는 경우, 표본 규모는 얼마?

me2 = 0.03; conf_a2 = 1-0.99; conf_z2 = stats.norm.ppf(1-conf_a2/2)
ssize = conf_z2**2 * p * (1-p) / me2 ** 2
print("[표본규모]")
print(f" 유의수준 {conf_a2:.2f}에서 오차의 한계를 {me2:.2f} 이하로 하려면: 표본크기 {ssize:.1f} 이상")

[표본규모]
 유의수준 0.01에서 오차의 한계를 0.03 이하로 하려면: 표본크기 1816.5 이상


In [10]:
# 모비율의 가설검정
## H0: P = P0, H1: P != P0
n = 500; p = 220/500 ; P0 = 0.5; test_a = 0.05
se = np.sqrt(P0 * (1-P0)/n); zstat = (p - P0)/se

ways = 'two' # 'one-right(P>P0)', 'one-left(P<P0)'
if ways == 'two':
    sp = (1-stats.norm.cdf(np.abs(zstat)))*2
    cv = stats.norm.ppf(1-test_a/2)
    cv = "+/-{:.3f}".format(cv)
elif ways == 'one-right':
    sp = (1-stats.norm.cdf(zstat))
    cv = stats.norm.ppf(1-test_a)
    cv = "{:.3f}".format(cv)
elif ways == 'one-left':
    sp = (1-stats.norm.cdf(zstat))
    cv = stats.norm.ppf(test_a)
    cv = "{:.3f}".format(cv)

print("[검정]")        
print(" 임계값 : {}, 검정통계량: {:.3f}".format(cv, zstat))
print(" 유의수준 : {:.3f}, 유의확률: {:.3f}".format(test_a, sp))

[검정]
 임계값 : +/-1.960, 검정통계량: -2.683
 유의수준 : 0.050, 유의확률: 0.007


### 모분산의 추정과 가설검정 : 카이제곱 분포
$\alpha: 모표준편차,\ \sigma_0: 귀무가설의 모표준편차,\ \mu:\ 모평균,\ S:\ 표본표준편차,\ n:\ 표본의 크기, \ \chi^2_{\alpha/2,n-1}: 신뢰계수$

[추정]
- 모평균을 모르는 경우
$$
\chi^2 = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{(n-1)} \\
(n-1)S^2/\chi^2_{\alpha/2,n-1} < \sigma^2 < (n-1)S^2/\chi^2_{(1-\alpha)/2,n-1}
$$
- 모평균을 아는 경우
$$
\chi^2 = \frac{\sum^n_{i=1}(x_i-\mu)^2}{\sigma^2} \sim \chi^2_{(n-1)} \\
\sum^n_{i=1}(x_i-\mu)^2/\chi^2_{\alpha/2,n-1} < \sigma^2 < \sum^n_{i=1}(x_i-\mu)^2/\chi^2_{(1-\alpha)/2,n-1}
$$

[가설검정]
- 모평균을 모르는 경우의 통계량
$$ \chi^2=\frac{(n-1)S^2}{\sigma^2_0} \sim \chi^2_{(n-1)}$$
- 모평균을 아는 경유의 통계량
$$ \chi^2=\frac{\sum^n_{i=1}(x_i-\mu)^2}{\sigma^2_0} \sim \chi^2_{(n-1)}$$

In [11]:
# 모평균을 모르는 경우
## 모분산의 추정
n = 10; v = 3.4; df = n-1 ; conf_a = 0.05

conf_c1 = stats.chi2.ppf(1-conf_a/2, df)
conf_c2 = stats.chi2.ppf(conf_a/2, df)
cr1 = df * v / conf_c1
cr2 = df * v / conf_c2

print("[추정]")
print(f"점 추정량: {v:.3f}")
print(f"구간 추정량: {cr1:.3f} ~ {cr2:.3f}")

[추정]
점 추정량: 3.400
구간 추정량: 1.609 ~ 11.332


In [12]:
# 가설검정 (왼쪽 검정)
# H0 : sigma^2 = v0, H1 : sigma^2 < v0
n = 10; v = 3.4; df = n-1; v0 = 3.6; test_a = 0.05

cstat = df * v / v0

ways = 'one-left' # 'two', 'one-right(sigma^2>v0)', 'one-left(sigma^2<v0)'
if ways == 'two':
    if stats.chi2.cdf(stats, df) < 0.5:
        sp = stats.chi2.cdf(cstat, df)*2
    else: 
        sp = (1-stats.chi2.cdf(cstat, df))*2
    cv1 = stats.chi2.ppf(test_a/2, df)
    cv2 = stats.chi2.ppf(1-test_a/2, df)
    cv = f"{cv1:.3f}와 {cv2:.3f}"
elif ways == 'one-right':
    sp = 1 - stats.chi2.cdf(cstat, df)
    cv = stats.chi2.ppf(1-test_a, df) 
    cv = f"{cv:.3f}"
elif ways == 'one-left':
    sp = stats.chi2.cdf(cstat, df)
    cv = stats.chi2.ppf(test_a, df) 
    cv = f"{cv:.3f}"    
    
print("[검정]")
print(f"임계값 : {cv}, 검정통계량 {cstat:.3f}")
print(f"유의수준: {test_a:.3f}, 유의확률: {sp:.3f}")

[검정]
임계값 : 3.325, 검정통계량 8.500
유의수준: 0.050, 유의확률: 0.515


## 5.2 이표본 (Two-sample)
### 독립표본 모평균 차이의 추정과 가설검정 : Z분포, t분표
$\mu_1-\mu_2:\ 모평균의\ 차,\ \mu_{0,(1)}-\mu_{0,(2)}:\ 귀무가설\ 모평균의\ 차,\ X_1-X_2:\ 표본평균의\ 차,\ \sigma_1, \sigma_2:\ 각\ 표본의\ 모표준편차,\ S_1,S_2:\ 각\ 표본의\ 표본표준편차,\ n_1, n_2:\ 각\ 표본의\ 크기,\ z_{\frac{\alpha}{2}}:\ 신뢰계수, t_{\frac{\alpha}{2},(n_1+n_2-2)}:\ 신뢰계수\, t_{\frac{\alpha}{2},(df)}:\ 신뢰계수$

[추정] 
- 표본의 크기가 30이상이고 모집단의 분산을 아는 경우
$$
Z = \frac{X_1-X_2-(\mu_1-\mu_2)}{\sqrt{\sigma^2_1/n_1 + \sigma^2_2/n_2}}\quad \sim N(0,1) \\
(\bar{X_1}-\bar{X}_2)-z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}} < \mu_1 - \mu_2 < (\bar{X_1}-\bar{X}_2)+z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}
$$
- 표본의 크기가 30 이상이고, 모집단의 분산을 모르는 경우
$$
Z = \frac{X_1-X_2-(\mu_1-\mu_2)}{\sqrt{s^2_1/n_1 + s^2_2/n_2}}\quad \sim N(0,1) \\
(\bar{X_1}-\bar{X}_2)-z_{\frac{\alpha}{2}}\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}} < \mu_1 - \mu_2 < (\bar{X_1}-\bar{X}_2)+z_{\frac{\alpha}{2}}\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}
$$
- 표본의 크기가 30 미만이고, 모집단의 분산을 모르지만 두 모집단의 분산이 같다는 것을 알고 있을 경우
$$
t = \frac{X_1-X_2-(\mu_1-\mu_2)}{s_p\sqrt{1/n_1+1/n_2}}\quad \sim t_{(n_1+n_2-2)} \\
**합동표본분산\ S^2_p=\frac{(n_1-1)S^2_1+(n_2-1)S^2_2}{(n_1+n_2-2)} \\
(X_1-X_2)-t_{\frac{\alpha}{2},(n_1+n_2-2)S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} < \mu_1 - \mu_2 <
(X_1-X_2)+t_{\frac{\alpha}{2},(n_1+n_2-2)S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}
$$
- 표본의 크기가 30 미만이고, 모집단의 분산을 모르지만 두 모집단의 분산이 다르다는 것을 알고 있을 경우
$$
t = \frac{X_1-X_2-(\mu_1-\mu_2)}{\sqrt{s^2_1/n_1+s^2_2/n_2}}\quad \sim t_{(df)} \\
**자유도\ df=\frac{(\frac{S^2_1}{n_1} + \frac{S^2_2}{n_2})^2}{\frac{1}{n_1-1}(\frac{S^2_1}{n_1})^2+\frac{1}{n_2-1}(\frac{S^2_2}{n_2})^2} \\
(X_1-X_2)-t_{\frac{\alpha}{2},(df)\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}} < \mu_1 - \mu_2 <
(X_1-X_2)+t_{\frac{\alpha}{2},(df)\sqrt{\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}}}
$$

[가설검정] : t 분포를 활용한 검정을 t 검정이라고 함
- 표본의 크기가 30이상이고 모집단의 분산을 아는 경우 통계량
$$ Z = \frac{X_1-X_2-(\mu_{0(1)}-\mu_{0(2)})}{\sqrt{\sigma^2_1/n_1 + \sigma^2_2/n_2}} \sim N(0,1) $$
- 표본의 크기가 30이상이고 모집단의 분산을 모르는 경우 통계량
$$ Z = \frac{X_1-X_2-(\mu_{0(1)}-\mu_{0(2)})}{\sqrt{S^2_1/n_1 + S^2_2/n_2}} \sim N(0,1) $$
- 표본의 크기가 30 미만이고 모집단의 분산을 모르지만 두 모집단의 분산이 같다는 것을 알고 있을 경우의 통계량
$$t=\frac{X_1-X_2-(\mu_{0(1)}-\mu_{0(2)})}{s_p\sqrt{1/n_1+1/n_2}} \sim t_{(n_1+n_2-2)}$$
- 표본의 크기가 30 미만이고 모집단의 분산을 모르지만 두 모집단의 분산이 다르다는 것을 알고 있을 경우의 통계량
$$t=\frac{X_1-X_2-(\mu_{0(1)}-\mu_{0(2)})}{\sqrt{S^2_1/n_1+S^2_2/n_2}} \sim t_{(df)}$$


In [14]:
# 표본의 크기가 30 이상이고 모집단의 분산을 아는 경우
## 독립표본 모평균 차이의 추정
x1 = 78; x2 = 70; sigma1 = 4.8; sigma2 = 3.1; n1 = 16; n2 = 25; conf_a = 0.05

d = x1 - x2
se = np.sqrt(sigma1**2/n1 + sigma2**2/n2)
conf_z = stats.norm.ppf(1-conf_a/2)
me = conf_z * se

print('[추정]')
print(f" 점 추정량: {d:.3f}")
print(f" 구간 추정량: {d-me:.3f}~{d+me:.3f}")
print(f" 오차의 한계: {me:.3f}")

[추정]
 점 추정량: 8.000
 구간 추정량: 5.353~10.647
 오차의 한계: 2.647


In [16]:
## 독립표본 모평균 차이의 가설검정
# H0 : 모평균의 차 = D0, H1: 모평균의 차 != D0
test_a = 0.05; d0 = 0; 
d = x1 - x2
df = n1+n2-2
se = np.sqrt(sigma1**2/n1 + sigma2**2/n2)
zstat = (x1-x2-d0)/se

ways = 'two'
if ways == 'two':
    sp = (1-stats.norm.cdf(np.abs(zstat)))*2
    cv = stats.norm.ppf(1-test_a/2)
    cv = f"+/- {cv:.3f}"
elif ways == 'one-right':
    sp = (1-stats.norm.cdf(zstat))
    cv = stats.norm.ppf(1-test_a)
    cv = f"+/- {cv:.3f}"
elif ways == 'one-left':
    sp = (stats.norm.cdf(zstat))
    cv = stats.norm.ppf(test_a)
    cv = f"+/- {cv:.3f}"

print("[검정]")
print(f"임계값 : {cv}, 검정통계량 {zstat:.3f}")
print(f"유의수준: {test_a:.3f}, 유의확률: {sp:.3f}")

[검정]
임계값 : +/- 1.960, 검정통계량 5.923
유의수준: 0.050, 유의확률: 0.000


In [17]:
# 표본의 크기가 30 미만이고 모집단의 분산을 모르지만 같다는 것을 알고 있을 경우
## 독립표본 모평균의 차이 추정
x1=85; x2=81; s1=4; s2=5; n1=12; n2=10; conf_a=0.05

d = x1 - x2
df = n1+n2-2
pv = (s1**2*(n1-1) + s2**2*(n2-1)) / df # pooled variance
se = np.sqrt(pv) * np.sqrt(1/n1 + 1/n2)
conf_t = stats.t.ppf(1-conf_a/2, df)
me = conf_t * se

print("[추정]")
print(f" 점 추정량: {d:.3f}")
print(f" 구간 추정량: {d-me:.3f}~{d+me:.3f}")
print(f" 오차의 한계: {me:.3f}")
print(f" 합동 분산: {pv:.2f}")

[추정]
 점 추정량: 4.000
 구간 추정량: 0.001~7.999
 오차의 한계: 3.999
 합동 분산: 20.05


In [18]:
## 독립표본 모평균 차이의 가설검정
# H0 : 모평균의 차 = D0, H1: 모평균의 차 != D0
test_a = 0.05; d0 = 0; 
d = x1 - x2
df = n1+n2-2
pv = (s1**2*(n1-1) + s2**2*(n2-1)) / df
se = np.sqrt(pv) * np.sqrt(1/n1 + 1/n2)
tstat = (x1-x2-d0)/se

ways = 'two'
if ways == 'two':
    sp = (1-stats.t.cdf(np.abs(tstat), df))*2
    cv = stats.t.ppf(1-test_a/2, df)
    cv = f"+/- {cv:.3f}"
elif ways == 'one-right':
    sp = (1-stats.t.cdf(tstat, df))
    cv = stats.norm.ppf(1-test_a, df)
    cv = f"+/- {cv:.3f}"
elif ways == 'one-left':
    sp = (stats.t.cdf(tstat, df))
    cv = stats.t.ppf(test_a, df)
    cv = f"+/- {cv:.3f}"

print("[검정]")
print(f"임계값 : {cv}, 검정통계량 {tstat:.3f}")
print(f"유의수준: {test_a:.3f}, 유의확률: {sp:.3f}")

[검정]
임계값 : +/- 2.086, 검정통계량 2.086
유의수준: 0.050, 유의확률: 0.050


In [21]:
# 표본의 크기가 30 미만이고 모집단의 분산을 모르지만 다르다고 알고 있을 경우
## 독립표본 모평균 차이의 추정
x1=85; x2=81; s1=4; s2=5; n1=12; n2=10; conf_a=0.05

d = x1 - x2
df = ((s1**2)/n1 + (s2**2)/n2)**2 / (1/(n1-1) * ((s1**2)/n1)**2 + 1/(n2-1)*((s2**2)/n2)**2)
se = np.sqrt(s1**2/n1 + s2**2/n2)
conf_t = stats.t.ppf(1-conf_a/2, df)
me = conf_t * se

print("[추정]")
print(f" 점 추정량: {d:.3f}")
print(f" 구간 추정량: {d-me:.3f}~{d+me:.3f}")
print(f" 오차의 한계: {me:.3f}")
print(f" 자유도: {df:.2f}")

[추정]
 점 추정량: 4.000
 구간 추정량: -0.128~8.128
 오차의 한계: 4.128
 자유도: 17.17


In [25]:
## 독립표본 모평균 차이의 가설검정
# H0 : 모평균의 차 = D0, H1: 모평균의 차 != D0
teste_a = 0.05; d0=0;
d = x1 - x2
df = ((s1**2)/n1 + (s2**2)/n2)**2 / (1/(n1-1)*((s1**2)/n1)**2 + 1/(n2-1)*((s2**2)/n2)**2)
se = np.sqrt(s1**2/n1 + s2**2/n2)
tstat = (x1-x2-d0)/se

ways = 'two'
if ways == 'two':
    sp = (1-stats.t.cdf(np.abs(tstat), df))*2
    cv = stats.t.ppf(1-test_a/2, df)
    cv = f"+/- {cv:.3f}"
elif ways == 'one-right':
    sp = 1-stats.t.cdf(tstat, df)
    cv = stats.t.ppf(1-test_a, df)
    cv = f"{cv:.3f}"
elif ways == 'one-left':
    sp = stats.t.cdf(tstat, df)
    cv = stats.t.ppf(test_a, df)
    cv = f"{cv:.3f}"

print("[검정]")
print(f"임계값 : {cv}, 검정통계량 {tstat:.3f}")
print(f"유의수준: {test_a:.3f}, 유의확률: {sp:.3f}")    

[검정]
임계값 : +/- 2.108, 검정통계량 2.043
유의수준: 0.050, 유의확률: 0.057


In [27]:
# 라이브러리를 통한 독립표본 t-test
from scipy.stats import ttest_ind
x1 = [1,3,5,7,9]
x2 = [9,11,13,15]

# equal_var : 모집단 분산 동일 여부, alternative: 대립가설 형태
tstat, p = ttest_ind(x1, x2, equal_var = True, alternative='two-sided')
print(f"[라이브러리 검정] equal_var=True, alternative='two-sided'")
print(f" 검정통계량: {tstat:.3f}, 유의확률: {p:.3f}")

tstat, p = ttest_ind(x1, x2, equal_var = False, alternative='two-sided')
print(f"[라이브러리 검정] equal_var=False, alternative='two-sided'")
print(f" 검정통계량: {tstat:.3f}, 유의확률: {p:.3f}")

[라이브러리 검정] equal_var=True, alternative='two-sided'
 검정통계량: -3.564, 유의확률: 0.009
[라이브러리 검정] equal_var=False, alternative='two-sided'
 검정통계량: -3.656, 유의확률: 0.008


### 대응표본 모평균의 차이의 추정과 가설 검정: Z분포, t분포
$\mu_1-\mu_2:\ 모평균의 차,\ D_0:\ 귀무가설의\ 모평균의\ 차,\ D:\ 표본평균의\ 차,\ S_D:\ 각\ 대응표본의\ 차의\ 표본표준편차,\ n:\ 표본의\ 크기, \ z_{\frac{\alpha}{2}}:\ 신뢰계수,\ t_{\frac{\alpha}{2},n-1}:\ 신뢰계수 $

[추정]
- 표본의 크기가 30 이상인 경우
$$
Z=\frac{D-(\mu_1-\mu_2)}{S_D/\sqrt{n}}\sim\ N(0,1) \\ **각\ 대응표본의\ 차의\ 표본분산\ S_D^2=\frac{\sum(D_i-D)^2}{n-1} \\ \bar{D}-z_{\frac{\alpha}{2}}S_D/\sqrt{n} < \mu_1-\mu_2 < \bar{D}+z_{\frac{\alpha}{2}}S_D/\sqrt{n}
$$

- 표본의 크기가 30 미만인 경우
$$
t=\frac{D-(\mu_1-\mu_2)}{S_D/\sqrt{n}}\sim\ t_{(n-1)} \\ **각\ 대응표본의\ 차의\ 표본분산\ S_D^2=\frac{\sum(D_i-D)^2}{n-1} \\ \bar{D}-t_{\frac{\alpha}{2}, n-1}S_D/\sqrt{n} < \mu_1-\mu_2 < \bar{D}+t_{\frac{\alpha}{2}, n-1}S_D/\sqrt{n}
$$

[가설 검정] 아래 t 분포를 활용한 검정을 '대응표본 t검정'이라고 한다
- 표본의 크기가 30이상인 경우의 통계량
$$
Z=\frac{D-D_0}{S_D/\sqrt{n}}\sim N(0,1) \\
**각\ 대응표본의\ 차의\ 표본분산\ S_D^2=\frac{\sum(D_i-D)^2}{n-1}
$$
- 표본의 크기가 30미만인 경우의 통계량
$$
t=\frac{D-D_0}{S_D/\sqrt{n}}\sim t_{(n-1)} \\
**각\ 대응표본의\ 차의\ 표본분산\ S_D^2=\frac{\sum(D_i-D)^2}{n-1}
$$

In [30]:
# 표본 크기가 30 미만인 경우
## 대응표본 모평균 차이의 추정
x1 = np.array([75, 83, 96, 77, 81, 90, 82, 67, 94, 85, 78, 82, 96, 80, 87, 81])
x2 = np.array([80, 90, 92, 75, 86, 90, 81, 70, 89, 88, 82, 79, 91, 90, 78, 89])
n = len(x1)
df = n-1
conf_a = 0.05

d = x1-x2
d_mean = np.mean(d)
d_std = np.sqrt(1/df * sum((d-d_mean)**2))
se = d_std / np.sqrt(n)
conf_t = stats.t.ppf(1-conf_a/2, df)
me = conf_t * se

print("[추정]")
print(f" 점 추정량: {d_mean:.3f}")
print(f" 구간 추정량: {d_mean-me:.3f}~{d_mean+me:.3f}")
print(f" 오차의 한계: {me:.3f}")

[추정]
 점 추정량: -1.000
 구간 추정량: -3.893~1.893
 오차의 한계: 2.893


In [31]:
## 대응표본 모평균 차이의 가설검정
test_a = 0.05
d0 = 0
d = x1 - x2
d_mean = np.mean(d)
d_std = np.sqrt(1/df * sum((d-d_mean)**2))
se = d_std / np.sqrt(n)
tstat = (d_mean - d0)/se

ways = 'two'
if ways == 'two':
    sp = (1-stats.t.cdf(np.abs(tstat), df))*2
    cv = stats.t.ppf(1-test_a/2, df)
    cv = f"+/- {cv:.3f}"
elif ways == 'one-right':
    sp = 1-stats.t.cdf(tstat, df)
    cv = stats.t.ppf(1-test_a, df)
    cv = f"{cv:.3f}"
elif ways == 'one-left':
    sp = stats.t.cdf(tstat, df)
    cv = stats.t.ppf(test_a, df)
    cv = f"{cv:.3f}"
    
print("[검정]")
print(f"임계값 : {cv}, 검정통계량 {tstat:.3f}")
print(f"유의수준: {test_a:.3f}, 유의확률: {sp:.3f}")    

[검정]
임계값 : +/- 2.131, 검정통계량 -0.737
유의수준: 0.050, 유의확률: 0.473


In [32]:
from scipy.stats import ttest_rel
tstat, p = ttest_rel(x1, x2, alternative='two-sided')
print("[라이브러리 검정]")
print(f" 검정통계량: {tstat:.3f}, 유의확률: {p:.3f}")

[라이브러리 검정]
 검정통계량: -0.737, 유의확률: 0.473


In [34]:
# 표본 크기가 30 이상인 경우
## 대응표본 모평균 차이의 추정
np.random.seed(0)
x1 = np.random.randint(80, 100, 40)
x2 = np.random.randint(80, 100, 40)
n = len(x1)
df = n-1
conf_a - 0.05

d = x1 - x2
d_mean = np.mean(d)
d_std = np.sqrt(1/df * sum((d-d_mean)**2))
se = d_std / np.sqrt(n)
conf_z = stats.norm.ppf(1-conf_a/2)
me = conf_z * se

print("[추정]")
print(f" 점 추정량: {d_mean:.3f}")
print(f" 구간 추정량: {d_mean-me:.3f}~{d_mean+me:.3f}")
print(f" 오차의 한계: {me:.3f}")

[추정]
 점 추정량: 2.275
 구간 추정량: -0.506~5.056
 오차의 한계: 2.781


In [36]:
## 대응표본 모평균 차이의 가설검정
# H0: 모평균의 차 = D0, H1: 모평균의 차 != D0
test_a = 0.05; d0 = 0;
d = x1-x2
d_mean = np.mean(d)
d_std = np.sqrt(1/df * sum((d-d_mean)**2))
se = d_std / np.sqrt(n)
zstat = (d_mean - d0) / se

ways = 'two'
if ways == 'two':
    sp = (1-stats.norm.cdf(np.abs(zstat)))*2
    cv = stats.norm.ppf(1-test_a/2)
    cv = f"+/- {cv:.3f}"
elif ways == 'one-right':
    sp = 1-stats.norm.cdf(zstat)
    cv = stats.norm.ppf(1-test_a)
    cv = f"{cv:.3f}"
elif ways == 'one-left':
    sp = stats.norm.cdf(zstat)
    cv = stats.norm.ppf(test_a)
    cv = f"{cv:.3f}"

print("[검정]")
print(f"임계값 : {cv}, 검정통계량 {zstat:.3f}")
print(f"유의수준: {test_a:.3f}, 유의확률: {sp:.3f}")    

[검정]
임계값 : +/- 1.960, 검정통계량 1.604
유의수준: 0.050, 유의확률: 0.109


In [37]:
from scipy.stats import ttest_rel
tstat, p = ttest_rel(x1, x2, alternative='two-sided')

print("[라이브러리 검정]")
print(f" 검정통계량: {tstat:.3f}, 유의확률: {p:.3f}")

[라이브러리 검정]
 검정통계량: 1.604, 유의확률: 0.117
