# Chap 12. 두 모집단의 비교

## 12.2 두 개의 독립표본
- 두 모집단으로부터 적당한 수의 표본을 추출하여 두 개의 독립인 표본을 얻게 된다.

### 모평균의 차$(\mu_1-\mu_2)$에 대한 추론 (표본의 크기가 클 때)
- 두 표본평균의 차 이용. 두 표본의 크기가 모두 큰 경우(30이상), 중심극한정리에 의해 $$\bar{X} \sim N(\mu_1, \frac{\sigma^2_1}{n_1}),\quad \bar{Y} \sim N(\mu_2, \frac{\sigma^2_2}{n_2}) \\ (\bar{X}\pm \bar{Y}) \sim N(\mu_1\pm \mu_2,\ \sigma^2_1+\sigma^2_2)$$

- 두 표본이 서로 독립이므로 두 표본의 차인 $\bar{X}-\bar{Y}$도 다음과 같은 정규분포를 따른다 $$(\bar{X}-\bar{Y})\sim N(\mu_1 - \mu_2,\ \frac{\sigma^2_1}{n_1}+\frac{\sigma_2^2}{n_2})$$

- 표준화 된 확률변수 $[(\bar{X}-\bar{Y})-(\mu_1-\mu_2)]/\sqrt{\sigma^2_1/n_1+\sigma^2_2/n_2}$ 표준정규분포를 따르고, 모분산을 모를 때에는 이를 표본분산으로 대체하여도 표준정규분포를 따른다. $$Z=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{s^2_1/n_1+s^2_2/n_2}}\sim\ N(0,1)$$

> 표본의 크기 $n_1과 n_2$가 모두 30이상일 때 $(\mu_1-\mu_2)$에 대한 $100(1-\alpha)$%의 신뢰구간은 $$(\bar{X}-\bar{Y})\pm z_{\alpha/2}\times \sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}$$

In [7]:
from scipy import stats
import numpy as np

In [10]:
# example 3 
n_a = 50
n_b = 100
mu_a = 453
mu_b = 401
s_a = 80
s_b = 60
alpha = 0.05

ci = [(mu_a-mu_b)-stats.norm.ppf(1-alpha/2)*np.sqrt(np.power(s_a,2)/n_a+np.power(s_b,2)/n_b), 
      (mu_a-mu_b)+stats.norm.ppf(1-alpha/2)*np.sqrt(np.power(s_a,2)/n_a+np.power(s_b,2)/n_b)]
ci

[26.90021421219224, 77.09978578780776]

In [21]:
# example 4
alpha = 0.01
z_val = (mu_a - mu_b)/(np.sqrt((np.power(s_a,2)/n_a + np.power(s_b,2)/n_b)))

# stats.norm.ppf(1-alpha/2)
print(stats.norm.cdf(z_val), z_val)

0.9999755179989782 4.060517809103758


### 모평균의 차$(\mu_1-\mu_2)$에 대한 추론 (표본의 크기가 작을 때)
- 표본의 크기가 작을 때는 일반적으로 두 모집단에 대하여 정규분포 가정 필요
- 두 모집단의 표준편차에 대한 가정 필요 : "두 모집단의 표준편차가 같거나 다르다"
    - 표본의 표준편차 이용 : $s_1/s_2$이용
    
> **표본의 크기가 작을 경우, 필요한 가정**
>
> 1) 두 모집단이 모두 정규분포를 따른다
>
> 2) 두 모집단의 표준편차가 일치한다 $(\sigma_1=\sigma_2=\sigma)$
$$(\bar{X}-\bar{Y}) \sim N(\mu_1 - \mu_2, \sigma^2(\frac{1}{n_1}+\frac{1}{n_2}))$$

- 공통 표준편차 $\sigma$를 모르는 (대다수 의) 경우, 추정량 필요
$$s^2_p=\frac{\sum^{n_1}_{i=1}(X_i-\bar{X})^2+\sum^{n_2}_{i=1}(Y_i-\bar{Y})^2}{n_1+n_2-2}=\frac{(n_1-1)s^2_1+(n_2-1)s^2_2}{n_1+n_2-2}$$

> 두 정규모집단에서 독립적으로 추출된 두 표본으로부터 얻게 되는 표준화된 확률변수는 자유도가 $(n_1+n_2-2)$인 t 분포를 따른다 $$t=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2)$$

> **모평균의 차$(\mu_1-\mu_2)$에 대한 신뢰구간 (모표준편차가 같을 때)**
>
> 두 모집단이 모두 정규분포를 다르고 두 모표준편차가 같을 때 $(\mu_1-\mu_2)$에 대한 $100(1-\alpha)$% 신뢰구간은 $$추정량 \pm (t값) \times (추정된\ 표준오차) \\(\bar{X}-\bar{Y})\pm t_{\alpha/2}(n_1+n_2-2)\times s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$$

> **$H_0\ :\ \mu_1-\mu_2=\delta_0$에 대한 검정(모표준편차가 같을 때)**
>
> 두 모집단이 모두 정규분포를 따르고 두 모표준편차가 같을 때 가설 $H_0:\mu_1-\mu_2=\delta_0$에 대한 검정통계량은 다음과 같다 $$t=\frac{(\bar{X}-\bar{Y})-\delta_0}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$$
> 검정통계량은 $H_0$이 맞을 때 자유도가 $(n_1+n_2-2)$인 t분포를 따른다. 각 대립가설에 대하여 유의수준 $\alpha$를 같는 기각역은 다음과 같다 $$H_1\ :\ \mu_1-\mu_2<\delta_0일때,\quad R:t\leq-t_a(n_1+n_2-2)\\ H_1\ :\ \mu_1-\mu_2>\delta_0일때,\quad R:t\geq t_a(n_1+n_2-2)\\ H_1\ :\ \mu_1-\mu_2\neq\delta_0일때,\quad R:|t|\geq-t_{\alpha/2}(n_1+n_2-2)$$

> **모평균의 차($\mu_1-\mu_2$)에 대한 추론 (표본의 크기가 작고 두 모표준편차가 다를 때)**
>
> 모평균의 차($\mu_1-\mu_2$)에 대한 $100(1-\alpha)$% 신뢰구간은 근사적으로 $$(\bar{X}-\bar{Y})\pm t*_{\alpha/2}(n_1+n_2-2)\times\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}$$
> 이때 t\*의 자유도는 $(n_1-1), (n_2-1)$ 중 작은 값이다
> 가설 $H_0:\mu_1-\mu_2=\delta_0$에 대한 검정통계량은 다음과 같다. $$t*=\frac{(\bar{X}-\bar{Y})-\delta_0}{\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}} $$
> 이 검정통계량은 $H_0$이 맞을 때 근사적으로 자유도가 $(n_1-1),\ (n_2-1)$중 작은 값인 t분포를 따른다. 보수적인 성질을 갖게 되어, 신뢰구간이 넓어지고 실제 신뢰도가 $100(1-\alpha)$% 이상이 된다. 검정의 경우 기각역이 좁아지는 경향으로 실제 유의수준이 $\alpha$이하가 되어 귀무가설을 기각하지 못할 가능성이 높게 된다


In [32]:
# example 5
data1 = [8,5,7,6,9,7]
data2 = [2,6,4,7,6]

sum_square1 = sum(list(map(lambda x : np.power(x,2),data1)))
sum_square2 = sum(list(map(lambda x : np.power(x,2),data2)))

s2_p=((sum_square1 - len(data1)*np.power(np.mean(data1),2))+(sum_square2 - len(data2)*np.power(np.mean(data2),2)))/(len(data1)+len(data2)-2)
s2_p

2.888888888888889

In [50]:
# example 6
nature_data = [44,44,56,46,47,38,58,53,49,35,46,30,41]
artif_data = [35,47,55,29,40,39,32,41,42,57,51,39]
alpha = 0.05

nature_bar = np.mean(nature_data)
artif_bar = np.mean(artif_data)
nature_std = np.std(nature_data, ddof=1)
artif_std = np.std(artif_data, ddof=1)

s_p = np.sqrt(((len(artif_data)-1)*np.power(artif_std,2) + (len(nature_data)-1)*np.power(nature_std,2))/(len(artif_data)+len(nature_data)-2))
t_alpha = stats.t.ppf(1-alpha/2, df=len(nature_data)+len(artif_data)-1)

ci = [(nature_bar - artif_bar)-t_alpha*s_p*np.sqrt((1/len(nature_data)+1/len(artif_data))), (nature_bar - artif_bar)+t_alpha*s_p*np.sqrt((1/len(nature_data)+1/len(artif_data)))]
ci


[-4.004393045812584, 9.81208535350489]

In [56]:
# example 7
t_val = (nature_bar - artif_bar) / (s_p * np.sqrt(1/len(nature_data) + 1/len(artif_data))); t_val
stats.t.cdf(t_val, df=len(nature_data)+len(artif_data)-2)

0.8026988376793643

In [57]:
# example 8
n1 = 13 ; n2 = 11
x_bar1 = 2.4 ; x_bar2 = 2.15
s1 = 0.72 ; s2 = 0.35
alpha = 0.05

t_val = (x_bar1 - x_bar2) / np.sqrt((s1**2/n1)+(s2**2/n2))
stats.t.cdf(t_val, df=n1+n2-2)

0.8598476654573151

In [60]:
# prob 2.2
n1 = 90; n2 = 100
bar1 = 76.4; bar2 = 81.2
s1 = 8.2; s2 = 7.6
alpha = 0.02

z_alpha = stats.norm.ppf(1-alpha/2)

print((bar1-bar2)-z_alpha * np.sqrt(s1**2/n1 + s2**2/n2), (bar1-bar2)+z_alpha * np.sqrt(s1**2/n1 + s2**2/n2))

-7.477535561851235 -2.1224644381487585


In [61]:
# prob 2.4 
n1 = 79 ; n2 = 62
bar1 = 109; bar2 = 128
s1 = 46.2 ; s2 = 53.4
alpha = 0.02

z_alpha = stats.norm.ppf(1-alpha/2)

print((bar1-bar2)-z_alpha * np.sqrt(s1**2/n1 + s2**2/n2), (bar1-bar2)+z_alpha * np.sqrt(s1**2/n1 + s2**2/n2))

-38.87784026658479 0.8778402665847906


In [63]:
# prob 2.6
# 1
n1 = 66; n2 = 38
bar1 = 305 ; bar2 = 311
s1 = 29 ; s2 = 40
alpha = 0.01

z_val = (bar1 - bar2) / np.sqrt(s1**2/n1 + s2**2/n2)
stats.norm.cdf(z_val)

0.20892341873493436

In [68]:
# 2
z_alpha = stats.norm.ppf(1-alpha/2)
print((bar1-bar2)-z_alpha * np.sqrt(s1**2/n1 + s2**2/n2), (bar1-bar2)+z_alpha * np.sqrt(s1**2/n1 + s2**2/n2))

-25.07639207780786 13.07639207780786


In [70]:
# prob 2.8
# bar1 > bar2 ; bar1 - bar2 > 0
n1 = 75 ; n2 = 64
bar1 = 130000 ; bar2 = 1200000
s1 = 170000 ; s2 = 160000
alpha = 0.05

z_val = (bar1 - bar2) / np.sqrt(s1**2/n1 + s2**2/n2); print(z_val)
#stats.norm.cdf(z_val)

-38.18183196260197


In [72]:
# prob 2.10
n1 = 48 ; bar1 = 7.92 ; s1 = 3.45
n2 = 38 ; bar2 = 5.8 ; s2 = 2.87
z_val = (bar1 - bar2) / np.sqrt(s1**2/n1 + s2**2/n2); print(z_val)
stats.norm.cdf(z_val)

3.1098242423786364


0.9990640065139811

In [89]:
# prob 2.12
# - 모집단이 정규분포
# 1
n1 = 9; n2 = 6
bar1 = 16.18 ; bar2 = 4.22
s1 = 1.54 ; s2 = 1.37
alpha = 0.05

s_p = np.sqrt(((n1-1)*s1**2 + (n2-1)*s2**2)/(n1+n2-2))
t_alpha = stats.t.ppf(1-alpha/2, df=n1+n2-2)
ci = [(bar1-bar2)-t_alpha * s_p * np.sqrt(1/n1+1/n2), (bar1-bar2)+t_alpha * s_p * np.sqrt(1/n1+1/n2)]
ci

[10.278343152337277, 13.641656847662725]

In [92]:
# 2
alpha = 0.025

t_val = (bar1-bar2-10) / (s_p * np.sqrt(1/n1 + 1/n2))
stats.t.cdf(1-t_val, df=n1+n2-2)

0.0764828089830108

In [95]:
print(t_val)
print(stats.t.ppf(1-alpha, df=n1+n2-2))

2.5179468525631274
2.1603686564610127


In [108]:
# prob 2.14
# 1
n1 = 7 ; n2 = 8
bar1 = 86.2 ; bar2 = 74.7
s1 = 14.2 ; s2 = 5.5
alpha = 0.02

t_alpha = stats.t.ppf(1-alpha/2, df=n1+n2-2)
# s_p = np.sqrt(((n1-1)*(s1**2) + (n2-1)*(s2**2))/(n1+n2-2))
ci = [(bar1-bar2) - t_alpha * np.sqrt(s1**2/n1 + s2**2/n2), (bar1-bar2) + t_alpha * np.sqrt(s1**2/n1+s2**2/n2)]
ci

[1.7763568394002505e-15, 26.629286152076144]

In [100]:
np.sqrt(((n1-1)*s1**2 + (n2-1)*s2**2)/(n1+n2-2))

10.4572021555996

In [82]:
# prob 2.16
n1 = 52 ; n2= 67
bar1 = 2.52 ; bar2 = 1.63
s1 = 1.84 ; s2 = 1.22
# bar1 - bar2 > 0?
z_val = (bar1-bar2) / np.sqrt(s1**2/n1 + s2**2/n2)
stats.norm.cdf(-z_val)

0.0012985032427069922