# Chap 12. 두 모집단의 비교

## 12.2 두 개의 독립표본
- 두 모집단으로부터 적당한 수의 표본을 추출하여 두 개의 독립인 표본을 얻게 된다.

### 모평균의 차$(\mu_1-\mu_2)$에 대한 추론 (표본의 크기가 클 때)
- 두 표본평균의 차 이용. 두 표본의 크기가 모두 큰 경우(30이상), 중심극한정리에 의해 $$\bar{X} \sim N(\mu_1, \frac{\sigma^2_1}{n_1}),\quad \bar{Y} \sim N(\mu_2, \frac{\sigma^2_2}{n_2}) \\ (\bar{X}\pm \bar{Y}) \sim N(\mu_1\pm \mu_2,\ \sigma^2_1+\sigma^2_2)$$

- 두 표본이 서로 독립이므로 두 표본의 차인 $\bar{X}-\bar{Y}$도 다음과 같은 정규분포를 따른다 $$(\bar{X}-\bar{Y})\sim N(\mu_1 - \mu_2,\ \frac{\sigma^2_1}{n_1}+\frac{\sigma_2^2}{n_2})$$

- 표준화 된 확률변수 $[(\bar{X}-\bar{Y})-(\mu_1-\mu_2)]/\sqrt{\sigma^2_1/n_1+\sigma^2_2/n_2}$ 표준정규분포를 따르고, 모분산을 모를 때에는 이를 표본분산으로 대체하여도 표준정규분포를 따른다. $$Z=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{s^2_1/n_1+s^2_2/n_2}}\sim\ N(0,1)$$

> 표본의 크기 $n_1과 n_2$가 모두 30이상일 때 $(\mu_1-\mu_2)$에 대한 $100(1-\alpha)$%의 신뢰구간은 $$(\bar{X}-\bar{Y})\pm z_{\alpha/2}\times \sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}$$

In [7]:
from scipy import stats
import numpy as np

In [10]:
# example 3 
n_a = 50
n_b = 100
mu_a = 453
mu_b = 401
s_a = 80
s_b = 60
alpha = 0.05

ci = [(mu_a-mu_b)-stats.norm.ppf(1-alpha/2)*np.sqrt(np.power(s_a,2)/n_a+np.power(s_b,2)/n_b), 
      (mu_a-mu_b)+stats.norm.ppf(1-alpha/2)*np.sqrt(np.power(s_a,2)/n_a+np.power(s_b,2)/n_b)]
ci

[26.90021421219224, 77.09978578780776]

In [21]:
# example 4
alpha = 0.01
z_val = (mu_a - mu_b)/(np.sqrt((np.power(s_a,2)/n_a + np.power(s_b,2)/n_b)))

# stats.norm.ppf(1-alpha/2)
print(stats.norm.cdf(z_val), z_val)

0.9999755179989782 4.060517809103758


### 모평균의 차$(\mu_1-\mu_2)$에 대한 추론 (표본의 크기가 작을 때)
- 표본의 크기가 작을 때는 일반적으로 두 모집단에 대하여 정규분포 가정 필요
- 두 모집단의 표준편차에 대한 가정 필요 : "두 모집단의 표준편차가 같거나 다르다"
    - 표본의 표준편차 이용 : $s_1/s_2$이용
    
> **표본의 크기가 작을 경우, 필요한 가정**
>
> 1) 두 모집단이 모두 정규분포를 따른다
>
> 2) 두 모집단의 표준편차가 일치한다 $(\sigma_1=\sigma_2=\sigma)$
$$(\bar{X}-\bar{Y}) \sim N(\mu_1 - \mu_2, \sigma^2(\frac{1}{n_1}+\frac{1}{n_2}))$$

- 공통 표준편차 $\sigma$를 모르는 (대다수 의) 경우, 추정량 필요
$$s^2_p=\frac{\sum^{n_1}_{i=1}(X_i-\bar{X})^2+\sum^{n_2}_{i=1}(Y_i-\bar{Y})^2}{n_1+n_2-2}=\frac{(n_1-1)s^2_1+(n_2-1)s^2_2}{n_1+n_2-2}$$

> 두 정규모집단에서 독립적으로 추출된 두 표본으로부터 얻게 되는 표준화된 확률변수는 자유도가 $(n_1+n_2-2)$인 t 분포를 따른다 $$t=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2)$$

> **모평균의 차$(\mu_1-\mu_2)$에 대한 신뢰구간 (모표준편차가 같을 때)**
>
> 두 모집단이 모두 정규분포를 다르고 두 모표준편차가 같을 때 $(\mu_1-\mu_2)$에 대한 $100(1-\alpha)$% 신뢰구간은 $$추정량 \pm (t값) \times (추정된\ 표준오차) \\(\bar{X}-\bar{Y})\pm t_{\alpha/2}(n_1+n_2-2)\times s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$$

> **$H_0\ :\ \mu_1-\mu_2=\delta_0$에 대한 검정(모표준편차가 같을 때)**
>
> 두 모집단이 모두 정규분포를 따르고 두 모표준편차가 같을 때 가설 $H_0:\mu_1-\mu_2=\delta_0$에 대한 검정통계량은 다음과 같다 $$t=\frac{(\bar{X}-\bar{Y})-\delta_0}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$$
> 검정통계량은 $H_0$이 맞을 때 자유도가 $(n_1+n_2-2)$인 t분포를 따른다. 각 대립가설에 대하여 유의수준 $\alpha$를 같는 기각역은 다음과 같다 $$H_1\ :\ \mu_1-\mu_2<\delta_0일때,\quad R:t\leq-t_a(n_1+n_2-2)\\ H_1\ :\ \mu_1-\mu_2>\delta_0일때,\quad R:t\geq t_a(n_1+n_2-2)\\ H_1\ :\ \mu_1-\mu_2\neq\delta_0일때,\quad R:|t|\geq-t_{\alpha/2}(n_1+n_2-2)$$

> **모평균의 차($\mu_1-\mu_2$)에 대한 추론 (표본의 크기가 작고 두 모표준편차가 다를 때)**
>
> 모평균의 차($\mu_1-\mu_2$)에 대한 $100(1-\alpha)$% 신뢰구간은 근사적으로 $$(\bar{X}-\bar{Y})\pm t*_{\alpha/2}(n_1+n_2-2)\times\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}$$
> 이때 t\*의 자유도는 $(n_1-1), (n_2-1)$ 중 작은 값이다
> 가설 $H_0:\mu_1-\mu_2=\delta_0$에 대한 검정통계량은 다음과 같다. $$t*=\frac{(\bar{X}-\bar{Y})-\delta_0}{\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}} $$
> 이 검정통계량은 $H_0$이 맞을 때 근사적으로 자유도가 $(n_1-1),\ (n_2-1)$중 작은 값인 t분포를 따른다. 보수적인 성질을 갖게 되어, 신뢰구간이 넓어지고 실제 신뢰도가 $100(1-\alpha)$% 이상이 된다. 검정의 경우 기각역이 좁아지는 경향으로 실제 유의수준이 $\alpha$이하가 되어 귀무가설을 기각하지 못할 가능성이 높게 된다


In [32]:
# example 5
data1 = [8,5,7,6,9,7]
data2 = [2,6,4,7,6]

sum_square1 = sum(list(map(lambda x : np.power(x,2),data1)))
sum_square2 = sum(list(map(lambda x : np.power(x,2),data2)))

s2_p=((sum_square1 - len(data1)*np.power(np.mean(data1),2))+(sum_square2 - len(data2)*np.power(np.mean(data2),2)))/(len(data1)+len(data2)-2)
s2_p

2.888888888888889

In [50]:
# example 6
nature_data = [44,44,56,46,47,38,58,53,49,35,46,30,41]
artif_data = [35,47,55,29,40,39,32,41,42,57,51,39]
alpha = 0.05

nature_bar = np.mean(nature_data)
artif_bar = np.mean(artif_data)
nature_std = np.std(nature_data, ddof=1)
artif_std = np.std(artif_data, ddof=1)

s_p = np.sqrt(((len(artif_data)-1)*np.power(artif_std,2) + (len(nature_data)-1)*np.power(nature_std,2))/(len(artif_data)+len(nature_data)-2))
t_alpha = stats.t.ppf(1-alpha/2, df=len(nature_data)+len(artif_data)-1)

ci = [(nature_bar - artif_bar)-t_alpha*s_p*np.sqrt((1/len(nature_data)+1/len(artif_data))), (nature_bar - artif_bar)+t_alpha*s_p*np.sqrt((1/len(nature_data)+1/len(artif_data)))]
ci


[-4.004393045812584, 9.81208535350489]

In [56]:
# example 7
t_val = (nature_bar - artif_bar) / (s_p * np.sqrt(1/len(nature_data) + 1/len(artif_data))); t_val
stats.t.cdf(t_val, df=len(nature_data)+len(artif_data)-2)

0.8026988376793643

In [57]:
# example 8
n1 = 13 ; n2 = 11
x_bar1 = 2.4 ; x_bar2 = 2.15
s1 = 0.72 ; s2 = 0.35
alpha = 0.05

t_val = (x_bar1 - x_bar2) / np.sqrt((s1**2/n1)+(s2**2/n2))
stats.t.cdf(t_val, df=n1+n2-2)

0.8598476654573151

In [60]:
# prob 2.2
n1 = 90; n2 = 100
bar1 = 76.4; bar2 = 81.2
s1 = 8.2; s2 = 7.6
alpha = 0.02

z_alpha = stats.norm.ppf(1-alpha/2)

print((bar1-bar2)-z_alpha * np.sqrt(s1**2/n1 + s2**2/n2), (bar1-bar2)+z_alpha * np.sqrt(s1**2/n1 + s2**2/n2))

-7.477535561851235 -2.1224644381487585


In [61]:
# prob 2.4 
n1 = 79 ; n2 = 62
bar1 = 109; bar2 = 128
s1 = 46.2 ; s2 = 53.4
alpha = 0.02

z_alpha = stats.norm.ppf(1-alpha/2)

print((bar1-bar2)-z_alpha * np.sqrt(s1**2/n1 + s2**2/n2), (bar1-bar2)+z_alpha * np.sqrt(s1**2/n1 + s2**2/n2))

-38.87784026658479 0.8778402665847906


In [63]:
# prob 2.6
# 1
n1 = 66; n2 = 38
bar1 = 305 ; bar2 = 311
s1 = 29 ; s2 = 40
alpha = 0.01

z_val = (bar1 - bar2) / np.sqrt(s1**2/n1 + s2**2/n2)
stats.norm.cdf(z_val)

0.20892341873493436

In [68]:
# 2
z_alpha = stats.norm.ppf(1-alpha/2)
print((bar1-bar2)-z_alpha * np.sqrt(s1**2/n1 + s2**2/n2), (bar1-bar2)+z_alpha * np.sqrt(s1**2/n1 + s2**2/n2))

-25.07639207780786 13.07639207780786


In [13]:
# prob 2.8
# bar1 > bar2 ; bar1 - bar2 > 0
n1 = 75 ; n2 = 64
bar1 = 130000 ; bar2 = 1200000
s1 = 170000 ; s2 = 160000
alpha = 0.05

z_val = (bar1 - bar2) / np.sqrt(s1**2/n1 + s2**2/n2); print(z_val)
stats.norm.cdf(z_val)

-38.18183196260197


0.0

In [16]:
# prob 2.10
# bar1 < bar2 ? 
n1 = 48 ; bar1 = 7.92 ; s1 = 3.45
n2 = 38 ; bar2 = 5.8 ; s2 = 2.87
alpha = 0.05

z_alpha = -stats.norm.ppf(alpha) ; print(z_alpha)
z_val = (bar1 - bar2) / np.sqrt(s1**2/n1 + s2**2/n2); print(z_val)
stats.norm.cdf(z_val)

1.6448536269514729
3.1098242423786364


0.9990640065139811

In [18]:
# prob 2.12
# - 모집단이 정규분포
# 1 : bar1 - bar2 95% ci?
n1 = 9; n2 = 6
bar1 = 16.18 ; bar2 = 4.22
s1 = 1.54 ; s2 = 1.37
alpha = 0.05

s_p = np.sqrt(((n1-1)*s1**2 + (n2-1)*s2**2)/(n1+n2-2))
t_alpha = stats.t.ppf(1-alpha/2, df=n1+n2-2)
ci = [(bar1-bar2)-t_alpha * s_p * np.sqrt(1/n1+1/n2), (bar1-bar2)+t_alpha * s_p * np.sqrt(1/n1+1/n2)]
ci

[10.278343152337277, 13.641656847662725]

In [20]:
# 2
# H0 : bar1 - bar2 = 10 / H1 : bar1-bar2>10
alpha = 0.01

t_val = (bar1-bar2-10) / (s_p * np.sqrt(1/n1 + 1/n2)); print(t_val)
t_alpha = stats.t.ppf(1-alpha, df=n1+n2-2); print(t_alpha)
stats.t.cdf(1-t_val, df=n1+n2-2)

2.5179468525631274
2.6503088378527013


0.0764828089830108

In [49]:
# prob 2.14
# 두 모집단의 표준편차는 다르다
# 1 : bar1 - bar2, 98% ci
n1 = 7 ; n2 = 8
bar1 = 86.2 ; bar2 = 74.7
s1 = 14.2 ; s2 = 5.5
alpha = 0.02

t_alpha = stats.t.ppf(1-alpha, df=n1-1)
# t_alpha = stats.norm.ppf(1-alpha)

ci = [(bar1-bar2) - t_alpha * np.sqrt(s1**2/n1 + s2**2/n2), (bar1-bar2) + t_alpha * np.sqrt(s1**2/n1+s2**2/n2)]
ci

[-3.411980729699348, 26.411980729699348]

In [32]:
# case t-dist
t_alpha = stats.t.ppf(1-alpha/2, df=n1+n2-2)
# t_alpha = stats.norm.ppf(1-alpha)

ci = [(bar1-bar2) - t_alpha * np.sqrt(s1**2/n1 + s2**2/n2), (bar1-bar2) + t_alpha * np.sqrt(s1**2/n1+s2**2/n2)]
ci

[-3.629286152076144, 26.629286152076144]

In [33]:
# case std same
s_p = np.sqrt(((n1-1)*s1**2 + (n2-1)*s2**2)/(n1+n2-2))
t_alpha = stats.t.ppf(1-alpha/2, df=n1+n2-2)

ci = [(bar1-bar2) - t_alpha * s_p * np.sqrt(1/n1 + 1/n2), (bar1-bar2) + t_alpha * s_p * np.sqrt(1/n1 + 1/n2)]
ci

[-2.843779637510451, 25.84377963751045]

In [36]:
# 2. H0 : bar1-bar2 = 20,  H1 : bar1-bar2 < 20?
alpha = 0.025

t_val = (bar1-bar2) - 20 / (np.sqrt(s1**2/n1+s2**2/n2))
stats.t.cdf(-t_val, df=n1+n2-2)

1.1235252918598552e-06

In [39]:
# prob 2.16
n1 = 52 ; n2= 67
bar1 = 2.52 ; bar2 = 1.63
s1 = 1.84 ; s2 = 1.22
# bar1 - bar2 > 0?
z_val = (bar1-bar2) / np.sqrt(s1**2/n1 + s2**2/n2); print(z_val)
stats.norm.cdf(z_val)

3.0118034995258207


0.998701496757293

In [48]:
# prob 2.18
n1 = 20; n2 = 10
bar1 = 46.3 ; bar2 = 38.5
s1 = 5 ; s2 = 5.8
alpha = 0.02

# 98% ci?
# 모집단 정규분포 가정 & 모 표준편차는 다름

t_alpha = stats.t.ppf(1-alpha,df=n2-1)
ci = [(bar1-bar2) - t_alpha * np.sqrt(s1**2/n1 + s2**2/n2), (bar1-bar2) + t_alpha * np.sqrt(s1**2/n1 + s2**2/n2)]
ci

[2.648095168665095, 12.9519048313349]

In [68]:
# prob 2.20
# 1. bar1 - bar2 < 0?
n1 = 10 ; n2=10
data1 = [15,20,11,23,16,21,18,16,27,24]
data2 = [23,31,13,19,23,17,28,16,25,28]
bar1 = np.mean(data1); s1 = np.std(data1, ddof=1)
bar2 = np.mean(data2); s2 = np.std(data2, ddof=1)
alpha = 0.05

# 2.
# print(bar1-bar2)
t_alpha = stats.t.ppf(alpha,df=n2-1)
t_val = (bar1-bar2)/np.sqrt(s1**2/n1+s2**2/n2)
print(t_alpha, t_val)
ci = [(bar1-bar2) - t_alpha * np.sqrt(s1**2/n1 + s2**2/n2), (bar1-bar2) + t_alpha * np.sqrt(s1**2/n1 + s2**2/n2)]
ci

-1.8331129326536337 -1.3274567757165552


[1.2189471866797383, -7.618947186679737]

In [65]:
# prob 2.22
n1 = 6 ; n2 = 6
bar1 = 41.8 ; bar2 = 60.8
s1 = 7.6 ; s2 = 16.4

# 모집단 정규본포 & 모집단의 모 표준편차 다름
# bar1 - bar2 = 0 or bar1 - bar2 < 0

alpha = 0.05
t_alpha = stats.t.ppf(alpha, df=n1-1)
t_val = (bar1-bar2)/np.sqrt(s1**2/n1+s2**2/n2)
print(t_alpha, t_val)

-2.0150483726691575 -2.5747873451362637


In [81]:
# prob 2.24
# sample means subtraction's 98% confidence interval
# prep : both populations are normally distributed
# 1
n1 = 15; n2 = 11
bar1 = 28.1 ; bar2 = 30
s1 = 3.6 ; s2 = 5.2
alpha = 0.02

t_alpha = stats.t.ppf(1-alpha, df=min(n1,n2)-1)
ci = [(bar1-bar2)-t_alpha*np.sqrt(s1**2/n1 + s2**2/n2),
     (bar1-bar2)+t_alpha*np.sqrt(s1**2/n1 + s2**2/n2)]
ci

[-6.200288157315095, 2.4002881573150976]

In [77]:
# 2
# normal dist due to large sample size
n1 = 130; n2 = 96
bar1 = 410 ; bar2 = 390
s1 = 26 ; s2 = 42
alpha = 0.02

z_alpha = stats.norm.ppf(1-alpha/2)
ci = [(bar1-bar2)-z_alpha*np.sqrt(s1**2/n1 + s2**2/n2),
     (bar1-bar2)+z_alpha*np.sqrt(s1**2/n1 + s2**2/n2)]
ci

[8.704628770504883, 31.295371229495117]

In [79]:
# 3
# t dist
n1 = 12; n2 = 14
bar1 = 1.25 ; bar2 = 1.32
s1 = 0.082 ; s2 = 0.326
alpha = 0.02

t_alpha = stats.t.ppf(1-alpha/2, df=min(n1,n2)-1)
ci = [(bar1-bar2)-t_alpha*np.sqrt(s1**2/n1 + s2**2/n2),
     (bar1-bar2)+t_alpha*np.sqrt(s1**2/n1 + s2**2/n2)]
ci

[-0.31540320857508075, 0.17540320857508063]

In [82]:
# 4
# normal dist due to large sample size
n1 = 60; n2 = 50
bar1 = 75.6 ; bar2 = 62.5
s1 = 17.6 ; s2 = 6.8
alpha = 0.02

z_alpha = stats.norm.ppf(1-alpha/2)
ci = [(bar1-bar2)-z_alpha*np.sqrt(s1**2/n1 + s2**2/n2),
     (bar1-bar2)+z_alpha*np.sqrt(s1**2/n1 + s2**2/n2)]
ci

[7.3602502709123, 18.83974972908769]

## 12.3 짝비교
- 처리효과 비교 : 반응값들의 차이가 처리효과 차이에 의해서만 발생 필요 => 실제로 만족시키기 어려움, 차라리 다양한 실험단위를 대상으로 비교 필요
- 짝비교 (matched pair comparisons): 실험단위들을 짝지어, 각각의 쌍으로 만듬. 
    - 같은 쌍의 단위는 서로 비슷 & 다른 쌍의 실험단위와는 서로 다른 조건
    - **각 쌍에서 처리효과를 비교함으로써 실험단위들이 비슷해야한다는 조건을 만족시킬 뿐 만 아니라 각 쌍들의 조건을 다르게 함으로써 다양한 조건의 실험단위를 대상으로 비교해야한다는 조건 만족**
    ex) 두 치료제 모두 나이에 따라 치료효과의 차이가 많다. 어린 환자쌍에서는 $X_i$, $Y_i$ 모두 작음. $X_i, Y_i$는 높은 상관관계, 각 쌍의 나이가 서로 비슷하므로 나이에 의한 차이를 어느정도 제거 가능하고(다양한 나이의 사람들을 임의로 나누어 비교하면 나누어진 그룸의 나이 분포에 따라 반응 값의 차이가 많이 날 것), 두 치료제의 치료효과 잘 얻을 수 있음 => 상관관계 비슷한 것 끼리 짝지어 전체적인 변화의 폭을 줄임
    
> **평균 차(처리효과의 차) $\delta$에 대한 추론 (표본의 크기가 작을 때)**
>
>  두 반응값의 차 $D_1, D_2, \dots, D_n$을 $N(\delta, \sigma_D^2)$로부터 추출한 표본이라고 하자. 이때 표본의 평균과 표준편차를 구하면 다음과 같다. $$\bar{D}=\frac{1}{n}\sum^n_{i=1}D_i,\quad s^2_D=\frac{\sum^n_{i=1}(D_i-\bar{D})^2}{n-1}$$
>(1) 모평균 $\delta$에 대한 $100(1-\alpha)$% 신뢰구간은 다음과 같이 구할 수 있다 $$\bar{D}\pm t_{\alpha/2}(n-1)\times s_D/\sqrt{n}$$
>(2) 귀무가설 $H_0:\delta=\delta_0$에 대한 검정통계량은 $$t=\frac{\bar{D}-\delta_0}{s_D/\sqrt{n}}$$
>이고, $H_0$이 맞을 때, 자유도가 (n-1)인 t분포를 따른다.

* 표본의 크기가 크다면 정규분포 이용
- 각 쌍마다 두 가지 처리가 미리 정해져 있지 않아서(처리가 확실히 정해져 있지 않아서), 어떻게 배정할 것인가가 과제가 된다면, 확률적으로 환자에게 여러 조건들이 한 쪽의 처리에만 영향을 주지 않도록 무작위로 배정 : **랜덤화**

In [115]:
def get_std(d):
    result = 0
    for i in range(len(d)):
        temp = (d[i] - np.mean(d))**2
        result = result + temp

    return np.sqrt(result/(len(d)-1))


In [83]:
# example 9
# 1
alpha = 0.05
d = [2,8,10,6,18,10,4,26,18,-8,0,32,0,-4,10]
bar = np.mean(d)
s = np.std(d, ddof=1)

t_alpha = stats.t.ppf(1-alpha/2, df=len(d)-1)
ci = [bar-t_alpha*s/np.sqrt(len(d)), bar+t_alpha*s/np.sqrt(len(d))]
ci

[2.7220831430525037, 14.877916856947497]

In [88]:
# 2
# H0 : d = 0; H1 : d > 0
alpha = 0.01
n = len(d)
t_val = (bar)/(s/np.sqrt(n)); print(t_val)
t_alpha = stats.t.ppf(1-alpha, df=n-1) ; print(t_alpha)
stats.t.cdf(t_val,df=n-1)

3.1053604874661094
2.624494067560231


0.9961252819466729

In [95]:
# prob 3.2
# 1
x = [5,3,7,5,8,7] ; y=[4,2,4,6,8,9]
d = np.subtract(x,y)

t_val = np.mean(d)/(np.std(d, ddof=1)/np.sqrt(len(d)))
t_val

0.4662524041201567

In [96]:
# 2
len(d)-1

5

In [97]:
# prob 3.6
alpha = 0.05
yes = [68,75,62,86,52,46,72]
no = [61, 69, 64, 76, 52, 38, 68]
d = np.subtract(yes, no)

t_val = np.mean(d)/(np.std(d, ddof=1)/np.sqrt(len(d))) ; print(t_val)
t_alpha = stats.t.ppf(1-alpha, df = len(d)-1) ; print(t_alpha)

2.868661559608736
1.9431802803927816


In [121]:
# prob 3.8
yes = [35, 48, 65, 33, 61, 54, 49, 37, 58, 65]
no = [33, 40, 55, 41, 62, 54, 40, 35, 59, 56]
d = np.subtract(yes, no)
alpha = 0.02

bar = np.mean(d) ; s_d = np.std(d, ddof=1)
t_alpha = stats.t.ppf(1-alpha/2, df=len(d)-1)

print(bar, t_alpha*s_d/np.sqrt(len(d)))

3.0 5.2363671737633135


In [126]:
# prob 3.10
a = [90, 86, 72, 65, 44, 52, 46, 38, 43]
b = [85, 87, 70, 62, 44, 53, 42, 35, 46]
d = np.subtract(a, b)
alpha = 0.05
n = len(d) ; s = np.std(d, ddof=1)

t_val = np.mean(d)/(s / np.sqrt(n))
t_alpha = stats.t.ppf(1-alpha/2,df=n-1)
print(t_val, t_alpha)
print(stats.t.cdf(t_val, df=n-1))

1.4855627054164149 2.3060041350333704
0.9121506409446661


In [127]:
# prob 3.12
# 1
a = [23, 39, 19, 28, 42, 43, 33, 29]
b = [20, 21, 40, 34, 33, 18, 33, 21]
d = np.subtract(a,b)
n = len(d); s=np.std(d, ddof=1)
alpha = 0.05

t_val = np.mean(d) / (s/np.sqrt(n))
stats.t.cdf(t_val, df=n-1)

0.799560732754004

## 12.4 두 모비율 차에 대한 추론
- 두 모집단의 비율 $p_1-p_2$=0에 대한 가설검정
$$\hat{p_1}=\frac{X}{n_1}\sim N(p_1,\ \frac{p_1(1-p_1)}{n_1}),\quad \hat{p_2}=\frac{X}{n_2}\sim N(p_2,\ \frac{p_2(1-p_2)}{n_2})$$

- 두 표본이 서로 독립이므로, 정규분포의 성질을 이용하면 평균이 $(p_1-p_2)$, 분산이 $p_1(1-p_1)/n_1+p_2(1-p_2)/n_2$인 정규분포를 따른다.
$$Z=\frac{(\hat{p_1}-\hat{p_2}-(p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2}{n_2}}}\sim\ n(0,\ 1)$$

> **모비율의 차 $(p_1-p_2)$에 대한 신뢰구간 (표본의 크기가 클 때)** 
>
>$(p_1-p_2)$에 대한 신뢰구간은 $(추정량)\pm (z값) \times (표준오차)$의 식에 따라 $$(\hat{p_1}-\hat{p_2})\pm z_{\alpha/2}\times \sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}$$

-  표본의 크기가 클 때 두 모비율이 같은가 검정, H0:$p_1=p_2$ $$(\hat{p_1}-\hat{p_2})\sim N(0,\ p(1-p)(\frac{1}{n_1}+\frac{1}{n_2}))$$
    - p는 모비율이 같은 두 모집단의 공통 비율 : $$\hat{p}=\frac{X+Y}{n_1+n_2}$$
    
> **$H_0:p_1=p_2$에 대한 검정 (표본의 크기가 클 때)**    
> $$ Z=\frac{(\hat{p_1}-\hat{p_2})}{\sqrt{\hat{p}(1-\hat{p}}\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} $$
>$\hat{p}=\frac{X+Y}{n_1+n_2}$는 귀무가설 하에서 공통비율 p추정량
>
>각 대립가설에 대하여 유의수준 $\alpha$를 갖는 기각역은 다음과 같다.
>
> $$H_1:p_1>p_2일 때,\quad R\ :\ Z\geq z_{\alpha} \\ H_1:p_1<p_2일 때,\quad R\ :\ Z\leq -z_{\alpha} \\ 
H_1:p_1\neq p_2일 때,\quad R\ :\ |Z|\geq z_{\alpha/2}$$

In [132]:
# example 10
n1 = 100 ; n2 = 150
p1 = 88/100 ; p2 = 126/150 ; diff = p1-p2
alpha = 0.05
z_alpha = stats.norm.ppf(1-alpha/2)

print(diff, z_alpha * np.sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2))

0.040000000000000036 0.08659403915971892


In [149]:
# example 11
# H0 : p1=p2
p = (p1*n1+p2*n2)/(n1+n2)
z_val = (p1-p2)/(np.sqrt(p*(1-p))*np.sqrt(1/n1+1/n2)); print(z_val)
z_alpha = stats.norm.ppf(1-alpha); print(z_alpha)
print(stats.norm.cdf(z_val))

0.8825056370227606
1.6448536269514722
0.8112482836210018


In [153]:
# prob 4.2
# 1
n1 = 62+38 ; n2 = 29+71
p1 = 62/n1 ; p2 = 29/n2
alpha = 0.05

p = (p1*n1+p2*n2)/(n1+n2)
z_val = (p1-p2)/(np.sqrt(p * (1-p)) * np.sqrt(1/n1+1/n2))
z_alpha = stats.norm.ppf(1-alpha/2)
print(z_val, z_alpha)

4.685921324041449 1.959963984540054


In [154]:
# 2
# p1 - p2, 95% CI
print(p1-p2)
print(z_alpha * np.sqrt((p1*(1-p1)/n1)+(p2*(1-p2)/n2)))

0.33
0.13023072100454852


In [156]:
# prob 4.3
# 1 : p1-p2 < 0 ?
n1 = 52+68 ; n2 = 88+62
p1 = 52/n1 ; p2 = 88/n2
alpha = 0.05

p = (p1*n1+p2*n2)/(n1+n2)
z_val = (p1-p2)/(np.sqrt(p * (1-p)) * np.sqrt(1/n1+1/n2))
z_alpha = stats.norm.ppf(alpha/2)
print(z_val, z_alpha)

-2.505641985248842 -1.9599639845400545


In [158]:
# p1 - p2, 95% CI
z_alpha = stats.norm.ppf(1-alpha/2)
print(p1-p2)
print(z_alpha * np.sqrt((p1*(1-p1)/n1)+(p2*(1-p2)/n2)))

-0.15333333333333332
0.11862055821587053


In [161]:
# prob 4.4
print(p1)
print(z_alpha * np.sqrt((p1*(1-p1)/n1)))

print(p2)
print(z_alpha * np.sqrt((p2*(1-p2)/n2)))

0.43333333333333335
0.08866094380932975
0.5866666666666667
0.07880402194230698


In [166]:
# prob 4.6
n1 = 16+33 ; n2 = 42+12
p1 = 16/n1 ; p2 = 42/n2
alpha = 0.01

z_alpha = stats.norm.ppf(1-alpha/2)
print(p1-p2)
print(z_alpha * np.sqrt((p1*(1-p1)/n1)+(p2*(1-p2)/n2)))

-0.45124716553287986
0.22586156780611705


In [171]:
# prob 4.8
n1 = 21+85 ; n2 = 11+120
p1 = 21/n1 ; p2 = 11/n2
alpha = 0.05

z_alpha = stats.norm.ppf(1-alpha/2)
print(p1-p2)
print(z_alpha * np.sqrt((p1*(1-p1)/n1)+(p2*(1-p2)/n2)))

0.11414374189831486
0.08951448120233027
