⭐ 비율검정엔 Z분포를 사용한다 ⭐

# [ 일표본 비율 검정 (모비율 검정) ]

## 예시
모집단의 미지의 비율에 대한 가설검정이 필요한 몇 가지 예시를 들어보자.

- 1) 금년도 대통령 선거에서 특정 후보의 지지율이 과연 50%를 넘을까?
- 2) 작년도 실업률이 7%이었다고 한다. 올해의 실업률은 높아졌는가?
- 3) 자동차 부속품 1만개를 배로 수입하는데 과거의 경험으로 보아 이중 2%가 불량품이었다. 이번에도 불량품이 2%일까?

## 검정통계량
- $n : 시행횟수$
- $y : 성공횟수$
- $\hat p = \cfrac{y}{n}$
- $p_0 : 어떤 \;정해진\; 성공확률$


$$ Z =  \cfrac {\cfrac{y}{n}- p_0}{\sqrt{\cfrac {p_0 (1-p_0)}{n}}} = \cfrac {\hat p - p_0}{\sqrt{\cfrac {p_0 (1-p_0)}{n}}} $$

- 검정통계량 추가 설명
    - 베르누이 시행을 n번 독립적으로 수행했을 때의 성공의 수 y에 대해 $H_0:p=p_0$이 사실이고 n이 매우 크면, $\cfrac{y}{n}$이 근사적으로 정규분포 $N(p_0,\cfrac {p_0 (1-p_0)}{n})$를 따른다는 사실을 이용하여 검정을 수행한다.
    - 표본의 크기가 충분히 클 때 표본비율($\hat p$)의 표집분포는 평균이 모비율($p$)이고 분산이 $\cfrac {p_0 (1-p_0)}{n}$인 정규분포에 근사하게 된다. 
    - 따라서 대표본일 때의 모평균 가설검정과 유사하게 모비율의 가설검정을 진행할 수 있다.
   
</br>

## 가설검정 형태
<img src = "https://i.esdrop.com/d/f/s6N1SDUxar/bIOPvIGhhc.jpg" width="700"/>

## Example 1
시중에 팔리고 있는 주사위들 중에서 많은 것들이 공평하지 못하다고 사람들이 말한다. 왜냐하면 주사위에 표시된 점들이 실제로는 음각된 것이기 때문이다. 예를 들어 6이 나오는 면이 1이 나오는 면보다 가볍다. p를 6이 나오는 확률이라고 하자. $H_1 : p>1/6$에 대하여 
$H_0 : p=1/6$을 검정하기 위하여, 여러 개의 주사위를 던져 총 n=8000개의 관측치 중 1389개의 주사위 눈이 6인 결과를 얻었다. 유의수준 0.05 하에서 가설검정을 진행하라.

- 출처 : 수리통계학 Hogg 제 9판 예제 8.3-1

- $n = 8000$
- $p_0 = 1/6$

$$ Z = \cfrac {\cfrac{y}{n}- p_0}{\sqrt{\cfrac {p_0 (1-p_0)}{n}}} = \cfrac {\cfrac{1389}{8000}- \cfrac{1}{6}}{\sqrt{\cfrac {\cfrac{1}{6} (1 - \cfrac{1}{6})}{8000}}} = 1.67 $$ 

- 유의수준 0.05 하에서 기각역은 $z \geq z_0.05 = 1.645$

- 따라서, $z=1.67 > 1.645$ 이므로 검정통계량이 기각역에 속하여 귀무가설을 기각한다.
- 즉 시중에 팔리는 주사위는 공평한 주사위보다 6이 더 빈번히 나온다고 할 수 있다.

### 가설검정

In [32]:
n = 8000
p_hat = 1389 / 8000 # 표본비율
p_0 = 1/6 # 모비율

conf_a = 0.05 # 유의수준

V = p_0 * (1 - p_0) # 베르누이시행의 분산
se = np.sqrt(V/n) # 표준오차

from scipy.stats import norm

z_stat = (p_hat - p_0)/ se # 검정통계량
print("검정통계량 :", z_stat)

z_critical = norm.ppf(1 - conf_a) # 기각역
print("기각값 :", z_critical)

# 유의확률(p-value) 계산
p_value = 1 - norm.cdf(abs(z_stat))
print("유의확률:", p_value)

검정통계량 : 1.6700000000000026
기각값 : 1.6448536269514722
유의확률: 0.04745968180294702


## Example 2
한 지역의 국회의원 선거여론조사를 지난달 실시한 결과 특정후보의 지지율이 60%이었다. 최근에 지지율에 변동이 있는지 알아보기 위해 100명을 단순임의추출하였더니 55명이 지지를 하였다. 특정후보에 대한 현재 지지율이 60%에서 변동이 있는지 유의수준 5%로 가설검정하라.


- 출처 : 수리통계학 Hogg 제 9판 연습문제 8.3-4

- 귀무가설 : 특정후보에 대한 현재 지지율이 60%이다.
- 대립가설 : 특정후보에 대한 현재 지지율이 60%이 아니다.


### 가설검정

In [33]:
n = 100
p_hat = 55 / 100 # 표본비율
p_0 = 0.6 # 모비율

conf_a = 0.05 # 유의수준

V = p_0 * (1 - p_0) # 베르누이시행의 분산
se = np.sqrt(V/n) # 표준오차

from scipy.stats import norm

z_stat = (p_hat - p_0)/ se # 검정통계량
print("검정통계량 :", z_stat)

z_critical = norm.ppf(1 - conf_a/2) # 기각역
print("기각값 :", -z_critical, z_critical) # 기각역은 양측에 대해 표시

# 유의확률(p-value) 계산
p_value = 2 * (1 - norm.cdf(abs(z_stat))) # 양측검정이므로 *2
print("유의확률:", p_value)

검정통계량 : -1.0206207261596563
기각값 : -1.959963984540054 1.959963984540054
유의확률: 0.30743416592739603


- 검정통계량이 기각역에 속하지 않으므로, 귀무가설을 채택한다.
- 따라서 특정후보에 대한 현재 지지율이 60%라고 할 수 있다.

---

# [ 이표본 비율 검정 ]


## 예시
- 1) 금년도 대통령 선거에서 특정후보에 대한 지지율에 유권자의 성별에 따른 차이가 있는가?
- 2) 어느 공장에서 제품을 만들어 내는 두 대의 기계가 있는데 두 기계의 불량률이 서로 다른가?

</br>

## 신뢰구간
\begin{align}
\ (\hat p_1 - \hat p_2) \pm Z_{a/2} \ \sqrt{\cfrac{\hat p_1 (1 - \hat p_1)}{n_1} + \cfrac{\hat p_2(1 - \hat p_2)}{n_2}}
\end{align}

</br>

## 검정통계량

### 1) 표본비율을 이용한 검정통계량 
- 신뢰구간에 사용
- 표본비율을 이용한 검정통계량, 공통비율을 이용한 검정통계량 간에 큰 차이가 있는 것은 아니지만, 귀무가설이 틀릴 가능성이 많을 때는 이 표본비율을 사용하는 방법이 더 유익하다고 함
\begin{align}
\ Z = \cfrac{(\hat p_1 - \hat p_2) - (p_1-p_2)}{\sqrt{\cfrac{\hat p_1 (1 - \hat p_1)}{n_1} + \cfrac{\hat p_2(1 - \hat p_2)}{n_2}}}
\end{align}

### 2) 가중평균(공통비율)을 이용한 검정통계량 ⭐
- 주의 : 신뢰구간에서 사용하는 공식과 다르다.
- 일반적으로 통용되는 방법
- 이러한 두 모집단의 모비율($p_1,p_2$)비교는, 모평균과 유사하게 두 모비율의 차($p_1 - p_2$)를 검정함으로써 가능
- 두 모집단에서 서로 독립적으로 추출한 표본비율의 차($\hat p_1 - \hat p_2$)는 표본의 크기가 충분히 클 때 평균이 $p_1 - p_2$, 분산이 $\cfrac{p_1 (1-p_1 )}{n_1} + \cfrac{p_2 (1-p_2 )}{n_2}$인 정규분포를 따른다.

- 여기서 분산의 추정을 위해서는 $p_1, p_2$를 모르므로 두 표본비율($\hat p_1 , \hat p_2$)에 대해 표본의 크기를 가중값으로 취한 가중평균 $\overline p$를 사용한다.


#### 합동표본비율(공통비율, 가중평균)
- $n_1 {\hat p}_1 = x_1$ 만 남음 (분모 소거) 
\begin{align}
\overline p = \cfrac { n_1 {\hat p}_1 + n_2 {\hat p}_2 } {n_1 + n_2 } =\cfrac{x_1+x_2}{n_1 + n_2}
\end{align}

\begin{align}
Z = \cfrac { {\hat p}_1 - {\hat p}_2 } { \sqrt{ \cfrac{\overline p (1 - \overline p )}{n_1 } + \cfrac{\overline p (1 - \overline p ) }{n_2 }  } }
\end{align}


</br>

### 가설검정 형태
<img src = "https://i.esdrop.com/d/f/s6N1SDUxar/Xqr39vj5Us.jpg" width="700"/>

- 참고 : http://www.estat.me/estat/eLearning/kr/eStatU/chapter08.html#0803


## Example 1 : ADP 실기 29회
C사 생산 제품 1000개 중 양품이 600개, D사 생산 제품 500개 중 양품이 200개 이다. 두 회사의 양품률에 차이가 있는지 검정하여라.

### 가설
- 귀무가설 : 두 집단 간의 모비율 차이가 없다.
- 대립가설 : 두 집단 간의 모비율 차이가 있다.

In [10]:
import numpy as np

n1 = 1000
p1 = 600/1000

n2 = 500
p2 = 200/500

conf_0 = 0.05

from scipy.stats import norm
d = p1 - p2
conf_z = norm.ppf(1 - conf_0/2) # twoway이므로 /2

se = np.sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2)
me = conf_z * se

pe = (n1*p1+n2*p2)/(n1+n2) # Pooled estimate
se2 = np.sqrt((pe * (1 - pe))/n1 + (pe * (1 - pe)) / n2)
zstat = d / se2

conf_z = norm.ppf(1-conf_0/2)
me2 = conf_z * se2

sp = 1 - norm.cdf(np.abs(zstat))

cv = norm.ppf(1-conf_0/2)
cv ='+/-{:.3f}'.format(cv)

print('[검정]')
print('임계값 : {}, 검정통계량 : {:.3f}'.format(cv, zstat))
print('유의수준 : {}, 유의확률 : {:.3f}'.format(conf_0, sp))

[검정]
임계값 : +/-1.960, 검정통계량 : 7.319
유의수준 : 0.05, 유의확률 : 0.000


- 검정통계량이 임계값보다 크므로 기각역에 속해 귀무가설을 기각한다.
- 따라서 두 회사의 양품률에 차이가 있다고 할 수 있다.

In [26]:
# 표본비율 그대로 사용

import math
import scipy.stats as stats

# sol1. Z검정 p-value
p1 = 0.6
p2 = 0.4
n1 = 1000
n2 = 500

SE = math.sqrt((p1 * (1 - p1) / n1) + (p2 * (1 - p2) / n2)) # 표준 오차 계산
Z = (p1 - p2) / SE # Z-점수 계산
p_value = 2 * (1 - stats.norm.cdf(abs(Z))) # p-value 계산

print(Z)
print(p_value)

7.453559924999298
9.08162434143378e-14


In [29]:
# 카이제곱 독립성 검성
from scipy.stats import chi2_contingency
observed = [[600, 400], [200, 300]]
chi2, p_value, dof, expected = chi2_contingency(observed)
chi2, p_value, dof, expected

(52.77087053571428,
 3.7481920789578267e-13,
 1,
 array([[533.33333333, 466.66666667],
        [266.66666667, 233.33333333]]))

## Example 2
금년도 대통령 선거에서 특정후보의 지지율에 대해 남녀별로 독립적으로 표본을 추출해 조사하였더니 남자 225명 중 54명이 지지를 하였고, 여자 175명 중 52명이 지지를 하였다. 남녀의 지지율에 차이가 있다고 할 수 있는지 유의수준 5％에서 검정하라.

- [출처 : 예제 8.7](http://www.estat.me/estat/eLearning/kr/eStatU/chapter08.html#0803)

In [9]:
import numpy as np

n1 = 225
p1 = 54/225

n2 = 175
p2 = 52/175

conf_0 = 0.05

from scipy.stats import norm
d = p1 - p2
z_critical = norm.ppf(1 - conf_0/2) # twoway이므로 /2

se = np.sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2)
me = z_critical * se

pe = (n1 * p1 + n2 * p2)/(n1 + n2) # Pooled estimate
se2 = np.sqrt((pe * (1 - pe))/n1 + (pe * (1 - pe)) / n2)

zstat = d /se2
conf_z = norm.ppf(1-conf_0/2)
me2 = conf_z * se2

sp = 1 - norm.cdf(np.abs(zstat))

cv = norm.ppf(1-conf_0/2)
cv ='+/-{:.3f}'.format(cv)

print('[검정]')
print('임계값 : {}, 검정통계량 : {:.3f}'.format(cv, zstat))
print('유의수준 : {}, 유의확률 : {:.3f}'.format(conf_0, sp))

[검정]
임계값 : +/-1.960, 검정통계량 : -1.285
유의수준 : 0.05, 유의확률 : 0.099


## Example 3
공구를 생산하는 어느 공장은 주간 생산조와 야간 생산조를 운영하고 있다. $p_1$과 $p_2$를 각각 주간 생산조와 야간 생산조가 생산한 공구의 불량률이라고하자. 각 생산조에 의해 생산된 공구를 무작위로 1000개씩 뽑아서 $H_0 : p_1 = p_2$ 대 $H_1 : p_1 \neq p_2$를 검정하려고 한다. 주간 생산 공구와 야간 생산 공구로부터 각각 $y_1=37, y_2=53$개의 불량품들이 관측되었다. 유의수준 0.05하에서 가설을 검정하라.
- 출처 : 수리통계학 Hogg 제 9판 예제 8.3-6

\begin{align}
\overline p = \cfrac { n_1 {\hat p}_1 + n_2 {\hat p}_2 } {n_1 + n_2 } = \cfrac { 1000 {\cfrac{37}{1000}} + 1000 {\cfrac{53}{1000}} } {1000 + 1000 } = 0.045
\end{align}

\begin{align}
Z = \cfrac { {\hat p}_1 - {\hat p}_2 } { \sqrt{ \cfrac{\overline p (1 - \overline p )}{n_1 } + \cfrac{\overline p (1 - \overline p ) }{n_2 }  } } = \cfrac {  \cfrac{37}{1000}- \cfrac{53}{1000}} { \sqrt{ \cfrac{0.045(1 - 0.045)}{1000 } + \cfrac{0.045(1 - 0.045) }{1000 }  } } = -1.7258
\end{align} 


- 검정통계량 1.72가 1.96보다 작으므로, 기각역에 속하지 않는다. 따라서 귀무가설을 채택한다.
- 두 집단 간 비율은 동일하다고 할 수 있다.

In [17]:
import numpy as np

n1 = 1000
p1 = 37/1000

n2 = 1000
p2 = 53/1000

conf_0 = 0.05

from scipy.stats import norm
d = p1 - p2

z_critical = norm.ppf(1 - conf_0/2) # twoway이므로 /2, 기각역
# print("기각역 :", z_critical)

se = np.sqrt(p1 * ((1 - p1)/n1) + p2 * ((1 - p2)/n2))
me = z_critical * se

pe = (n1 * p1 + n2 * p2)/(n1 + n2) # Pooled estimate
print("합동표본비율 :", pe)

# se2 = np.sqrt(pe * (1 - pe)/(n1 + n2)) # 0.004635461142108733
se2 = np.sqrt((pe * (1 - pe))/n1 + (pe * (1 - pe)) / n2) # 0.009270922284217466
print(se2)

zstat = d /se2
conf_z = norm.ppf(1-conf_0/2)
me2 = conf_z * se2

sp = 1 - norm.cdf(np.abs(zstat))

cv = norm.ppf(1 - conf_0/2)
cv ='+/-{:.3f}'.format(cv)

print('\n', '[검정]')
print('임계값 : {}, 검정통계량 : {:.3f}'.format(cv, zstat))
print('유의수준 : {}, 유의확률 : {:.3f}'.format(conf_0, sp))

합동표본비율 : 0.045
0.009270922284217466

 [검정]
임계값 : +/-1.960, 검정통계량 : -1.726
유의수준 : 0.05, 유의확률 : 0.042


## Example 4 : 신뢰구간 추정
$p_m$과 $p_f$를 각각 어느 새의 수컷과 암컷이 그들이 부화한 장소로 돌아오는 비율을 나타낸다고 하자. 894마리 수컷 중 124마리가 돌아왔고, 700마리 암컷 중 70마리가 돌아왔을 때 두 비율 차이에 대한 95% 신뢰구간을 구하여라.

- 출처 : 수리통계학 Hogg 제 9판 예제 8.3-7

딥 : [0.007, 0.070]

In [19]:
import numpy as np 

n1 = 894
p1 = 124/894

n2 = 700
p2 = 70/700

conf_0 = 0.05 # 유의수준

from scipy.stats import norm
d = p1 - p2

conf_z = norm.ppf(1-conf_0/2) # twoway이므로 /2
se = np.sqrt(p1 * (1 - p1)/n1 + p2 * (1 - p2)/n2)
me = conf_z * se

print('[추정]')
print('점추정량 : {:.3f}'.format(d))
print('구간추정량 : {:.3f} ~ {:.3f}'.format(d - me, d + me))
print('오차한계 : {:.3f}\n'.format(me))

[추정]
점추정량 : 0.039
구간추정량 : 0.007 ~ 0.070
오차한계 : 0.032



------
- 추가로 공부할 것) 비율 검정과 카이제곱은 같은가?
https://hsm-edu.tistory.com/1214