# "평균과 비율에 대한 추론"

- toc: true
- branch: master
- badges: true
- comments: true
- author: Kim Jeewoo
- categories: [Introduction to Statistics]
- image: images/Standard_Normal_Distribution.png

In [58]:
from math import *

# 평균과 비율에 대한 추론

표본 통계량의 분포가 정규분포일 때, 신뢰구간은 다음과 같이 구한다.

표본 통계량 $\pm z^* \cdot SE$

임의화 분포가 정규분포일 때, 표준화한 검증 통계량은 다음과 같이 구한다.

$z = \cfrac{\text{표본 통계량 - 영가설의 모수값}}{\text{표준오차}}$

## 2.1 비율에 대한 추론

### 2.1-CI 비율에 대한 신뢰구간

$ np \geq 10, \,n(1-p) \geq 10$이면 정규분포로 근사할 수 있다.

표본 통계량 $\pm z^*\cdot SE$

$\hat{p} \pm z^*\cdot SE$

$\hat{p}\pm z^*\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$

In [20]:
def ci_single_p(p_hat, z, n):
    SE = sqrt(p*(1-p)/n)
    print("신뢰구간 : ({0}, {1})".format(p-z*SE, p+z*SE))
    return

In [21]:
ci_single_p(0.52, 1.96, 100)

신뢰구간 : (0.42207843138511314, 0.6179215686148869)


#### 표본 크기 결정하기

오차한계 $=z^* \cdot SE = z^*\cdot\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$ 이므로

$n = \left(\cfrac{z^*}{\text{오차한계}}\right)^2 \hat{p}(1-\hat{p})$ 이 때, 소수점이 있으면 올림한다.

표본 비율 $\hat{p}$의 합리적인 추정이 가능하지 않다면 $\hat{p} = 0.5$를 사용한다.

In [40]:
def n_single_p(z, 오차한계, p_hat):
    print('n :',ceil((z/오차한계)**2 * p*(1-p)))
    return

In [41]:
n_single_p(2.327, 0.04, 0.5)

n : 847


In [42]:
n_single_p(1.96, 0.01, 0.32)

n : 8360


### 2.1-HT 비율에 대한 가설검증

$np_0 \geq 10,\,n(1-p_0)\geq10$이면 p-값은 표준정규분포에서 계산한다.

$z = \cfrac{\text{표본 통계량 - 영가설의 모수값}}{\text{표준오차}}$

$z =\cfrac{\hat{p} - p_0}{SE}$

#### $SE$는 어떻게 추정할 것인가?

가설검증은 **영가설 $H_0$가 참일 때** 기대되는 분포에서 표본 비율 $\hat{p}$이 발생할 가능성을 평가한다. 영가설이 참임을 가정하므로 표준오차를 계산할 때 $p$ 대신에 $p_0$를 사용한다. 표준오차를 추정할 때, $\hat{p}$를 사용하면 절대로 안된다.


$SE = \sqrt{\dfrac{p_0(1-p_0)}{n}}$

$\therefore z = \cfrac{\hat{p} - p_0}{\sqrt{\dfrac{p_0(1-p_0)}{n}}}$

In [55]:
def test_single_p(p_hat, p_0, n):
    print('z :',(p_hat-p_0)/(sqrt(p_0*(1-p_0)/n)))
    return

In [56]:
test_single_p(0.59, 0.5, 340)

z : 3.3190360046254384


In [57]:
test_single_p(0.555, 1/3, 119)

z : 5.129560166330054


위에서 구한 z-값으로 StatKey에서 p-값을 구한 뒤 기각 여부를 결정하자.

## 2.2 평균에 대한 추론

$\dfrac{\sigma}{\sqrt{n}}$대신$\dfrac{s}{\sqrt{n}}$을 이용하여 표준화한 통계량의 분포는 표준정규분포가 아닌 **t-분포**이다.

$SE = \dfrac{s}{\sqrt{n}}$

In [77]:
def se_single_mean(s, n):
    print('SE :', s/sqrt(n))
    return

### 2.2-CI 평균에 대한 신뢰구간

표준정규분포 대신에 t-분포를 사용하기 때문에 $z^*$대신에 $t^*$를 사용한다.

표본 통계량 $\pm\,z^*\cdot\dfrac{\sigma}{\sqrt{n}}\approx $ 표본 통계량 $\pm\,t^*\cdot\dfrac{s}{\sqrt{n}} $

$\bar{x} \pm t^* \cdot \dfrac{s}{\sqrt{n}}$

In [82]:
def ci_single_mean(x, t, s, n):
    print("신뢰구간 : ({0}, {1})".format(x-t*s/sqrt(n), x+t*s/sqrt(n)))
    return

In [84]:
ci_single_mean(369.52, 2.042, 16.16, 31)

신뢰구간 : (363.593254927903, 375.446745072097)


#### 표본 크기 결정하기

$ME = t^*\dfrac{s}{\sqrt{n}}$

아직 표본이 없기 때문에 표준편차를 모른다. 따라서 $s$ 대신 $\tilde{\sigma}$로 추정한다.

$\tilde{\sigma}$를 합리적으로 추정하는 4가지 방법
- 선형 연구의 표준편차를 사용하거나 유사 모집단의 표본으로부터 $\tilde{\sigma}$를 추정한다.
- 사전 조사로 작은 표본을 얻어 $\tilde{\sigma}$를 추정한다.
- 모집단에서 범위(최댓값-최솟값)를 추정한다. 범위를 4로 나눈 값을 $\tilde{\sigma}$로 사용한다. 즉 $\tilde{\sigma} \approx \text{범위} / 4$이다. 이는 대부분의값들이 평균에서 두 배의 표준편차 안에 있을 것이라고 가정하는 것이다.
- $\tilde{\sigma}$를 합리적으로 추측한다.

$n = \left(\dfrac{t^*\cdot s}{ME}\right)^2 \approx \left(\dfrac{t^*\cdot \tilde{\sigma}}{ME}\right)^2$

### 2.2-HT 평균에 대한 가설검증

$z = \cfrac{\text{표본 통계량 - 영가설의 모수값}}{\text{표준오차}}$

$ z = \cfrac{\bar{x} - \mu_0}{SE}$

$ z = \dfrac{\bar{x} - \mu_0}{\dfrac{s}{\sqrt{n}}}$

In [95]:
def test_single_mean(x, mu_0, s, n):
    print("t :", (x-mu_0)/(s/sqrt(n)))
    return

In [96]:
test_single_mean(37.5, 35, 38.2, 53)

t : 0.47644698228275634


## 2.3 비율 차이에 대한 추론

### 2.3-D. 두 개의 비율 차이의 분포

$SE = \sqrt{\dfrac{p_1(1-p_1)}{n_1} + \dfrac{p_2(1-p_2)}{n_2}}$

$n_1p_1 \geq 10,\, n_1(1-p_1) \geq 10,\, n_2p_2 \geq 10,\, n_2(1-p_2) \geq 10$이면 정규분포로 근사할 수 있다.

### 2.4-CI. 두 개의 비율 차이에 대한 신뢰구간

$n_1p_1 \geq 10,\, n_1(1-p_1) \geq 10,\, n_2p_2 \geq 10,\, n_2(1-p_2) \geq 10$이면 정규분포로 근사할 수 있다.

표본 통계량 $\pm z^* \cdot SE$

$(\hat{p}_1 - \hat{p}_2) \pm z^*\sqrt{\dfrac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \dfrac{\hat{p}_2(1-\hat{p}_2)}{n_2}}$

In [97]:
def se_dif_p(p1, p2, n1, n2):
    print("SE :", sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2))

In [101]:
def ci_dif_p(p1, p2, n1, n2, z):
    SE = sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2)
    ME = z*SE
    print("SE :", SE)
    print("ME :", ME)
    print("신뢰구간 : ({0}, {1})".format(p1-p2-z*SE, p1-p2+z*SE))
    return

In [102]:
se_dif_p(0.72, 0.68, 500, 300)

SE : 0.03359365019365019


In [104]:
ci_dif_p(0.72, 0.68, 500, 300, 1.96)

SE : 0.03359365019365019
ME : 0.06584355437955437
신뢰구간 : (-0.025843554379554448, 0.1058435543795543)


### 2.3-HT 비율 차이에 대한 가설검증

**합동 비율** $\hat{p} = \cfrac{X_1 + X_2}{n_1 + n_2}$

$SE = \sqrt{\cfrac{\hat{p}(1-\hat{p})}{n_1} + \cfrac{\hat{p}(1-\hat{p})}{n_2}}$

영가설은 보통 $H_0 : p_1 = p_2$ 또는 $H_0 : p_1 - p_2 = 0$이다.
이 경수 영가설의 모수값은 0이다.

$z = \cfrac{\text{표본 통계량 - 영가설의 모수값}}{\text{표준오차}}$

$z = \cfrac{(\hat{p}_1 - \hat{p}_2)}{SE}$

$z = \cfrac{(\hat{p}_1 - \hat{p}_2)}{\sqrt{\cfrac{\hat{p}(1-\hat{p})}{n_1} + \cfrac{\hat{p}(1-\hat{p})}{n_2}}}$

In [111]:
def test_dif_p(p_1, p_2, p_합, n_1, n_2):
    print("z :",(p_1 - p_2)/sqrt(p_합*(1-p_합)/n_1 + p_합*(1-p_합)/n_2))
    return

In [112]:
test_dif_p(0.768, 0.463, 0.631, 82, 67)

z : 3.838160838927777


## 2.4 평균 차이에 대한 추론

### 2.4-D 평균 차이의 분포

$SE = \sqrt{\dfrac{\sigma_1^2}{n_1} + \dfrac{\sigma_2^2}{n_2}}$

In [114]:
def se_dif_mean(sigma1, sigma2, n1, n2):
    print("SE :", sqrt(sigma1**2/n1 + sigma2**2/n2))
    return

In [115]:
se_dif_mean(8.8, 7.41, 20, 30)

SE : 2.387942629126588


In [116]:
se_dif_mean(3.7, 7.6, 25, 40)

SE : 1.41124058898545


In [117]:
se_dif_mean(18, 22, 300, 500)

SE : 1.4310835055998654


In [None]:
se_dif