# "평균과 비율에 대한 추론"

- toc: true
- branch: master
- badges: true
- comments: true
- author: Kim Jeewoo
- categories: [Introduction to Statistics]
- image: images/Standard_Normal_Distribution.png

In [58]:
from math import *

# 평균과 비율에 대한 추론

표본 통계량의 분포가 정규분포일 때, 신뢰구간은 다음과 같이 구한다.

표본 통계량 $\pm z^* \cdot SE$

임의화 분포가 정규분포일 때, 표준화한 검증 통계량은 다음과 같이 구한다.

$z = \cfrac{\text{표본 통계량 - 영가설의 모수값}}{\text{표준오차}}$

## 2.1 비율에 대한 추론

### 2.1-CI 비율에 대한 신뢰구간

$ np \geq 10, \,n(1-p) \geq 10$이면 정규분포로 근사할 수 있다.

표본 통계량 $\pm z^*\cdot SE$

$\hat{p} \pm z^*\cdot SE$

$\hat{p}\pm z^*\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$

In [20]:
def ci_single_p(p_hat, z, n):
    SE = sqrt(p*(1-p)/n)
    print("신뢰구간 : ({0}, {1})".format(p-z*SE, p+z*SE))
    return

In [21]:
ci_single_p(0.52, 1.96, 100)

신뢰구간 : (0.42207843138511314, 0.6179215686148869)


### 표본 크기 결정하기

오차한계 $=z^* \cdot SE = z^*\cdot\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$ 이므로

$n = \left(\cfrac{z^*}{\text{오차한계}}\right)^2 \hat{p}(1-\hat{p})$ 이 때, 소수점이 있으면 올림한다.

표본 비율 $\hat{p}$의 합리적인 추정이 가능하지 않다면 $\hat{p} = 0.5$를 사용한다.

In [40]:
def n_single_p(z, 오차한계, p_hat):
    print('n :',ceil((z/오차한계)**2 * p*(1-p)))
    return

In [41]:
n_single_p(2.327, 0.04, 0.5)

n : 847


In [42]:
n_single_p(1.96, 0.01, 0.32)

n : 8360


### 2.1-HT 비율에 대한 가설검증

$np_0 \geq 10,\,n(1-p_0)\geq10$이면 p-값은 표준정규분포에서 계산한다.

$z = \cfrac{\text{표본 통계량 - 영가설의 모수값}}{\text{표준오차}}$

$z =\cfrac{\hat{p} - p_0}{SE}$

#### $SE$는 어떻게 추정할 것인가?

가설검증은 **영가설 $H_0$가 참일 때** 기대되는 분포에서 표본 비율 $\hat{p}$이 발생할 가능성을 평가한다. 영가설이 참임을 가정하므로 표준오차를 계산할 때 $p$ 대신에 $p_0$를 사용한다. 표준오차를 추정할 때, $\hat{p}$를 사용하면 절대로 안된다.


$SE = \sqrt{\dfrac{p_0(1-p_0)}{n}}$

$\therefore z = \cfrac{\hat{p} - p_0}{\sqrt{\dfrac{p_0(1-p_0)}{n}}}$

In [55]:
def test_single_p(p_hat, p_0, n):
    print('z :',(p_hat-p_0)/(sqrt(p_0*(1-p_0)/n)))
    return

In [56]:
test_single_p(0.59, 0.5, 340)

z : 3.3190360046254384


In [57]:
test_single_p(0.555, 1/3, 119)

z : 5.129560166330054


위에서 구한 z-값으로 StatKey에서 p-값을 구한 뒤 기각 여부를 결정하자.

## 2.2 평균에 대한 추론

$n \geq 30$

후술

## 2.3 비율 차이에 대한 추론

### 2.3-D. 두 개의 비율 차이의 분포