## Chapter11 통계적 가설검정 

### 통계적 가설검정이란
### - 모집단의 모수(모집단의 특성:평균,분산)에 관한 가설을 세우고 표본의 정보를 이용해 그 가설을 검증하는 기법입니다.

In [1]:
import numpy as np
import pandas as pd
from scipy import stats

%precision 3
np.random.seed(1111)

In [2]:
df = pd.read_csv('../data/ch11_potato.csv')
sample = np.array(df['무게'])
sample

array([122.02, 131.73, 130.6 , 131.82, 132.05, 126.12, 124.43, 132.89,
       122.79, 129.95, 126.14, 134.45, 127.64, 125.68])

In [3]:
s_mean = np.mean(sample)
s_mean

128.4507142857143

## 11.1. 통계적 가설검정

## 11.1.1 통계적 가설검정의 기본

In [4]:
# 감자튀김의 모집단이 정규분포를 따르고 모평균이 130g, 모분산이 9임을 알고 있다고 전제
# 감자튀김 14개 표본은 N(130,9)를 따르고 
# 표본평균은 N(130, 9/14)를 따르게 됨. 
# 표본평균이 P(X바<=x) = 0.05를 만족하는 x를 생각합시다. 
rv = stats.norm(130, np.sqrt(9/14))
rv.isf(0.95)

128.68118313069039

#### A학생이 추출한 표본평균이 128.45g이 되었던 것은 5%확률로 발생하는 드문 사건이라고 할 수 있습니다. 
#### 표본평균이 128.68g이하인 128.45g이 되었다는 것은 '모평균이 130g'이라는 가설 아래에서 5%확률로 발생하는 사건이 우연히 일어난 것이 아니라, 원래 '모평균이 130g보다 작은 게 아닐까?'라는 생각을 하게 합니다. 
#### 이에 따라 '모평균이 130g보다 작다.'라고 결론을 내리는 것이 가설검정의 큰 흐름입니다.

### 가설검정에서는 모수에 관한 두 가설
### $H_{0}$: '귀무가설(null hypothesis)'
### $H_{1}$: '대립가설(alternative hypothesis)'
### 두 가설을 검정하기 위해, 표본으로부터 통계량을 계산하여 가설검정을 수행하는 것입니다. 
### 그에 따른 결론은 아래 둘중 하나입니다. 
### '귀무가설을 기각한다(reject the null hypothesis)'-> 귀무가설은 옳지 않다
### '귀무가설을 채택한다(accept the null hypothesis)'-> 귀무가설이 옳지 않다고 말할 수 없다고 해석합니다. 즉, 귀무가설이 옳은지 여부를 알수 없다고 보류하는 결론이 됩니다. 

### 만약 표본으로부터 계산되는 통계량이 드문 값을 얻으면, 그것은 우연이 아니라 어떤 의미가 있는 것이라 생각하여 "유의하다(significant)"라고 합니다.
### 기각역(rejection region): 귀무가설이 기각되는 구간
### 채택역(acceptance region): 채택되는 구간 
### 가설검정에서는 기각역에 들어가는 확률을 정하고 나서 검정을 수행합니다. 
### 이 확률을 유의수준(level of significance,예5%)이라 하고, 
### 경계선상의 값을 임계값(critical value)이라고 합니다. 
### 또한 검정에 사용되는 통계량을 검정통계량(test statistics)이라고 합니다. 

### 임계값보다 왼쪽에 있는 영역의 면적은 유의수준(los)에 해당합니다. 
### 검정통계량보다 왼쪽에 있는 영역의 면적에는 p값(p-value)이라는 이름이 붙습니다. 
### 가설검정은 p값과 유의수준(los)의 비교로 수행될 수도 있습니다. 
### 그 경우 p값이 유의수준보다 작을때는 귀무가설을 기각하고, 그렇지 않을 때에 귀무가설을 채택합니다. 

In [5]:
# 감자튀김 무게의 평균값에 대한 가설검정을 생각해본다. 
# 표본평균X를 표준화한 Z를 사용합니다. 
# 상위100a%점을 Za로 나타낼수있습니다. 
# 검정통계량 값을 구합니다. 
z = (s_mean - 130) / np.sqrt(9/14)
z

-1.932298779026813

In [6]:
rv = stats.norm()
rv.isf(0.95)

-1.6448536269514722

In [7]:
# p값을 이용한 가설검정 확인 
# p값은 누적분포함수를 사용해서 구할 수 있습니다. 
rv.cdf(z)

0.026661319523126635

#### p값은 0.027로 유의수준 0.05보다 작은 값입니다. 
#### 따라서 귀무가설은 기각됩니다. 

## 가설검정의 흐름(기준: p값)
### 1) 가설을 세운다 
### 2) 유의수준을 결정한다 
### 3) 검정토계량을 계산한다
### 4) p값을 계산한다
### 5-1) p값이 유의수준보다 작으면, 귀무가설 기각 
### 5-2) p값이 유의수준보다    크면, 귀무가설 채택

## 11.1.2. 단축검정과 양측검정 
- 양측검정: 대립가설 '모평균이 130g이 아니다.' 
- 단측검정: 대립가설 '모평균은 130g보다 작다.' 
- 동일한 유의수준$\alpha$의 검정이라도 단측검정 쪽의 기각역이 넓어집니다. 
- 단측검정은 양측검정보다 귀무가설을 기각하기 쉽습니다. 
- 기각역/채택역

In [8]:
z = (s_mean - 130) / np.sqrt(9/14)
z

-1.932298779026813

In [9]:
#양측검정 임계값을 찾자 
rv = stats.norm()
rv.interval(0.95)

(-1.959963984540054, 1.959963984540054)

In [10]:
# p값이 유의수준 0.05보다 큽니다. 따라서 귀무가설은 기각되지 않습니다. 
# 양측검정에서 검정토계량이 채택역에 들어가있다. 
# 양측검정에서는 귀무가설이 기각되지 않습니다. 
rv.cdf(z) * 2

0.05332263904625327

### 11.1.3. 가설검정의 두 가지 오류
- 제1종오류: 귀무가설이 옳을 때, 귀무가설을 기각하는 오류/오탐/false positive
- 제2종오류: 대립가설이 옳을 때, 귀무가설을 채택하는 오류/미탐/false negative 

In [11]:
# 제1종오류
# 실제로 '평균이 130g'인데도, '평균은 130g보다 작다.'
rv = stats.norm(130, 3)

In [12]:
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    if z < c:
        cnt += 1
cnt / n_samples

0.053

#### 제1종 오류를 범한 비율은 0.053입니다. 대략 5%의 비율로 '130g보다 작다.'라고 잘못탐지(오탐)하는 것 같습니다. 
#### 제1종 오류를 범하는 확률을 위험률이라 부르고, 기호로는 $\alpha$를 사용합니다. 
#### 위험률은 유의수준과 일치하므로 분석가가 제어할 수 있는 확률입니다. 
#### 결국 제1종오류가 발생하는 확률을 1%로 하고 싶다면 분석가는 유의수준1%에서 가설 검정을 수행하면 됩니다. 

### 제2종오류 

In [13]:
rv = stats.norm(128, 3)

In [14]:
# '모평균이 130g보다 작다'임에도 그러한 결론을 얻을 수 없는 비율을 계산함. 
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    if z >= c:
        cnt += 1
        
cnt / n_samples

0.197

#### 제2종오류를 범하는 비율은 0.197입니다. 대략 20%의 비율로 미탐이 발생하는 것 같습니다. 
#### 제2종오류를 범하는 확률에는 기호 $\beta$를 사용하고, 1-$\beta$를 검정력(power)라고 부릅니다.
#### '모평균이 130g보다 작다.'라는 상황이라도 평균이 120g으로 설정되면 미탐이 발생할 확률은 낮아진다는 것은 직관적으로 알 수 있습니다
#### 이와 같이 $\beta$는 모집단의 정보에 의존합니다. 본래 모집단의 정보는 알 수 없는 것이므로 $\beta$는 분석가가 제어할 수 없는 확률입니다. 
#### 제1종오류는 제어할 수 있지만, 제2종오류는 제어할 수 없는 비대칭성이 있다는 것을 기억해두기 바랍니다. 

## 11.2 기본적인 가설검정 
## 11.2.1. 정규분포의 모평균에 대한 검정: 모분산을 알고 있는 경우
- 모평균에 대한 검정이란 모평균이 어떤 값 $\mu_{0}$이 아니라고 주장하기 위한 검정입니다. 특히 모집단의 정규분포를 가정하고 그 모분산 $\sigma^{2}$도 알고 있는 상황은 매우 단순한 설정입니다. 

In [15]:
def pmean_test(sample, mean0, p_var, alpha=0.05):
    s_mean = np.mean(sample)
    n = len(sample)
    rv = stats.norm()
    interval = rv.interval(1-alpha)

    z = (s_mean - mean0) / np.sqrt(p_var/n)
    if interval[0] <= z <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')

    if z < 0:
        p = rv.cdf(z) * 2
    else:
        p = (1 - rv.cdf(z)) * 2
    print(f'p값은 {p:.3f}')

In [16]:
pmean_test(sample, 130, 9)

귀무가설을 채택
p값은 0.053


## 11.2.2 정규분포의 모분산에 대한 검정 
- 모분산에 대한 검정은 모분산이 어떤값 $\sigma_{0}^{2}$이 아닌 것을 주장하기 위한 검정입니다. 
- 이 검정에서는 Y=$\frac{(n-1)s^{2}}{\sigma_{0}^{2}}$을 검정통계량으로 사용하여, 10.2절에서 살펴본 것 처럼 Y~$X^{2}$(n-1)이 되는 것을 이용합니다. 

In [17]:
def pvar_test(sample, var0, alpha=0.05):
    u_var = np.var(sample, ddof=1) # s^2
    n = len(sample)
    rv = stats.chi2(df=n-1)
    interval = rv.interval(1-alpha)
    
    y = (n-1) * u_var / var0
    if interval[0] <= y <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')

    if y < rv.isf(0.5):
        p = rv.cdf(y) * 2
    else:
        p = (1 - rv.cdf(y)) * 2
    print(f'p값은 {p:.3f}')

In [18]:
pvar_test(sample, 9)

귀무가설을 채택
p값은 0.085
