## Chapter11 통계적 가설검정 

### 통계적 가설검정이란
### - 모집단의 모수(모집단의 특성:평균,분산)에 관한 가설을 세우고 표본의 정보를 이용해 그 가설을 검증하는 기법입니다.

In [1]:
import numpy as np
import pandas as pd
from scipy import stats

%precision 3
np.random.seed(1111)

In [2]:
df = pd.read_csv('../data/ch11_potato.csv')
sample = np.array(df['무게'])
sample

array([122.02, 131.73, 130.6 , 131.82, 132.05, 126.12, 124.43, 132.89,
       122.79, 129.95, 126.14, 134.45, 127.64, 125.68])

In [3]:
s_mean = np.mean(sample)
s_mean

128.4507142857143

## 11.1. 통계적 가설검정

## 11.1.1 통계적 가설검정의 기본

In [4]:
# 감자튀김의 모집단이 정규분포를 따르고 모평균이 130g, 모분산이 9임을 알고 있다고 전제
# 감자튀김 14개 표본은 N(130,9)를 따르고 
# 표본평균은 N(130, 9/14)를 따르게 됨. 
# 표본평균이 P(X바<=x) = 0.05를 만족하는 x를 생각합시다. 
rv = stats.norm(130, np.sqrt(9/14))
rv.isf(0.95)

128.68118313069039

#### A학생이 추출한 표본평균이 128.45g이 되었던 것은 5%확률로 발생하는 드문 사건이라고 할 수 있습니다. 
#### 표본평균이 128.68g이하인 128.45g이 되었다는 것은 '모평균이 130g'이라는 가설 아래에서 5%확률로 발생하는 사건이 우연히 일어난 것이 아니라, 원래 '모평균이 130g보다 작은 게 아닐까?'라는 생각을 하게 합니다. 
#### 이에 따라 '모평균이 130g보다 작다.'라고 결론을 내리는 것이 가설검정의 큰 흐름입니다.

### 가설검정에서는 모수에 관한 두 가설
### $H_{0}$: '귀무가설(null hypothesis)'
### $H_{1}$: '대립가설(alternative hypothesis)'
### 두 가설을 검정하기 위해, 표본으로부터 통계량을 계산하여 가설검정을 수행하는 것입니다. 
### 그에 따른 결론은 아래 둘중 하나입니다. 
### '귀무가설을 기각한다(reject the null hypothesis)'-> 귀무가설은 옳지 않다
### '귀무가설을 채택한다(accept the null hypothesis)'-> 귀무가설이 옳지 않다고 말할 수 없다고 해석합니다. 즉, 귀무가설이 옳은지 여부를 알수 없다고 보류하는 결론이 됩니다. 

### 만약 표본으로부터 계산되는 통계량이 드문 값을 얻으면, 그것은 우연이 아니라 어떤 의미가 있는 것이라 생각하여 "유의하다(significant)"라고 합니다.
### 기각역(rejection region): 귀무가설이 기각되는 구간
### 채택역(acceptance region): 채택되는 구간 
### 가설검정에서는 기각역에 들어가는 확률을 정하고 나서 검정을 수행합니다. 
### 이 확률을 유의수준(level of significance,예5%)이라 하고, 
### 경계선상의 값을 임계값(critical value)이라고 합니다. 
### 또한 검정에 사용되는 통계량을 검정통계량(test statistics)이라고 합니다. 

### 임계값보다 왼쪽에 있는 영역의 면적은 유의수준(los)에 해당합니다. 
### 검정통계량보다 왼쪽에 있는 영역의 면적에는 p값(p-value)이라는 이름이 붙습니다. 
### 가설검정은 p값과 유의수준(los)의 비교로 수행될 수도 있습니다. 
### 그 경우 p값이 유의수준보다 작을때는 귀무가설을 기각하고, 그렇지 않을 때에 귀무가설을 채택합니다. 

In [5]:
# 감자튀김 무게의 평균값에 대한 가설검정을 생각해본다. 
# 표본평균X를 표준화한 Z를 사용합니다. 
# 상위100a%점을 Za로 나타낼수있습니다. 
# 검정통계량 값을 구합니다. 
z = (s_mean - 130) / np.sqrt(9/14)
z

-1.932298779026813

In [6]:
rv = stats.norm()
rv.isf(0.95)

-1.6448536269514722

In [7]:
# p값을 이용한 가설검정 확인 
# p값은 누적분포함수를 사용해서 구할 수 있습니다. 
rv.cdf(z)

0.026661319523126635

#### p값은 0.027로 유의수준 0.05보다 작은 값입니다. 
#### 따라서 귀무가설은 기각됩니다. 

## 가설검정의 흐름(기준: p값)
### 1) 가설을 세운다 
### 2) 유의수준을 결정한다 
### 3) 검정토계량을 계산한다
### 4) p값을 계산한다
### 5-1) p값이 유의수준보다 작으면, 귀무가설 기각 
### 5-2) p값이 유의수준보다    크면, 귀무가설 채택

## 11.1.2. 단축검정과 양측검정 
- 양측검정: 대립가설 '모평균이 130g이 아니다.' 
- 단측검정: 대립가설 '모평균은 130g보다 작다.' 
- 동일한 유의수준$\alpha$의 검정이라도 단측검정 쪽의 기각역이 넓어집니다. 
- 단측검정은 양측검정보다 귀무가설을 기각하기 쉽습니다. 
- 기각역/채택역

In [8]:
z = (s_mean - 130) / np.sqrt(9/14)
z

-1.932298779026813

In [9]:
#양측검정 임계값을 찾자 
rv = stats.norm()
rv.interval(0.95)

(-1.959963984540054, 1.959963984540054)

In [10]:
# p값이 유의수준 0.05보다 큽니다. 따라서 귀무가설은 기각되지 않습니다. 
# 양측검정에서 검정토계량이 채택역에 들어가있다. 
# 양측검정에서는 귀무가설이 기각되지 않습니다. 
rv.cdf(z) * 2

0.05332263904625327

### 11.1.3. 가설검정의 두 가지 오류
- 제1종오류: 귀무가설이 옳을 때, 귀무가설을 기각하는 오류/오탐/false positive
- 제2종오류: 대립가설이 옳을 때, 귀무가설을 채택하는 오류/미탐/false negative 

In [11]:
# 제1종오류
# 실제로 '평균이 130g'인데도, '평균은 130g보다 작다.'
rv = stats.norm(130, 3)

In [12]:
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    if z < c:
        cnt += 1
cnt / n_samples

0.053

#### 제1종 오류를 범한 비율은 0.053입니다. 대략 5%의 비율로 '130g보다 작다.'라고 잘못탐지(오탐)하는 것 같습니다. 
#### 제1종 오류를 범하는 확률을 위험률이라 부르고, 기호로는 $\alpha$를 사용합니다. 
#### 위험률은 유의수준과 일치하므로 분석가가 제어할 수 있는 확률입니다. 
#### 결국 제1종오류가 발생하는 확률을 1%로 하고 싶다면 분석가는 유의수준1%에서 가설 검정을 수행하면 됩니다. 

### 제2종오류 

In [13]:
rv = stats.norm(128, 3)

In [14]:
# '모평균이 130g보다 작다'임에도 그러한 결론을 얻을 수 없는 비율을 계산함. 
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    if z >= c:
        cnt += 1
        
cnt / n_samples

0.197

#### 제2종오류를 범하는 비율은 0.197입니다. 대략 20%의 비율로 미탐이 발생하는 것 같습니다. 
#### 제2종오류를 범하는 확률에는 기호 $\beta$를 사용하고, 1-$\beta$를 검정력(power)라고 부릅니다.
#### '모평균이 130g보다 작다.'라는 상황이라도 평균이 120g으로 설정되면 미탐이 발생할 확률은 낮아진다는 것은 직관적으로 알 수 있습니다
#### 이와 같이 $\beta$는 모집단의 정보에 의존합니다. 본래 모집단의 정보는 알 수 없는 것이므로 $\beta$는 분석가가 제어할 수 없는 확률입니다. 
#### 제1종오류는 제어할 수 있지만, 제2종오류는 제어할 수 없는 비대칭성이 있다는 것을 기억해두기 바랍니다. 

## 11.2 기본적인 가설검정 
## 11.2.1. 정규분포의 모평균에 대한 검정: 모분산을 알고 있는 경우
- 모평균에 대한 검정이란 모평균이 어떤 값 $\mu_{0}$이 아니라고 주장하기 위한 검정입니다. 특히 모집단의 정규분포를 가정하고 그 모분산 $\sigma^{2}$도 알고 있는 상황은 매우 단순한 설정입니다. 

In [15]:
def pmean_test(sample, mean0, p_var, alpha=0.05):
    s_mean = np.mean(sample)
    n = len(sample)
    rv = stats.norm()
    interval = rv.interval(1-alpha)

    z = (s_mean - mean0) / np.sqrt(p_var/n)
    if interval[0] <= z <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')

    if z < 0:
        p = rv.cdf(z) * 2
    else:
        p = (1 - rv.cdf(z)) * 2
    print(f'p값은 {p:.3f}')

In [16]:
pmean_test(sample, 130, 9)

귀무가설을 채택
p값은 0.053


## 11.2.2 정규분포의 모분산에 대한 검정 
- 모분산에 대한 검정은 모분산이 어떤값 $\sigma_{0}^{2}$이 아닌 것을 주장하기 위한 검정입니다. 
- 이 검정에서는 Y=$\frac{(n-1)s^{2}}{\sigma_{0}^{2}}$을 검정통계량으로 사용하여, 10.2절에서 살펴본 것 처럼 Y~$X^{2}$(n-1)이 되는 것을 이용합니다. 

In [17]:
def pvar_test(sample, var0, alpha=0.05):
    u_var = np.var(sample, ddof=1) # s^2
    n = len(sample)
    rv = stats.chi2(df=n-1) #(n-1)카이제곱분포
    interval = rv.interval(1-alpha)
    print('interval:',interval)
    y = (n-1) * u_var / var0
    if interval[0] <= y <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')
    print(y,rv.isf(0.5))
    if y < rv.isf(0.5): # y값이 평균왼쪽에 있는 경우
        p = rv.cdf(y) * 2
    else: # y값이 평균오른쪽에 있는 경우
        p = (1 - rv.cdf(y)) * 2
    print(f'p값은 {p:.3f}')

In [18]:
pvar_test(sample, 9)

interval: (5.008750511810331, 24.735604884931547)
귀무가설을 채택
22.921810317460263 12.339755882563905
p값은 0.085


## 11.2.3. 정규분포의 모평균에 대한 검정: 모분산을 모르는 경우
- 모분산을 알지 못하는 상황에서 정규분포의 모평균에 대한 검정을 '1표본t검정(1-sample t-test)'이라고 부르고, t검정통계량이라고 하는 t=($\bar{X}-\mu_{0}$)/$\sqrt(\frac{s^{2}}{n})$을 검정통계량으로 사용합니다. 
- 이 t검정통계량은 자유도가 n-1인 t분포를 따릅니다. 

In [19]:
def pmean_test(sample, mean0, alpha=0.05): # 모평균=mean0으로 우리가 검증해야하는 값
    s_mean = np.mean(sample)
    u_var = np.var(sample, ddof=1) # s^2
    n = len(sample)
    rv = stats.t(df=n-1)
    interval = rv.interval(1-alpha)

    t = (s_mean - mean0) / np.sqrt(u_var/n)
    print('t:',t)
    if interval[0] <= t <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')

    if t < 0:
        p = rv.cdf(t) * 2
    else:
        p = (1 - rv.cdf(t)) * 2
    print(f'p값은 {p:.3f}')

In [20]:
pmean_test(sample, 130)

t: -1.4551960206404198
귀무가설을 채택
p값은 0.169


In [21]:
# 1표본t검정은 scipy.stats에 ttest_1samp함수로 구현되어있음. 
# 함수의 반환값은 t검정통계량, p값임. 
t, p = stats.ttest_1samp(sample, 130)
t, p
#### - 동일한 값을 얻음.

(-1.4551960206404198, 0.16933464230414275)

## 11.3. 2표본 문제에 관한 가설검정
- 기준1: 정규분포를 가정할 수 있음/없음
- 기준2: 대응표본/독립표본

## 11.3.1. 대응비교t검정

In [22]:
training_rel = pd.read_csv('../data/ch11_training_rel.csv')
print(training_rel.shape)
training_rel.head()

(20, 2)


Unnamed: 0,전,후
0,59,41
1,52,63
2,55,68
3,61,59
4,59,84


In [23]:
training_rel['차'] = training_rel['후'] - training_rel['전']
training_rel.head()

Unnamed: 0,전,후,차
0,59,41,-18
1,52,63,11
2,55,68,13
3,61,59,-2
4,59,84,25


### 그 차이('차')가 각각 독립이고 동일한 정규분포를 따르고 있다고 가정할 수 있다면, 이 검정은 모분산을 모르는 경우의 정규분포의 모분산에 대한 검정, 즉 1표본t검정으로 귀착될 수 있습니다. 

In [24]:
t, p = stats.ttest_1samp(training_rel['차'], 0)
t, p

(2.204154108716127, 0.04004419061842953)

#### p값이 유의수준보다 작기 때문에 귀무가설은 기각되었습니다. 어쨌든 근력운동은 집중력에 유의한 차이를 가져오는 것 같습니다. 
### ttest_rel을 사용하면 차이를 구하지 않고도 바로 계산이 가능합니다. 

In [25]:
t, p = stats.ttest_rel(training_rel['후'], training_rel['전'])
p

0.04004419061842953

## 11.3.2. 독립비교t검정
- 대응하는 데이터가 없고 독립된 2표본 모집단에 정규분포를 가정할 수 있는 경우, 평균값의 차이에 대한 검정입니다. 
- A학생은 혹시 근력운동이 집중력을 향상하는 효과가 있다면 자신의 학급과 B학생의 학급 사이에 집중력테스트의 평균에서 차이가 나지 않을까 생각하여, B학생의 학급에도 집중력 테스트를 받게 했습니다. 이 데이터로부터 어떤 검정을 수행해야 A학생과 B학생 학급의 집중력에 유의미한 차이가 있는지 확인할 수 있을까요?

In [26]:
training_ind = pd.read_csv('../data/ch11_training_ind.csv')
print(training_ind.shape)
training_ind.head()

(20, 2)


Unnamed: 0,A,B
0,47,49
1,50,52
2,37,54
3,60,48
4,39,51


- 웰치의 방법 

In [27]:
t, p = stats.ttest_ind(training_ind['A'], training_ind['B'],
                       equal_var=False)
p
# p값이 유의수준보다 크기 때문에 귀무가설이 채택되었습니다. 
# 따라서 A학생의 학급과 B학생의 학급사이에 평균 점수에 유의한 차이가 있다고 말할 수 없다는 결론

0.08695731107259361

## 11.3.3. 윌콕슨의 부호순위검정
- 대응표본에서 차이에 정규분포를 가정할 수 없는 경우, 중앙값의 차이에 대한 검정입니다. 
- 차이의 절대값이 작은 것 부터 순서대로 순위를 부여합니다. 
- 대응비교t검정때와 달리 중앙값의 차이에 대한 검정인 것에 주의 

In [28]:
training_rel = pd.read_csv('../data/ch11_training_rel.csv')
toy_df = training_rel[:6].copy()
toy_df

Unnamed: 0,전,후
0,59,41
1,52,63
2,55,68
3,61,59
4,59,84
5,45,37


In [29]:
# 대응표본이므로 역시 데이터의 차이에 주목합니다. 
diff = toy_df['후'] - toy_df['전']
toy_df['차'] = diff
toy_df

Unnamed: 0,전,후,차
0,59,41,-18
1,52,63,11
2,55,68,13
3,61,59,-2
4,59,84,25
5,45,37,-8


In [30]:
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['순위'] = rank
toy_df

Unnamed: 0,전,후,차,순위
0,59,41,-18,5
1,52,63,11,3
2,55,68,13,4
3,61,59,-2,1
4,59,84,25,6
5,45,37,-8,2


In [31]:
# 그리고 차이의 부호가 마이너스인 것의 순위합과 차이의 부호가 플러스인 것의 순위합을 각각 구함.
r_minus = np.sum((diff < 0) * rank)
r_plus = np.sum((diff > 0) * rank)

r_minus, r_plus

(8, 13)

- r_minus, r_plus중에서 작은 쪽이 검정통계량이 됩니다. 
- 여기서는 r_minus쪽이 작기 때문에 검정통계량은 8입니다. 
- 윌콕슨의 부호순위검정에서는 이 검정통계량이 임계값보다 작은 경우에 귀무가설이 기각되는 단측검정을 수행합니다. 

왜 이러한 검정통계량에서 중앙값의 차이에 대한 검정이 가능한 것일까요? 
좀 극단적인 예를 살펴봅시다. 

In [32]:
toy_df['후'] = toy_df['전'] + np.arange(1, 7)
diff = toy_df['후'] - toy_df['전']
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['차'] = diff
toy_df['순위'] = rank
toy_df

Unnamed: 0,전,후,차,순위
0,59,60,1,1
1,52,54,2,2
2,55,58,3,3
3,61,65,4,4
4,59,64,5,5
5,45,51,6,6


In [33]:
r_minus = np.sum((diff < 0) * rank)
r_plus = np.sum((diff > 0) * rank)

r_minus, r_plus

(0, 21)

#### 위의 경우, 검정통계량이 0임. 
#### 아래의 경우, 검정통계량이 10임. 
#### 전/후의 편향이 한쪽으로만 생기는 경우, 검정통계량이 작아짐 
#### 전/후의 편향이 와리가리하는 경우, 검정통계량이 커짐. 
#### 한쪽으로 편향이 있을수록 r_minus와 r_plus에도 편향이 생기고, 검정통계량은 작은 값이 됩니다. 이러한 이론에 따라 검정통계량이 임계값보다 작으면 중앙값에 차이가 있다는 주장을 할 수 있습니다. 


In [34]:
toy_df['후'] = toy_df['전'] + [1, -2, -3, 4, 5, -6]
diff = toy_df['후'] - toy_df['전']
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['차'] = diff
toy_df['순위'] = rank
toy_df

Unnamed: 0,전,후,차,순위
0,59,60,1,1
1,52,50,-2,2
2,55,52,-3,3
3,61,65,4,4
4,59,64,5,5
5,45,39,-6,6


In [35]:
r_minus = np.sum((diff < 0) * rank)
r_plus = np.sum((diff > 0) * rank)

r_minus, r_plus

(11, 10)

In [36]:
T, p = stats.wilcoxon(training_rel['전'], training_rel['후'])
p

0.03623390197753906

In [37]:
T, p = stats.wilcoxon(training_rel['후'] - training_rel['전'])
p

0.039989471435546875

#### 귀무가설은 기각되었습니다. 이 결과는 대응비교 t검정의 경우와 동일한 결론입니다. 

#### 모집단이 정규분포를 따르는 경우, 윌콕슨의 부호순위검정은 대응비교 t검정에 비해 검정력이 낮습니다. 이것을 시뮬레이션으로 확인해 봅니다. 

In [38]:
# 차이는 N(3,4^2)을 따르는 것으로 하고, 표본크기가 20인 표본데이터를 1만개 준비해둡니다. 
n = 10000
diffs = np.round(stats.norm(3, 4).rvs(size=(n, 20)))

In [39]:
# 대응비교t검정의 검정력을 알아봄.
cnt = 0
alpha = 0.05
for diff in diffs:
    t, p = stats.ttest_1samp(diff, 0)
    if p < alpha:
        cnt += 1
cnt / n

0.883

In [40]:
# 윌콕슨의 부호순위검정의 경우
cnt = 0
alpha = 0.05
for diff in diffs:
    T, p = stats.wilcoxon(diff)
    if p < alpha:
        cnt += 1
cnt / n



0.873

#### 근소한 차이지만 대응비교t검정쪽의 검정력이 큽니다. 모집단이 정규분포를 따르고 있는 경우에는 대응비교t검정쪽의 검정력이 크다는 것을 기업합시다. 

## 11.3.4. 만-위트니의 U검정
#### Mann-Whitney rank test는 대응되는 데이터가 없는 2표본 모집단에 정규분포를 가정할 수 없는 경우, 중앙값의 차이에 대한 검정입니다. 윌콕슨의 순위합검정이라고도 부릅니다. 

In [41]:
training_ind = pd.read_csv('../data/ch11_training_ind.csv')
toy_df = training_ind[:5].copy()
toy_df

Unnamed: 0,A,B
0,47,49
1,50,52
2,37,54
3,60,48
4,39,51


In [42]:
rank = stats.rankdata(np.concatenate([toy_df['A'],
                                      toy_df['B']]))
rank_df = pd.DataFrame({'A': rank[:5],
                        'B': rank[5:10]}).astype(int)
rank_df # 낮은 숫자가 낮은rank가 되게 구성. 

Unnamed: 0,A,B
0,3,5
1,6,8
2,1,9
3,10,4
4,2,7


#### A열의 순위 합은 22
#### U검정의 검정통계량은 A에 관한 순위합에서 A크기를 n1로 계산하여 뺀값(공식확인)

In [43]:
n1 = len(rank_df['A'])
u = rank_df['A'].sum() - (n1*(n1+1))/2
u

7.0

#### A에 좋은 순위만 1,2,3,4모여있는 경우, 검정통계량의 최소값은 0이 됨. 

In [44]:
rank_df = pd.DataFrame(np.arange(1, 11).reshape(2, 5).T,
                       columns=['A', 'B'])
rank_df

Unnamed: 0,A,B
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [45]:
u = rank_df['A'].sum() - (n1*(n1+1))/2
u

0.0

#### A에 나쁜순위가 모여있는 경우는 큰 숫자가 나옴

In [46]:
rank_df = pd.DataFrame(np.arange(1, 11).reshape(2, 5)[::-1].T,
                       columns=['A', 'B'])
rank_df

Unnamed: 0,A,B
0,6,1
1,7,2
2,8,3
3,9,4
4,10,5


In [47]:
u = rank_df['A'].sum() - (n1*(n1+1))/2
u

25.0

In [48]:
# U검정은 양측검정을 수행하게 됨. 
u, p = stats.mannwhitneyu(training_ind['A'], training_ind['B'],
                          alternative='two-sided')
p

0.05948611166127324

#### 독립비교t검정과 마찬가지로 귀무가설이 채택되는 결과가 나옴.
#### 윌콕슨의 부호순위검정때와 마찬가지로, U검정은 모집단이 정규분포를 따르는 경우 독립비교t검정에 비해 검정력이 낮아집니다. 

## 11.3.5 카이제곱검정
- 이번에는 독립성검정(test for independence)를 다룹니다. 독립성 검정이란 두 변수X와 Y에 관해서 'X와 Y가 독립이다.'라는 귀무가설과 'X와 Y가 독립이 아니다.'라는 대립가설에 의해 수행되는 검정입니다. 독립성 검정에는 카이제곱분포가 사용되기 때문에 '카이제곱검정(chi-square test)'이라고도 부릅니다. 

In [49]:
ad_df = pd.read_csv('../data/ch11_ad.csv')
n = len(ad_df)
print(n)
ad_df.head()

1000


Unnamed: 0,광고,구입
0,B,하지 않았다
1,B,하지 않았다
2,A,했다
3,A,했다
4,B,하지 않았다


In [51]:
# 교차집계표 정리. 
ad_cross = pd.crosstab(ad_df['광고'], ad_df['구입'])
ad_cross

구입,하지 않았다,했다
광고,Unnamed: 1_level_1,Unnamed: 2_level_1
A,351,49
B,549,51
