앞 절에서 검정 방법을 공부하고 통계량분포의 누적분포함수를 사용하여 유의확률을 계산하는 방법을 살펴보았다. 사이파이 패키지는 다음과 같은 다양한 검정 명령을 제공한다. 따라서 사이파이 패키지를 사용하면 여러분이 직접 통계량을 계산하거나 통계량분포의 누적분포함수로 유의확률을 계산할 필요가 없다. 또한 검정으로 내린 결론이 틀린 경우인 1종오류와 2종오류에 알아본다.

$\bullet$이항검정(Binomial Test)

$\bullet$카이제곱검정(Chi-squared Test)

$\bullet$카이제곱 독립검정(Chi-squared Contingency Test)

$\bullet$단일표본 z검정(One-sample z-Test)

$\bullet$단일표본 t검정(One-sample t-Test)

$\bullet$독립표본 t검정(Independent two-sample t-Test)

$\bullet$대응표본 t검정(Paired two-sample t-Test)

$\bullet$등분산검정(Equal-variance Test)

$\bullet$정규성검정(Normality Test)

In [1]:
import scipy as sp
import scipy.stats
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import matplotlib as mpl
plt.rc("font", size=10, family='Malgun Gothic')
plt.rc('axes', unicode_minus=False)

# 이항검정

이항검정은 이항분포를 이용하여 베르누이 확률변수의 모수 μ에 대한 가설을 조사하는 검정 방법이다. 사이파이 stats 서브패키지의 binom_test 명령은 이항검정의 유의확률을 계산한다. 디폴트 귀무가설은 μ=0.5이다.

scipy.stats.binom_test(x, n=None, p=0.5, alternative='two-sided')

$\bullet$ x: 검정통계량. 1이 나온 횟수

$\bullet$ n: 총 시도 횟수

$\bullet$ p: 귀무가설의 μ값

$\bullet$ alternative: 양측검정인 경우에는 'two-sided', 단측검정인 경우에는 'less' 또는 'greater'

# 예제

실제 모수 $μ_0$=0.5인 베르누이 확률 변수의 시뮬레이션을 통해 이항검정을 실습해보자. 데이터 개수 N=10일 때 1이 나온 횟수가 7이다.

In [8]:
N = 10
mu_0 = 0.5
np.random.seed(0)
x = sp.stats.bernoulli(mu_0).rvs(N)
print(x)
n = np.count_nonzero(x)
n

[1 1 1 1 0 1 0 1 1 0]


7

모수가 0.5인 베르누이 분포라면 가장 가능성이 높은 5가 나와야 하는데 여기에는 7이 나왔다. 그렇다면 이 확률변수의 모수는 0.5가 아니라 0.7일까? 모수가 0.5라는 귀무가설의 신빙성을 확인하기 위해 binom_test 이항검정 명령으로 유의확률을 구하면 약 34%이다.

In [9]:
sp.stats.binom_test(n, N)

0.3437499999999999

유의확률이 높으므로 모수가 0.5라는 귀무가설을 기각할 수 없다.

# 카이제곱검정

앞에서 베르누이분포의 모수에 대해 검정을 하려면 베르누이분포 표본의 합이라는 통계량이 이항분포를 따른다는 성질을 이용하면 된다고 배웠다. 그러면 카테고리분포의 모수에 대해 검정을 하려면 카테고리분포 표본의 합이라는 통계량이 다항분포를 따른다는 성질을 이용할 수 있을까?

결론을 말하자면 통계량으로 카테고리분포 표본의 합은 이용할 수 없다. 왜냐하면 이 통계량은 스칼라가 아닌 벡터값을 가지기 때문이다. 이 때는 **카이제곱검정(Chi-squared test)**이라는 방법을 사용한다.

카이제곱검정은 범주형 확률분포의 모수 $μ=(μ_1,…,μ_K)$에 대한 가설을 조사하는 검정 방법으로 **적합도검정(goodness of fit test)**이라고도 부른다. 원래 범주형 값 k가 나와야 할 횟수의 기댓값 $m_k$와 실제 나온 횟수 $x_k$의 차이를 이용하여 다음처럼 검정통계량을 구한다.



$$\displaystyle\sum_{k=1}^k {(x_k-m_k)^2 \over m_k}$$

사이파이 stats 서브패키지의 chisquare 명령은 카이제곱검정의 검정통계량과 유의확률을 계산한다. f_exp이 주어지지 않는 경우의 디폴트 귀무가설은$ μ=({1\over K},…,{1\over K})$이다.

scipy.stats.chisquare(f_obs, f_exp=None)

$\bullet$ f_obs : 데이터 행렬

$\bullet$ f_exp : 기댓값 행렬

예제

데이터 개수 N=10, 귀무가설 모수 μ0=(0.25,0.25,0.25,0.25), 실제 데이터 (0,3,5,2)인 경우 대해 카이제곱검정 명령을 실시해보자.

In [12]:
N = 10
K = 4
mu_0 = np.ones(K)/K
np.random.seed(0)
x = np.random.choice(K, N, p=mu_0)
print(x)
n = np.bincount(x, minlength=K)
n

[2 2 2 2 1 2 1 3 3 1]


array([0, 3, 5, 2], dtype=int64)

In [13]:
sp.stats.chisquare(n)

Power_divergenceResult(statistic=5.199999999999999, pvalue=0.157724450396663)

유의확률이 17.8%로 높으므로 귀무가설을 기각할 수 없다. 따라서 $u_0$=(0.25,0.25,0.25,0.25)다.

# 카이제곱 독립검정

카이제곱검정은 어떤 범주형 확률변수 X가 다른 범주형 확률변수 Y와 독립인지 상관관계를 가지는가를 검증하는데도 사용할 수 있다. 카이제곱검정을 독립을 확인하는데 사용하면 카이제곱 독립검정이라고 부른다.

# 단일표본 z검정

**단일표본 z검정(One-sample z-test)**은 분산 $σ^2$의 값을 정확히 알고 있는 정규분포의 표본에 대해 기댓값을 조사하는 검정방법이다. 단일표본 z검정의 경우에는 많이 사용되지 않고 사이파이에 별도의 함수가 준비되어 있지 않으므로 norm 명령의 cdf 메서드를 사용하여 직접 구현해야 한다.

실제 모수 μ0=0, $σ^2=1$인 경우 대해 표본 데이터 N=10개를 시뮬레이션으로 구하여 귀무가설 μ0=0에 대한 단일표본 z검정 명령을 실시해보자.

In [14]:
N = 10
mu_0 = 0
np.random.seed(0)
x = sp.stats.norm(mu_0).rvs(N)
x

array([ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ,  1.86755799,
       -0.97727788,  0.95008842, -0.15135721, -0.10321885,  0.4105985 ])

단일표본 z검정 함수를 다음처럼 구현할 수 있다. 이 함수는 검정통계량과 유의확률을 튜플형태로 반환한다.

In [15]:
def ztest_1samp(x, sigma2=1, mu=0):
    z = (x.mean() - mu) / np.sqrt(sigma2/len(x))
    return z, 2 * sp.stats.norm().sf(np.abs(z))

ztest_1samp(x)

(2.3338341854824276, 0.019604406021683538)

만약 유의 수준이 5%면 유의확률이 1.96%이므로 귀무가설을 기각할 수 있다. 따라서 μ≠0이다. 이 경우는 검정 결과가 오류인 예다. 검정 결과가 오류로 나온 이유는 데이터 수가 10개로 부족하기 때문이다. 이러한 오류는 귀무가설이 진실임에도 불구하고 기각된 경우로 **1종오류(Type 1 Error)**라고 한다. 1종오류가 나오려면 귀무가설이 진실이지만 유의확률은 유의수준보다 작아야한다. 1종오류가 나올 확률은 유의수준과 같다

데이터 개수 N=100, 실제 모수 μ0=0인 경우 대해 단일표본 z검정 명령을 실시해보자.

In [16]:
N = 100
mu_0 = 0
np.random.seed(0)
x = sp.stats.norm(mu_0).rvs(N)
ztest_1samp(x)

(0.5980801553448499, 0.5497864508624168)

유의확률이 54.98%이므로 귀무가설을 기각할 수 없다. 따라서 μ=0이다.

# 단일표본 t검정

**단일표본 t검정(One-sample t-test)**은 정규분포의 표본에 대해 기댓값을 조사하는 검정방법이다. 검정통계량으로 스튜던트 t분포를 가진 t통계량을 사용한다.



$${{\overline x - u_0 \over s} \over \sqrt{N} }$$

이 식에서 ${\overline x}$는 표본평균, s는 표본표준편차다.

사이파이의 stats 서브 패키지의 ttest_1samp 명령을 사용한다. ttest_1samp 명령의 경우에는 디폴트 모수가 없으므로 기댓값을 나타내는 popmean 인수를 직접 지정해야 한다.

scipy.stats.ttest_1samp(a, popmean)

$\bullet$ a: 표본 데이터 배열

$\bullet$ popmean: 귀무가설의 기댓값

데이터 개수 N=10, 실제 모수 μ0=0인 경우 대해 단일표본 t검정 명령을 실시해보자.

In [17]:
N = 10
mu_0 = 0
np.random.seed(0)
x = sp.stats.norm(mu_0).rvs(N)
sp.stats.ttest_1samp(x, popmean=0)

Ttest_1sampResult(statistic=2.28943967238967, pvalue=0.04781846490857058)

유의확률이 4.78%이므로 만약 유의 수준이 5% 이상 이라면 귀무가설을 기각할 수 있다. 따라서 μ≠0다. 이 경우도 유형 1 오류의 예라고 볼 수 있다. 실제 모수 μ0가 0인데도 시뮬레이션 결과에 대한 검정 결과가 오류로 나온 이유는 데이터 수가 10개로 부족하기 때문이다.

이번에는 데이터의 개수 N이 100인 경우에 대해 단일표본 t검정 명령을 실시해보자.

In [18]:
N = 100
mu_0 = 0
np.random.seed(0)
x = sp.stats.norm(mu_0).rvs(N)
sp.stats.ttest_1samp(x, popmean=0)

Ttest_1sampResult(statistic=0.5904283402851698, pvalue=0.5562489158694675)

# 독립표본 t검정

**독립표본 t검정(Independent-two-sample t-test)**은 두 개의 독립적인 정규분포에서 나온 N1, N2개의 데이터 셋을 사용하여 두 정규분포의 기댓값이 동일한지를 검사한다.

검정통계량으로는 두 정규분포의 분산이 같은 경우에는

$$t={\overline x_1¯ \overline x_2 \over s ⋅ \sqrt({1 \over N_1}+{1 \over N_2})}$$

을 사용한다. 여기에서 $\overline x_1, \overline x_2$는 각각의 표본평균이고 표본표준편차 s는 각각의 표본분산 $s_1^2, s_2^2$로부터 다음처럼 구한다.

# 대응표본 t검정

대응표본 t검정(Paired-two-sample t-test)은 독립표본 t검정을 두 집단의 표본이 1대1 대응하는 경우에 대해 수정한 것이다. 즉, 독립표본 t검정과 마찬가지로 두 정규분포의 기댓값이 같은지 확인하기 위한 검정이다. 통계량은 대응하는 표본 값의 차이 $x_d=x_{i,i}−x_{i,2}$에서 다음처럼 계산한다.