In [5]:
import scipy as sp
import scipy.stats

## 카이제곱검정

이항검정은 베르누이분포의 모수에 대한 검정으로 두가지 카테고리에 대한 검정이다.

그런데 여기서 카테고리의 갯수가 2개가 아닌 3개 이상인 경우의 카테고리 검정을 하는 경우 카이제곱검정을 이용한다.

베르누이분포는 이항분포를 이용해서 검정했지만 여기서 다항분포를 사용하지 않는 이유는 Vector값이 나오기 때문에 PDF에서 점을 찍어 유의 확률을 구하지 못하기 때문이다. 따라서 통계량으로 다음의 수식을 따라 scalar값을 이용해 PDF의 점을 찍어 유의확률을 구할 수 있다.

> 카이제곱검정은 범주형 확률분포의 모수에 대한 가설을 조사하는 검정방법으로 **적합도검정**이라고 한다.

$$\sum_{i=1}^K\dfrac{(x_k - m_k)^2}{m_k}$$

- $m_k$ : 귀무가설을 따랐을 때 $K$가 나오는 횟수 ex) $\mu$=1/4, 1/4, 1/4, 1/4 -> N=40, 10,10,10,10
- $x_k$ : 실제로 $K$가 나온 횟수 ex) 20, 10, 5, 5

- 이를 모두 더해 scalar값으로 만들면 일종의 오차값이 된다.
- 위 통계량은 카이제곱분포를 따른다.

In [7]:
N = 10
K = 4
mu_0 = np.ones(K)/K

# 귀무가설 모수
mu_0

array([0.25, 0.25, 0.25, 0.25])

In [8]:
# 0부터 K까지의 수를 10번 샘플링, 확률은 mu_0

x = np.random.choice(K, N, p=mu_0)
x

array([3, 0, 0, 1, 3, 3, 2, 2, 2, 3])

In [9]:
# 0, 1, 2, 3이 나온 횟수

n = np.bincount(x, minlength=K)
n

array([2, 1, 3, 4], dtype=int64)

In [10]:
# 카이제곱검정

sp.stats.chisquare(n)

Power_divergenceResult(statistic=2.0, pvalue=0.5724067044708798)

위 결과 유의확률이 57%로 각 카테고리의 값에 대한 모수가 1/4, 1/4, 1/4, 1/4 라는 귀무가설을 채택한다.

즉, fair한 주사위라도 위와 같은 경우가 발생할 수 있다는 것을 의미한다.

**예제 1)**

6면체 주사위를 5번 던졌을 때 5번 모두 6이 나왔다면 주사위가 공정하다는 귀무가설의 유의확률은?

In [18]:
# fair한 주사위의 경우

N = 5
K = 6
mu_0 = np.ones(K)/K

x = np.random.choice(K, N, p = mu_0)
n = np.bincount(x, minlength=K)

print(n)
sp.stats.chisquare(n)

[1 0 0 2 2 0]


Power_divergenceResult(statistic=5.799999999999999, pvalue=0.3261688136935728)

In [17]:
# 5번 모두 6이 나온 경우

n2 = [0,0,0,0,0,5]
sp.stats.chisquare(n2)

Power_divergenceResult(statistic=25.000000000000004, pvalue=0.00013933379118562602)

유의확률이 0.0001로 절대 fair한 주사위면 이러한 값이 나올 수 없다.

즉, 주사위가 공정하다는 귀무가설을 기각한다.

## 카이제곱 독립검정

카이제곱 독립검정은 X, Y라는 두 확률변수가 실수가 아닌 경우 상관계수를 구하지 못할 때 사용할 수 있는 검정 방법이다.

X, Y라는 범주형 확률변수를 이용해 X가 달라지면 Y의 분포가 달라지는 경우 두 범주형 확률변수간 상관관계가 있다고 본다.


ex)

x = 0, y = 0.12, 0.28

x = 1, y = 0.18, 0.42

위의 경우 x값에 따라 y의 분포가 달라지므로 상관관계가 있다.

x = 0, y = 6, 14

x = 1, y = 9, 21

기 경우 실질적으로 y의 분포는 같으므로 상관관계가 없다.

하지만 실제 데이터에는 위와 같이 상관관계가 명확히 나타나는 경우가 드물다. 따라서 이 경우 카이제곱 독립검정을 이용한다.

`chi2_contingency()`메소드를 이용하는데 여기서 중요한점은 디폴트 귀무가설은 상관관계가 없다는 것이다.

In [32]:
obs = np.array([[5, 15], [10, 20]])
print(obs)

[[ 5 15]
 [10 20]]


In [33]:
sp.stats.chi2_contingency(obs)

(0.0992063492063492,
 0.7527841326498471,
 1,
 array([[ 6., 14.],
        [ 9., 21.]]))

In [34]:
# p_value

sp.stats.chi2_contingency(obs)[1]

0.7527841326498471

유의확률은 0.75로 X와 Y는 상관관계가 없다는 귀무가설을 채택한다. 즉, 상관관계가 없다.

**예제)**

데이터사이언스 강의 수강 여부가 이후 대학원 머신러닝 수업의 학점과 상관관계가 있는가?

- 수강하지 않은 경우의 학점(ABC분포) X = 0: 4, 16, 20
- 수강한 경우의 학점(ABC분포) X = 1: 23, 18, 19

In [36]:
obs = np.array([[4, 16, 20],[23, 18, 19]])
obs

array([[ 4, 16, 20],
       [23, 18, 19]])

In [38]:
sp.stats.chi2_contingency(obs)[1]

0.00704786570249751

유의확률이 1%보다 낮으므로 귀무가설을 기각한다. 따라서 상관관계가 있다고 말할 수 있다.