### 분할표에 대한 독립성 검정 - 카이제곱 검정

#### 분할표의 장점



(1)

|버튼 색|클릭한 사람 수|         
|-------|:---------------:|      
|파란 버튼|       20       |    
|빨간 버튼|       10       |  

(2)  

|버튼 색|클릭한 사람 수|클릭하지 않은 수|        
|-------|:---------------:|:--------------:|      
|파란 버튼|20|180|    
|빨간 버튼|10|90| 

(3)

|  |클릭함|클릭하지 않음|합계 |  
|----|:------------:|:------------:|-----|  
|파란 버튼|20|230|250|  
|빨간 버튼|10|40|50|
|합계|30|270|300|  

(4)

|버튼 색|클릭한 사람 수|클릭하지 않은 수|        
|-------|:---------------:|:--------------:|      
|파란 버튼|25|225|    
|빨간 버튼|5|45|



- (1)번 표만 봤을 때는 파란 버튼을 만드는 것이 유리해 보임. 하지만 버튼을 클릭하지 않은 수에 대한 데이터가 없기 때문에 판단할 수 없음.

- (2)번 표와 같이 클릭하지 않은 수를 함께 나타낸 표를 분할표 또는 교차집계표라고 함. 분할표를 보면 파란 버튼 클릭 수와 빨간 버튼 클릭 수가 모두 10% 비율임을 알 수 있음.

- 이 예시에서는 버튼 색에 따라 클릭 수가 달라지는지 보는 것이 목표이고, 버튼 색이 달리지지 않을 때의 클릭 수를 기대도수라고 함.

- (3)번 표에서 기대도수는 10%이고 이에 따라 (4)번 표와 같이 파란 버튼 클릭의 기대 도수는 25, 빨간 버튼 클릭의 기대 도수는 5가 됨
따라서, 기대도수와 실제로 관측된 관측도수를 비교하여 차이가 크면 버튼 색에 따라 버튼 클릭이 달라진다고 볼 수 있다. 또한 이 예시의 카이제곱 검정에서는 기대도수가 모두 5 이상이어야 한다.

- 카이제곱 통계량 = (20-25)^2/25 + (230-225)^2/225 + (10-5)^2/5 + (40-45)^2/45 = 6.667



#### p값 계산

In [4]:
# 수치 계산을 위한 라이브러리
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# 그래프를 그리기 위한 라이브러리
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 표시 자릿수 지정
%precision 3

# 그래프를 주피터 노트북에 그리기 위한 설정
%matplotlib inline

In [5]:
# 이번 예와 같이 2행 2열 분할표의 경우 카이제곱 통계량의 표본분포는 자유도가 1인 카이제곱 분포에 점근적으로 따른다는 것이 증명되어 있음.
# 따라서 자유도가 1인 카이제곱 분포의 누적밀도함수를 사용해 p값 계산

1 - sp.stats.chi2.cdf(x = 6.667, df = 1)

# p값이 0.05보다 작으므로 버튼 색에 따라 클릭 수가 유의미하게 변한다고 할 수 있음.

0.010

#### 분할표 검정 구현

In [7]:
click_data = pd.read_csv('/content/drive/MyDrive/python study/Statistics/dataset/3-10-1-click_data.csv')
print(click_data)

  color  click  freq
0  blue  click    20
1  blue    not   230
2   red  click    10
3   red    not    40


In [8]:
# 데이터를 분할표로 표시

cross = pd.pivot_table(data = click_data,
                       values = 'freq',
                       aggfunc = 'sum',
                       index = 'color',
                       columns = 'click')
print(cross)

click  click  not
color            
blue      20  230
red       10   40


In [9]:
# 검정

sp.stats.chi2_contingency(cross, correction = False)    # 파라미터 보정 여부를 지정하지 않으면 불필요한 보정이 들어가기 때문에 correction=False로 지정

(6.667, 0.010, 1, array([[ 25., 225.],
        [  5.,  45.]]))