In [1]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

In [2]:
click_data = pd.DataFrame({'color': ['blue', 'blue', 'red', 'red'],
                           'click':['click', 'not', 'click', 'not'],
                           'freq': [20, 230, 10, 40]})
# 분할표 만들기
cross_sum = click_data.pivot_table(index='color', columns='click', values='freq',
                               aggfunc=np.sum, margins=True, margins_name='sum')
cross_sum

click,click,not,sum
color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
blue,20,230,250
red,10,40,50
sum,30,270,300


## 3.10 분할표 검정
- 기대 도수 구하기\
해당 행, 해당 열의 곱 / 전체의 합\
ex) click, blue => 250 * 30 / 300\
ex)    no, blue => 250 * 270 / 300
- 기대 도수 테이블
|click|click|not|
|:--:|:--:|:--:|
|blue|25|225|
|red|5|45|

- 기대 도수와의 차이 구하기
##### $\chi^{2} = \displaystyle\sum_{i=1}^{2}\sum_{j=1}^{2}\frac{(O_{ij}-E_{ij})^{2}}{E_{ij}}$
### $ \chi^{2}=\frac{(20-25)^{2}}{25}+\frac{(230-225)^{2}}{225}+\frac{(10-5)^{2}}{5}+\frac{(40-45)^{2}}{45} =1+\frac{1}{9}+5+\frac{5}{9} = 6.667$

### 3.10.5 p value 계산
자유도가 $1$ 인 $\chi^{2}$ 분포의 누적밀도함수를 사용해서 $p-value$ 계산하기

In [3]:
1 - sp.stats.chi2.cdf(x=6.667, df=1)

0.009821437357809604

In [4]:
cross = click_data.pivot_table(index='color', columns='click', values='freq')
cross

click,click,not
color,Unnamed: 1_level_1,Unnamed: 2_level_1
blue,20,230
red,10,40


**sp.stats.chi2_contingency()** 함수를 사용, 파라미터로 보정 여부를 지정하지 않게 **correction=False**

In [5]:
sp.stats.chi2_contingency(cross, correction=False)

(6.666666666666666,
 0.009823274507519247,
 1,
 array([[ 25., 225.],
        [  5.,  45.]]))

$\chi^{2}$ 통계량, $p-value$, dof(자유도), expected_freq(기대도수) 순으로 출력된다.