# ch.3　Python을 이용한 데이터 분석

## 3.10 분할표 검정

### 3.10.1 분할표를 사용할 때의 장점
ex. 웹사이트 운영시, 상품의 구입이나 문의 버튼의 클릭률이 버튼 색에 따라 달라지는지 조사를 한다.
1. 이때 버튼을 클릭한 사람의 수만 가지고 데이터를 다루면 오해가 생긴다.
2. 클릭하지 않은 수 역시 같이 봐주어야한다.(책 참조)

### 3.10.2 이 절에서 다룰 예제
|      | 클릭함 | 클릭하지 않음 | 합계 |
| :--: | :----: | :-----------: | :--: |
| 파랑 |   20   |      230      | 250  |
| 빨강 |   10   |      40       |  50  |
| 합계 |   30   |      270      | 300  |

관측도수: 실제 관측된 데이터  
클릭률: 파란버튼 8% / 빨간버튼 20%

### 3.10.3 기대도수 구하기
기대도수: 버튼 색에 따라 버튼 클릭이 변하지 않는다면 어떤 결과가 될지 예상을 해보자. 이 때 기대되는 도수를 의미한다.  
클릭함:클릭하지않음=30:270(1:9)  
파란버튼 실험대상 250명, 빨강버튼 실험대상 50명이므로 기대도수는 파란버튼을 클릭한 사람은 25명, 빨간 버튼을 클릭한 사람은 5명이다.

### 3.10.4 기대도수와의 차이 구하기
실제 값에 기대도수를 뺀 다음 제곱하고 기대도수값을 나눠준 후 더하면 카이제곱이 구해진다.
책 참조

### 3.10.5 p값 계산

In [2]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

%precision 3

%matplotlib inline

In [4]:
# 자유도가 1인 카이제곱 분포의 누적밀도 함수를 사용해서 p 값을 계산해보자.
1 - sp.stats.chi2.cdf(x = 6.667, df = 1)

0.009821437357809604

0.05보자 p 값이 작기 때문에 귀무가설을 기각하여 유의미하게 변한다고 판단할 수 있다.

### 3.10.6 분할표 검정(실습)

In [5]:
# 데이터 읽기
click_data = pd.read_csv("3-10-1-click_data.csv")
print(click_data)

  color  click  freq
0  blue  click    20
1  blue    not   230
2   red  click    10
3   red    not    40


In [6]:
# 분할표로 표시
cross = pd.pivot_table(
    data = click_data,
    values = "freq",
    aggfunc = "sum",
    index = "color",
    columns = "click"
)
print(cross)

click  click  not
color            
blue      20  230
red       10   40


In [8]:
# 검정을 해보자.
sp.stats.chi2_contingency(cross, correction = False)

(6.666666666666666,
 0.009823274507519247,
 1,
 array([[ 25., 225.],
        [  5.,  45.]]))

결과는 카이제곱 통계량, p값, 자유도, 기대도수 표 순서대로 출력된 것을 볼 수 있더.