## 카이제곱 검정 개요 

- 목적 : 두 범주형 변수가 서로 독립적인지 검정
   
    - 귀무가설 : 두 변수가 서로 독립이다.
    - 대립가설 : 두 변수가 서로 종속된다.
- 교차테이블(분할표)로 시각화

### 교차 테이블(분할표)

- 두 변수가 취할 수 있는 값의 조합의 출현 빈도를 나타냄
![](pic/분할표.PNG)

<img src='pic/분할표위치.png' width =500 height=300>

<img src='pic/관측값.png' width =500 height=300>

<img src='pic/n11기대값.png' width =500 height=300>

<img src='pic/카이기대값1.png' width =500 height=300>

<img src='pic/카이제곱통계량계산.png' width =500 height=300>

<img src='pic/카이수식.png' width =500 height=300>

<img src='pic/카이제곱함수.png' width =500 height=300>

- 기대값과 실제값의 차이가 클수록 통계량이 커지게 됨 통계량이 커질수록 p-value가 감소함
- 귀무가설이 기각될 가능성이 높아진다.


In [5]:

import pandas as pd
from scipy.stats import *

df = pd.read_csv("../../data/data/htest05.csv", engine = "python") #폐암과 흡연의 연관성 분석
df.head()
df.tail()

Unnamed: 0,smoke,disease
30,1,0
31,1,1
32,1,1
33,1,1
34,1,1


### 분할표 작성
- pd.crossta
    - 범주형 변수로 되어있는 요인(factors)별로 교차분석(cross tabulations) 해서, 행, 열 요인 기준 별로 빈도를 세어서 도수분포표(frequency table), 교차표(contingency table) 를 만들어줌

![](pic/데이터재구조화.png)

In [6]:
# 교차 테이블 생성(분할표)
cross_t = pd.crosstab(df['smoke'], df['disease'])
cross_t

disease,0,1
smoke,Unnamed: 1_level_1,Unnamed: 2_level_1
0,14,2
1,10,9


In [7]:
obs = cross_t.values
obs

array([[14,  2],
       [10,  9]], dtype=int64)

In [10]:
statistics, pvalue, dof, expected = chi2_contingency(obs, correction=False)

# 통계량, pvalue, 자유도, 기대값
# 기대도수가 5를 초과하면 False

pvalue # 귀무가설이 기각 - 흡연유무와 폐암 유무는 연관성이 있다.

0.026855610352114926

In [11]:
expected

array([[10.97142857,  5.02857143],
       [13.02857143,  5.97142857]])

In [9]:
# 기대값
pd.DataFrame(expected, columns = cross_t.columns, index = cross_t.index)


disease,0,1
smoke,Unnamed: 1_level_1,Unnamed: 2_level_1
0,10.971429,5.028571
1,13.028571,5.971429


In [12]:
# 카이제곱 통계량
statistics

4.900069776714513

In [13]:
### 개별실습
df = pd.read_csv("../../data/data/성별에따른만족도.csv", engine = "python", encoding='euc-kr')
df.head()


Unnamed: 0,만족도,성별
0,불만족,남성
1,보통,여성
2,불만족,여성
3,보통,남성
4,만족,여성


### 성별에 따라 만족도가 달라지는지 - 성별과 만족도는 독립적인지 검정

In [14]:
# 교차 테이블 생성(분할표)
cross_t = pd.crosstab(df['만족도'], df['성별'])
cross_t

성별,남성,여성
만족도,Unnamed: 1_level_1,Unnamed: 2_level_1
만족,50,40
보통,40,30
불만족,10,30


In [16]:
obs = cross_t.values
obs

array([[50, 40],
       [40, 30],
       [10, 30]], dtype=int64)

In [17]:
chi2_contingency(obs, correction=False) # pvalue가 0.0018이므로 귀무가설 기각
# 만족도와 성별은 서로 독립적이지 않다

(12.53968253968254,
 0.001892528960792166,
 2,
 array([[45., 45.],
        [35., 35.],
        [20., 20.]]))