# 카이제곱 교차검증
 - 두 범주형 변수가 서로 독립적인지 검정

In [1]:
import pandas as pd
from scipy import stats

In [3]:
df = pd.read_csv("datas/성별에따른만족도.csv", encoding='euc-kr')
df.head()

Unnamed: 0,만족도,성별
0,불만족,남성
1,보통,여성
2,불만족,여성
3,보통,남성
4,만족,여성


### 실제값 교차 테이블 생성

In [4]:
cross_table = pd.crosstab(df['성별'], df['만족도'])
cross_table

만족도,만족,보통,불만족
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남성,50,40,10
여성,40,30,30


 - 실제값 numpy 배열로 만들기

In [5]:
obs = cross_table.values
obs

array([[50, 40, 10],
       [40, 30, 30]])

### 카이제곱 검정

In [6]:
statistics, pvalue, dof, expected = stats.chi2_contingency(obs)
print(pvalue)

0.001892528960792166


 - pvalue < 0.05 : 두 변수 간 독립적이지 않다는 것을 확인, 귀무가설 기각
 - 두 변수는 통계적으로 유의미한 관련이 있다고 할 수 있음

In [7]:
statistics, dof, expected

(np.float64(12.53968253968254),
 2,
 array([[45., 35., 20.],
        [45., 35., 20.]]))

 - statistics : 카이제곱 통계량 : 실제 관측값과 기대값의 차이, 값이 클수록 두 변수 사이의 차이가 클 수 있음
 - dof = 자유도 ( 행의 수 -1 ) * ( 열의 수 - 1 )
 - expected : 각 셀에 대한 기대값
     - "만약 두 변수가 독립이라면, 이 정도의 빈도가 나와야 한다"는 이론적인 기대값임
     - 실제 관측값과 비교해 기대값과 차이가 클수록 통계량이 커짐

### 기대값

In [8]:
pd.DataFrame(expected, columns = cross_table.columns, index = cross_table.index)

만족도,만족,보통,불만족
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남성,45.0,35.0,20.0
여성,45.0,35.0,20.0
