# 교차분석 - 카이제곱분포 기반 검정(chisqure)
- 동질성/독립성/적합성 검정, 카이제곱 검정 통계량을 사용
- 독립성 검정 => 범주형 변수들 간에 연관이 있는지 없는지를 검정(즉, 독립인지 아닌지)
- 적합성 검정 => 범주형 변수의 값이 예상한 값(이론값)과 동일한지 다른지를 검정

# 가설검정 절차
- 귀무가설,대립가설 설정 =>유의수준 설정 => 검정통계량 계산 => 귀무가설 기각/채택 여부 결정
  

In [4]:
# 독립성 검정
# 귀무가설: 당뇨와 비만은 연관이 없다.(즉, 독립이다.)
# 대립가설: 당뇨와 비만은 연관이 있다.

import numpy as np
import pandas as pd
import scipy.stats as st

obs = pd.DataFrame({'당뇨': [10,15], '정상': [10,65]})
obs.index = ['비만체중', '정상체중']

chiresult = st.chi2_contingency(obs, correction=False)
print('Chi square: {}'.format(chiresult[0]))
print('P-value: {}'.format(chiresult[1]))

# 유의확률이 유의수준 5% 보다 작으므로, 연관이 있다.


Chi square: 8.333333333333334
P-value: 0.003892417122778637


In [7]:
# 적합성 검정
# 귀무가설: 실제 분포와 이론 분포 간에는 차이가 없다.(두 분포가 일치한다.)
# 대립가설: 실제 분포와 이론 분포 간에는 차이가 있다.(두 분포가 일치하지 않는다.)

import numpy as np
import pandas as pd
import scipy.stats as st

xo, xe = [26,26,26,], [23, 18, 37]
xc = pd.DataFrame([xo, xe], columns=['1조', '2조', '3조'], index=['Obs', 'Exp'])

chiresult = st.chisquare(xo, xe)
print('Chi square: {}'.format(chiresult[0]))
print('P-value: {}'.format(chiresult[1]))

# 유의확률이 유의수준 5% 보다 작으므로, 차이가 있다.


Chi square: 7.2171301736519125
P-value: 0.02709069178067575
