#### 3-01. 카이제곱 적합도 검정
* **데이터의 분포와 기대 분포에 대한 검정**
* 주로 알려져 있는 범주형 데이터의 분포가 사실인지 검정할 때 사용
* 귀무가설: 데이터의 분포가 기대분포와 같다.
* 대리가설: 데이터의 분포가 기대분포와 다르다.
* **scipy.stats.chisquare(observed, expected)**를 사용한다.
* **observed**와 **expected**는 **범주별 개수로 작성해야 하며, 합계가 동일해야 한다.**
* observed: 관찰(=측정, 실제, 표본) 데이터의 범주별 개수(=분포)
* expected: 기대분포에 따른 데이터 개수

#### 1-01. 기대분포가 특정비율
* A학급 40명의 혈액형 비율을 A, B, O, AB 각각 20%, 20%, 30%, 30%로 예상하였다.
* 실제 측정결과 16, 16, 4, 4 명인 경우의 적합도 검정을 수행
* H0: 변수의 분포가 기대분포와 같다.
* H1: 변수의 분포가 기대분포와 다르다.

In [2]:
# 문제풀이
import pandas as pd
import numpy as np
from scipy.stats import chisquare

observed = [16, 16, 4, 4]
# expected = [40*0.2, 40*0.2, 40*0.3, 40*0.3]
expected = np.array([0.2, 0.2, 0.3, 0.3]) * 40
# print(observed, expected, sep="\n")

statistic, pvalue = chisquare(observed, expected)
print(f"검정통계량: {statistic:.3f}, p-value: {pvalue:.3f}")
print("채택" if pvalue > 0.05 else "기각")
print("변수의 분포가 기대분포와 같지 않다.")

검정통계량: 26.667, p-value: 0.000
기각
변수의 분포가 기대분포와 같지 않다.


In [4]:
# [파일로 주어진 경우 직접 개수 계산]
# data를 파일로 가정하고, 'blood_type'이 범주형 변수일때
import pandas as pd
import numpy as np
from scipy.stats import chisquare

data = {'blood_type': ['A']*16 + ['B']*16 + ['O']*4 + ['AB']*4}
data = pd.DataFrame(data)
data['blood_type'] = pd.Categorical(data['blood_type'], categories=['A','B','O','AB'])
observed = [16, 16, 4, 4]
expected = np.array([0.2, 0.2, 0.3, 0.3]) * 40
# print(observed, expected, sep="\n")

statistic, pvalue = chisquare(observed, expected)
print(f"검정통계량: {statistic:.3f}, p-value: {pvalue:.3f}")
print("채택" if pvalue > 0.05 else "기각")
print("변수의 분포가 기대분포와 같지 않다.")

검정통계량: 26.667, p-value: 0.000
기각
변수의 분포가 기대분포와 같지 않다.


#### 1-02. 기대분포가 동일비율
* 4개의 범주에 대해 동일한 비율이라고 가정하고, 실제측정한 표본분포가 다음과 같다.
* 카이제곱 적합도 검정을 수행하여 보자
* observed = [54, 60, 60, 60]
* H0: 변수의 분포에 비율 차이가 없다.
* H1: 변수의 분포에 비율 차이가 있다.

In [8]:
# 기대비율이 동일비율인 경우에 대한 카이제곱 적합도 검정 수행
import numpy as np
from scipy.stats import chisquare

observed = [54, 46, 60, 60]
expected = np.array([0.25] * 4) * sum(observed)
# print(observed, expected, sep="\n")

statistic, pvalue = chisquare(observed, expected)
print(f"검정통계량: {statistic:.3f}, p-value: {pvalue:.3f}")
print("채택" if pvalue > 0.05 else "기각")
print("변수의 분포에 비율 차이가 없다.")

검정통계량: 2.400, p-value: 0.494
채택
변수의 분포에 비율 차이가 없다.
