In [None]:
# 카이제곱 검정(Chi-square test) = 관찰된 빈도와 기대 빈도 사이의 차이를 분석하는 통계적 방법
# 1. 적합도 검정 (from scipy.stats import chisquare)
# 한 범주형 데이터가 특정 이론적 분포(예: 균등분포)를 따르는지 확인
# 주사위를 60번 던졌을 때, 각 면이 나올 확률이 동일한지 검정
# 전국적인 과자 맛 선호도 vs 특정 도시의 과자 맛 선호도

# 2. 독립성 검정 (from scipy.stats import chi2_contingency)
# 두 범주형 변수 간에 연관(독립성이 아님)이 있는지 검정
# 성별과 제품 선호도가 서로 관련이 있는지 확인

# 3. 동질성 검정 (from scipy.stats import chi2_contingency)
# 서로 다른 두 집단이 동일한 분포를 가지고 있는지 검정 (독립성 검정과 거의 동일한 방식이나 목적 차이).
# 두 지역에서 설문 조사한 결과가 같은 분포를 보이는지 비교

In [1]:
from scipy.stats import chisquare

# 관측 빈도
observed = [10, 9, 11, 8, 12, 10]

# 기대 빈도 (균등분포: 60회 중 각 면은 10번)
expected = [10, 10, 10, 10, 10, 10]

chi2_stat, p_value = chisquare(f_obs=observed, f_exp=expected)
print("Chi2 Statistic:", chi2_stat)
print("p-value:", p_value) # 균등분포를 따른다.

Chi2 Statistic: 1.0
p-value: 0.9625657732472964


In [2]:
import numpy as np
from scipy.stats import chi2_contingency

# 행: 성별 (남, 여), 열: 선호 제품 (A, B, C)
data = np.array([[20, 30, 25],  # 남
                 [22, 28, 30]]) # 여

chi2_stat, p_value, dof, expected = chi2_contingency(data)
print("Chi2 Statistic:", chi2_stat)
print("p-value:", p_value)
print("Expected Frequencies:\n", expected) # 두 범주형 변수가 서로 연관성이 없다. (독립적이다)

Chi2 Statistic: 0.4579352639697464
p-value: 0.79535427712773
Expected Frequencies:
 [[20.32258065 28.06451613 26.61290323]
 [21.67741935 29.93548387 28.38709677]]


In [3]:
# 동질성 검정은 독립성 검정과 계산 방식이 동일하고, 해석이 다름.
import numpy as np
from scipy.stats import chi2_contingency

# 행: 지역 (서울, 부산), 열: 응답 (좋다, 보통, 나쁘다)
data = np.array([[50, 30, 20],  # 서울
                 [45, 35, 20]]) # 부산

chi2_stat, p_value, dof, expected = chi2_contingency(data)
print("Chi2 Statistic:", chi2_stat)
print("p-value:", p_value)
print("Expected Frequencies:\n", expected) # 두 지역에서 설문 조사한 결과가 같은 분포를 보인다.

Chi2 Statistic: 0.6477732793522267
p-value: 0.7233322349088317
Expected Frequencies:
 [[47.5 32.5 20. ]
 [47.5 32.5 20. ]]
