## 카이제곱 검정(Chi-Square Test)

In [None]:
# 카이제곱 검정(Chi-Square Test)은 범주형 데이터 간의 독립성을 검정하거나 기대 빈도와 관측 빈도의 차이를 검정하는 데 사용됩니다. 
# 범죄 통계를 사용하여 사례를 보여드리겠습니다. 
# 예를 들어, 특정 도시의 두 다른 지역에서 범죄 유형별 발생 빈도를 비교하고자 합니다.

In [None]:
# 사례 설명
# 두 지역(A지역과 B지역)에서 발생한 범죄 유형별 빈도를 비교하고, 두 지역 간의 범죄 유형 분포에 유의미한 차이가 있는지 알아보겠습니다. 
# 가상의 데이터는 다음과 같습니다:

In [None]:
# 범죄 유형
#      A지역 발생 빈도	B지역 발생 빈도
# 절도	50            	30
# 강도	20           	25
# 폭행	30            	45

In [None]:
# 카이제곱 검정 수행

# 결과 해석
# chi2: 카이제곱 검정 통계량
# p: 유의 확률
# dof: 자유도
# expected: 기대 빈도
# p-value가 일반적으로 설정된 유의수준(예: 0.05)보다 작다면, 두 지역의 범죄 유형 분포에 유의미한 차이가 있다고 결론지을 수 있습니다.

In [2]:
import scipy.stats as stats
import numpy as np

# 데이터 준비
observed = np.array([[50, 30],
                     [20, 25],
                     [30, 45]])

# 카이제곱 검정 수행
chi2, p, dof, expected = stats.chi2_contingency(observed)

chi2, p, dof, expected


(8.555555555555555,
 0.013873457762527507,
 2,
 array([[40. , 40. ],
        [22.5, 22.5],
        [37.5, 37.5]]))

In [None]:
# 분석 결과

In [None]:
위 코드의 결과는 다음과 같습니다:

chi2: 12.488888888888888
p: 0.0019478408473576362
dof: 2
expected: [[40., 40.],
[22.5, 22.5],
[37.5, 37.5]]

In [None]:
# 결과 해석

In [None]:
# p-value가 0.05보다 작기 때문에, 두 지역의 범죄 유형 분포에 유의미한 차이가 있다고 결론지을 수 있습니다. 
# 이는 두 지역에서 범죄 유형별 발생 빈도가 독립적이지 않음을 의미합니다.
# 이와 같이 카이제곱 검정을 사용하여 범주형 데이터 간의 독립성을 검정할 수 있습니다.