# 동질성 검정(Test of Homogeneity)

https://m.blog.naver.com/gksshdk8003/221909306431

카이제곱 검정(Chi-squared Test)의 한가지 유형인 동질성 검정(Test of Homogeneity)에 대해서 알아보겠습니다.

## 1. 동질성 검정(Test of Homogeneity)이란?

In [1]:
import pandas as pd
import numpy as np

In [11]:
data_ = [
    ["강남구", 65, 12, 23],
    ["서초구", 70, 15, 15]
]
df = pd.DataFrame(data=data_, columns=["거주 지역", "진보", "중도", "보수"])
df['합계'] = df.sum(axis=1)
df

Unnamed: 0,거주 지역,진보,중도,보수,합계
0,강남구,65,12,23,100
1,서초구,70,15,15,100


동질성 검정은 두 범주형 변수를 이용합니다. 정확히는 하나의 범주형 변수를 기준으로 각 그룹이 특정 요인에 대해 서로 비슷한지를 알아보는 방법입니다.
예를 들어, 거주지역에 따라 정치 성향이 다른지 알아볼 수 있습니다. 분석을 위해 강남구, 서초구, .. 에서 구별로 100명씩 임의 선정해 정치 성향을 조사했다고 해보겠습니다.

그럼 우리가 궁금한 것은 "각 구별로 진보, 중도, 보수에 대한 정치 성향 차가 있는가?"일 겁니다. 즉 각 구가 정치 성향에 대해 동질적인지 아니면 이질적인 지가 궁금할 겁니다.
앞선 예의 각 구는 부모집단(subpopulation)이라고 합니다. 동질성 검정에서는 부모집단의 표본수를 고정합니다. 가량 강남구에서 100명을 표집하고 서초구에서 200명을 표집하는 것은 상관없지만
진보성향인 사람을 1000명 뽑아놓고, 어떤 구인지를 구분하는 것은 아니라는 말입니다.

정리하면 위 예에서 정치성향은 요인(factor)가 되고, 거주 지역은 부모 집단(subpopulation)이 됩니다. 즉 부모집단별로 요인에 대한 차이가 있는지 검정하는 것이 동질성 검정입니다.

## 2. 동질성 검정의 가설

$ H_0 : p_{1j} = p_{2j} = ... = p_{rj} $ j=1 to c  

$ H_1 : H_0 $ is not true

$ p_{ij} $는 i번째 행의 j번째 열의 모비율을 의미

r: 마지막 행 번호  
c: 마지막 열 번호

동질성 검정의 일반화 된 귀무가설은 각 열의 모비율이 모두 동일함을 주장합니다.  앞선 예에서 각 구별 진보성향의 모비율이 같고, 중도, 보수도 각 구별로 모두 모비율이 동일하다는 의미입니다. 
만약 귀무가설이 채택되며 부모집단은 주어진 요인에 대해 동질적임을 의미합니다.

## 3. 검정 통계량

검정 통계량은 카이제곱 통계량을 이용합니다. 카이제곱 통계량은 앞선 이론에서 설명했던 것과 같이 다음과 같습니다.

$\chi^2 $