- 범주형 데이터의 관찰된 빈도와 기대된 빈도를 비교하여
- 두 변수 간의 독립성이나 분포의 적합성을 검정하는 방법

1. 적합도 검정
2. 독립성 검정
3. 동질성 검정

#### 카이제곱 검정

##### 적합도 검정

In [1]:
# 1개의 범주형 변수가 특정 분포를 잘 따르고 있는가
    
# 귀무가설: 특정 분포를 따른다.
# 대립가설: 특정 분포를 따르지 않는다.

In [2]:
# scipy.stats.chisquare(observed, expected, ddof, axis)
    # observed: 관즉된 빈도 리스트
    # ecpected: 기대 빈도 리스트
    # ddof: 자유도 조정, 기본값 0
    # axis: 축, 기본값 0 

In [3]:
# 300명 대상으로 아이스크림 선호도를 조사하니 바닐라 150명, 초코 120, 딸기30
# 전국 대상 비율은 바닐라 50%, 초코35% 딸기 15%인데 이 도시의 맛 선호도는 전국의 맛 선호도와 차이가 있는가?
observed = [150, 120, 30] # 전체 300명
expected = [0.5*300, 0.35*300, 0.15*300]

from scipy.stats import chisquare
chisquare(observed, expected)
# 0.02로 0.05보다 작아서
# 이 지역은 전국의 맛 선호도와 차이가 있음

Power_divergenceResult(statistic=7.142857142857142, pvalue=0.028115659748972056)

##### 독립성 검정

In [5]:
# 2개의 변수가 서로 독립적인지, 연관이 있는지 검정
    # 귀무가설: 두 변수는 독립적이다.
    # 대립가설: 두 변수는 독립적이 아니다.

In [13]:
# from scipy.stats import chi2_contingency(table, correction=True)
    # table: 교차표(Contingency tagle)
    # correction: 연속성 수정 여부, 기본이 True
        # 문제에서 연속성을 수정하지 않는다고 하면 False

- 교차표 데이터로 진행하기

In [7]:
import pandas as pd
df = pd.DataFrame({'좋아함':[80,90],
                   '좋아하지 않음': [30,10]},
                  index=['남자','여자'])
df

Unnamed: 0,좋아함,좋아하지 않음
남자,80,30
여자,90,10


In [9]:
# 혹은 아래처럼 간단하게도 가능
# df = [[80,90],[90,10]]

In [15]:
from scipy.stats import chi2_contingency
chi2_contingency(df)
# p값이 0.05보다 작으므로 귀무가설 기각
# 성별과 선호도에는 유의미한 연관성이 있다.

Chi2ContingencyResult(statistic=47.962113321799315, pvalue=4.345351580848696e-12, dof=1, expected_freq=array([[107.03703704,  62.96296296],
       [ 62.96296296,  37.03703704]]))

- 로우 데이터일 때

In [27]:
# 남자 110명, 여자 100명이고
# 결과는 남자: 좋아함80, 좋아하지 않음30, | 여자: 좋아함 90, 좋아하지 않음10
df = pd.DataFrame({'성별': ['남자']*110 + ['여자']*100,
                  '운동': ['좋아함']*80 + ['좋아하지 않음']*30 + ['좋아함']*90 + ['좋아하지 않음']*10
                  })
display(df)

# 교차표 만들기 pd.crosstab(요인1, 요인2)
df = pd.crosstab(df['성별'], df['운동'])
display(df)

Unnamed: 0,성별,운동
0,남자,좋아함
1,남자,좋아함
2,남자,좋아함
3,남자,좋아함
4,남자,좋아함
...,...,...
205,여자,좋아하지 않음
206,여자,좋아하지 않음
207,여자,좋아하지 않음
208,여자,좋아하지 않음


운동,좋아하지 않음,좋아함
성별,Unnamed: 1_level_1,Unnamed: 2_level_1
남자,30,80
여자,10,90


In [28]:
from scipy.stats import chi2_contingency
chi2_contingency(df)

Chi2ContingencyResult(statistic=9.045792112299468, pvalue=0.0026330012530379632, dof=1, expected_freq=array([[20.95238095, 89.04761905],
       [19.04761905, 80.95238095]]))

#### 동질성 검정

In [31]:
# 두 집단(행)의 분포가 동일한지 검정
    # 귀무가설: 두 집단의 분포는 동일하다.
    # 대립가설: 두 집단의 분포는 동일하지 않다.

In [None]:
# 마찬가지로
# from scipy.stats import chi2_contingency(table, correction=True)

- 교차표 데이터 이용하기

In [32]:
import pandas as pd
from scipy.stats import chi2_contingency

df = pd.DataFrame([[50, 50], [30, 70]])
chi2_contingency(df)
# p값이 0.05보다 작으므로 두 집단의 분포는 동일하지 않다.

Chi2ContingencyResult(statistic=7.520833333333334, pvalue=0.006098945931214352, dof=1, expected_freq=array([[40., 60.],
       [40., 60.]]))

- 로우 데이터 이용하기

In [39]:
# 통계학과 100명
    # 동아리가입여부: 가입 50, 미가입 50
# 컴퓨터공학과 100명
    # 동아리가입여부: 가입 30, 미가입 70
data = {
    '학과': ['통계학과']*100 + ['컴퓨터공학과']*100,
    '동아리가입여부': ['가입']*50 + ['미가입']*50 + ['가입']*30 + ['미가입']*70
}
df = pd.DataFrame(data)
display(df)

# pd.crosstab 사용
df = pd.crosstab(df['학과'], df['동아리가입여부'])
df

Unnamed: 0,학과,동아리가입여부
0,통계학과,가입
1,통계학과,가입
2,통계학과,가입
3,통계학과,가입
4,통계학과,가입
...,...,...
195,컴퓨터공학과,미가입
196,컴퓨터공학과,미가입
197,컴퓨터공학과,미가입
198,컴퓨터공학과,미가입


동아리가입여부,가입,미가입
학과,Unnamed: 1_level_1,Unnamed: 2_level_1
컴퓨터공학과,30,70
통계학과,50,50


In [43]:
from scipy.stats import chi2_contingency
chi2_contingency(df)
# 0.05 이하이니 두 집단의 분포는 동일하지 않다.

Chi2ContingencyResult(statistic=7.520833333333334, pvalue=0.006098945931214352, dof=1, expected_freq=array([[40., 60.],
       [40., 60.]]))