# 독립성 검정
독립성 검정(Chi-square test of independence)은 두 개 이상의 범주형 변수 간에 ```연관성(상관관계)```이 있는지를 판단하는 통계적 방법입니다.
즉, 한 변수의 범주가 다른 변수의 범주와 관련이 있는지를 검증합니다. 예를 들어, "흡연 여부"와 "심장 질환 발생"이라는 두 범주형 변수 사이에 연관성이 있는지(즉, 서로 독립적인지 아닌지)를 알아보고자 할 때 사용합니다.

* 귀무가설(H₀): 두 변수는 서로 독립적이다.
* 대립가설(H₁): 두 변수는 독립적이지 않다.

In [1]:
import pandas as pd
from scipy import stats

# 귀무가설: 성별과 운동 선호도는 독립적이다.
# 대립가설: 성별과 운동 선호도는 독립적이지 않다.

df = pd.DataFrame({'좋아함': [80, 90],
                   '좋아하지 않음': [30, 10]},
                  index=['남자', '여자'])
df

Unnamed: 0,좋아함,좋아하지 않음
남자,80,30
여자,90,10


In [3]:
# 기대빈도 표 만들기 

df2 = pd.DataFrame([[170*110 / 210,  110*40 / 210], [170*100 / 210, 100*40 /210]],          
                   index = ["남자", "여자"], columns = ["좋아함", "좋아하지 않음"])
df2

# 공정하다고 기대되는 기대빈도표 

Unnamed: 0,좋아함,좋아하지 않음
남자,89.047619,20.952381
여자,80.952381,19.047619


In [9]:
# 교차표 기반 카이제곱 검정.    식의 결과값은 이럼 
((abs(df - df2) - 0.5) ** 2 / df2).sum().sum()

9.045792112299466

In [11]:
# 교차표 기반 카이제곱 검정 (함수)    -    함수쓰면 기대빈도표 만들필요없음 
stats.chi2_contingency(df)

# 기대빈도? : 9.045792112299468
# p < 0.05 ; 귀무가설 기각   성별과 운동선호도는 독립적이지 않다 

Chi2ContingencyResult(statistic=9.045792112299468, pvalue=0.0026330012530379632, dof=1, expected_freq=array([[89.04761905, 20.95238095],
       [80.95238095, 19.04761905]]))

## 연습문제
1. 어느 조사에서 두 도시(A도시, B도시)의 주민들을 대상으로 집에서 직접 요리한 집밥과 외식을 선호하는지 조사하였습니다. 조사 결과는 아래와 같이 나타났습니다.

* 귀무가설(H₀): 도시와 식사 선호도는 서로 독립이다.
* 대립가설(H₁): 도시와 식사 선호도는 서로 독립이 아니다.

이 자료를 바탕으로 독립성 검정을 수행하여, 두 변수(도시, 식사 선호)가 독립인지 아닌지를 판단하시오.

In [14]:
# 데이터 프레임 생성
data = {'집밥 선호': [45, 30],  
        '외식 선호': [55, 70]} 

df = pd.DataFrame(data, index=['A도시', 'B도시'])
df

Unnamed: 0,집밥 선호,외식 선호
A도시,45,55
B도시,30,70


In [15]:
# 기대빈도 표 만들기 

df2 = pd.DataFrame([[75*100 / 200, 125*100 / 200], [75*100 / 200, 125*100 / 200]],          
                   index = ["A도시", "B도시"], columns = ["집밥선호", "외식선호"])
df2

Unnamed: 0,집밥선호,외식선호
A도시,37.5,62.5
B도시,37.5,62.5


In [16]:
stats.chi2_contingency(df)

# p < 0.05 ; 귀무가설 기각.   도시와 식사 선호도는 서로 독립이 아니다.

Chi2ContingencyResult(statistic=4.181333333333333, pvalue=0.04087153408900628, dof=1, expected_freq=array([[37.5, 62.5],
       [37.5, 62.5]]))

2. 한 대학에서 학생들의 성별(남자, 여자)과 전공(공학, 인문, 사회)을 조사하였습니다. 그 결과는 아래와 같습니다.

* 귀무가설(H₀): 성별과 전공 선택은 서로 독립이다.
* 대립가설(H₁): 성별과 전공 선택은 서로 독립이 아니다.

이 자료를 이용하여 독립성 검정을 수행하고, 성별에 따라 전공 선택에 차이가 있는지 판단하시오.

In [18]:
data = {'공학': [50, 30],
        '인문': [20, 40],
        '사회': [30, 30]}
df = pd.DataFrame(data, index=['남자', '여자'])
df

Unnamed: 0,공학,인문,사회
남자,50,20,30
여자,30,40,30


In [19]:
stats.chi2_contingency(df)

# p < 0.05 ; 귀무가설 기각.   성별과 전공 선택은 서로 독립이 아니다.

Chi2ContingencyResult(statistic=11.666666666666668, pvalue=0.0029282996948181853, dof=2, expected_freq=array([[40., 30., 30.],
       [40., 30., 30.]]))