### 교차분석(chi-square test)
t-test, ANOVA 분석은 종속변수가 연속형 변수였지만, 카이제곱 검정은 설명변수가 범주형 변수인 경우에 사용하는 통계 기법이다. 데이터에서 각 범주에 따른 결과변수의 분포를 설명하거나, 범주형 변수가 두 개 이상인 경우 두 변수가 상관이 있는지를 검정하는 것이 목적이다.(관찰빈도와 기대빈도 간 차이 검정)

##### 1) 적합성 검정
각 범주에 따른 데이터 빈도분포가 이론적으로 기대하는 분포를 따르는지 검정하는 방법
- (H0) 타이타닉호 생존자 중 남자 비율이 50%, 여자 비율이 50%이다.
- (H1) 타이타닉호 생존자 중 남자 비율이 50%, 여자 비율이 50%라고 할 수 없다.


In [2]:
import pandas as pd
# 데이터 불러오기
df = pd.read_csv("./data/titanic.csv")
# titinic 데이터의 구조 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   survived     891 non-null    int64  
 1   pclass       891 non-null    int64  
 2   sex          891 non-null    object 
 3   age          714 non-null    float64
 4   sibsp        891 non-null    int64  
 5   parch        891 non-null    int64  
 6   fare         891 non-null    float64
 7   embarked     889 non-null    object 
 8   class        891 non-null    object 
 9   adult_male   891 non-null    bool   
 10  embark_town  889 non-null    object 
dtypes: bool(1), float64(2), int64(4), object(4)
memory usage: 70.6+ KB


In [3]:
df_t = df[df['survived']==1]
table= df_t[['sex']].value_counts()
table

sex   
female    233
male      109
dtype: int64

sex 변수 확인결과 결측치가 없으며, 명목형 변수임을 확인했다.

교차분석을 하기 위해 명목형 변수에 대한 도수분포표를 ㅅ ㅐㅇ성하여 범주별 관찰빈도를 확인하고 적합도 검정을 시행하자.

In [4]:
# 유의수준 0.05로 적합도 검정 수행
from scipy.stats import chisquare
chi = chisquare(table, f_exp=[171,171])
print('<적합도 검정>\n',chi)

<적합도 검정>
 Power_divergenceResult(statistic=44.95906432748538, pvalue=2.0119672574477235e-11)


카이제곱 통계량은 약 44.96, p-value값은 유의수준 0.05보다 작으므로 귀무가설을 기각한다. 즉, 유의수준 0.05하에 타이타닉호에 탄 남자와 여자 비율은 50:50이라고 할 수 없다.

##### 2) 독립성 검정
모집단이 두 개 변수 A, B에 의해 범주화되었을 때, 이 두 변수들 사이의 관계가 독립인지 아닌지를 검정하는 방법이다.
###### 예를들어 환자 비만유무와 대사성 질환 유무가 주어질 때, 비만에 따른 질환비율에 차이가 존재하는지 검정

타이타닉 좌석등급(class)과 생존여부(survived)가 서로 독립인지 검정해보자
- (H0) class 변수와 survived 변수는 독립이다.
- (H1) class 변수와 survived 변수는 독립이 아니다.

In [6]:
# 데이터 불러오기
df = pd.read_csv("./data/titanic.csv")
table = pd.crosstab(df['class'], df['survived'])
table


survived,0,1
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,80,136
Second,97,87
Third,372,119


In [7]:
# 카이제곱 검정을 통한 독립성 검정 수행
from scipy.stats import chi2_contingency
chi, p, df, expect = chi2_contingency(table) 
print('Statistic:', chi)   # 카이제곱 통계량
print('p-value:', p)
print('df:', df)
print('expect: \n', expect)  # 기대빈도


Statistic: 102.88898875696056
p-value: 4.549251711298793e-23
df: 2
expect: 
 [[133.09090909  82.90909091]
 [113.37373737  70.62626263]
 [302.53535354 188.46464646]]


독립성 검정 결과 p-value가 유의수준 0.05보다 작으므로 귀무가설을 기각한다. 즉, 좌석등급과 생존의 유의수준 0.05하에서 독립이 아니라고 할 수 있다.