## 카이제곱 검정 (교차분석)

### 카이제곱 검정 (Chi-Squared Test)
- '범주형' 변수 간 연관관계를 확인하기 위해 교차표를 통해 차이를 검정하는 기법  
- 교차표를 통해 각 셀의 관측빈도와 기대빈도 간의 차이 검정  
    - 관측빈도 (observed frequency) : 실제로 수집된 데이터의 빈도
    - 기대빈도 (expected frequency) : 두 변수가 독립일 때 이론적으로 기대할 수 있는 빈도분포
- 차이를 제곱 : 양수/음수 차이값이 상쇄되는 것 방지 
- 범주형 변수의 개수가 k개이면 자유도는 k-1개    
- 카이제곱 검정 수행 목적
    - 데이터에서 각 범주에 따른 결과변수의 분포 설명
    - 범주형 변수가 두 개 이상인 경우 두 변수가 상관이 있는지 검정
    - 예 :
        - '거주지역'과 '성별' 간 관계
        - '성별'과 '연령별' 제품의 만족도 차이 
        - '성별'과 '흡연' 여부 
        - '객실 등급'과 '생존' 관계
        
---
- t-tes와 ANOVA 분석 : 종속변수가 연속형
- 카이제곱 검정 : 종속변수가 범주형 

### 카이제곱 검정에서 수행하는 3가지 검정
- (1) 적합성 검정 
    - 각 범주에 따른 데이터의 빈도분포가 이론적으로 기대하는 분포를 따르는지 검정
    - 예 : 주사위 값이 1/6 확률이 맞는지 검정 
- (2) 독립성 검정 (관련성)
    - 모집단이 두 개의 변수 A, B에 의해 범주화 되었을 때, 이 두 변수들 사이의 관계가 독립인지 검정 
    - 예 : 환자의 비만유무와 대사성 질환의 유무가 주어졌을 때
        - 비만에 따른 질환 비율에 차이가 존재하는지 검정   
- (3) 동질성 검정 
    - 모집단이 임의의 변수에 따라 R개의 속성으로 범주화되었을 때
    - R의 부분 모집단에서 추출한 표본이 C개의 범주화된 집단의 분포가 서로 동일한지 검정
    - 독립성 검정과 계산법 및 검정 방법 동일 
    - 예 : 타이타닉 호
    - 귀무가설(H0) : 좌석등급(class)의 분포는 생존여부(survived)에 관계없이 동일하다
    - 대립가설(H1) : 좌석등급(class)의 분포는 생존여부(survived)에 관계없이 동일하지 않다 


### (1) 적합성 검정
- scipy.stats.chisquare(f_obs, f_exp=None, ddof=0, axis=0) 사용
- scipy.stats.chisquare(관측빈도, 기대빈도, 자유도=0, axis=0)  
    - 관측빈도 : pd.value_counts() 값
    - 기대빈도 : 각 카테고리의 기대빈도 (default : 가능성이 동일하다고 가정)
    - 자유도 : p-value에 대한 자유도 조정 가능. 디폴트 : 0
        - k - 1 - ddof  
        - k : 관찰된 범주의 수. 예로 주사위 1~6이면 k는 6, k-1은 자유도  

### 적합성 검정 예 
- 타이타닉 데이터 사용 
- 성별 sex 변수에 대한 분할표 생성하고 가설에 대한 적합도 검정 수행
- 가설 
    - 귀무가설(H0) : 타이타닉호의 생존자 중 남자의 비율이 50%, 여자의 비율이 50%이다
    - 대립가설(H1) : 타이타닉호의 생존자 중 남자의 비율이 50%, 여자의 비율이 50%가 아니다     
- 적합성 검정 단계
    - (1) 교차분석을 위한 도수분포표 생성 : value_counts() 
    - (2) 적합성 검정 수행 : chisquare() 

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [2]:
import pandas as pd
# 데이터 불러오기
df = pd.read_csv("./data/titanic.csv")
# titinic 데이터의 구조 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   survived     891 non-null    int64  
 1   pclass       891 non-null    int64  
 2   sex          891 non-null    object 
 3   age          714 non-null    float64
 4   sibsp        891 non-null    int64  
 5   parch        891 non-null    int64  
 6   fare         891 non-null    float64
 7   embarked     889 non-null    object 
 8   class        891 non-null    object 
 9   adult_male   891 non-null    bool   
 10  embark_town  889 non-null    object 
dtypes: bool(1), float64(2), int64(4), object(4)
memory usage: 70.6+ KB


In [3]:
# (1) 교차분석을 위한 도수분포표 생성

table = df[df.survived==1].value_counts('sex')
table

sex
female    233
male      109
Name: count, dtype: int64

In [4]:
# (2) 적합도 검정 수행

from scipy.stats import chisquare

chisquare(table, f_exp=[171, 171])

Power_divergenceResult(statistic=44.95906432748538, pvalue=2.0119672574477235e-11)

### (2) 독립성 검정
- 좌석등급(class)과 생존여부(survived)가 서로 독립적인지 검정 수행 
- 가설
    - 귀무가설(H0) : 좌석등급(class)과 생존여부(survived)가 서로 독립적이다
    - 대립가설(H1) : 좌석등급(class)과 생존여부(survived)가 서로 독립적 아니다 
    
- scipy.stats의 chi2_contingency(observed, correction=True, lambda_=None) 사용   
    - observed : pd.crosstab() 값   
    - 4개 값 리턴    
        - 카이제곱 통계량 
        - p-value 
        - 자유도  
        - 테이블의 합계를 기반으로 한 기대빈도 
---
- 독립성 검정 수행 단계
    - (1) pd.crosstab() 사용 교차 테이블 생성 (observed 값 생성) 
    - (2) chi2_contingency() 사용 독립성 검정 수행 
---
- 참고 : correction=True 디폴트  
    - Yates' contimuity correction (예이츠의 수정)
        - 카이제곱 검정의 오차를 교정하기 위해 수정 (분자의 제곱 항에 절대값 적용 후 0.5 빼기)    
        - 카이제곱 검정통계량보다 작아지고, p-value 값은 커짐   
        - (카이제곱에서는 검정통계량이 작을수록 p값이 커짐)  
        - 교정 정도가 심해서 사용하지 말자는 의견도 있음 

In [5]:
# (1) pd.crosstab() 사용해서 교차 테이블 생성 (observed 값 생성)
table = pd.crosstab(index=df['class'], columns=df['survived'], values=df['survived'], aggfunc='count')
table

survived,0,1
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,80,136
Second,97,87
Third,372,119


In [6]:
# (2) 카이제곱 검정을 통한 독립성 검정 수행

from scipy.stats import chi2_contingency

chi2_contingency(table)

Chi2ContingencyResult(statistic=102.88898875696056, pvalue=4.549251711298793e-23, dof=2, expected_freq=array([[133.09090909,  82.90909091],
       [113.37373737,  70.62626263],
       [302.53535354, 188.46464646]]))

In [7]:
chi2_contingency(table, correction=False)

Chi2ContingencyResult(statistic=102.88898875696056, pvalue=4.549251711298793e-23, dof=2, expected_freq=array([[133.09090909,  82.90909091],
       [113.37373737,  70.62626263],
       [302.53535354, 188.46464646]]))

In [None]:
# 독립적이지 못하다

In [8]:
#######################################################

### 카이제곱 독립성 검정 수행 연습문제1 
- 폐암과 흡연의 연관성 분석 
- 범주형과  범주형 간의 관련성(독립성) 분석 

In [9]:
# smoke_disease.csv 사용
df = pd.read_csv("./data/smoke_disease.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   smoke    35 non-null     int64
 1   disease  35 non-null     int64
dtypes: int64(2)
memory usage: 692.0 bytes


In [10]:
df.head()

Unnamed: 0,smoke,disease
0,0,0
1,0,0
2,0,0
3,0,0
4,0,0


In [11]:
table = pd.crosstab(index=df['smoke'], columns=df['disease'])
table

disease,0,1
smoke,Unnamed: 1_level_1,Unnamed: 2_level_1
0,14,2
1,10,9


In [12]:
chi2_contingency(table)
# 독립적이라 할 만 하지만

Chi2ContingencyResult(statistic=3.4156792015550237, pvalue=0.06457983327434368, dof=1, expected_freq=array([[10.97142857,  5.02857143],
       [13.02857143,  5.97142857]]))

In [13]:
chi2_contingency(table, correction=False)
# 여기는 독립적이라 하기 힘들다

Chi2ContingencyResult(statistic=4.900069776714513, pvalue=0.026855610352114926, dof=1, expected_freq=array([[10.97142857,  5.02857143],
       [13.02857143,  5.97142857]]))

### 카이제곱 독립성 검정 수행 연습문제2
- 성별에 따른 만족도 연관성(독립성) 분석

In [14]:
# 성별에따른만족도.csv 사용
df = pd.read_csv("./data/성별에따른만족도.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   만족도     200 non-null    object
 1   성별      200 non-null    object
dtypes: object(2)
memory usage: 3.3+ KB


In [15]:
df.head()

Unnamed: 0,만족도,성별
0,불만족,남성
1,보통,여성
2,불만족,여성
3,보통,남성
4,만족,여성


In [16]:
table = pd.crosstab(index=df['만족도'], columns=df['성별'])
table

성별,남성,여성
만족도,Unnamed: 1_level_1,Unnamed: 2_level_1
만족,50,40
보통,40,30
불만족,10,30


In [17]:
chi2_contingency(table)

Chi2ContingencyResult(statistic=12.53968253968254, pvalue=0.001892528960792166, dof=2, expected_freq=array([[45., 45.],
       [35., 35.],
       [20., 20.]]))

In [18]:
chi2_contingency(table, correction=False)

Chi2ContingencyResult(statistic=12.53968253968254, pvalue=0.001892528960792166, dof=2, expected_freq=array([[45., 45.],
       [35., 35.],
       [20., 20.]]))

In [None]:
# 여기는 둘 다 독립적이라 보기 힘들다