
# 교차분석


<br>

## 카이제곱 검정이란? 

- 카이제곱(χ2) 분포에 기초한 통계 방법
- 설명변수가 <b>범주형 자료</b>인 경우 사용
- 각 범주에 따른 결과변수의 분포를 설명하거나, 범주형 변수가 두 개 이상인 경우 두 변수가 상관이 있는지를 검정함
- 기본가정 : 각 범주의 기대빈도가 5 이상이어야 함

<br>

<br>

## 교차분석 개념

- 범주형 자료(명목/서열 수준)인 두 변수 간의 관계를 알아보기 위해 실시하는 분석 기법
- 적합성 검정, 독립성 검정, 동질성 검정에 사용되며, 카이제곱 검정통계량을 이용함
- 교차분석은 교차표에서 각 셀의 관찰빈도와 기대빈도 간의 차이를 검정함
    - 관찰빈도 : 자료로부터 얻은 빈도분포
    - 기대빈도 : 두 변수가 독립일 때 이론적으로 기대할 수 있는 빈도분포

<br>


## 카이제곱 검정의 세 가지 검정

- 적합성 검정 : 각 범주에 따른 데이터의 빈도분포가 이론적으로 기대하는 분포를 따르는지를 검정함<br>
&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;ex. 주사위를 굴렸을 때, 각 주사위의 값이 1/6의 확률로 등장하는 게 맞는지 검정
- 독립성 검정 : 두 개 이상의 범주형 변수에 대해서, 그 변수들의 관계에 따라 값들의 분포가 유의미한 차이를 보이는지 검정함<br>
&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;ex. 고객의 지역과 보험 가입 여부가 주어졌을 때 지역에 따른 보험 가입 비율의 차이가 존재하는지 검정
- 동질성 검정 : 부모집단의 관측값들이 정해진 범주 내에서 서로 비슷하게 나타나고 있는지를 검정<br>
&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;ex. 남학생의 TV 프로그램 선호도와 여학생의 TV프로그램 선호도가 동일한지 검정

### 동질성 검정과 독립성 검정의 차이
- 동질성 검정은 범주 A에 대해 범주B의 유형들이 같은 빈도로 나타는지를 검정하는 것 
- 독립성 검정은 독립적인지 (혹은 상관성이 있는지)를 검정하는 것 

###  적합성 검정

- 실험에서 얻어진 관측값들이 예상한 이론과 일치하는지 아닌지를 검정하는 방법
- 관측값들이 어떠한 이론적 분포를 따르고 있는지 관찰할 수 있음
- 모집단 분포에 대한 가정이 옳게 됐는지 관측 자료와 비교하여 검정하는 것
- 검정통계량
    - 카이제곱 통계량 값이 큰 경우 : 관찰도수와 기대도수의 차이가 크고 적합도가 낮음 (일치한다고 볼 수 없음)
    - 카이제곱 통계량 값이 작은 경우 : 관찰도수와 기대도수의 차이가 작고 적합도가 높음 (일치한다고 볼 수 있음)
    
> scipy.stats.chisquare(f_obs, f_exp=None)
> - f_obs : 각 범주에서 관찰된 빈도
> - f_exp : 각 카테고리의 예상 빈도

<br>

<b>[예제]</b>

titanic데이터에서  sex 변수에 대한 분할표를 생성하고 아래의 가설에 대한 적합도 검정을 수행하세요. 

<span style='color: #CD5C5C'> - 귀무가설 : 전체 응답자 중 남자의 비율이 50%, 여자의 비율이 50%이다 </span><br>
<span style='color: #CD5C5C'> - 대립가설 : 전체 응답자 중 남자의 비율이 50%, 여자의 비율이 50%이라고 할 수 없다 </span>

In [3]:
import pandas as pd
# 데이터 불러오기
df_t = pd.read_csv('./data/titanic.csv')
# 타이타닉 데이터의 구조 확인
df_t.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   survived     891 non-null    int64  
 1   pclass       891 non-null    int64  
 2   sex          891 non-null    object 
 3   age          714 non-null    float64
 4   sibsp        891 non-null    int64  
 5   parch        891 non-null    int64  
 6   fare         891 non-null    float64
 7   embarked     889 non-null    object 
 8   class        891 non-null    object 
 9   adult_male   891 non-null    bool   
 10  embark_town  889 non-null    object 
dtypes: bool(1), float64(2), int64(4), object(4)
memory usage: 70.6+ KB


In [4]:
df_t

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,adult_male,embark_town
0,0,3,male,22.0,1,0,7.2500,S,Third,True,Southampton
1,1,1,female,38.0,1,0,71.2833,C,First,False,Cherbourg
2,1,3,female,26.0,0,0,7.9250,S,Third,False,Southampton
3,1,1,female,35.0,1,0,53.1000,S,First,False,Southampton
4,0,3,male,35.0,0,0,8.0500,S,Third,True,Southampton
...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,True,Southampton
887,1,1,female,19.0,0,0,30.0000,S,First,False,Southampton
888,0,3,female,,1,2,23.4500,S,Third,False,Southampton
889,1,1,male,26.0,0,0,30.0000,C,First,True,Cherbourg
