## 교차분석

- 범주형 자료인 두 변수 간의 관계를 알아보기 위해 실시하는 분석 기법으로 적합도 검정, 독립성 검정, 동질성 검정에 사용되며 카이제곰 검정 통계량을 이용한다.

### 1. 적합도 검정
- 실험에서 얻어진 관측 값들이 예상한 이론과 일치하는지 아닌지를 검정하는 방법
- 관측 값들이 어더 한 이론적 분포를 따르고 있는지를 알아볼 수 있다.
- 모집단 분포에 대한 가정이 옳게 됐는지를 관측자료와 비교하여 검정

​

#### 가설 설정
- 귀무가설 : 실제 분포와 이론 적 분포 간에는 차이가 없다.
- 대립가설 : 실제 분포와 이론적 분포 간에는 차이가 있다.

In [3]:
df = pd.read_csv("../data/고객이탈데이터.csv")
df

Unnamed: 0,고객 ID,신용점수,국가,성별,나이,근속기간,계좌잔액,사용중인상품수,신용카드보유여부,활성회원여부,추정연봉,고객이탈여부
0,15634602,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,15647311,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,15619304,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,15701354,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,15737888,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...
9995,15606229,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,15569892,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,15584532,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,15682355,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


In [4]:
import pandas as pd
from scipy.stats import chisquare

# '활성회원여부' 열의 값 카운트
country_counts = df['활성회원여부'].value_counts()

# 관측 빈도 (France, Spain, Germany의 빈도)
observed_frequencies = country_counts.values

# 예상 빈도 (균등 분포를 가정하여 활성회원여부 분류가 동일한 빈도를 가짐)
expected_frequencies = [len(df) / len(country_counts)] * len(country_counts)

# 카이제곱 적합도 검정 수행
chi2, p_value = chisquare(f_obs=observed_frequencies, f_exp=expected_frequencies)

# 통계량 확인
print(f"Chi-square statistic: {chi2}")

# p-value값 확인
print(f"P-value: {p_value}")

Chi-square statistic: 9.1204
P-value: 0.0025277468553445985


### 2. 독립성검정과 동질성 검정

#### 1) 독립성검정

- 모 집단의 두 개의 변수 A, B에 의해 범주화되었을 때, 이 두 변수ㄷ들 사이의 관계가 독립인지 아닌지를 검정하는 것을 의미하며 교차 표를 활용

#### 가설 설정
- 귀무가설 : 두 변수 사이에는 연관이 없다.
- 대립가설 : 두 변수 사이에는 연관이 있다.

​

#### 2) 동질성 검정

- 모집단이 임의의 변수에 따라 R 개의 속성으로 범주화되었을 때 R 개의 부분 모집단에서 추출한ㄷ 각 표본인 C 개의 범주화된 집단의 분포는 서로 동일한지 아닌지를 검정하는 것을 의미하며 독립성검정과 마찬가지로 교차 표를 활용하며, 독립성 검정과 같은 방법으로 진행

#### 가설 설정 
- 귀무가설 : 변수들 사이의 분포는 같다.
- 대립가설 : 변수들 사이에 분포가 다른 적어도 하나의 값이 존재한다.

In [5]:
import pandas as pd
from scipy.stats import chi2_contingency

# 교차표 생성: 국가별로 고객이탈여부 카운트
contingency_table = pd.crosstab(df['국가'], df['활성회원여부'])

# 독립성 검정 수행
chi2, p_value, dof, expected = chi2_contingency(contingency_table)

print(f"Chi-square statistic: {chi2}")
print(f"P-value: {p_value}")
print(f"Degrees of freedom: {dof}")
print("Expected frequencies:")
print(expected)


Chi-square statistic: 5.3046938050233425
P-value: 0.070485595970645
Degrees of freedom: 2
Expected frequencies:
[[2431.2886 2582.7114]
 [1216.6141 1292.3859]
 [1201.0973 1275.9027]]
