## Key words
### 카이제곱검정, 두 명목형 변수, chi2_contingency

## 독립성 검정의 특징
- 두 명목형 변수를 대상으로 실시하는 분석
- 독립 관점에서의 해석과 연관 관점에서의 해석이 존재
- 연속형 변수의 경우 명목형 변수로 변환 후 실시

### 가설
- 귀무가설: 두 변수는 서로 독립임(연관x)
- 대립가설: 두 변수는 서로 독립이 아님(연관o)

## scipy - chi2_contingency
- scipy의 독립성 검정을 실시하는 함수
- 입력은 두 개의 명목형 변수의 `각 원소의 빈도`
 - `pd.crosstab()을 사용하여 넣기`
- 출력은 검정통계량, P-value, 자유도, 기대도수 4개의 연산 결과가 튜플로 산출

In [1]:
import pandas as pd
from scipy.stats import chi2_contingency

In [2]:
df = pd.read_csv("financial_info_10k_persons.csv")
df.head(2)

Unnamed: 0,ID,is_attrited,Age,Gender,Dependent_cnt,Edu_level,Marital_status,Income,Card,Period_m,Total_rel_cnt,Inactive_last_12m,Contacts_cnt_last_12m,Credit_limit,Total_trans_amt,Total_trans_cnt
0,1,0,41,F,2,High School,Married,Less than $40K,Blue,36,6,2,2,4953.0,4183,67
1,2,0,38,M,0,High School,Single,$80K - $120K,Blue,29,3,3,2,5983.0,4141,65


In [3]:
# chi2_contingency(df["Gender"], df["Marital_status"])
# 원자료 그대로 넣으면 오류남

In [4]:
chi2_contingency(pd.crosstab(df["Gender"], df["Marital_status"]))

(4.093468963560284,
 0.2515464475739655,
 3,
 array([[ 392.8524, 2462.9028, 2067.3924,  392.8524],
        [ 346.1476, 2170.0972, 1821.6076,  346.1476]]))

In [5]:
pd.crosstab(df["Gender"], df["Marital_status"])

Marital_status,Divorced,Married,Single,Unknown
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
F,401,2432,2106,377
M,338,2201,1783,362


In [6]:
stat, p, dof, e_val = chi2_contingency(pd.crosstab(df["Gender"], df["Marital_status"]))
print(stat)
print(p)

4.093468963560284
0.2515464475739655


## 1. 고객의 학력이 고졸인 경우 성별과 이탈여부를 사용하여 독립성 검정을 실시했을 때 p값은?
- financial_info_10k_persons.csv 파일 사용
- 단, 연속성 수정을 적용하지 않음

In [7]:
df =pd.read_csv("financial_info_10k_persons.csv")
df.head(2)

Unnamed: 0,ID,is_attrited,Age,Gender,Dependent_cnt,Edu_level,Marital_status,Income,Card,Period_m,Total_rel_cnt,Inactive_last_12m,Contacts_cnt_last_12m,Credit_limit,Total_trans_amt,Total_trans_cnt
0,1,0,41,F,2,High School,Married,Less than $40K,Blue,36,6,2,2,4953.0,4183,67
1,2,0,38,M,0,High School,Single,$80K - $120K,Blue,29,3,3,2,5983.0,4141,65


In [8]:
df["Edu_level"].unique()

array(['High School', 'Uneducated', 'Doctorate', 'Unknown', 'Graduate',
       'Post-Graduate', 'College'], dtype=object)

In [9]:
df_hs = df.loc[df["Edu_level"] == "High School"]

In [16]:
df_hs["is_attrited"].unique()

array([0, 1], dtype=int64)

In [10]:
chi2_contingency(pd.crosstab(df_hs["Gender"], df_hs["is_attrited"]), correction=False)

(3.979589535548525,
 0.04605478481460392,
 1,
 array([[867.82258065, 152.17741935],
        [820.17741935, 143.82258065]]))

## 2. 성별에 따른 카드 등급은 서로 관련이 있는지 독립성 검정을 실시하고 해당 검정 결과의 검정통계량은 얼마인가?
- financial_info_10k_persons.csv 파일 사용

In [11]:
df =pd.read_csv("financial_info_10k_persons.csv")
df.head(2)

Unnamed: 0,ID,is_attrited,Age,Gender,Dependent_cnt,Edu_level,Marital_status,Income,Card,Period_m,Total_rel_cnt,Inactive_last_12m,Contacts_cnt_last_12m,Credit_limit,Total_trans_amt,Total_trans_cnt
0,1,0,41,F,2,High School,Married,Less than $40K,Blue,36,6,2,2,4953.0,4183,67
1,2,0,38,M,0,High School,Single,$80K - $120K,Blue,29,3,3,2,5983.0,4141,65


In [12]:
chi2_contingency(pd.crosstab(df["Gender"], df["Card"]))

(66.45702170623164,
 2.4470625495771945e-14,
 3,
 array([[4962.486 ,   59.0076,   10.632 ,  283.8744],
        [4372.514 ,   51.9924,    9.368 ,  250.1256]]))

## 3. 최근 12개월의 이용 실적 중 3개월 이상 사용 실적이 없는 것과 고객 이탈의 관계가 있는지 독립성 검정을 실시한 결과로 옳은 것은?
- financial_info_10k_persons.csv 파일 사용

In [17]:
df = pd.read_csv("financial_info_10k_persons.csv")
df.head(2)

Unnamed: 0,ID,is_attrited,Age,Gender,Dependent_cnt,Edu_level,Marital_status,Income,Card,Period_m,Total_rel_cnt,Inactive_last_12m,Contacts_cnt_last_12m,Credit_limit,Total_trans_amt,Total_trans_cnt
0,1,0,41,F,2,High School,Married,Less than $40K,Blue,36,6,2,2,4953.0,4183,67
1,2,0,38,M,0,High School,Single,$80K - $120K,Blue,29,3,3,2,5983.0,4141,65


In [18]:
df["is_Inactive_last_12m"] = (df["Inactive_last_12m"] >= 3) + 0
df.head(2)

Unnamed: 0,ID,is_attrited,Age,Gender,Dependent_cnt,Edu_level,Marital_status,Income,Card,Period_m,Total_rel_cnt,Inactive_last_12m,Contacts_cnt_last_12m,Credit_limit,Total_trans_amt,Total_trans_cnt,is_Inactive_last_12m
0,1,0,41,F,2,High School,Married,Less than $40K,Blue,36,6,2,2,4953.0,4183,67,0
1,2,0,38,M,0,High School,Single,$80K - $120K,Blue,29,3,3,2,5983.0,4141,65,1


In [19]:
chi2_contingency(pd.crosstab(df["Inactive_last_12m"], df["is_attrited"])) 
# 문제 정답이 잘못 된거 같음 -> "Inactive_last_12m" 자리에 is_Inactive_last_12m가 들어와야함

(392.26058849678714,
 1.2887936694268352e-81,
 6,
 array([[  24.3948,    4.6052],
        [1854.0048,  349.9952],
        [2728.0116,  514.9884],
        [3189.8304,  602.1696],
        [ 365.0808,   68.9192],
        [ 148.0512,   27.9488],
        [ 102.6264,   19.3736]]))