# 11차시 모분산 비교에 관한 가설검정: 등분산 검정(F-test of equality of variances)

## 01 등분산 검정 개요

### 등분산 검정 종류

- F-test: 두 집단의 등분산 검정을 실시하며 각 집단은 정규분포를 따를 때 사용
- Bartlett's test: 두 집단 이상의 등분산 검정을 실시하며 각 집단은 정규분포를 따를 때 사용
- Levene's test: 두 집단 이상의 등분산 검정을 실시하며 각 집단은 정규분포를 따를 필요가 없음

### 가설

- 귀무가설(H0): 집단 간 분산은 서로 같음
- 대립가설(H1): 집단 간 분산은 서로 다름

## 02 데이터 소개

### 은행 고객 데이터 - financial_info_10k_persons.csv

- 은행 고객 10,000명의 데이터
- 잔존 고객과 이탈 고객의 특성을 파악할 수 있음

## 03 주요 함수 및 메서드 소개

### F-검정 - f.cdf()

- scipy의 f 검정을 실시할 때 사용하는 함수
- F 검정통계량을 입력 받아 P-value를 산출하는 함수
- 입력은 F 검정통계량, 첫 번째 데이터의 자유도, 두 번째 데이터의 자유도가 필요


In [1]:
import pandas as pd
from scipy.stats import f

In [2]:
df = pd.read_csv("강의자료/실습파일/financial_info_10k_persons.csv")
df.tail()

Unnamed: 0,ID,is_attrited,Age,Gender,Dependent_cnt,Edu_level,Marital_status,Income,Card,Period_m,Total_rel_cnt,Inactive_last_12m,Contacts_cnt_last_12m,Credit_limit,Total_trans_amt,Total_trans_cnt
9995,9996,1,36,M,2,Graduate,Married,$40K - $60K,Blue,18,3,1,3,7758.0,569,23
9996,9997,0,54,M,4,Graduate,Married,$60K - $80K,Blue,36,4,3,3,6905.0,1370,25
9997,9998,0,46,M,3,Uneducated,Single,$60K - $80K,Blue,36,5,1,2,5489.0,3215,64
9998,9999,0,43,M,3,Graduate,Unknown,$40K - $60K,Blue,36,2,3,3,4878.0,5021,84
9999,10000,0,45,F,3,Unknown,Single,Less than $40K,Blue,36,3,4,0,1438.3,4463,71


In [3]:
ser_M = df.loc[df["Gender"] == "M", "Period_m"]
ser_F = df.loc[df["Gender"] == "F", "Period_m"]
F = ser_M.var() / ser_F.var() # 검정통계량
F

1.040426345317289

In [4]:
result = f.cdf(F, dfd = len(ser_M)-1, dfn = len(ser_F))
result

0.9187893064992898

In [5]:
p = (1-result) *2  # p-value
p

0.1624213870014204

### Bartlett 검정 - bartlett()

- scipy의 Bartlett 검정을 실시할 때 사용하는 함수
- 분산을 연산하기 위한 집단을 함수에 입력

In [6]:
from scipy.stats import bartlett

In [9]:
stat, p = bartlett(ser_F, ser_M)
p

0.16190940989253869

### Levene 검정 - levene()

- scipy의 Levene 검정을 실시할 때 사용하는 함수
- 분산을 연산하기 위한 집단을 함수에 입력

In [10]:
from scipy.stats import levene

In [11]:
stat, p = levene(ser_F, ser_M)
p

0.11651198398605053

## Q1 남성과 여성의 1회 평균 송금액의 분산을 비교 검정하고 그 결과의 검정 통계량은 얼마인가?

In [12]:
Q1 = pd.read_csv("강의자료/실습파일/financial_info_10k_persons.csv")
Q1.tail()

Unnamed: 0,ID,is_attrited,Age,Gender,Dependent_cnt,Edu_level,Marital_status,Income,Card,Period_m,Total_rel_cnt,Inactive_last_12m,Contacts_cnt_last_12m,Credit_limit,Total_trans_amt,Total_trans_cnt
9995,9996,1,36,M,2,Graduate,Married,$40K - $60K,Blue,18,3,1,3,7758.0,569,23
9996,9997,0,54,M,4,Graduate,Married,$60K - $80K,Blue,36,4,3,3,6905.0,1370,25
9997,9998,0,46,M,3,Uneducated,Single,$60K - $80K,Blue,36,5,1,2,5489.0,3215,64
9998,9999,0,43,M,3,Graduate,Unknown,$40K - $60K,Blue,36,2,3,3,4878.0,5021,84
9999,10000,0,45,F,3,Unknown,Single,Less than $40K,Blue,36,3,4,0,1438.3,4463,71


In [13]:
Q1["mean_tran"] = Q1["Total_trans_amt"] / Q1["Total_trans_cnt"]
Q1.tail(2)

Unnamed: 0,ID,is_attrited,Age,Gender,Dependent_cnt,Edu_level,Marital_status,Income,Card,Period_m,Total_rel_cnt,Inactive_last_12m,Contacts_cnt_last_12m,Credit_limit,Total_trans_amt,Total_trans_cnt,mean_tran
9998,9999,0,43,M,3,Graduate,Unknown,$40K - $60K,Blue,36,2,3,3,4878.0,5021,84,59.77381
9999,10000,0,45,F,3,Unknown,Single,Less than $40K,Blue,36,3,4,0,1438.3,4463,71,62.859155


In [17]:
M_AT = Q1.loc[Q1["Gender"] == "M", "mean_tran"]
W_AT = Q1.loc[Q1["Gender"] == "F", "mean_tran"]
F = M_AT.var() / W_AT.var()
F

1.6665446172570928

In [18]:
result = f.cdf(F, dfd = len(M_AT)-1, dfn = len(W_AT))
result

0.9999999999999999

In [19]:
p = (1-result) *2
p

2.220446049250313e-16

## Q2 50, 60, 70대의 1회 평균 송금액의 분산을 비교 검정하였을 때 산출되는 p-value는 얼마인가?
1) Bartlett 검정 사용

In [23]:
AT_50 = Q1.loc[(Q1["Age"] >= 50) & (Q1["Age"] < 60), "mean_tran"]
AT_60 = Q1.loc[(Q1["Age"] >= 60) & (Q1["Age"] < 70), "mean_tran"]
AT_70 = Q1.loc[(Q1["Age"] >= 70) & (Q1["Age"] < 80), "mean_tran"]
stat, p = bartlett(AT_50, AT_60, AT_70)
print(stat.round(3))
print(p.round(3))

10.989
0.004


## Q3 부양가족이 없는 남성을 대상으로 교육수준에 따른 1회 평균 송금액의 분산을 비교 검정하였을 때 산출되는 p-value는 얼마인가?
1) Levene 검정 사용

In [26]:
Q1["Edu_level"].unique()

array(['High School', 'Uneducated', 'Doctorate', 'Unknown', 'Graduate',
       'Post-Graduate', 'College'], dtype=object)

In [48]:
cond1 = Q1["Gender"] == "M"
cond2 = Q1["Dependent_cnt"] == 0

MS_H = Q1.loc[cond1 & cond2 & (Q1["Edu_level"] == "High School"), "mean_tran"]
MS_U = Q1.loc[cond1 & cond2 & (Q1["Edu_level"] == "Uneducated"), "mean_tran"]
MS_D = Q1.loc[cond1 & cond2 & (Q1["Edu_level"] == "Doctorate"), "mean_tran"]
MS_U2 = Q1.loc[cond1 & cond2 & (Q1["Edu_level"] == "Unknown"), "mean_tran"]
MS_G = Q1.loc[cond1 & cond2 & (Q1["Edu_level"] == "Graduate"), "mean_tran"]
MS_P = Q1.loc[cond1 & cond2 & (Q1["Edu_level"] == "Post-Graduate"), "mean_tran"]
MS_C = Q1.loc[cond1 & cond2 & (Q1["Edu_level"] == "College"), "mean_tran"]


In [49]:
stat, p = levene(MS_H, MS_U, MS_D, MS_U2, MS_G, MS_P, MS_C)
print(stat.round(3))
print(p.round(3))

0.883
0.507


In [50]:
## 답안
Q1["Edu_level"].unique()[1]

'Uneducated'

In [58]:
MS = Q1.loc[cond1 & cond2]

stat, p = levene(MS.loc[MS["Edu_level"] == MS["Edu_level"].unique()[0], "mean_tran"],
                 MS.loc[MS["Edu_level"] == MS["Edu_level"].unique()[1], "mean_tran"],
                 MS.loc[MS["Edu_level"] == MS["Edu_level"].unique()[2], "mean_tran"],
                 MS.loc[MS["Edu_level"] == MS["Edu_level"].unique()[3], "mean_tran"],
                 MS.loc[MS["Edu_level"] == MS["Edu_level"].unique()[4], "mean_tran"],
                 MS.loc[MS["Edu_level"] == MS["Edu_level"].unique()[5], "mean_tran"],
                 MS.loc[MS["Edu_level"] == MS["Edu_level"].unique()[6], "mean_tran"])
print(stat.round(3))
print(p.round(3))

0.883
0.507


In [75]:
## chatGPT 답안

unique_edu_levels = MS["Edu_level"].unique()  
data_to_compare = [MS.loc[MS["Edu_level"] == level, "mean_tran"] for level in unique_edu_levels]
stat, p = levene(*data_to_compare)
print(stat.round(3))
print(p.round(3))

0.883
0.507
