## 다변량 분산분석(MANOVA)

- 다변량 분산분석(MANOVA)은 여러 개의 종속변수가 있을 때 한 개 이상의 독립변수가 종속변수들에 미치는 영향을 동시에 분석하는 통계 기법

- MANOVA는 ANOVA(분산분석)의 확장으로 볼 수 있으며, 종속변수가 다수일 때 각각의 종속변수에 대해 별도의 ANOVA를 수행하는 것보다, 그 상호 관계를 고려하여 분석할 수 있는 장점이 있다.

- 종속변수들의 조합에 대한 독립변수의 효과를 평가할 때 주로 사용

In [13]:
import pandas as pd

In [14]:
df = pd.read_csv("../data/고객이탈데이터.csv")
df

Unnamed: 0,고객 ID,신용점수,국가,성별,나이,근속기간,계좌잔액,사용중인상품수,신용카드보유여부,활성회원여부,추정연봉,고객이탈여부
0,15634602,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,15647311,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,15619304,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,15701354,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,15737888,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...
9995,15606229,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,15569892,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,15584532,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,15682355,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


#### 통계량의 결과 해석 방법​

##### 1) Wilks' Lambda(윌크스 람다)는 독립변수들이 종속변수들에 미치는 변동의 비율을 평가하는 통계량으로 독립변수에 의해 설명되지 않은(잔차) 변동의 비율을 나타내며, 종속변수들 사이의 전체 변동 중 독립변수와 관련 없는 부분을 측정한다.
- 값의 범위는 0에서 1사이로 1에 가까울수록 독립변수가 종속변수들의 결합된 평균에 미치는 영향이 적다는 것을 의미하며 0에 가까울수록 독립변수가 종속변수들의 결합된 평균에 미치는 영향이 크다는 것을 의미

##### 2) Pillai's Trace (필라이 추적량)는  독립변수에 의한 변동과 독립변수의 영향이 없는 변동 사이의 비율을 측정하며 독립변수가 종속변수들에 걸쳐서 얼마나 많은 변동을 설명하는지를 평가한다.
- 값의 범위는 0에서 1 사이로 0에 가까울수록 독립변수가 종속변수들에 미치는 총 변동이 작음을 의미하며 1에 가까울수록 독립변수가 종속변수들에 미치는 총 변동이 크다는 것을 의미

##### 3) Hotelling-Lawley Trace (호텔링-로울리 추적량)는 독립변수의 효과 크기를 평가하는 통계량으로 독립변수에 의해 설명되는 변동 대 독립변수의 효과가 없는 변동의 비율로 해석한다.
- 값의 범위는 0부터 무한대로 값이 클수록 종속변수들에 미치는 영향이 크며 샘플 크기가 작거나 비슷하고, 정규성 가정이 충족될 때 효과적으로 사용

##### 4) Roy's Greatest Root (로이의 최대 근)는 가장 큰 고유값을 사용하여 독립변수가 종속변수들에 미치는 최대 변동을 평가하며 독립변수와 종속변수 사이의 최대 상관관계를 중점으로 평가
- 값의 범위는 0에서 무한대로 값이 클수록 독립변수가 종속변수들에 미치는 최대 변동이 크다는 것을 의미

##### 5) 위 통계량 들의 대립가설과 귀무가설은 다음과 같다.
- 귀무가설 : 독립변수가 종속변수들의 결합된 평균에 영향을 미치지 않는다.
- 대립가설 : 적어도 하나의 독립변수가 종속변수들의 결합된 평균에 유의미한 영향을 미친다.

### 예시 1: 국가에 따른 금융 지표 변화 분석
- 종속변수: 신용점수, 계좌잔액, 추정연봉
- 독립변수: 국가
- 설명: 국가별로 고객의 신용점수, 계좌잔액, 추정연봉이 어떻게 달라지는지 분석할 수 있습니다. 이를 통해 국가가 고객의 금융 프로필에 미치는 영향을 평가

In [15]:
df_1 = df[["신용점수","계좌잔액","추정연봉","국가"]]
df_1

Unnamed: 0,신용점수,계좌잔액,추정연봉,국가
0,619,0.00,101348.88,France
1,608,83807.86,112542.58,Spain
2,502,159660.80,113931.57,France
3,699,0.00,93826.63,France
4,850,125510.82,79084.10,Spain
...,...,...,...,...
9995,771,0.00,96270.64,France
9996,516,57369.61,101699.77,France
9997,709,0.00,42085.58,France
9998,772,75075.31,92888.52,Germany


In [16]:
import pandas as pd
import statsmodels.api as sm
from statsmodels.multivariate.manova import MANOVA

# MANOVA 수행
# 종속변수와 독립변수 정의
manova = MANOVA.from_formula('신용점수 + 계좌잔액 + 추정연봉 ~ 국가', data=df_1)

# MANOVA 결과 출력
print(manova.mv_test())

                    Multivariate linear model
                                                                  
------------------------------------------------------------------
       Intercept         Value  Num DF   Den DF   F Value   Pr > F
------------------------------------------------------------------
          Wilks' lambda  0.0389 3.0000 9995.0000 82391.7028 0.0000
         Pillai's trace  0.9611 3.0000 9995.0000 82391.7028 0.0000
 Hotelling-Lawley trace 24.7299 3.0000 9995.0000 82391.7028 0.0000
    Roy's greatest root 24.7299 3.0000 9995.0000 82391.7028 0.0000
------------------------------------------------------------------
                                                                  
------------------------------------------------------------------
             국가           Value  Num DF   Den DF   F Value  Pr > F
------------------------------------------------------------------
            Wilks' lambda 0.8390 6.0000 19990.0000 305.5990 0.0000
           Pilla

  dat = dat.applymap(lambda x: _formatter(x, float_format))


#### 예시 2: 활성 회원 여부에 따른 고객 특성 분석
- 종속변수: 신용점수, 근속기간, 계좌잔액, 추정연봉
- 독립변수: 활성회원여부
- 설명: 활성 회원 여부가 신용점수, 근속기간, 계좌잔액, 추정연봉에 미치는 영향을 분석할 수 있습니다. 이를 통해 활성 회원과 비활성 회원 간의 차이를 평가할 수 있습니다.

In [17]:
df_2 = df[["신용점수", "근속기간", "계좌잔액", "추정연봉","활성회원여부"]]
df_2

Unnamed: 0,신용점수,근속기간,계좌잔액,추정연봉,활성회원여부
0,619,2,0.00,101348.88,1
1,608,1,83807.86,112542.58,1
2,502,8,159660.80,113931.57,0
3,699,1,0.00,93826.63,0
4,850,2,125510.82,79084.10,1
...,...,...,...,...,...
9995,771,5,0.00,96270.64,0
9996,516,10,57369.61,101699.77,1
9997,709,7,0.00,42085.58,1
9998,772,3,75075.31,92888.52,0


In [18]:
import pandas as pd
import statsmodels.api as sm
from statsmodels.multivariate.manova import MANOVA

# 2. MANOVA 수행
# 종속변수와 독립변수 정의
manova = MANOVA.from_formula('신용점수 + 근속기간 + 계좌잔액 + 추정연봉 ~ 활성회원여부', data=df_2)

# MANOVA 결과 출력
print(manova.mv_test())

                    Multivariate linear model
                                                                  
------------------------------------------------------------------
       Intercept         Value  Num DF   Den DF   F Value   Pr > F
------------------------------------------------------------------
          Wilks' lambda  0.0378 4.0000 9995.0000 63640.0397 0.0000
         Pillai's trace  0.9622 4.0000 9995.0000 63640.0397 0.0000
 Hotelling-Lawley trace 25.4688 4.0000 9995.0000 63640.0397 0.0000
    Roy's greatest root 25.4688 4.0000 9995.0000 63640.0397 0.0000
------------------------------------------------------------------
                                                                  
------------------------------------------------------------------
             활성회원여부         Value  Num DF   Den DF  F Value Pr > F
------------------------------------------------------------------
              Wilks' lambda 0.9983 4.0000 9995.0000  4.2489 0.0019
             Pil

  dat = dat.applymap(lambda x: _formatter(x, float_format))


#### 예시 3: 고객 이탈 여부에 따른 금융 지표 분석
- 종속변수: 신용점수, 계좌잔액, 추정연봉, 나이
- 독립변수: 고객이탈여부
- 설명: 고객의 이탈 여부에 따라 신용점수, 계좌잔액, 추정연봉, 나이가 어떻게 달라지는지 분석할 수 있습니다. 이를 통해 고객 이탈의 주요 요인을 파악할 수 있습니다.

In [19]:
df_3 = df[["신용점수","계좌잔액","추정연봉","나이","고객이탈여부"]]
df_3

Unnamed: 0,신용점수,계좌잔액,추정연봉,나이,고객이탈여부
0,619,0.00,101348.88,42,1
1,608,83807.86,112542.58,41,0
2,502,159660.80,113931.57,42,1
3,699,0.00,93826.63,39,0
4,850,125510.82,79084.10,43,0
...,...,...,...,...,...
9995,771,0.00,96270.64,39,0
9996,516,57369.61,101699.77,35,0
9997,709,0.00,42085.58,36,1
9998,772,75075.31,92888.52,42,1


In [20]:
import pandas as pd
import statsmodels.api as sm
from statsmodels.multivariate.manova import MANOVA

# 2. MANOVA 수행
# 종속변수와 독립변수 정의
manova = MANOVA.from_formula('신용점수 + 계좌잔액 + 추정연봉 + 나이 ~ 고객이탈여부', data=df_3)

# MANOVA 결과 출력
print(manova.mv_test())

                     Multivariate linear model
                                                                   
-------------------------------------------------------------------
       Intercept         Value  Num DF   Den DF    F Value   Pr > F
-------------------------------------------------------------------
          Wilks' lambda  0.0194 4.0000 9995.0000 126529.3774 0.0000
         Pillai's trace  0.9806 4.0000 9995.0000 126529.3774 0.0000
 Hotelling-Lawley trace 50.6371 4.0000 9995.0000 126529.3774 0.0000
    Roy's greatest root 50.6371 4.0000 9995.0000 126529.3774 0.0000
-------------------------------------------------------------------
                                                                   
-------------------------------------------------------------------
             고객이탈여부         Value  Num DF   Den DF  F Value  Pr > F
-------------------------------------------------------------------
              Wilks' lambda 0.9055 4.0000 9995.0000 260.7488 0.0000
 

  dat = dat.applymap(lambda x: _formatter(x, float_format))


#### 사후 검증하기

In [21]:
from scipy import stats
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# 개별 ANOVA 수행
model1 = stats.f_oneway(df[df['고객이탈여부'] == 0]['신용점수'],
                        df[df['고객이탈여부'] == 1]['신용점수'],
                        )

model2 = stats.f_oneway(df[df['고객이탈여부'] == 0]['계좌잔액'],
                        df[df['고객이탈여부'] == 1]['계좌잔액'],
                        )

model3 = stats.f_oneway(df[df['고객이탈여부'] == 0]['추정연봉'],
                        df[df['고객이탈여부'] == 1]['추정연봉'],
                        )

model4 = stats.f_oneway(df[df['고객이탈여부'] == 0]['나이'],
                        df[df['고객이탈여부'] == 1]['나이'],
                        )

print(f"ANOVA 결과 신용점수: F-value={model1.statistic}, p-value={model1.pvalue}")
print(f"ANOVA 결과 계좌잔액: F-value={model2.statistic}, p-value={model2.pvalue}")
print(f"ANOVA 결과 추정연봉: F-value={model2.statistic}, p-value={model3.pvalue}")
print(f"ANOVA 결과 나이: F-value={model2.statistic}, p-value={model4.pvalue}")

# 사후검정 수행
tukey_result_model1 = pairwise_tukeyhsd(endog=df_3['신용점수'], groups=df_3['고객이탈여부'], alpha=0.05)
tukey_result_model2 = pairwise_tukeyhsd(endog=df_3['계좌잔액'], groups=df_3['고객이탈여부'], alpha=0.05)
tukey_result_model3 = pairwise_tukeyhsd(endog=df_3['추정연봉'], groups=df_3['고객이탈여부'], alpha=0.05)
tukey_result_model4 = pairwise_tukeyhsd(endog=df_3['나이'], groups=df_3['고객이탈여부'], alpha=0.05)


print(tukey_result_model1)
print(tukey_result_model2)
print(tukey_result_model3)
print(tukey_result_model4)


ANOVA 결과 신용점수: F-value=7.344522163758247, p-value=0.006738213892205325
ANOVA 결과 계좌잔액: F-value=142.4738324996745, p-value=1.2755633191546494e-32
ANOVA 결과 추정연봉: F-value=142.4738324996745, p-value=0.22644042802263928
ANOVA 결과 나이: F-value=142.4738324996745, p-value=1.2399313093445346e-186
Multiple Comparison of Means - Tukey HSD, FWER=0.05 
group1 group2 meandiff p-adj   lower   upper  reject
----------------------------------------------------
     0      1  -6.5017 0.0067 -11.2044 -1.799   True
----------------------------------------------------
    Multiple Comparison of Means - Tukey HSD, FWER=0.05    
group1 group2  meandiff  p-adj   lower      upper    reject
-----------------------------------------------------------
     0      1 18363.2426   0.0 15347.5818 21378.9033   True
-----------------------------------------------------------
   Multiple Comparison of Means - Tukey HSD, FWER=0.05    
group1 group2  meandiff p-adj    lower      upper   reject
-------------------------------

In [22]:
import pandas as pd
import numpy as np
from statsmodels.stats.multicomp import MultiComparison


# 각 변수에 대한 그룹 비교
for variable in ['신용점수', '계좌잔액', '추정연봉', '나이']:
    print(f"\n{variable}에 대한 Dunnett's 유사 검정:")
    
    # 대조군을 "유지"로 설정
    control_mean = df[df['고객이탈여부'] == 0][variable].mean()
    df['diff'] = df[variable] - control_mean
    
    mc = MultiComparison(df['diff'], df['고객이탈여부'])
    result = mc.allpairtest(stats.ttest_ind, method='b')[0]
    
    print(result)


신용점수에 대한 Dunnett's 유사 검정:
Test Multiple Comparison ttest_ind 
FWER=0.05 method=b
alphacSidak=0.05, alphacBonf=0.050
group1 group2  stat   pval  pval_corr reject
--------------------------------------------
     0      1 2.7101 0.0067    0.0067   True
--------------------------------------------

계좌잔액에 대한 Dunnett's 유사 검정:
Test Multiple Comparison ttest_ind 
FWER=0.05 method=b
alphacSidak=0.05, alphacBonf=0.050
group1 group2   stat   pval pval_corr reject
--------------------------------------------
     0      1 -11.9362  0.0       0.0   True
--------------------------------------------

추정연봉에 대한 Dunnett's 유사 검정:
Test Multiple Comparison ttest_ind 
FWER=0.05 method=b
alphacSidak=0.05, alphacBonf=0.050
group1 group2   stat   pval  pval_corr reject
---------------------------------------------
     0      1 -1.2097 0.2264    0.2264  False
---------------------------------------------

나이에 대한 Dunnett's 유사 검정:
Test Multiple Comparison ttest_ind 
FWER=0.05 method=b
alphacSidak=0.05, alphacB

In [23]:
# 각 변수에 대한 그룹 비교
for variable in ['신용점수', '계좌잔액', '추정연봉', '나이']:
    print(f"\n{variable}에 대한 Dunnett's 유사 검정:")
    
    # 대조군을 "유지"로 설정
    control_mean = df[df['고객이탈여부'] == 1][variable].mean()
    df['diff'] = df[variable] - control_mean
    
    mc = MultiComparison(df['diff'], df['고객이탈여부'])
    result = mc.allpairtest(stats.ttest_ind, method='b')[0]
    
    print(result)


신용점수에 대한 Dunnett's 유사 검정:
Test Multiple Comparison ttest_ind 
FWER=0.05 method=b
alphacSidak=0.05, alphacBonf=0.050
group1 group2  stat   pval  pval_corr reject
--------------------------------------------
     0      1 2.7101 0.0067    0.0067   True
--------------------------------------------

계좌잔액에 대한 Dunnett's 유사 검정:
Test Multiple Comparison ttest_ind 
FWER=0.05 method=b
alphacSidak=0.05, alphacBonf=0.050
group1 group2   stat   pval pval_corr reject
--------------------------------------------
     0      1 -11.9362  0.0       0.0   True
--------------------------------------------

추정연봉에 대한 Dunnett's 유사 검정:
Test Multiple Comparison ttest_ind 
FWER=0.05 method=b
alphacSidak=0.05, alphacBonf=0.050
group1 group2   stat   pval  pval_corr reject
---------------------------------------------
     0      1 -1.2097 0.2264    0.2264  False
---------------------------------------------

나이에 대한 Dunnett's 유사 검정:
Test Multiple Comparison ttest_ind 
FWER=0.05 method=b
alphacSidak=0.05, alphacB

In [24]:
result

group1,group2,stat,pval,pval_corr,reject
0,1,-29.7668,0.0,0.0,True


In [25]:
import pandas as pd
from scipy.stats import chisquare

# '국가' 열의 값 카운트
country_counts = df['활성회원여부'].value_counts()

# 관측 빈도 (France, Spain, Germany의 빈도)
observed_frequencies = country_counts.values

# 예상 빈도 (균등 분포를 가정하여 모든 국가가 동일한 빈도를 가짐)
expected_frequencies = [len(df) / len(country_counts)] * len(country_counts)

# 카이제곱 적합도 검정 수행
chi2, p_value = chisquare(f_obs=observed_frequencies, f_exp=expected_frequencies)

print(f"Chi-square statistic: {chi2}")
print(f"P-value: {p_value}")

if p_value < 0.05:
    print("귀무가설을 기각합니다. 국가별 분포가 균등하지 않습니다.")
else:
    print("귀무가설을 기각하지 못합니다. 국가별 분포가 균등하다고 할 수 있습니다.")

Chi-square statistic: 9.1204
P-value: 0.0025277468553445985
귀무가설을 기각합니다. 국가별 분포가 균등하지 않습니다.


In [26]:
import pandas as pd
from scipy.stats import chi2_contingency

# 교차표 생성
contingency_table = pd.crosstab(df['국가'], df['활성회원여부'])

# 동질성 검정 수행
chi2, p_value, dof, expected = chi2_contingency(contingency_table)

print(f"Chi-square statistic: {chi2}")
print(f"P-value: {p_value}")
print(f"Degrees of freedom: {dof}")
print("Expected frequencies:")
print(expected)

if p_value < 0.05:
    print("귀무가설을 기각합니다. '국가'별 '고객이탈여부'의 분포가 동일하지 않습니다.")
else:
    print("귀무가설을 기각하지 못합니다. '국가'별 '고객이탈여부'의 분포가 동일하다고 할 수 있습니다.")

Chi-square statistic: 5.3046938050233425
P-value: 0.070485595970645
Degrees of freedom: 2
Expected frequencies:
[[2431.2886 2582.7114]
 [1216.6141 1292.3859]
 [1201.0973 1275.9027]]
귀무가설을 기각하지 못합니다. '국가'별 '고객이탈여부'의 분포가 동일하다고 할 수 있습니다.
