## 8장. 분산분석

### 8.1 일원분산분석
구매유형 별 총 매출액의 차이가 있는지 확인해 보자.

- 귀무가설 = A쇼핑 고객의 구매유형에 따른 총 매출액의 차이는 없다.
- 연구가설 = A쇼핑 고객은 적어도 1개의 구매유형이 다른 구매유형과 총 매출액 차이가 존재한다.

#### 데이터 불러오기

실습데이터 Ashopping을 파이썬을 이용하여 불러온다. 


#### 변수명=pd.read_csv("파일경로\파일이름\.파일형식", sep="구분자", encoding='코딩방식')

    구분자: ",",  "|", "\s+"
    encoding:'CP949' 파이썬에서 한글을 열수 있도록 인코딩 설정


In [1]:
# 텍스트 파일 열기
import pandas as pd
df = pd.read_csv("C:\python\Ashopping.txt",sep=',', encoding='CP949')

In [3]:
#모듈 불러오기
import statsmodels
import scipy.stats as stats
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
import numpy as np

In [4]:
df1=df[["구매유형","총_매출액"]]
df1.head()

Unnamed: 0,구매유형,총_매출액
0,4,4007080
1,4,3168400
2,4,2680780
3,4,5946600
4,2,13745950


- 기본형식
#### ANOVA1 = ols(종속변수~C(독립변수), 데이터)

In [5]:
model1 = ols('총_매출액 ~ C(구매유형)', df1).fit()
anova_lm(model1)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(구매유형),3.0,9376756000000000.0,3125585000000000.0,79.608695,3.629968e-46
Residual,996.0,3.910481e+16,39261860000000.0,,


- 대표적인 사후 검정방법

Tukey's HSD (Honest Significant Difference) test.

Duncan’s new multiple range test (MRT)

Scheffé’s Method

In [6]:
from statsmodels.stats.multicomp import pairwise_tukeyhsd
posthoc = pairwise_tukeyhsd(df1['총_매출액'], df1['구매유형'], alpha=0.05)#alpha: 검정의 유의수준 설정

In [7]:
posthoc.summary()

group1,group2,meandiff,lower,upper,reject
1,2,6208962.7533,3588490.3757,8829435.1308,True
1,3,8376157.3272,5573967.6808,11178346.9736,True
1,4,989112.0696,-1574259.193,3552483.3322,False
2,3,2167194.5739,546758.9575,3787630.1903,True
2,4,-5219850.6837,-6379340.6588,-4060360.7086,True
3,4,-7387045.2576,-8913416.2268,-5860674.2884,True


#### 기술적 해석
일원분산분석 결과 A쇼핑 고객들의 구매유형에 따른 총 매출액의 F value 값은 79.61, 유의확률은 기준치(0.05)이하로 나타나서 ‘A쇼핑 고객은 적어도 1개의 구매유형은 다른 구매유형과 총 매출액 차이가 존재한다.’는 연구가설을 채택한다. reject 값이 False 표기된 1번 구매유형과 4번 구매유형의 고객들은 총 매출액에 차이가 없지만 나머지 집단은 통계적으로 차이가 있다고 볼 수 있다.



### 8.2 이원분산분석

구매유형과 거주지역에 따라 고객들의 총 매출액의 차이가 있는지 확인해 보자. 

- 귀무가설 = A쇼핑 고객의 구매유형에 따른 총 매출액의 차이는 없다.
- 연구가설 = A쇼핑 고객은 적어도 1개의 구매유형이 다른 구매유형과 총 매출액 차이가 존재한다.


- 귀무가설 = A쇼핑 고객의 거주지역에 따른 총 매출액의 차이는 없다.
- 연구가설 = A쇼핑 고객은 적어도 1개의 거주지역이 다른 거주지역과 총 매출액 차이가 존재한다.


- 귀무가설 = 구매유형과 거주지역의 상호작용은 없다.
- 연구가설 = 구매유형과 거주지역의 상호작용은 있다.

- 기본형식
#### ANOVA2 = ols(종속변수~C(독립변수1) + C(독립변수2) +C(독립변수1):C(독립변수2),데이터)

In [8]:
df2=df[["총_매출액","구매유형","거주지역"]]

In [9]:
model=ols('총_매출액 ~ C(구매유형)+C(거주지역)+C(구매유형):C(거주지역)',df2).fit()

In [10]:
anova_lm(model)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(구매유형),3.0,9376756000000000.0,3125585000000000.0,95.043921,5.702403e-54
C(거주지역),6.0,4031991000000000.0,671998500000000.0,20.434372,1.283925e-22
C(구매유형):C(거주지역),18.0,2995341000000000.0,166407800000000.0,5.060189,3.595024e-11
Residual,976.0,3.209644e+16,32885700000000.0,,


### 사후검증

In [11]:
from statsmodels.stats.multicomp import pairwise_tukeyhsd
posthoc = pairwise_tukeyhsd(df2['총_매출액'], df2['구매유형'], alpha=0.05)
posthoc.summary()

group1,group2,meandiff,lower,upper,reject
1,2,6208962.7533,3588490.3757,8829435.1308,True
1,3,8376157.3272,5573967.6808,11178346.9736,True
1,4,989112.0696,-1574259.193,3552483.3322,False
2,3,2167194.5739,546758.9575,3787630.1903,True
2,4,-5219850.6837,-6379340.6588,-4060360.7086,True
3,4,-7387045.2576,-8913416.2268,-5860674.2884,True


In [114]:
posthoc = pairwise_tukeyhsd(df2['총_매출액'], df2['거주지역'], alpha=0.05)
posthoc.summary()

group1,group2,meandiff,lower,upper,reject
1,2,-1226446.25,-11989299.1333,9536406.6333,False
1,3,-478799.5,-10421097.1151,9463498.1151,False
1,4,572378.4409,-9157170.9228,10301927.8045,False
1,5,756783.791,-8927106.1072,10440673.6893,False
1,6,3147948.5765,-6546914.2262,12842811.3792,False
1,7,8187138.6441,-1601252.3585,17975529.6466,False
2,3,747646.75,-4669537.0713,6164830.5713,False
2,4,1798824.6909,-3217222.5086,6814871.8903,False
2,5,1983230.041,-2943667.7912,6910127.8733,False
2,6,4374394.8265,-574035.5763,9322825.2293,False


이원분산분석 결과 구매유형의 F값은 94.99, 거주지역의 F값은 20.42로 ‘A쇼핑 고객들의 구매유형, 거주지역에 따른 총 매출액은 같지않다라고 말할 수 있으며, 두 변수간의 상호작용 효과의 F값은 5.14로 두 독립변수간의 상호작용 효과 또한 유의하다고 할 수 있다. 이를 통해 두 독립변수에 따른 총매출액이 다르지만 특히 거주지역보다 구매유형에 따라 고객들의 총매출액 차이는 상당히 크게 나타나고 있음을 알 수 있다. 또한, 두 독립변수의 상호작용 역시 의미가 있기 때문에 특정 구매유형과 특정 고객등급의 경우 다른 영역보다 매우 다른 매출액 차이를 보이고 있다는 점에 유의해야 한다

### 8.3. 다변량분산분석 (종속변수가 2개 이상)

#### 거주지역에 따라 방문빈도 및 총 매출액의 차이를 검정해보자.

- 귀무가설: A쇼핑 고객의 거주지역에 따른 방문빈도, 총 매출액의 차이는 없다. 
- 연구가설: A쇼핑 고객의 거주지역에 따른 방문빈도, 총 매출액의 차이는 있다.

#### 라이브러리 설치
- pip install mathpy

In [18]:
import numpy as np
import mathpy
from pandas import Series, DataFrame
from mathpy import stats

In [19]:
df4=df[["총_매출액",'방문빈도']]
df5=df[["거주지역"]]

In [20]:
res=mathpy.stats.aov.manova_oneway(df5, df4)

In [21]:
res.pillai

0.02916553878000601

In [23]:
#질문!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

In [22]:
print('Group-df : {}'.format(res.groupdf))
print('Residual-df : {}'.format(res.residualdf))  
print('Num-df : {}'.format(res.numdf))  
print('Den-df : {}'.format(res.denomdf))
print('Pillai Statistic : {}'.format(res.pillai))  
print('Wilk’s Lambda : {}'.format(res.wilks))
print('Lawley-Hotelling T^2 : {}'.format(res.t2))  
print('Pillai F-Value : {}'.format(res.pillai_f))  
print('Wilk’s Lambda F-Value : {}'.format(res.wilks_f))
print('Lawley-Hotelling T^2 F-Value: {}'.format(res.t2_f)) 
print('Pillai p-value : {}'.format(res.pillai_p))
print('Wilk’s Lambda p-value : {}'.format(res.wilks_p))  
print('Lawley-Hotelling T^2 p-value : {}'.format(res.t2_p))

Group-df : 6.0
Residual-df : 993
Num-df : 12.0
Den-df : 1986
Pillai Statistic : 0.02916553878000601
Wilk’s Lambda : 0.9695818350755097
Lawley-Hotelling T^2 : 0.03266438161613082
Pillai F-Value : 2.449163926788163
Wilk’s Lambda F-Value : 2.5734286597652027
Lawley-Hotelling T^2 F-Value: 1291430.209974603
Pillai p-value : 0.003619241140782825
Wilk’s Lambda p-value : 0.0021727480298714408
Lawley-Hotelling T^2 p-value : 1.1102230246251565e-16


다변량분산분석 결과 거주지역, 구매유형에 따라 총 매출액과 방문빈도의 차이는 다변량 통계치의 유의확률을 통해 유의한 것으로 나타났다. 따라서 마케팅담당자는 추가적으로 거주지역, 구매유형에 따라 구체적으로 총 매출액과 방문빈도에 어떤 차이가 있는지 사후분석을 통해 한번 더 분석을 진행해야 한다. 또한 두 변수의 조합, 즉 각각의 요인이 가지는 값의 조합에 따라 어떤 식으로 차이가 있는지 살펴봐야 한다. 이를 통해 거주지역과 구매유형별 타겟마케팅을 전개하여 효율적인 마케팅자원을 분배할 수 있을 것으로 기대할 수 있다.


### 8.4.  공분산분석

#### 총 매출액에 영향을 미칠 수 있는 ‘방문빈도’ 변수를 통제한 후, ‘구매유형별 총 매출액의 차이가 있는지 확인해 보자.

- 귀무가설: '방문빈도’를 통제한 상황에서 A쇼핑 고객들의 구매유형에 따라 총 매출액은 차이가 없다.
- 연구가설: '방문빈도’를 통제한 상황에서 A쇼핑 고객들 중 적어도 하나는 구매유형에 따른 총 매출액은 다른 구매유형과 차이가 있다.

#### 라이브러리 설치
- pip install penguin

In [14]:
df3=df[['총_매출액','방문빈도','구매유형']]

In [15]:
from pingouin import ancova

In [16]:
ancova(data=df3, dv='총_매출액', covar='방문빈도', between='구매유형')

Unnamed: 0,DF,F,SS,Source,p-unc
0,3,136.4131,8500369000000000.0,구매유형,5.006403e-74
1,1,887.650878,1.843752e+16,방문빈도,6.0912700000000005e-140
2,995,,2.066729e+16,Residual,


공분산분석 결과 A쇼핑 고객들의 구매유형에 따른 총 매출액의 F value는 136.41이고 유의확률은 기준치(0.05)보다 작게 도출되기 때문에 ‘방문빈도를 통제한 상황에서 A쇼핑 고객들의 구매유형에 따라 총 매출액의 차이가 있다’는 연구가설을 채택한다. 결과표 중 가장 위에 있는 분산분석표는 방문빈도를 통제하지 않은 상태에서의 일원분산분석 결과인데, 방문빈도 변수를 통제하지 않았을 때의 F값은 334.8로 매우 높은 값을 보이고 있다. 즉, 구매유형에 따른 매출액의 차이는 방문빈도를 통제할 경우 다소 떨어진다는 것이다. 매출액의 변량을 방문빈도가 상당 부분 설명하고 있다는 뜻이 된다. 그러나, 방문빈도를 통제하였다 하더라도 구매유형에 따른 매출액의 차이는 유의하게 나타났으므로 구매유형에 따른 마케팅 전략은 차별화하는 것이 바람직할 것이다. .
