### 분산분석
* 분산분석(ANOVA: Analysis of Variance): 명목척돌로 측정된 독립변수와 등간 또는 비율척도로 측정된 종속변수 사이의 관계를 3개 이상 집단간 평균의 차이로 검정할 때 사용
  - 집단간 평균 차이를 판단함에 있어 단순히 평균값의 차이를 비교하는 것은 정확한 비교가 어렵기 때문에, 집단간 분산과 집단 내 분산을 이용하여 여러 집단간 평균 차이를 판단한다고 하여 평균 차이를 검정함에도 불구하고 분산분석이라 함
* 분산분석의 종류: 독립변수와 종속변수의 수에 따라 일원분산분석, 이원분산분석(이상 단일변량분석), 다변량분산분석, 공분산분석
  - 일원분산분석(One-way ANOVA): 집단을 나누는 요인인 독립변수가 1개(단일요인), 종속변수도 1개일 때 집단간 종속변수의 평균 차이를 분석하는 방법
  - 이원분산분석(Two-way ANOVA: 독립변수는 2개, 종속변수는 1개일 때 집단간 종속변수의 평균 차이를 분석하는 방법
  - 다변량분산분석(MANOVA: Multivariate ANOVA): 종속변수가 2개 이상일 때 종속변수들가의 집단간 차이를 동시에 평가하는 방법
  - 공분산분석(ANCOVA: Analysis of Covariance): 일반적인 분산분석에서 종속변수에 영향을 줄 수 있는 연속형 외생변수의 효과를 제거하고, 순수하게 집단 간 종속변수의 평균 차이를 분석하는 방법
* 사후분석: 분산분석 후 구체적으로 어떤 집단이 어떤 집단과 유의한 차이를 보이는지 비교할 수 있는 방법
  - '각 집단의 평균은 동일하다.'라는 분산분석의 귀무가설에 대해 기각 여부와 관계없이 수행 가능
  - 분산분석의 귀무가설이 기각되지 않는 자료에 대해서 사후분석을 진행한 경우라고 하더라도 집단간의 모평균 차이는 존재할 수 있음
  - FIsher의 최소유의차(LSD, least significant difference), Tukey의 정직유의차(HSD, honestly significant difference), Scheffe 방법, Duncan 방법 등 있음
  - Fisher의 최소유의차: 등분산을 가정, 주로 귀무가설이 기각되는 경우에 사용하며 각 집단의 표본 크기가 다른 경우에도 적용이 가능하다는 장점이 있음
  - Tukey의 정직유의차: Fisher의 최소유의차 방법보다 더욱 엄격, 일반적으로 검정력이 떨어지기 때문에 보통 유의수준을 0.05가 아닌 0.1 이상의 큰 값으로 분석, 집단간 차이를 가장 정밀하게 감지할 수 있지만 집단별 표본 크기가 같은 경우에만 의미가 있음
  - Scheffe 방법: 일반적이고 융통성 있는 방법, 집단별 표본 크기가 다른 경우에도 사용이 가능하지만 필요이상으로 넓은 신뢰구간을 제시하는 단점이 있음
  - Duncan 방법: Fisher의 최소유의차와 마찬가지로 등분산을 가정, 1종 오류를 범할 가능성이 높다는 단점이 있음

#### 일원분산분석
* 가설검정을 위해 사용되는 검정통계량은 F값
* F값 $\rightarrow$ 집단내 분산 대비 집단간 분산이 몇 배 더 큰지를 나타내는 값
* F값이 F의 임계치보다 크다면 집단 간의 차이가 충분히 크다는 의미
* F검정 통계량을 구하기 위해서는 집단내 분산, 집단간 분산, 총분산을 알아야 함
  - 집단내 분산(SSW: Sum of Square Within Groups): 각 집단의 평균치를 중심으로 각 집단내의 자료들이 우연적인 오차에 의해 어떻게 흩어져 있는가를 요약하는 척도
  - 집단간 분산(SSB: Sum of Square Between Groups): 각 집단의 평균들이 전체 평균으로부터 흩어진 정도를 나타내는 척도
  - 총 분산(SST: Sum of Square Total): 각 자료들이 전체 평균으로부터 흩어진 정도를 나타내는 척도
* 분산의 정도는 각 자료가 평균으로부터 흩어진 정도뿐 아니라 자료의 수에도 영향을 받기 때문에 각 편차 제곱의 합을 자유도로 나눈 표준화 값인 제곱 합의 평균을 이용하여 F검정 통계량을 구함

In [1]:
# 일원분산분석 실습
# A쇼핑 고객들의 구매유형별 총 매출액의 차이가 있는지를 일원분산분석을 통해 검정
# 귀무가설: A쇼핑 고객의 구매유형에 따른 총 매출액의 차이는 없다
# 연구가설: A쇼핑 고객은 적어도 1개의 구매유형이 다른 구매유형과 총 매출액 차이가 존재한다

In [2]:
import pandas as pd
import numpy as np
import pingouin as pg
import scipy as sp
import scikit_posthocs # 사후분석용 패키지

  return warn(


In [3]:
df = pd.read_csv('Ashopping.csv',sep=',',encoding='CP949')
df1 = df[['구매유형','총_매출액']]
pd.options.display.float_format = '{:.3f}'.format # 소수점 셋째 자리까지 설정

In [4]:
# 등분산 검정
구매유형 = []
for i in range(1,5,1):
    구매유형.append(df1[df1.구매유형==i].총_매출액)

sp.stats.levene(구매유형[0], 구매유형[1], 구매유형[2], 구매유형[3])

LeveneResult(statistic=61.83834278363635, pvalue=1.1483869977419955e-36)

In [5]:
# Welch 일원분산분석
print(pg.welch_anova(dv='총_매출액', between='구매유형', data=df1)) # dv -> 종속변수, between -> 독립변수

# 사후분석
df1['구매유형'] = df1['구매유형'].astype(str)
print(scikit_posthocs.posthoc_scheffe(df1,val_col='총_매출액',group_col='구매유형')) #val_col -> 종속변수, group_col -> 독립변수

# 구매유형별 평균 총매출액
print(구매유형[0].mean(),구매유형[1].mean(),구매유형[2].mean(),구매유형[3].mean())

  Source  ddof1   ddof2      F  p-unc   np2
0   구매유형      3 230.936 88.238  0.000 0.193
      4     2     1     3
4 1.000 0.000 0.805 0.000
2 0.000 1.000 0.000 0.008
1 0.805 0.000 1.000 0.000
3 0.000 0.008 0.000 1.000
3403682.3255813955 9612645.078864353 11779839.652777778 4392794.395161291


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1['구매유형'] = df1['구매유형'].astype(str)
