### 일원분산분석

- T-Test와 마찬가지로 종속변수와 독립변수가 각각 1개씩인 경우 수행한다.
- T-Test의 경우 독립변수가 1개의 그룹이지만 분산분석은 독립변수가 명목형 값으로 여러 집단으로 구분될 수 있다. (groupby의 기준으로 사용될 수 있다는 의미)

In [5]:
import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

from scipy.stats import shapiro
from scipy.stats import levene
from scipy.stats import bartlett
from scipy.stats import ttest_ind

from statsmodels.sandbox.stats.multicomp import MultiComparison
from pingouin import pairwise_gameshowell
from pingouin import welch_anova
from pingouin import friedman

In [7]:
df = pd.read_excel('http://itpaper.co.kr/data/group_weight.xlsx', engine='openpyxl')
df.head()

Unnamed: 0,weight,group
0,4.17,ctrl
1,5.58,ctrl
2,5.18,ctrl
3,6.11,ctrl
4,4.5,ctrl


#### 데이터 전처리

In [8]:
# 명목형 척도인 group 데이터의 종류 확인

unique = df['group'].unique()
unique

array(['ctrl', 'trt1', 'trt2'], dtype=object)

In [10]:
# 명목형 척도 데이터 라벨링

df['group'] = df['group'].astype('category').cat.rename_categories({
    'ctrl': 1,
    'trt1': 2,
    'trt2': 3
})

unique = df['group'].unique()
unique

[1, 2, 3]
Categories (3, int64): [1, 2, 3]

#### 분산분석의 가정 확인

In [12]:
for u in unique:
    s = shapiro(df['weight'][df['group'] == u])
    print(s)
    print("%s 수준의 검정통계량 : %0.2f, p-value : %0.2f\n" % (u, s.statistic, s.pvalue))

ShapiroResult(statistic=0.9566815495491028, pvalue=0.7474744915962219)
1 수준의 검정통계량 : 0.96, p-value : 0.75

ShapiroResult(statistic=0.9304108619689941, pvalue=0.451945960521698)
2 수준의 검정통계량 : 0.93, p-value : 0.45

ShapiroResult(statistic=0.9410051107406616, pvalue=0.5642509460449219)
3 수준의 검정통계량 : 0.94, p-value : 0.56



In [13]:
# 등분산성 확인(1) - 레빈검증

levene(
    df['weight'][df['group'] == 1],
    df['weight'][df['group'] == 2],
    df['weight'][df['group'] == 3]
)

LeveneResult(statistic=1.1191856948703909, pvalue=0.3412266241254737)

In [14]:
# 등분산성 확인(2) - 바틀렛 검증

bartlett(
    df['weight'][df['group'] == 1],
    df['weight'][df['group'] == 2],
    df['weight'][df['group'] == 3]
)

BartlettResult(statistic=2.8785737872360935, pvalue=0.23709677363455822)

#### 탐색적 데이터 분석

In [15]:
df.groupby('group').count()

Unnamed: 0_level_0,weight
group,Unnamed: 1_level_1
1,10
2,10
3,10


#### 일원분산분석 수행

In [17]:
model = ols('weight ~ C(group)', df)
fit = model.fit()

# 균형설계자료(집단간 표본수가 동일)인 경우
anova_lm(fit)

# 비균형설계자료(집단간 표본수가 상이)인 경우


Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(group),2.0,3.76634,1.88317,4.846088,0.01591
Residual,27.0,10.49209,0.388596,,


In [18]:
# Welch test 분석

welch_anova(df, 'weight', 'group')

Unnamed: 0,Source,ddof1,ddof2,F,p-unc,np2
0,group,2,17.128419,5.180972,0.017393,0.264148


#### 사후분석

In [21]:
# Tucky
# 등분산을 충족하고 표본크기가 동일한 경우 사용한다.

comp = MultiComparison(df['weight'], df['group'])
print(comp.tukeyhsd().summary())

Multiple Comparison of Means - Tukey HSD, FWER=0.05
group1 group2 meandiff p-adj   lower  upper  reject
---------------------------------------------------
     1      2   -0.371 0.3921 -1.0621 0.3201  False
     1      3    0.494  0.198 -0.1971 1.1851  False
     2      3    0.865  0.012  0.1739 1.5561   True
---------------------------------------------------


In [22]:
# Bonferroni
# 등분산을 충족하고 표본크기가 상이한 경우 사용한다.

comp = MultiComparison(df["weight"], df["group"])
print(comp.allpairtest(ttest_ind, method='bonf')[0])

Test Multiple Comparison ttest_ind 
FWER=0.05 method=bonf
alphacSidak=0.02, alphacBonf=0.017
group1 group2   stat   pval  pval_corr reject
---------------------------------------------
     1      2  1.1913  0.249    0.7471  False
     1      3  -2.134 0.0469    0.1406  False
     2      3 -3.0101 0.0075    0.0226   True
---------------------------------------------


In [23]:
# Games Howell

pairwise_gameshowell(data=df, dv='weight', between='group')

Unnamed: 0,A,B,mean(A),mean(B),diff,se,T,df,pval,hedges
0,1,2,5.032,4.661,0.371,0.311435,1.19126,16.523585,0.476052,0.510237
1,1,3,5.032,5.526,-0.494,0.231488,-2.13402,16.785764,0.112806,-0.914038
2,2,3,4.661,5.526,-0.865,0.287366,-3.010099,14.103569,0.023648,-1.289277


### 다원 분산분석

- 집단을 구분하는 변수(즉, 요인)이 두 개일 때 이원분산분석(two-way ANOVA)라 함
- 요인이 세 개이면, 삼원분산분석(three-way ANOVA)라 함
- 일반적인 표현으로, 요인이 n개 일 때, 다원분산분석(n-way ANOVA)라고 함
- 다원분산분석을 실시하는 주요 목적 중 하나는 **요인 간 상호작용**을 파악하기 위함임

In [24]:
df = pd.read_excel('http://itpaper.co.kr/data/subject_score.xlsx', engine='openpyxl')
df

Unnamed: 0,score,subject,sex
0,7.65,화학,남
1,8.04,화학,여
2,8.35,화학,남
3,9.36,화학,여
4,8.68,생물학,남
5,9.11,생물학,여
6,8.65,생물학,남
7,9.04,생물학,여
8,9.35,통계학,남
9,10.36,통계학,여


#### 명복형 변수에 대한 데이터 전처리

In [25]:
# 명목형 변수의 값 범위 확인

print(df['subject'].unique())
print(df['sex'].unique())


['화학' '생물학' '통계학']
['남' '여']


In [26]:
# subject 변수 라벨링

df['subject'] = df['subject'].astype('category').cat.rename_categories({
    '화학':1,
    '생물학': 2,
    '통계학': 3
})
unique = df['subject'].unique()
unique

[1, 2, 3]
Categories (3, int64): [2, 3, 1]

In [28]:
# sex 변수 라벨링

df['sex'] = df['sex'].astype('category').cat.rename_categories({
    '남': 1,
    '여': 2
})
unique = df['sex'].unique()
unique

[1, 2]
Categories (2, int64): [1, 2]

#### 분산분석의 가정 확인

In [30]:
# 정규성 확인

def my_shapiro(df, yname):
    x = list(df.columns)
    x.remove(yname)
    
    for i in x:
        for u in df[i].unique():
            s = shapiro(df[yname][df[i]==u])
            print("%s:%s" % (i, u), end=" ")
            print(s)
            print("=" * 35)
            print("%s:%s 수준의 검정통계량: %0.2f, p-value: %0.2f" 
                    % (i, u, s.statistic, s.pvalue))
            print("-" * 35)
            if s.pvalue > 0.05:
                print("[O] 정규성을 충족함")
            else:
                print("[X] 정규성을 충족하지 않음")
            print("-" * 35)
            print()
            
my_shapiro(df, 'score')

subject:1 ShapiroResult(statistic=0.9369971752166748, pvalue=0.6361038088798523)
subject:1 수준의 검정통계량: 0.94, p-value: 0.64
-----------------------------------
[O] 정규성을 충족함
-----------------------------------

subject:2 ShapiroResult(statistic=0.8268603086471558, pvalue=0.15976187586784363)
subject:2 수준의 검정통계량: 0.83, p-value: 0.16
-----------------------------------
[O] 정규성을 충족함
-----------------------------------

subject:3 ShapiroResult(statistic=0.9704317450523376, pvalue=0.8441552519798279)
subject:3 수준의 검정통계량: 0.97, p-value: 0.84
-----------------------------------
[O] 정규성을 충족함
-----------------------------------

sex:1 ShapiroResult(statistic=0.968191385269165, pvalue=0.8800725340843201)
sex:1 수준의 검정통계량: 0.97, p-value: 0.88
-----------------------------------
[O] 정규성을 충족함
-----------------------------------

sex:2 ShapiroResult(statistic=0.9493709206581116, pvalue=0.7351844906806946)
sex:2 수준의 검정통계량: 0.95, p-value: 0.74
-----------------------------------
[O] 정규성을 충족함
-------------

In [31]:
# 등분산성 검정

def my_hmvar(df, yname):
    x = list(df.columns)
    x.remove(yname)
    
    params = []
    for i in x:
        u = list(df[i].unique())
        
        for j in u:
            params.append(df[yname][df[i] == j])
        
        lev = levene(*params)
        print("%s:%s" % (yname, i), end=" ")
        print(lev)
        print("=" * 35)
        print("%s:%s Levene 검증에 의한 등분산성 확인: %0.3f, p-value: %0.3f" 
                    % (yname, i, lev.statistic, lev.pvalue))
        print("-" * 35)
        
        if lev.pvalue > 0.05:
            print("[O] 등분산성을 충족함")
        else:
            print("[X] 등분산성을 충족하지 않음")
        print("-" * 35)
        print()
        
        lev = bartlett(*params)
        print("%s:%s" % (yname, i), end=" ")
        print(lev)
        print("=" * 35)
        print("%s:%s Bartlett 검증에 의한 등분산성 확인: %0.3f, p-value: %0.3f" 
                    % (yname, i, lev.statistic, lev.pvalue))
        print("-" * 35)
        
        if lev.pvalue > 0.05:
            print("[O] 등분산성을 충족함")
        else:
            print("[X] 등분산성을 충족하지 않음")
        print("-" * 35)
        print()
        
my_hmvar(df, 'score')

score:subject LeveneResult(statistic=1.048524844720501, pvalue=0.3896345000717708)
score:subject Levene 검증에 의한 등분산성 확인: 1.049, p-value: 0.390
-----------------------------------
[O] 등분산성을 충족함
-----------------------------------

score:subject BartlettResult(statistic=2.882917819786306, pvalue=0.2365823544491079)
score:subject Bartlett 검증에 의한 등분산성 확인: 2.883, p-value: 0.237
-----------------------------------
[O] 등분산성을 충족함
-----------------------------------

score:sex LeveneResult(statistic=0.6792116915291777, pvalue=0.6147981638189439)
score:sex Levene 검증에 의한 등분산성 확인: 0.679, p-value: 0.615
-----------------------------------
[O] 등분산성을 충족함
-----------------------------------

score:sex BartlettResult(statistic=4.4767071809458905, pvalue=0.3453183475458815)
score:sex Bartlett 검증에 의한 등분산성 확인: 4.477, p-value: 0.345
-----------------------------------
[O] 등분산성을 충족함
-----------------------------------



#### EDA

In [32]:
# 각각의 변수가 균형잡힌 설계 자료인지 확인

def my_group_count(df, yname):
    x = list(df.columns)
    x.remove(yname)
    x1 = x[:]
    x.append(x1)
    
    for i in x:
        tmp = df.groupby(i).count()
        tmp_values = tmp[tmp.columns[-1]].unique()
        print('group by', i)
        print("=" * 35)
        print(tmp)
        print("-" * 35)
        
        if len(tmp_values) > 1:
            print("[X] 집단별 표본수 상이")
        else:
            print("[O] 집단별 표본수 동일")
                
        print()
    
my_group_count(df, 'score')

group by subject
         score  sex
subject            
2            4    4
3            4    4
1            4    4
-----------------------------------
[O] 집단별 표본수 동일

group by sex
     score  subject
sex                
1        6        6
2        6        6
-----------------------------------
[O] 집단별 표본수 동일

group by ['subject', 'sex']
             score
subject sex       
2       1        2
        2        2
3       1        2
        2        2
1       1        2
        2        2
-----------------------------------
[O] 집단별 표본수 동일



#### 이원분산분석

In [33]:
# 이원분산분석 수행

model = ols('score ~ C(subject) * C(sex)', df)
fit = model.fit()

# 균형설계자료인 경우
anova_lm(fit)
# 비균형설계자료인 경우
#anova_lm(fit,typ=3)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(subject),2.0,4.808067,2.404033,11.972278,0.008045
C(sex),1.0,1.1163,1.1163,5.559263,0.056453
C(subject):C(sex),2.0,0.0602,0.0301,0.1499,0.86392
Residual,6.0,1.2048,0.2008,,


In [34]:
# friedman test 수행

friedman(data=df, dv='score', within='subject', subject='sex')

Unnamed: 0,Source,W,ddof1,Q,p-unc
Friedman,subject,1.0,2,4.0,0.135335
