In [2]:
# A 일원배치 분산분석
# https://datanalyst.tistory.com/14
# B 이원배치 분산분석
# C 공분산분석
# D 반복측정 분산분석
# E 다변량 분석

In [None]:
# A 일원배치 분산분석
# - 반응값에 대한 하나의 범주형 변수의 영향을 알아보기 위해 사용되는 검증 방법이다.
# - 모집단의 수에는 제한이 없으며, 각 표본의 수는 같지 않아도 된다.
# - F 검정 통계량을 이용한다.

In [None]:
# 1. 정규성 검정
import pandas as pd
import pingouin as pg
pg.normality(x)

# 2. 등분산성 검정
pg.homoscedasticity(dv = 'score', group = 'school', data = schools_df)

# 3.1 정규성 X
pg.kruskal(data=df, dv='값', between='분류')

# 3.2 정규성 O, 등분산성 X
pg.welch_anova(data = df, dv = 'sepal length', between = 'target')

# 3.3 정규성 O, 등분산성 O
pg.anova(data=df, dv='sepal length', between='target', detailed=False)

# 4. 사후검정
# 4.1 각 집단의 분산이 같은 경우: Tukey HSD
pg.pairwise_tukey(dv='값', between='분류', data=df)

# 4.2 각 집단의 분산이 다른 경우: Games-Howell 검정
pg.pairwise_gameshowell(dv='값', between='분류', data=df)

In [1]:
import pandas as pd
df = pd.read_csv('C:/adp/data/iris.csv')
df.tail()

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [4]:
virginica = df[df['target'] == 'Iris-virginica']['sepal length']
setosa = df[df['target'] == 'Iris-setosa']['sepal length']
versicolor = df[df['target'] == 'Iris-versicolor']['sepal length']

In [6]:
# 1. 정규성 검정
import pingouin as pg
print(pg.normality(virginica) )
print(pg.normality(setosa) )
print(pg.normality(versicolor) )
# pval 0.05 이상으로 정규성을 나타냄

                    W      pval  normal
sepal length  0.97118  0.258325    True
                     W      pval  normal
sepal length  0.977699  0.459528    True
                     W      pval  normal
sepal length  0.977836  0.464733    True


In [28]:
# 2. 등분산성 검정
pg.homoscedasticity(dv = 'sepal length', group = 'target', data = df)
# p < .05 : 모든 집단의 분산이 같지 않다.
# p > .05 : 모든 집단의 분산이 같다.
# pval 0.002259로 유의수준 0.05하에서 모든 집단의 분산이 같지 않다.

Unnamed: 0,W,pval,equal_var
levene,6.35272,0.002259,False


In [7]:
# 3.1 정규성 X
pg.kruskal(data=df, dv='sepal length', between='target')
# p-unc 8.918734e-22로 유의수준 0.05보다 낮아서 target간에 length 차이가 있음

Unnamed: 0,Source,ddof1,H,p-unc
Kruskal,target,2,96.937436,8.918734000000001e-22


In [8]:
# 3.2 정규성 O, 등분산성 X
pg.welch_anova(data = df, dv = 'sepal length', between = 'target')
# p-unc 1.505059e-28로 유의수준 0.05보다 낮아서 target간에 length 차이가 있음

Unnamed: 0,Source,ddof1,ddof2,F,p-unc,np2
0,target,2,92.211145,138.908285,1.5050590000000002e-28,0.618706


In [9]:
# 3.3 정규성 O, 등분산성 O
pg.anova(data=df, dv='sepal length', between='target', detailed=False)
# p-unc 1.669669e-31로 유의수준 0.05보다 낮아서 target간에 length 차이가 있음

Unnamed: 0,Source,ddof1,ddof2,F,p-unc,np2
0,target,2,147,119.264502,1.6696690000000001e-31,0.618706


In [12]:
# 4. 사후검정
# 4.1 각 집단의 분산이 같은 경우: Tukey HSD
pg.pairwise_tukey(dv='sepal length', between='target', data=df)
# 유의수준 5%에서 p-value가 .05보다 작으면 "두 집단의 평균이 다르다"라는 결론을 내릴 수 있습니다.
# 모든 관계에서 p-tukey	가 0.05보다 작으므로 모두 평균이 다르다.

Unnamed: 0,A,B,mean(A),mean(B),diff,se,T,p-tukey,hedges
0,Iris-setosa,Iris-versicolor,5.006,5.936,-0.93,0.102958,-9.032819,2.420286e-14,-1.792703
1,Iris-setosa,Iris-virginica,5.006,6.588,-1.582,0.102958,-15.365506,2.153833e-14,-3.049522
2,Iris-versicolor,Iris-virginica,5.936,6.588,-0.652,0.102958,-6.332686,8.287554e-09,-1.25682


In [13]:
# 4.2 각 집단의 분산이 다른 경우: Games-Howell 검정
pg.pairwise_gameshowell(dv='sepal length', between='target', data=df)
# 모든 관계에서 p-tukey	가 0.05보다 작으므로 모두 평균이 다르다.

Unnamed: 0,A,B,mean(A),mean(B),diff,se,T,df,pval,hedges
0,Iris-setosa,Iris-versicolor,5.006,5.936,-0.93,0.088395,-10.520986,86.538002,1.110223e-16,-2.088053
1,Iris-setosa,Iris-virginica,5.006,6.588,-1.582,0.102819,-15.386196,76.515867,7.771561e-16,-3.053629
2,Iris-versicolor,Iris-virginica,5.936,6.588,-0.652,0.115825,-5.629165,94.025486,5.57254e-07,-1.117195


In [None]:
# B 이원배치 분산분석
# 가정
#  1) 집단의 측정치는 서로 독립적이며 정규분포를 따른다.
#  2) 집단 측정치의 분산은 같다.(등분산 가정)

In [8]:
import pandas as pd
df = pd.read_csv('C:/adp/data/mtcars.csv')
df.tail()

Unnamed: 0.1,Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
27,Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2
28,Ford Pantera L,15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4
29,Ferrari Dino,19.7,6,145.0,175,3.62,2.77,15.5,0,1,5,6
30,Maserati Bora,15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8
31,Volvo 142E,21.4,4,121.0,109,4.11,2.78,18.6,1,1,4,2


In [None]:
df01 = df[['mpg', 'am', 'cyl']]

In [12]:
# 정규성 O, 등분산성 O
import pingouin as pg
pg.anova(data=df01, dv='mpg', between=['cyl', 'am'], detailed=False)
# cyl * am 교호작용은 2.686140e-01(0.268)로 유의수준 0.05보다 크다. 따라서 교호작용이 존재하지 않는다고 볼 수 있다.
# cyl은 p-unc 9.354735e-07로 유의수준 0.05보다 작다. 따라서 교호작용이 존재한다고 볼 수 있다.
# am은 p-unc 5.608373e-02	로 유의수준 0.05보다 크다. 따라서 교호작용이 존재하지 않는다고 볼 수 있다.

  **kwargs


Unnamed: 0,Source,SS,DF,MS,F,p-unc,np2
0,cyl,456.400921,2.0,228.200461,24.819011,9.354735e-07,0.656258
1,am,36.766919,1.0,36.766919,3.998759,0.05608373,0.133297
2,cyl * am,25.436511,2.0,12.718256,1.383233,0.268614,0.09617
3,Residual,239.059167,26.0,9.194583,,,


In [None]:
# C 공분산분석
#  - 분산분석에 공변량을 추가하여 분산분석모델을 확장
#  - 공변량을 통제하여 독립변수의 순수한 영향을 검정
#  - 공변량은 연속형 변수를 가정

In [14]:
import faraway.datasets.sexab
sexa = faraway.datasets.sexab.load()
sexa.tail()

Unnamed: 0,cpa,ptsd,csa
72,2.17626,6.57281,NotAbused
73,-0.23208,-3.11622,NotAbused
74,-1.85753,-0.46996,NotAbused
75,2.85253,6.84304,NotAbused
76,0.81138,7.12918,NotAbused


In [17]:
pg.ancova(data=sexa, dv='ptsd', between='csa', covar='cpa') 
# dv : 비교값, between : 범주 그룹, covar: 공분산
# p-unc 2.171933e-13 이므로 유의수준 0.05하에서 csa에 따라서 ptsd는 차이가 있음

Unnamed: 0,Source,SS,DF,F,p-unc,np2
0,csa,624.025266,1,58.246781,6.906593e-11,0.443796
1,cpa,110.29856,1,10.295314,0.001982051,0.1236
2,Residual,782.083472,73,,,


In [None]:
# D 반복측정 분산분석
#  - 동일한 대상에 대해 여러번 반복측정하여 반복측정 집단간에 차이가 존재하는지 검정

In [1]:
import pingouin as pg
df = pg.read_dataset('mixed_anova')
df.tail()

  **kwargs


Unnamed: 0,Scores,Time,Group,Subject
175,6.176981,June,Meditation,55
176,8.523692,June,Meditation,56
177,6.522273,June,Meditation,57
178,4.990568,June,Meditation,58
179,7.822986,June,Meditation,59


In [2]:
pg.rm_anova(data=df, dv='Scores', within='Time', subject='Subject', detailed=True)
# dv : 비교값, within : 반복측정그룹, subject: 범주 그룹
# p-unc	0.02262 로 0.05보다 작으므로 Time별로 차이가 존재함

Unnamed: 0,Source,SS,DF,MS,F,p-unc,ng2,eps
0,Time,7.628428,2,3.814214,3.912796,0.022629,0.039981,0.998751
1,Error,115.027023,118,0.974805,,,,


In [None]:
# E 다변량 분석
#  - 두개 이상의 종속변수가 있을 경우 집단별 차이를 동시에 검정

In [1]:
import pandas as pd
import pingouin as pg
df = pd.read_csv('C:/adp/data/skulls.csv')
df.tail()

  **kwargs


Unnamed: 0,MB,BH,BL,NH,Year
145,137,125,85,57,150
146,129,128,81,52,150
147,140,135,103,48,150
148,147,129,87,48,150
149,136,133,97,51,150


In [2]:
from statsmodels.multivariate.manova import MANOVA
print(MANOVA.from_formula('MB + BH + BL + NH ~ Year', data = df).mv_test())
# Pr > F	0.02262 로 0.05보다 작으므로 Time별로 차이가 존재함
# p-unc	0.02262 로 0.05보다 작으므로 Time별로 차이가 존재함

                    Multivariate linear model
                                                                  
------------------------------------------------------------------
       Intercept         Value   Num DF  Den DF   F Value   Pr > F
------------------------------------------------------------------
          Wilks' lambda   0.0012 4.0000 145.0000 30141.3582 0.0000
         Pillai's trace   0.9988 4.0000 145.0000 30141.3582 0.0000
 Hotelling-Lawley trace 831.4857 4.0000 145.0000 30141.3582 0.0000
    Roy's greatest root 831.4857 4.0000 145.0000 30141.3582 0.0000
------------------------------------------------------------------
                                                                  
-------------------------------------------------------------------
           Year           Value   Num DF   Den DF   F Value  Pr > F
-------------------------------------------------------------------
           Wilks' lambda  0.7043  4.0000  145.0000  15.2187  0.0000
          Pi