# 일원 분산 분석
- oneway anova
- 3개 이상의 집단 간의 평균의 차이가 통계적으로 유의미한지 검증하기 위한 방법
- 일원: 요인이 하나. 그룹을 나누는 기준이 하나라는 의미

> t검정은 요인이 하나이면서 집단의 수가 2개인 경우
> 일원분산분석은 요인이 하나이면서 집단의 수가 3개 이상인 경우

주어진 데이터는 4가지 다른 교육 방법을 적용한 대학생들의 학점 결과이다. 이 실험에서는 비슷한 실력을 가진 학생 40명을 무작위로 4개(A, B, C, D)그룹으로 나누었고, 각 그룹은 다른 교육 방법을 적용했다. 학생들의 학점 결과에는 교육 방법에 따른 차이가 있는지 유의수준 0.5하에서 검정하시오.
- 귀무가설(H0): 네 가지 교육 방법에 의한 학생들의 학점 평균은 동일하다.
- 대립가설(H1): 적어도 두 그룹의 학점 평균은 다르다.

## 1. 기초

In [None]:
import pandas as pd
df = pd.DataFrame({
    'A': [3.5, 4.3, 3.8, 3.6, 4.1, 3.2, 3.9, 4.4, 3.5, 3.3],
    'B': [3.9, 4.4, 4.1, 4.2, 4.5, 3.8, 4.2, 3.9, 4.4, 4.3],
    'C': [3.2, 3.7, 3.6, 3.9, 4.3, 4.1, 3.8, 3.5, 4.4, 4.0],
    'D': [3.8, 3.4, 3.1, 3.5, 3.6, 3.9, 3.2, 3.7, 3.3, 3.4]
})
print(df.head(2))

     A    B    C    D
0  3.5  3.9  3.2  3.8
1  4.3  4.4  3.7  3.4


### 일원 분산 분석

In [None]:
# 일원 분산 분석
from scipy import stats

stats.f_oneway(df['A'], df['B'], df['C'], df['D'])

# 검정통계량: 7.2969837587007
# pvalue: 0.0006053225519892207
# 결과: 귀무가설 기각, 대립가설 채택 -> 적어도 두 그룹의 학점 평균은 다르다.

F_onewayResult(statistic=7.2969837587007, pvalue=0.0006053225519892207)

In [None]:
# 정규성, 등분산, 일원 분산 분석

# Shapiro-Wilk(샤피로-윌크) 정규성 검정
print(stats.shapiro(df['A']))
print(stats.shapiro(df['B']))
print(stats.shapiro(df['C']))
print(stats.shapiro(df['D']))
# 결과: 모두 정규성을 만족

# Levene(레빈) 등분산 검정
print(stats.levene(df['A'], df['B'], df['C'], df['D']))
# 결과: 등분산을 만족

# 일원 분산 분석
from scipy import stats
print(stats.f_oneway(df['A'], df['B'], df['C'], df['D']))

ShapiroResult(statistic=0.949882447719574, pvalue=0.667110025882721)
ShapiroResult(statistic=0.934644877910614, pvalue=0.49509894847869873)
ShapiroResult(statistic=0.9871343374252319, pvalue=0.9919547438621521)
ShapiroResult(statistic=0.9752339720726013, pvalue=0.9346861243247986)
LeveneResult(statistic=1.5433829973707245, pvalue=0.22000894224209636)
F_onewayResult(statistic=7.2969837587007, pvalue=0.0006053225519892207)


## 2. 심화

In [None]:
# 데이터 재구조화 (긴 형태)
import pandas as pd
df = pd.DataFrame({
    'A': [3.5, 4.3, 3.8, 3.6, 4.1, 3.2, 3.9, 4.4, 3.5, 3.3],
    'B': [3.9, 4.4, 4.1, 4.2, 4.5, 3.8, 4.2, 3.9, 4.4, 4.3],
    'C': [3.2, 3.7, 3.6, 3.9, 4.3, 4.1, 3.8, 3.5, 4.4, 4.0],
    'D': [3.8, 3.4, 3.1, 3.5, 3.6, 3.9, 3.2, 3.7, 3.3, 3.4]
})
print(df.head(2))

In [None]:
# 데이터 재구조화 (긴 형태)
df_melt = df.melt()
df_melt.head()

Unnamed: 0,variable,value
0,A,3.5
1,A,4.3
2,A,3.8
3,A,3.6
4,A,4.1


### 분산분석 테이블

In [None]:
# ANOVA 테이블
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm # 선형회귀 모델의 분산 분석을 수행하는 ANOVA LM

model = ols('value ~ variable', data=df_melt).fit()

# 분산분석 테이블로 출력
anova_lm(model)

# df 자유도
# sum_sq 잔차 제곱의 합
# mean_sq 평균 제곱

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
variable,3.0,2.35875,0.78625,7.296984,0.000605
Residual,36.0,3.879,0.10775,,


### 사후검정
- 목적: 어떤 그룹들 간에 통계적으로 유의미한 차이가 있는지 구체적으로 파악하는 것

In [None]:
from scipy import stats
from statsmodels.stats.multicomp import pairwise_tukeyhsd, MultiComparison

# Tukey HSD (투키)
tukey_result = pairwise_tukeyhsd(df_melt['value'], df_melt['variable'], alpha=0.05)
print(tukey_result)
# reject이 True : 유의미한 차이가 있다는 의미 -> A B, B D 그룹이 유의미한 차이가 있다


# Bonferroni(본페로니) -> 더 엄격
mc = MultiComparison(df_melt['value'], df_melt['variable'])
bon_result = mc.allpairtest(stats.ttest_ind, method='bonf')
print(bon_result[0])

# p-value(pval)와 보정된 p-value(pval_corr) 모두 0.05보다 작아야 함

Multiple Comparison of Means - Tukey HSD, FWER=0.05 
group1 group2 meandiff p-adj   lower   upper  reject
----------------------------------------------------
     A      B     0.41 0.0397  0.0146  0.8054   True
     A      C     0.09 0.9273 -0.3054  0.4854  False
     A      D    -0.27 0.2722 -0.6654  0.1254  False
     B      C    -0.32 0.1483 -0.7154  0.0754  False
     B      D    -0.68 0.0003 -1.0754 -0.2846   True
     C      D    -0.36 0.0852 -0.7554  0.0354  False
----------------------------------------------------
Test Multiple Comparison ttest_ind 
FWER=0.05 method=bonf
alphacSidak=0.01, alphacBonf=0.008
group1 group2   stat   pval  pval_corr reject
---------------------------------------------
     A      B -2.7199  0.014    0.0843  False
     A      C  -0.515 0.6128       1.0  False
     A      D  1.7538 0.0965    0.5788  False
     B      C  2.2975 0.0338    0.2028  False
     B      D  6.0686    0.0    0.0001   True
     C      D  2.5219 0.0213    0.1279  False
---------

### 크루스칼-왈리스 검정 (비모수 검정)
- 정규성 검정에서 한 그룹이라도 정규 분포에 만족하지 못한 경우

In [None]:
import pandas as pd

# 데이터
df = pd.DataFrame({
    'A': [10.5, 11.3, 10.8, 10.6, 11.1, 10.2, 10.9, 11.4, 10.5, 10.3],
    'B': [10.9, 11.4, 11.1, 11.2, 11.5, 10.8, 11.2, 10.9, 11.4, 11.3],
    'C': [10.2, 10.7, 10.6, 10.9, 11.3, 11.1, 10.8, 10.5, 11.4, 11.0],
    'D': [13.8, 10.4, 10.1, 10.5, 10.6, 10.9, 10.2, 10.7, 10.3, 10.4]
})

# 정규성 검정
print(stats.shapiro(df['A']))
print(stats.shapiro(df['B']))
print(stats.shapiro(df['C']))
print(stats.shapiro(df['D'])) # pvalue < 0.05, 귀무가설 기각 -> 비모수 검정해야 함

# Kruskal-Wallis 검정
from scipy import stats
stats.kruskal(df['A'], df['B'], df['C'], df['D'])

ShapiroResult(statistic=0.949882447719574, pvalue=0.667110025882721)
ShapiroResult(statistic=0.934644877910614, pvalue=0.49509894847869873)
ShapiroResult(statistic=0.9871343374252319, pvalue=0.9919547438621521)
ShapiroResult(statistic=0.5759974718093872, pvalue=2.8656615540967323e-05)


KruskalResult(statistic=11.183607021517561, pvalue=0.010773365310213669)

# 이원 분산 분석

가정에서 재배하고 있는 네 가지 토마토 종자(A, B, C, D)에 대해 세 가지 종류의 비료 (11, 12, 13)를 사용하여 재배된 토마토 수를 조사하였다. 종자 및 비료 종류 간의 토마토 수의 차이가 있는지 유의수준 0.05하에서 검정하시오.
(단, 정규성, 등분산성에 만족한 데이터)
- 종자 (주 효과)
    - 귀무가설(H0): 종자 간의 토마토 수에 차이가 없다.
    - 대립가설(H1): 적어도 하나의 종자에서 토마토 수에 차이가 있다.
- 비료 (주 효과)
    - 귀무가설(H0): 비료 종류 간의 토마토 수에 차이가 없다.
    - 대립가설(H1): 적어도 하나의 비료 종류에서 토마토 수에 차이가 있다.
- 상호작용 효과:
    - 귀무가설(H0): 종자와 비료 간의 상호작용은 토마토 수에 영향을 미치지 않는다.
    - 대립가설(H1): 종자와 비료 간의 상호작용은 토마토 수에 영향을 미친다.


## 1. 기초

In [None]:
import pandas as pd
df = pd.read_csv("tomato.csv")
print(df.head())
print(df.shape)

  종자  비료  토마토수
0  A  11    54
1  A  11    48
2  A  11    56
3  A  11    65
4  A  11    47
(120, 3)


In [None]:
df['종자'].value_counts()

종자
A    30
B    30
C    30
D    30
Name: count, dtype: int64

### 이원 분산 분석

In [None]:
# anova 테이블
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

# 비료: 범주형 데이터인데 숫자로 되어 있음 ->  범주형 변수로 처리해줘야 함
model = ols('토마토수 ~ 종자 + 비료 + 종자:비료', data=df).fit()
anova_lm(model)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
종자,3.0,4801.0,1600.333333,18.297521,9.892196e-10
비료,1.0,877.8125,877.8125,10.03653,0.00197836
종자:비료,3.0,406.1375,135.379167,1.547867,0.2061233
Residual,112.0,9795.716667,87.461756,,


In [None]:
# 범주형 데이터 처리 - 종자 : 독립변수를 C로 감싼다
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

model = ols('토마토수 ~ C(종자) + C(비료) + C(종자):C(비료)', data=df).fit()
anova_lm(model)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(종자),3.0,4801.0,1600.333333,18.757977,7.254117e-10
C(비료),2.0,1140.316667,570.158333,6.682993,0.001835039
C(종자):C(비료),6.0,725.35,120.891667,1.417007,0.2146636
Residual,108.0,9214.0,85.314815,,


In [None]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

model = ols('토마토수 ~ C(종자) + C(비료) + C(종자):C(비료)', data=df).fit()
anova_lm(model)

# 자유도 df : n-1
# 총 제곱합 sum_sq
# 평균 제곱 mean_sq
# 검정통계량 F
# pvalue PR(>F)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(종자),3.0,4801.0,1600.333333,18.757977,7.254117e-10
C(비료),2.0,1140.316667,570.158333,6.682993,0.001835039
C(종자):C(비료),6.0,725.35,120.891667,1.417007,0.2146636
Residual,108.0,9214.0,85.314815,,


In [None]:
format(7.254117e-10, '.10f')

'0.0000000007'

In [None]:
# 일반표기법 format(지수표기법, '.10f')
print('{:.10f}'.format(7.254117e-10)) # 0.05 귀무가설 기각
print(format(1.835039e-03, '.10f')) # 0.05 귀무가설 기각
print(format(2.146636e-01, '.10f')) # 0.05 귀무가설 채택

# 종자와 비료의 종류는 토마토 수에 유의미한 영향을 준다.
# 상호작용 pvalue > 0.05 귀무가설 채택 -> 종자와 비료간의 상호작용은 토마토 수에 영향을 미치지 않는다.

0.0000000007
0.0018350390
0.2146636000


In [None]:
# formula * 활용
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

model = ols('토마토수 ~ C(종자) * C(비료)', data=df).fit()
anova_lm(model)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(종자),3.0,4801.0,1600.333333,18.757977,7.254117e-10
C(비료),2.0,1140.316667,570.158333,6.682993,0.001835039
C(종자):C(비료),6.0,725.35,120.891667,1.417007,0.2146636
Residual,108.0,9214.0,85.314815,,


## 2. 심화

### 사후검정

In [None]:
# 이원 분산 분석 수행


In [None]:

# Tukey HSD


In [None]:
# Bonferroni


### [참고] 정규성, 등분산

In [None]:
from scipy.stats import shapiro

cond_tree_A = df['종자'] == 'A'
cond_tree_B = df['종자'] == 'B'
cond_tree_C = df['종자'] == 'C'
cond_tree_D = df['종자'] == 'D'

cond_fert_1 = df['비료'] == 11
cond_fert_2 = df['비료'] == 12
cond_fert_3 = df['비료'] == 13

print(shapiro(df[cond_tree_A & cond_fert_1]['토마토수']))
print(shapiro(df[cond_tree_A & cond_fert_2]['토마토수']))
print(shapiro(df[cond_tree_A & cond_fert_3]['토마토수']))

print(shapiro(df[cond_tree_B & cond_fert_1]['토마토수']))
print(shapiro(df[cond_tree_B & cond_fert_2]['토마토수']))
print(shapiro(df[cond_tree_B & cond_fert_3]['토마토수']))

print(shapiro(df[cond_tree_C & cond_fert_1]['토마토수']))
print(shapiro(df[cond_tree_C & cond_fert_2]['토마토수']))
print(shapiro(df[cond_tree_C & cond_fert_3]['토마토수']))

print(shapiro(df[cond_tree_D & cond_fert_1]['토마토수']))
print(shapiro(df[cond_tree_D & cond_fert_2]['토마토수']))
print(shapiro(df[cond_tree_D & cond_fert_3]['토마토수']))

ShapiroResult(statistic=0.8978164196014404, pvalue=0.20729322731494904)
ShapiroResult(statistic=0.9525046944618225, pvalue=0.698178768157959)
ShapiroResult(statistic=0.9625478982925415, pvalue=0.8144895434379578)
ShapiroResult(statistic=0.9678791165351868, pvalue=0.8705145716667175)
ShapiroResult(statistic=0.9723740816116333, pvalue=0.9119415283203125)
ShapiroResult(statistic=0.9000301957130432, pvalue=0.2192639261484146)
ShapiroResult(statistic=0.9434703588485718, pvalue=0.5922344923019409)
ShapiroResult(statistic=0.8953344225883484, pvalue=0.19456911087036133)
ShapiroResult(statistic=0.9231230020523071, pvalue=0.3837396204471588)
ShapiroResult(statistic=0.95850670337677, pvalue=0.7687198519706726)
ShapiroResult(statistic=0.9392850399017334, pvalue=0.545085608959198)
ShapiroResult(statistic=0.9591976404190063, pvalue=0.7766856551170349)


In [None]:
from scipy.stats import levene
print(levene(df[cond_tree_A]['토마토수'],
             df[cond_tree_B]['토마토수'],
             df[cond_tree_C]['토마토수'],
             df[cond_tree_D]['토마토수']))
print(levene(df[cond_fert_1]['토마토수'],
             df[cond_fert_2]['토마토수'],
             df[cond_fert_3]['토마토수']))

LeveneResult(statistic=0.29736371082729113, pvalue=0.827239106138081)
LeveneResult(statistic=1.7801628913209462, pvalue=0.17314691537302473)
