### **일원 분산 분석 (One-way ANOVA)**
- 3개 이상의 집단 간의 평균 차이가 통계적으로 유의한지 검정
- 집단을 나누는 요인 1개, 집단의 수가 3개 이상일 때


`scipy.stats.f_oneway(sample1, sample2, sample3, ...)`

In [1]:
import pandas as pd
df = pd.DataFrame({
    'A': [10.5, 11.3, 10.8, 9.6, 11.1, 10.2, 10.9, 11.4, 10.5, 10.3],
    'B': [11.9, 12.4, 12.1, 13.2, 12.5, 11.8, 12.2, 12.9, 12.4, 12.3],
    'C': [11.2, 11.7, 11.6, 10.9, 11.3, 11.1, 10.8, 11.5, 11.4, 11.0],
    'D': [9.8, 9.4, 9.1, 9.5, 9.6, 9.9, 9.2, 9.7, 9.3, 9.4]
})

In [5]:
from scipy import stats

## 정규성 검정
print('====== 정규성 검정 ======')
print(stats.shapiro(df['A']))
print(stats.shapiro(df['B']))
print(stats.shapiro(df['C']))
print(stats.shapiro(df['D']))

## 등분산성 검정
print('\n====== 등분산성 검정 ======')
print(stats.levene(df['A'], df['B'], df['C'], df['D']))

## 일원 분산 분석
print('\n====== 일원 분산 분석 ======')
print(stats.f_oneway(df['A'], df['B'], df['C'], df['D']))

ShapiroResult(statistic=0.9649054066073813, pvalue=0.8400161543468654)
ShapiroResult(statistic=0.9468040874196029, pvalue=0.6308700692815115)
ShapiroResult(statistic=0.9701646110856055, pvalue=0.892367306190296)
ShapiroResult(statistic=0.9752339025839644, pvalue=0.9346854448707653)

LeveneResult(statistic=1.9355354288758708, pvalue=0.14127835331346628)

F_onewayResult(statistic=89.12613851177174, pvalue=1.001838152252373e-16)


In [7]:
## 방법 2
import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

df = pd.read_csv('fertilizer.csv')
model = ols('성장 ~C(비료)', df).fit()
print(anova_lm(model))

            df    sum_sq    mean_sq          F        PR(>F)
C(비료)      3.0  43.21875  14.406250  89.126139  1.001838e-16
Residual  36.0   5.81900   0.161639        NaN           NaN


---
### **이원 분산 분석 (Two-way ANOVA)**
- 요인의 수가 2개
- model = `ols(종속변수 ~C(요인1) + C(요인2) + C(요인1):C(요인2)).fit()`


            `anova_lm(model, typ=1(or 2, 3))`

In [8]:
import pandas as pd
from statsmodels.formula.api import ols

df = pd.read_csv('tree.csv')
model = ols('성장률 ~C(나무) + C(비료) + C(나무):C(비료)', df).fit()
anova_lm(model)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(나무),3.0,4783.353938,1594.451313,18.855528,6.600012e-10
C(비료),2.0,1127.924259,563.962129,6.669256,0.001857612
C(나무):C(비료),6.0,717.520672,119.586779,1.414199,0.2157357
Residual,108.0,9132.639448,84.561476,,
