#### 분산 분석(ANOVA): 여러 집단의 평균 차이를 통계적으로 유의미한지 검정하는 방법으로 주로 3개 이상의 집단을 비교할 때 사용

#### 일원 분산 분석
- 3개 이상의 집단 간의 평균 차이를 검증
- 3개 집단을 나누는 요인(원인)이 1개라서 일원
- 만약 집단을 나누는 요인이 1개이고 집단의 수가 2개일 때는 t-검정을 적용

In [None]:
# 기본 가정
    # 독립성: 각 집단의 관측치는 모두 다른 집단의 관측치들과 독립적이다 > 기본 가정
    # 정규성: 각 집단에서의 관측치는 정규분포를 따른다 > shapiro
    # 등분산성: 모든 집단에서의 관측치는 동일한 분산을 가진다 > levene

In [1]:
# 귀무가설: 모든 집단의 평균은 동일하다.
# 대립가설: 집단의 평균에는 차이가 있다.(적어도 두 개의 그룹)

In [None]:
# scipy.stats.f_oneway 사용하기
    # from scipy.stats.f_oneway(sample1, sample2, sample3 ...)
    
# 4 종류의 비료를 사용한 식물 성장 실험 결과 비교 (유의수준 0.05)
import pandas as pd
df = pd.DataFrame({
    'A': [10.5, 11.3, 10.8, 9.6, 11.1, 10.2, 10.9, 11.4, 10.5, 10.3],
    'B': [11.9, 12.4, 12.1, 13.2, 12.5, 11.8, 12.2, 12.9, 12.4, 12.3],
    'C': [11.2, 11.7, 11.6, 10.9, 11.3, 11.1, 10.8, 11.5, 11.4, 11.0],
    'D': [9.8, 9.4, 9.1, 9.5, 9.6, 9.9, 9.2, 9.7, 9.3, 9.4]
})

# 1 | 정규분포 확인
from scipy.stats import shapiro
print(shapiro(df['A']))
print(shapiro(df['B']))
print(shapiro(df['C']))
print(shapiro(df['D']))
# 모두 0.05 보다 크므로 귀무가설(정규분포를 따른다)를 채택

# 2 | 등분산성 확인
from scipy.stats import levene
print(levene(df['A'], df['B'], df['C'], df['D']))
# 0.05보다 크므로 귀무가설 채택(네 개의 그룹은 분산이 같음)

# 3 | 일원 분산 분석 진행
from scipy.stats import f_oneway
f_oneway(df['A'], df['B'], df['C'], df['D'])
# 0.05 보다 작으므로 귀무가설 기각, 대립가설 채택

ShapiroResult(statistic=0.9649054066073813, pvalue=0.8400161543468654)
ShapiroResult(statistic=0.9468040874196029, pvalue=0.6308700692815115)
ShapiroResult(statistic=0.9701646110856055, pvalue=0.892367306190296)
ShapiroResult(statistic=0.9752339025839644, pvalue=0.9346854448707653)
LeveneResult(statistic=1.9355354288758708, pvalue=0.14127835331346628)


F_onewayResult(statistic=89.12613851177174, pvalue=1.0018381522523723e-16)