# 분산분석(ANOVA, Analysis of Variance)

세 개 이상의 집단을 비교할 때 사용되는 통계적 방법입니다. 

분산분석의 기본 목적은 모든 집단의 평균이 동일한지를 가설로 검정하는 것입니다. 

분산분석은 다음과 같은 주요 유형으로 나뉩니다.

1. 일원분산분석 (One-way ANOVA)

    단 하나의 독립변수의 수준(카테고리)에 따른 종속변수의 평균 차이를 검증하는 방법입니다. 

    예를 들어, 세 가지 다른 교육 방법의 효과를 확인하기 위해 학생들의 성적을 비교하는 경우를 들 수 있습니다.

2. 이원분산분석 (Two-way ANOVA)

    두 개의 독립변수의 수준 간 종속변수의 평균 차이를 검증하는 방법입니다. 이 방식은 두 독립 변수와 그 상호작용까지 검증할 수 있습니다. 

    예를 들어, 교육 방법과 학습 기간을 고려하여 학생들의 성적을 비교하는 경우를 들 수 있습니다.

## 일원분산분석 (One-way ANOVA)

In [1]:
import numpy as np
from scipy.stats import f_oneway

np.random.seed(42)

# 가상 데이터 생성
group1 = np.random.normal(10, 2, 30)  # 평균 10, 표준편차 2, 표본 크기 30
group2 = np.random.normal(15, 2, 30)  # 평균 15, 표준편차 2, 표본 크기 30
group3 = np.random.normal(12, 2, 30)  # 평균 12, 표준편차 2, 표본 크기 30

# 일원분산분석 수행
F_stat, p_value = f_oneway(group1, group2, group3)

print(f"F-statistic: {F_stat}, p-value: {p_value}")

F-statistic: 55.793338444550955, p-value: 2.5601049563739123e-16


## 이원분산분석 (Two-way ANOVA)

In [2]:
# 라이브러리 임포트
import pandas as pd
import numpy as np
import statsmodels.api as sm
from statsmodels.formula.api import ols

# 시드 설정
np.random.seed(42)

# 빈 딕셔너리 생성
data = {'A': [], 'B': [], 'value': []}

# 가상 데이터 생성
for a in ['A0', 'A1']:
    for b in ['B0', 'B1', 'B2']:
        for _ in range(10):
            data['A'].append(a)
            data['B'].append(b)
            data['value'].append(np.random.normal(10, 2))

# 데이터프레임 생성
df = pd.DataFrame(data)

# 이원분산분석 모델 생성
model = ols('value ~ C(A) * C(B)', data=df).fit()

# 분산분석 결과 출력
anova_result = sm.stats.anova_lm(model, typ=2)
print(anova_result)


    A   B      value
0  A0  B0  10.993428
1  A0  B0   9.723471
2  A0  B0  11.295377
3  A0  B0  13.046060
4  A0  B0   9.531693
               sum_sq    df         F    PR(>F)
C(A)         0.269215   1.0  0.092280  0.762466
C(B)        16.427356   2.0  2.815435  0.068693
C(A):C(B)   20.562126   2.0  3.524081  0.036431
Residual   157.538211  54.0       NaN       NaN


## 다변량분산분석(MANOVA)

In [None]:
# 라이브러리 임포트
import numpy as np
import pandas as pd
from statsmodels.multivariate.manova import MANOVA

# 시드 설정
np.random.seed(42)

# 빈 딕셔너리 생성
data = {'education_method': [], 'test_score': [], 'time_to_complete': []}
# 교육 방법 그룹 설정
education_methods = ['traditional', 'online', 'blended']
n_samples = 30

# 종속 변수 시뮬레이션
for method in education_methods:
    for _ in range(n_samples):
        data['education_method'].append(method)
        # 가상 시험 점수 생성 (블렌디드: 평균 75, 그 외: 평균 70)
        data['test_score'].append(np.random.normal(loc=75 if method == 'blended' else 70, scale=5))
        # 가상 과제 완료 시간 생성 (온라인: 평균 40분, 그 외: 평균 60분)
        data['time_to_complete'].append(np.random.normal(loc=40 if method == 'online' else 60, scale=10))

# 데이터프레임 생성
df = pd.DataFrame(data)

# 모델 정의 (종속 변수와 독립 변수 관계 설정)
model = MANOVA.from_formula('test_score + time_to_complete ~ education_method', data=df)

# 결과 가져오기
manova_result = model.mv_test()

# 결과 출력
print(manova_result.summary())
