In [1]:
import numpy as np
import pandas as pd

# 종속변수 = 점수
# 독립변수 1, 2 = 성별, 수업방식

df = pd.DataFrame({
    'score': [88, 92, 95, 89, 90, 91, 85, 87, 86, 90, 93, 94],
    'gender': ['M', 'M', 'M', 'M', 'F', 'F', 'F', 'F', 'M', 'M', 'F', 'F'],
    'method': ['online', 'online', 'offline', 'offline', 'online', 'online', 'offline', 'offline',
               'online', 'offline', 'online', 'offline']
})

df.head()

Unnamed: 0,score,gender,method
0,88,M,online
1,92,M,online
2,95,M,offline
3,89,M,offline
4,90,F,online


In [13]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

# 모수 검정 (parametric test)
# 목적 : 두 개의 독립 변수(요인)가 종속 변수에 미치는 주효과 또는 상호작용 효과를 평가
# 가정 : 각 그룹은 정규분포를 따르고 분산이 같으며(등분산성) 독립된 표본이어야 한다.
# H₀ (귀무가설) : 두 독립변수의 교호작용 효과가 존재하지 않는다.
# H₁ (대립가설) : 두 독립변수의 교호작용 효과가 존재한다.

model = ols('score ~ gender + method + gender:method', data=df).fit()
anova_results = anova_lm(model)

anova_results

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
gender,1.0,4.5438390000000005e-28,4.5438390000000005e-28,4.099704e-29,1.0
method,1.0,2.9996440000000003e-28,2.9996440000000003e-28,2.706445e-29,1.0
gender:method,1.0,21.33333,21.33333,1.924812,0.202751
Residual,8.0,88.66667,11.08333,,


In [14]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

model = ols('score ~ gender * method', data=df).fit()
anova_results = anova_lm(model)

anova_results

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
gender,1.0,4.5438390000000005e-28,4.5438390000000005e-28,4.099704e-29,1.0
method,1.0,2.9996440000000003e-28,2.9996440000000003e-28,2.706445e-29,1.0
gender:method,1.0,21.33333,21.33333,1.924812,0.202751
Residual,8.0,88.66667,11.08333,,


In [15]:
from scipy.stats import f_oneway

# 1) gender 그룹별 점수 리스트 만들기
scores_M = df[df['gender'] == 'M']['score']
scores_F = df[df['gender'] == 'F']['score']

# gender에 따른 f_oneway
f_stat_gender, p_val_gender = f_oneway(scores_M, scores_F)
print(f"Gender effect: F={f_stat_gender:.3f}, p={p_val_gender:.3f}")

# 2) method 그룹별 점수 리스트 만들기
scores_online = df[df['method'] == 'online']['score']
scores_offline = df[df['method'] == 'offline']['score']

# method에 따른 f_oneway
f_stat_method, p_val_method = f_oneway(scores_online, scores_offline)
print(f"Method effect: F={f_stat_method:.3f}, p={p_val_method:.3f}")

Gender effect: F=0.000, p=1.000
Method effect: F=0.000, p=1.000


In [16]:
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

# 🎲 샘플 데이터 생성
data = pd.DataFrame({
    'score': [88, 92, 95, 89, 90, 91, 85, 87, 86, 90, 93, 94],
    'gender': ['M', 'M', 'M', 'M', 'F', 'F', 'F', 'F', 'M', 'M', 'F', 'F'],
    'method': ['online', 'online', 'offline', 'offline', 'online', 'online', 'offline', 'offline',
               'online', 'offline', 'online', 'offline']
})

# 📈 모델 적합
model = ols('score ~ C(gender) + C(method) + C(gender):C(method)', data=data).fit()

# 🔍 이원분산분석 수행
anova_results = anova_lm(model, typ=2)
print(anova_results)

                           sum_sq   df             F    PR(>F)
C(gender)            1.243195e-27  1.0  1.121680e-28  1.000000
C(method)            2.137320e-28  1.0  1.928409e-29  1.000000
C(gender):C(method)  2.133333e+01  1.0  1.924812e+00  0.202751
Residual             8.866667e+01  8.0           NaN       NaN
