#### 설명  

- 분산분석  
- ANOVA는 여러 집단의 평균이 통계적으로 서로 다른지를 검정하는 방법  
- 아래 두 가지의 비율(분산의 비율)을 크게 만드는지 살펴보는 방식  
- (1) 집단 간 차이(SSB) – 학과 간 평균이 얼마나 다른지  
- (2) 집단 내 차이(SSW) – 같은 학과 내에서 과목별 핵심역량이 얼마나 다른지    

---

- 결과값  

- (1) fstat (F-statistic) : $\frac{집단 간 분산 (SSB)}{집단 내 분산 (SSW)}$  
- 즉, 학과 평균들이 서로 얼마나 떨어져 있는지 / 같은 학과 내 교과목들이 서로 얼마나 다른지  
- fstat 값이 클수록 학과별 평균 차이가 크고(서로 다르고), 그에 비해 학과 내 교과목들의 분산은 작다는 의미  
- (2) p-value : 유의확률  

---

3. 귀무가설(H0)·대립가설(H1)  
가설	의미  
H0	모든 학과의 평균 점수는 같다.  
H1	적어도 하나의 학과 평균은 다르다.  

p-value < 0.05이면 → H0 기각 → 학과 간 평균이 통계적으로 유의미하게 다름  

---

- f_oneway  
- scipy 라이브러리의 함수로, 두 개 이상 집단의 평균 차이를 비교하는 ANOVA 테스트를 수행한다.  

- 입력값 : 각 집단의 원자료 리스트  

```python
A = [3.1, 3.3, 3.5, 3.2]
B = [4.2, 4.0, 4.1, 4.3]
C = [2.9, 3.0, 3.1, 3.2]

f_oneway(A, B, C)
```

- 출력값 : f_statistic, p_value  

```python
f_oneway(A, B, C)
```

---

4. 왜 f_oneway라는 이름인가?

ANOVA에는 여러 종류가 있습니다.

One-way ANOVA (집단요인 1개 → 학과)

Two-way ANOVA (요인 2개 → 학과 + 성별)

Repeated measures ANOVA (반복측정 구조 등)

f_oneway는 그중에서:

"one-way" (요인이 1개)

"F-test" (F분포 사용)

그래서 이름이 f_oneway입니다.


In [None]:
import pandas as pd
from scipy.stats import f_oneway

# dataset
data_path = data_dir + "./abc.csv"
df = pd.read_csv(data_path, index_col=0, encoding="cp949")
df["TOTAL"] = df[["1_SCORE", "2_SCORE", "3_SCORE", "4_SCORE", "5_SCORE", "6_SCORE"]].sum(axis=1)

df_temp = df.copy()

# ANOVA
def anova(groups, name):
    f_stat, p_value = f_oneway(*groups)
    print(f"{name:15} :: f_stat : {f_stat:20} / p_value : {p_value}")

# ANOVA 실행
columns = ["TOTAL", "1_SCORE", "2_SCORE", "3_SCORE", "4_SCORE", "5_SCORE", "6_SCORE"]
for col in columns:
    anova([group[col].values for _, group in df_temp.groupby("DPT_MJR_NM")], col)
