# 24.08.16 통계 학습 8회차: 분산 분석(ANOVA)

### 💡분산 분석(ANOVA, Analysis of Variance)이란?

여러 그룹 간의 평균 차이가 유의미한지 검정하는 데 사용되는 통계 기법이다.

### 🔎목차

1. 분산 분석의 개요

    - 분산 분석이란 무엇인가?
    - 분산 분석의 목적과 중요성
    - 분산 분석이 사용되는 주요 사례

2. 분산 분석의 종류

    - 일원 분산 분석 (One-way ANOVA)
    - 이원 분산 분석 (Two-way ANOVA)
    - 반복 측정 분산 분석 (Repeated Measures ANOVA)
    - 공분산 분석 (ANCOVA: Analysis of Covariance)

3. 분산 분석의 수학적 개념과 가정

    - 분산 분석의 기본 개념 (F-통계량)
    - 분산 분석의 수학적 모델
    - 분산 분석의 주요 가정 (정규성, 등분산성, 독립성)

4. 일원 분산 분석 (One-way ANOVA)

    - 일원 분산 분석의 정의와 수식
    - F-통계량 계산 과정
    - 일원 분산 분석의 해석

5. 이원 분산 분석 (Two-way ANOVA)

    - 이원 분산 분석의 정의와 수식
    - 주 효과(Main Effect)와 교호작용(Interaction Effect)
    - 이원 분산 분석의 해석

6. 반복 측정 분산 분석 (Repeated Measures ANOVA)

    - 반복 측정 분산 분석의 정의와 수식
    - 반복 측정 설계의 특징과 적용 사례
    - 반복 측정 분산 분석의 해석

7. 공분산 분석 (ANCOVA)

    - 공분산 분석의 정의와 수식
    - 공변량의 개념과 역할
    - 공분산 분석의 해석

8. 분산 분석의 사후 분석

    - 사후 분석(Post-hoc tests)의 필요성
    - Tukey's HSD, Bonferroni, Scheffé 방법
    - 사후 분석의 결과 해석

9. 분산 분석의 한계와 문제점

    - 다중 비교 문제 (Multiple Comparisons Problem)
    - 가정 위반 시의 대처 방법
    - 비모수적 대안 (Kruskal-Wallis test 등)

10. 분산 분석의 실제 적용

    - Python을 활용한 분산 분석 (SciPy, Statsmodels, Pingouin)

### 1. 분산 분석의 개요

1) 분산 분석(ANOVA, Analysis of Variance)이란 무엇인가?

    - 분산 분석은 두 개 이상의 그룹 간의 평균을 비교하여, 이들이 통계적으로 유의미하게 다른지를 평가하는 방법이다.
    
    - 예를 들어, 세 개의 서로 다른 교육 방법이 학생 성적에 미치는 영향을 비교할 때 사용할 수 있다.

2) 분산 분석의 목적과 중요성

    - 분산 분석은 각 그룹 간의 차이가 단순히 우연에 의한 것인지, 아니면 실제로 의미 있는 차이가 있는지 평가한다.
    
    - 단일 t-검정과 달리, 분산 분석은 다수의 그룹을 한 번에 비교할 수 있어, 오류율을 낮추고 더 명확한 결론을 도출할 수 있다.

3) 분산 분석이 사용되는 주요 사례

    - 마케팅: 세 가지 광고 캠페인이 매출에 미치는 영향 비교

    - 의학: 여러 치료법의 효과 비교

    - 교육: 다양한 학습 방법이 학생의 성취도에 미치는 영향 분석

    - 심리학 실험: 실험군과 대조군 간의 행동 차이 분석

### 2. 분산 분석의 종류

1) 일원 분산 분석 (One-way ANOVA)

    - 하나의 독립 변수에 대해 여러 그룹의 평균을 비교하는 방법이다.
    
    - 예를 들어, 세 가지 다른 식이 요법이 체중 감소에 미치는 영향을 비교할 수 있다.

2) 이원 분산 분석 (Two-way ANOVA)

    - 두 개의 독립 변수가 결과 변수에 미치는 영향을 동시에 분석한다.

    - 이 방법은 두 독립 변수 간의 상호작용 효과도 평가할 수 있다.
    
    - 예를 들어, 비료의 종류와 물 주는 방법이 식물 성장에 미치는 영향을 동시에 분석할 수 있다.

3) 반복 측정 분산 분석 (Repeated Measures ANOVA)

    - 동일한 피험자들이 여러 시점 또는 조건에서 측정한 데이터를 분석한다.
    
    - 예를 들어, 동일한 학생들이 서로 다른 학습 방법으로 공부한 후 성적을 비교하는 경우에 사용할 수 있다.

    - 또는 동일한 환자의 치료 전후의 상태를 비교할 때 사용된다.

4) 공분산 분석 (ANCOVA: Analysis of Covariance)

    - 독립 변수 외에 하나 이상의 공변량(covariate)을 포함하여 분석한다.
    
    - 이 방법은 공변량이 결과 변수에 미치는 영향을 통제하면서 그룹 간의 (평균)차이를 평가한다.

    - 예를 들어, 학업 성취도 분석 시 사전 학업 성적을 공변량으로 고려할 수 있다.

### 3. 분산 분석의 수학적 개념과 가정

1) 분산 분석의 기본 개념 (F-통계량)

    - 분산 분석의 핵심은 F-통계량을 계산하는 것이다.
    
    - F-통계량은 그룹 간의 분산(Between-group variance)과 그룹 내의 분산(Within-group variance)의 비율이다.
    
    - 이를 통해 그룹 간의 차이가 유의미한지를 평가한다.

    - F-통계량 공식: $F = \frac{\text{MS}{\text{between}}}{\text{MS}{\text{within}}}$

        - $\text{MS}_{\text{between}}$ : 그룹 간의 평균 제곱(MS: Mean Square Between Groups)
        
        - $\text{MS}_{\text{within}}$ : 그룹 내의 평균 제곱(MS: Mean Square Within Groups)


2) 분산 분석의 수학적 모델

    - 일원 분산 분석의 수학적 모델은 다음과 같이 표현된다.

    - $Y_{ij} = \mu + \alpha_i + \epsilon_{ij}$

        - $Y_{ij}$ : $i$번째 그룹의 $j$번째 데이터
        
        - $\mu$ : 전체 평균

        - $\alpha_i$ : $i$번째 그룹의 효과

        - $\epsilon_{ij}$ : 잔차(오차: 표본추출 후 오차를 잔차라고 한다.)

3) 분산 분석의 주요 가정

    - 정규성 가정: 각 그룹의 데이터는 정규 분포를 따라야 한다.

    - 등분산성 가정: 모든 그룹의 분산이 동일해야 한다.

    - 독립성 가정: 각 관측값은 서로 독립적이어야 한다.

### 4. 일원 분산 분석 (One-way ANOVA)

1) 일원 분산 분석의 정의와 수식

    - 일원 분산 분석은 하나의 요인에 대해 여러 그룹 간의 평균 차이를 비교한다.
    
    - 이 경우, F-통계량을 사용하여 그룹 간 차이를 평가한다.

2) F-통계량 계산 과정

    - 일원 분산 분석의 F-통계량 계산은 다음과 같이 이루어진다.

        1. 그룹 평균 계산: 각 그룹의 평균을 계산한다.
        
        2. 전체 평균 계산: 모든 관측값의 평균을 계산한다.

        3. SST(총 제곱합, Total Sum of Squares) 계산: 전체 데이터의 변동성을 나타낸다.
            
            - $SST = \sum_{i=1}^{k} n_i (\bar{Y}_i - \bar{Y})^2$

        4. SSB(집단 간 제곱합, Between Group Sum of Squares) 계산: 각 그룹 평균과 전체 평균 간의 차이로 인한 변동성을 나타낸다.
        
            - $SSB = \sum_{i=1}^{k} n_i (\bar{Y}_i - \bar{Y})^2$

        5. SSW(집단 내 제곱합, Within Group Sum of Squares) 계산: 각 그룹 내부의 변동성을 나타낸다.
        
            - $SSW = SST - SSB$

        6. MSB 및 MSW 계산: 그룹 간의 평균 제곱, 그룹 내의 평균 제곱
        
            - $\text{MSB} = \frac{SSB}{k - 1}, \quad \text{MSW} = \frac{SSW}{N - k}$

                - $k$는 '그룹의 수', $𝑁$은 '전체 데이터 포인트의 수'이다.

        7. F-통계량 계산
            
            - $F = \frac{\text{MSB}}{\text{MSW}}$

3) 일원 분산 분석의 해석

    - F-값이 클수록 그룹 간 차이가 더 유의미하다는 것을 의미한다.
    
    - F-통계량이 특정 임계값보다 크면, 귀무가설을 기각하고 그룹 간 평균에 유의미한 차이가 있다고 결론 내릴 수 있다.

    - 일반적으로 p-값을 통해 유의성을 검증하며, p-값이 0.05보다 작으면 통계적으로 유의미하다고 평가한다.

### 5. 이원 분산 분석 (Two-way ANOVA)

1) 이원 분산 분석의 정의와 수식

    - 이원 분산 분석은 두 개의 독립 변수가 종속 변수에 미치는 영향을 동시에 평가한다.

    - 주 효과와 교호작용을 고려하여, 두 요인이 독립적으로 또는 상호작용을 통해 종속 변수에 미치는 영향을 분석한다.

    - 예를 들어, 성별(남성, 여성)과 치료 방법(약물, 플라시보)이 치료 효과에 미치는 영향을 분석할 수 있다.

    - 수식: $Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta){ij} + \epsilon{ijk}$

        - $Y_{ijk}$ : $i$번째 독립 변수(성별)와 $j$번째 독립 변수(치료 방법)의 조합에서 $k$번째 관측값

        - $\mu$ : 전체 평균

        - $\alpha_i$ : $i$번째 독립 변수의 효과

        - $\beta_j$ : $j$번째 독립 변수의 효과

        - $(\alpha\beta)_{ij}$ : 두 독립 변수의 교호작용 효과

        - $\epsilon_{ijk}$ : 오차 항(잔차)

2) 주 효과(Main Effect)와 교호작용(Interaction Effect)

    - 주 효과: 각 독립 변수가 종속 변수에 미치는 개별적인 영향을 의미한다.
    
        - 예를 들어, 성별이 치료 효과에 미치는 영향을 분석하는 것이 `주 효과`이다.

    - 교호작용: 두 개의 독립 변수가 함께 작용하여 종속 변수에 미치는 영향을 의미한다.
    
        - 예를 들어, 성별과 치료 방법의 조합이 치료 효과에 미치는 영향을 분석하는 것이 `교호작용`이다.

3) 이원 분산 분석의 해석

    - 주 효과와 교호작용 모두에 대해 F-통계량을 계산하고, 각 효과가 유의미한지 평가한다.
    
    - 주 효과만 유의미한 경우, 요인들이 독립적으로 영향을 미친다고 해석하고, 교호작용이 유의미한 경우, 요인들이 상호작용한다고 해석한다.

    - p-값을 사용하여 유의성을 평가하고, 필요 시 사후 분석을 진행한다.

### 6. 반복 측정 분산 분석 (Repeated Measures ANOVA)

1) 반복 측정 분산 분석의 정의와 수식

    - 반복 측정 분산 분석은 동일한 피험자들을 여러 조건에서 측정한 데이터를 분석하는 방법이다.
    
    - 이는 피험자 간 변동을 통제하여 조건 간의 차이가 유의미한지 평가할 수 있다.

    - 예를 들어, 동일한 환자의 치료 전후의 상태를 비교할 수 있다.

    - 수식: $Y_{ij} = \mu + \alpha_i + \epsilon_{ij}$

        - $Y_{ij}$ : $i$번째 시간(측정 시점)에서 $j$번째 개체의 관측값

        - $\mu$ : 전체 평균

        - $\alpha_i$ : $i$번째 시간의 효과

        - $\epsilon_{ij}$ : 오차 항

2) 반복 측정 설계의 특징과 적용 사례

    - 특징: 동일한 개체에서 반복적으로 측정하기 때문에, 개체 간의 변동성이 줄어들고 더 정확한 결과(높은 검정력)를 얻을 수 있다.

    - 적용 사례
    
        - 치료 전후의 효과 비교, 시간에 따른 변화 분석.

        - 동일한 그룹의 학생들이 각각의 시험 전, 후에 성적 변화를 측정하는 경우가 이에 해당한다.

3) 반복 측정 분산 분석의 해석

    - 반복 측정 분산 분석의 결과는 주로 시간의 변화에 따른 효과를 평가한다.
    
    - p-값을 통해 시간에 따른 변화가 유의미한지 판단하고, 필요에 따라 사후 분석을 실시한다.

### 7. 공분산 분석 (ANCOVA)

1) 공분산 분석의 정의와 수식

    - 공분산 분석은 독립 변수 외에 하나 이상의 공변량(covariate)을 포함하여 분석하는 방법이다.

    - 해당 분석은 그룹 간 차이를 평가하면서 공변량의 영향을 제거하는 방법이라고도 할 수 있다.
    
    - 공변량은 결과 변수에 영향을 미칠 수 있는 추가적인 변수이다.
    
    - 공변량을 고려하여 그룹 간의 순수한 차이를 분석할 수 있다.

    - 수식: $Y_{ij} = \mu + \alpha_i + \beta_j + \epsilon_{ij}$

        - $Y_{ij}$ : $i$번째 그룹에서 $j$번째 관측값

        - $\mu$ : 전체 평균

        - $\alpha_i$ : 그룹 효과

        - $\beta_j$ : 공변량 효과

        - $\epsilon_{ij}$ : 오차 항

2) 공변량의 개념과 역할

    - 공변량은 종속 변수에 영향을 미칠 수 있는 추가적인 변수로, 분석에서 이를 통제하여 그룹 간의 차이를 보다 정확하게 평가할 수 있다.
    
    - 예를 들어, 학생의 시험 성적을 분석할 때, 학생의 이전 성적을 공변량으로 사용할 수 있다.

3) 공분산 분석의 해석

    - 공분산 분석의 결과는 `공변량의 영향을 제거`한 후의 그룹 간 평균 차이를 평가하여, p-값으로 그룹 간의 차이가 유의미한지를 결정한다.

    - 필요에 따라 사후 분석을 진행한다.

### 8. 분산 분석의 사후 분석

1) 사후 분석(Post-hoc tests)의 필요성

    - 분산 분석 결과에서 그룹 간에 유의미한 차이가 발견되면, 사후 분석을 통해 구체적으로 어떤 그룹들 간에 차이가 있는지를 파악한다.

    - ANOVA가 유의미하다고 해서 모든 그룹 간에 차이가 있다는 것을 의미하지 않기 때문에, 사후 분석이 필요하다.

2) Tukey's HSD, Bonferroni, Scheffé 방법

    - Tukey's HSD (Honest Significant Difference) 방법

        - 그룹 간의 모든 쌍을 비교하여 평균 차이를 검정한다. 그룹 수가 많을 때 사용하기 적합하다.

    - Bonferroni 방법

        - 단순한 방법으로, 유의수준을 그룹 수로 나누어 다중 비교의 문제를 완화한다.

    - Scheffé 방법

        - 더 강력한 방법으로, 유의미한 차이가 있는 그룹을 검정한다. 그룹 간의 차이가 클 때 유용하다.

        - 모든 가능한 선형 조합을 비교할 수 있는 방법으로, 유연성이 높다.

3) 사후 분석의 결과 해석

    - 사후 분석의 결과는 특정 그룹 간의 평균 차이가 유의미한지에 대한 정보를 제공한다.
    
    - p-값을 통해 각 비교의 유의성을 평가하고, 어떤 그룹 간의 차이가 존재하는지를 확인한다.

### 9. 분산 분석의 한계와 문제점

1) 다중 비교 문제 (Multiple Comparisons Problem)

    - 여러 그룹을 비교할 때, 유의 수준이 증가하여 잘못된 긍정적 결과(제1종 오류)가 발생할 수 있는 문제이다.
    
    - 이를 해결하기 위해서는 사후 분석에서 적절한 방법을 선택하고, 유의수준을 조정하는 것이 중요하다.

2) 가정 위반 시의 대처 방법

    - 정규성, 등분산성, 독립성 등의 가정이 위반될 경우, 변환 또는 비모수 방법(Kruskal-Wallis test 등)을 사용할 수 있다.

    - 분산 분석 가정 3종류

        1. 정규성 가정

            - 분산 분석은 종속 변수가 정규 분포를 따른다는 가정이 있다.
            
            - 만약 이 가정이 위반되면, 결과의 신뢰성이 떨어질 수 있다.
            
            - 이 경우 비모수적 방법이나 변환 방법을 고려할 수 있다.

        2. 등분산성 가정

            - 그룹 간의 분산이 동일하다는 가정(등분산성)도 중요히다.
            
            - 이 가정이 위반되면, ANOVA 결과가 왜곡될 수 있다.
            
            - Levene’s test와 같은 방법으로 등분산성을 검정하고, 필요 시 Welch ANOVA와 같은 대안을 사용할 수 있다.
        
        3. 데이터의 독립성 가정

            - 분산 분석에서는 관측치 간의 독립성이 요구된다.
            
            - 데이터가 종속적일 경우, 분석 결과가 왜곡될 수 있으며, 이러한 경우 반복 측정 분산 분석이나 혼합 효과 모델을 고려해야 한다.

3) 비모수적 대안 (Kruskal-Wallis test 등)

    - 가정이 충족되지 않는 경우, ANOVA 대신 비모수적 방법인 Kruskal-Wallis 검정 등으로 대체할 수 있다.

### 10. 분산 분석의 실제 적용

1. Python을 활용한 분산 분석 (SciPy, Statsmodels, Pingouin)

    - Python의 SciPy, Statsmodels, Pingouin 패키지를 사용하여 실제 데이터를 분석할 수 있다.
    
    - 다음은 간단한 일원 분산 분석 예제이다.

In [1]:
import numpy as np
import scipy.stats as stats

# 데이터 생성
group1 = [23, 20, 27, 22, 25]
group2 = [30, 31, 29, 32, 28]
group3 = [40, 39, 38, 37, 41]

# 일원 분산 분석
f_value, p_value = stats.f_oneway(group1, group2, group3)

print(f"F-value: {f_value}, p-value: {p_value}")

F-value: 74.78048780487816, p-value: 1.6790695043591322e-07


### 11. 결론

- 분산 분석은 다양한 연구 분야에서 두 개 이상의 그룹 간의 평균 차이를 비교하는 유용한 통계 기법이다.

- 이론적 배경과 함께 다양한 유형의 분산 분석을 이해하고, 각각의 장단점을 인식하는 것이 중요하다.

- 또한, 분석 결과의 해석 및 사후 분석을 통해 연구의 신뢰성을 높일 수 있음을 인지한다.

- 마지막으로, 가정 위반 시 대안적인 방법을 고려하여 보다 정확하고 신뢰할 수 있는 결과를 도출하는 것이 필요하다.