# [ Type에 따른 ANOVA 분석 방법 ]

## Type I ANOVA
- Type I ANOVA는 변수를 하나씩 모델에 추가하는 방식으로 분산분석을 수행
- **변수를 추가할 때, 이미 추가된 변수와의 상호작용은 고려하지 않음**
- 이 방법은 순서에 따라 결과가 달라지므로, **변수의 순서가 중요**한 경우에 유용
- 그러나 변수 간의 상호작용이 존재하는 경우 잘못된 결과를 도출할 수 있음 

In [3]:
mtcars = pd.read_csv("./mtcars.csv")
mtcars.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [4]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

model1 = ols('mpg ~ cyl * gear', data=mtcars).fit()
anova_lm(model1,typ=1)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
cyl,1.0,817.712952,817.712952,79.971086,1.068172e-09
gear,1.0,5.431287,5.431287,0.531172,0.4721671
cyl:gear,1.0,16.599939,16.599939,1.623449,0.2130859
Residual,28.0,286.303009,10.225107,,


### Type 1 ANOVA에서 모델에 투입되는 변수의 순서를 바꾸면 sum_sq도 달라진다 !
- cyl sum_sq : 817.712952 $\rightarrow$ 563.395052

In [5]:
model2 = ols('mpg ~ gear * cyl', data=mtcars).fit()
anova_lm(model2,typ=1)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
gear,1.0,259.749188,259.749188,25.403077,2.485027e-05
cyl,1.0,563.395052,563.395052,55.099181,4.390162e-08
gear:cyl,1.0,16.599939,16.599939,1.623449,0.2130859
Residual,28.0,286.303009,10.225107,,


## Type II ANOVA
- Type II ANOVA는 **변수를 추가할 때, 이미 추가된 변수와의 상호작용을 고려**
- 이 방법은 부분효과를 측정하며, 다른 변수들의 존재 여부와 관계없이 각 변수의 독립적인 영향을 평가
- 이 방법은 변수 간의 상호작용이 존재하는 경우에도 일관된 결과를 제공
- 하지만 변수의 순서에 따라 결과가 달라지는 Type I ANOVA와는 달리, 변수의 순서가 중요하지 않음

In [6]:
model1 = ols('mpg ~ cyl * gear', data=mtcars).fit()
anova_lm(model1,typ=2)

Unnamed: 0,sum_sq,df,F,PR(>F)
cyl,563.395052,1.0,55.099181,4.390162e-08
gear,5.431287,1.0,0.531172,0.4721671
cyl:gear,16.599939,1.0,1.623449,0.2130859
Residual,286.303009,28.0,,


### Type 2 ANOVA에서 모델에 투입되는 변수의 순서를 바꿔도 값이 변하지 않는다 !

In [7]:
model2 = ols('mpg ~ gear * cyl', data=mtcars).fit()
anova_lm(model2, typ=2)

Unnamed: 0,sum_sq,df,F,PR(>F)
gear,5.431287,1.0,0.531172,0.4721671
cyl,563.395052,1.0,55.099181,4.390162e-08
gear:cyl,16.599939,1.0,1.623449,0.2130859
Residual,286.303009,28.0,,


## Type III ANOVA

- 카테고리별로 데이터 값이 비균형 설계되었을 때 사용
- Type III ANOVA는 **변수를 추가할 때, 이미 추가된 변수와의 상호작용 및 다른 변수들의 존재 여부를 모두 고려**
- 이 방법은 변수의 부분효과와 상호작용을 모두 고려하여 종속 변수에 대한 각 변수의 독립적인 영향을 평가
- 변수 간의 상호작용이 있는 경우에도 올바른 결과를 제공
- 변수의 순서에 따라 결과가 달라지는 Type I ANOVA와는 달리, 변수의 순서가 중요하지 않음

→ 상호작용 관점에서 제일 우선시 되는 방법 !!

In [8]:
model1 = ols('mpg ~ cyl * gear', data=mtcars).fit()
anova_lm(model1, typ=3)

Unnamed: 0,sum_sq,df,F,PR(>F)
Intercept,14.180591,1.0,1.38684,0.248852
cyl,0.07859,1.0,0.007686,0.930763
gear,20.454957,1.0,2.000464,0.168275
cyl:gear,16.599939,1.0,1.623449,0.213086
Residual,286.303009,28.0,,


### Type 3 ANOVA에서 모델에 투입되는 변수의 순서를 바꿔도 값이 변하지 않는다 !

In [9]:
model2 = ols('mpg ~ gear * cyl', data=mtcars).fit()
anova_lm(model2, typ=3)

Unnamed: 0,sum_sq,df,F,PR(>F)
Intercept,14.180591,1.0,1.38684,0.248852
gear,20.454957,1.0,2.000464,0.168275
cyl,0.07859,1.0,0.007686,0.930763
gear:cyl,16.599939,1.0,1.623449,0.213086
Residual,286.303009,28.0,,


#### 상호작용항이 설명하는 sum_sq는 그대로지만, 전반적으로 주효과들의 설명량이 type 2일 때 보다도 줄어듦
####  sum_sq 종류(Type)가 달라짐에 따라 유의성이 뒤바뀜

전반적으로 주효과들의 설명량이 Type II ANOVA보다 줄었습니다:

Type III ANOVA에서는 변수의 순서와 독립적으로 각 주효과들의 설명량을 계산합니다.
이에 따라, Type II ANOVA와 비교했을 때 주효과들의 설명량이 줄어들 수 있습니다.
상호작용항이 설명하는 sum_sq는 그대로 유지됩니다:

Type III ANOVA에서는 주효과들과 상호작용항의 설명량을 독립적으로 계산합니다.
따라서, 상호작용항이 설명하는 sum_sq는 Type II ANOVA와 동일하게 유지됩니다.
Type I와 Type II에서 유의한 주효과들이 Type III에서 유의하지 않을 수 있습니다:

Type III ANOVA에서는 변수의 순서와 상호작용의 존재 여부를 모두 고려하여 주효과들의 설명량을 계산합니다.
이에 따라, Type I 또는 Type II에서 유의했던 주효과들이 Type III에서 유의하지 않을 수 있습니다.
이는 주효과들 간의 상호작용이 존재하여 주효과들의 독립적인 영향을 평가하기 어려운 경우에 발생할 수 있습니다.
sum_sq 계산 방식은 변경되었지만, 분모와 분자의 자유도는 그대로 유지됩니다:

Type III ANOVA에서는 주효과들의 sum_sq 계산 방식이 변경됩니다.
하지만, 분모는 여전히 residual SS와 분모의 자유도를 사용하고, 분자의 자유도 역시 그대로 유지됩니다.
sum_sq 종류에 따라 유의성이 달라질 수 있습니다:

Type III ANOVA에서는 주효과들의 sum_sq 종류가 변경되므로, 유의성도 달라질 수 있습니다.
Type I나 Type II에서 유의했던 주효과들이 Type III에서 유의하지 않을 수 있거나, 그 반대의 경우도 가능합니다.
요약하면, Type III ANOVA는 변수의 순서와 상호작용을 모두 고려하여 주효과들의 독립적인 설명량을 계산합니다. 이에 따라, 주효과들의 설명량이 줄어들거나 유의하지 않을 수 있으며, sum_sq 계산 방식의 변경으로 인해 유의성이 달라질 수 있습니다