### 분산분석
    여러 집단(3개 이상)의 평균 차이를 통계적으로 유의미한지 검정하는 방법
- 일원 분산 분석 : 단일 요인의 수준 간 평균 차이를 검정
- 이원 분산 분석 : 두 요인의 수준 간 및 그들의 상호작용이 평균에 미치는 영향을 검정
  - 요인(factor)은 독립변수를 의미한다.

#### 일원 분산분석(One-way ANOVA)
-------
    3개 이상의 집단 간의 평균 차이가 통계적으로 유의한지 검정하는 방법이다.
    집단을 나누는 요인이 하나고 집단의 수가 3개 이상일 때 사용한다.
    집단을 나누는 요인이 하나고 집단의 수가 2개이면 T 검정을 수행한다.

1. 기본 가정
    기본 가정은 T-검정과 유사하다. 독립성,정규성, 등분산성을 기본으로 한다.
    - 독립성 : 각 집단의 관측치들은 모든 다른 집단의 관측치들과 독립적이다. (기본 가정)
    - 정규성 : 각 집단에서의 관측치들은 정규 분포를 따른다.(shapiro-wilk)
    - 등분산성 : 모든 집단에서의 관측치는 동일한 분산을 가진다(Levene)

2. 귀무가설 대립가설
  - 귀무가설 : 모든 집단의 평균이 동일하다.
  - 대립가설 : 집단간의 평균 차이가 있다.(적어도 두 집단간의 평균은 차이가 있다.)

3. 일원 분산 분석
```scipy.stats.f_oneway(sample1,sample2,sample3,...)```


Q. 주어진 데이터는 4종류의 비료를 사용한 식물의 성장에 대한 실험 결과다.<BR/>
이 실험에서는 비슷한 조건의 식물 40개를 무작위로 10개씩 나누고, 화학 비료 A,B,C,D를 일정 기간 사용한 후 성장량을 측정했다.<BR/>
 성장의 차이가 있는지 유의수준 0.05 하에서 검정하시오.
- 대립가설 : 비료의 효과에는 차이가 있다.(적어도 두 집단에서는 차이가 있다.)

In [56]:
import pandas as pd
df = pd.DataFrame({
    'A': [10.5, 11.3, 10.8, 9.6, 11.1, 10.2, 10.9, 11.4, 10.5, 10.3],
    'B': [11.9, 12.4, 12.1, 13.2, 12.5, 11.8, 12.2, 12.9, 12.4, 12.3],
    'C': [11.2, 11.7, 11.6, 10.9, 11.3, 11.1, 10.8, 11.5, 11.4, 11.0],
    'D': [9.8, 9.4, 9.1, 9.5, 9.6, 9.9, 9.2, 9.7, 9.3, 9.4]
})
print(df.head(2))

      A     B     C    D
0  10.5  11.9  11.2  9.8
1  11.3  12.4  11.7  9.4


In [60]:
from scipy import stats
stats.shapiro(df['A'])
stats.shapiro(df['B'])
stats.shapiro(df['C'])
stats.shapiro(df['D'])

ShapiroResult(statistic=0.9752339025839644, pvalue=0.9346854448707653)

In [62]:
from scipy import stats
stats.levene(df['A'],df['B'],df['C'],df['D'])

LeveneResult(statistic=1.9355354288758708, pvalue=0.14127835331346628)

In [61]:
from scipy import stats
stats.f_oneway(df['A'],df['B'],df['C'],df['D'])

F_onewayResult(statistic=89.12613851177174, pvalue=1.001838152252373e-16)

In [63]:
from google.colab import files
uploaded = files.upload()

Saving fertilizer.csv to fertilizer.csv


In [65]:
import pandas as pd
df = pd.read_csv('fertilizer.csv')
df.head(3)

Unnamed: 0,비료,성장
0,A,10.5
1,A,11.3
2,A,10.8


In [66]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
model = ols('성장 ~C(비료)',df).fit()
print(anova_lm(model))

            df    sum_sq    mean_sq          F        PR(>F)
C(비료)      3.0  43.21875  14.406250  89.126139  1.001838e-16
Residual  36.0   5.81900   0.161639        NaN           NaN


#### 이원 분산분석(Two-way ANOVA)
-------
    요인(factor)의 개수가 2개인 경우다.

1. 기본 가정
    - 독립성 : 각 집단의 관측치들은 모든 다른 집단의 관측치들과 독립적이다. (기본 가정)
    - 정규성 : 각 집단에서의 관측치들은 정규 분포를 따른다.(shapiro-wilk)
    - 등분산성 : 모든 집단에서의 관측치는 동일한 분산을 가진다(Levene)

2. 귀무가설 대립가설
    학습 방법과 학습 장소 두가지 요인으로 주 효과 2개, 상호작용 효과 1개
  - 주 효과 : A 요인(학습 방법)
    - 귀무가설 : 학습 방법에 따라 성적 차이가 없다.
    - 대립가설 : 학습 방법에 따라 성적 차이가 있다.
  - 주 효과 : B 요인(학습 장소)
    - 귀무가설 : 학습 장소에 따라 성적 차이가 없다.
    - 대립가설 : 학습 장소에 따라 성적 차이가 있다.
  - 상호작용 효과
    - 귀무가설 : A요인과 B 요인 간에 따라 상호작용이 없다.
    - 대립가설 : A요인과 B 요인 간에 따라 상호작용이 있다.

3. 이원 분산 분석
```
model = ols(종속변수 ~ C(요인1) + C(요인2) + C(요인1):C(요인2)).fit()
anova_lm(model,typ=숫자)
```
- 종속변수 :연속형 변수
- 요인 1 : 첫 번째 독립변수
- 요인 2 : 두 번째 독립변수
- typ=1 : 변수의 순서에 따른 분석(기본값)
- typ=2 : 각 변수의 독립적인 효과 분석
- typ=3 : 모든 변수와 상호작용을 동시에 고려해 분석


Q. 데이터는 네가지 종류의 나무에 대해 세 가지 종류의 비료를 사용해 성장률을 조사한 결과다.<br/>
비료 간 나무 종류 및 성장률 차이가 있는지 유의수준 0.05 하에서 검정하시오

In [67]:
from google.colab import files
uploaded = files.upload()

Saving tree.csv to tree.csv


In [68]:
import pandas as pd
df = pd.read_csv('tree.csv')
df.head(3)

Unnamed: 0,나무,비료,성장률
0,A,1,54.967142
1,A,1,48.617357
2,A,1,56.476885


In [72]:
import statsmodels.api as sm
from statsmodels.formula.api import ols

model = ols('성장률 ~C(나무) +C(비료) +C(나무):C(비료)',data=df).fit()
anova_table = sm.stats.anova_lm(model)
print(anova_table)

                df       sum_sq      mean_sq          F        PR(>F)
C(나무)          3.0  4783.353938  1594.451313  18.855528  6.600012e-10
C(비료)          2.0  1127.924259   563.962129   6.669256  1.857612e-03
C(나무):C(비료)    6.0   717.520672   119.586779   1.414199  2.157357e-01
Residual     108.0  9132.639448    84.561476        NaN           NaN
