## 분산 분석
--------------
### 01.일원 분산 분석
    3개 이상의 집단 간의 평균 차이가 통계적으로 유의한지 검정하는 방법이다.
    집단을 나누는 요인이 하나고 집단의 수가 3개 이상일 때 사용한다.
------------------------------
#### 1. 기본 가정
  - 독립성 : 각 집단의 관측치들은 모든 다른 집단의 관측치들과 독립적이다.(기본 가정)
  - 정규성 : 각 집단에서의 관측치는 정규 분포를 따른다.(Shapiro-Wilk Test)
  - 등분산성 : 모든 집단에서의 관측치는 동일한 분산을 가진다.(Levene Test)
-----------------
#### 2. 귀무가설과 대립가설
  - 귀무가설(H0) 모든 집단의 평균은 동일하다.
  - 대립가설(H1) 집단간의 평균은 차이가 있다.

#### 3. 일원 분산 분석
```python
scipy.stats.f_oneway(sample1,sample2,sample3,...)
```
-------------------------
Q. 주어진 데이터는 4종류의 비료를 사용한 식물의 성장에 대한 실험 결과다.
이 실험에서는 비슷한 조건의 식물 40개를 무작위로 10개씩 나누고 화학 비료 A,B,C,D를 일정기간 사용한 후 성장량을 측정했다. 성장의 차이가 있는지 유의수준 0.05 하에서 검정하시오.

- 귀무가설 : 4가지의 비료 효과는 동일하다.
- 대립가설 : 비료의 효과에는 차이가 있다.(적어도 두 가지 비료의 효과에는 차이가 있다.

In [26]:
import pandas as pd
df = pd.DataFrame({
    'A': [10.5, 11.3, 10.8, 9.6, 11.1, 10.2, 10.9, 11.4, 10.5, 10.3],
    'B': [11.9, 12.4, 12.1, 13.2, 12.5, 11.8, 12.2, 12.9, 12.4, 12.3],
    'C': [11.2, 11.7, 11.6, 10.9, 11.3, 11.1, 10.8, 11.5, 11.4, 11.0],
    'D': [9.8, 9.4, 9.1, 9.5, 9.6, 9.9, 9.2, 9.7, 9.3, 9.4]
})
print(df.head(2))

      A     B     C    D
0  10.5  11.9  11.2  9.8
1  11.3  12.4  11.7  9.4


In [31]:
from scipy import stats
print(stats.shapiro(df['A']))
print(stats.shapiro(df['B']))
print(stats.shapiro(df['C']))
print(stats.shapiro(df['D']))

print("\n=====등분산성 검정=======")
print(stats.levene(df['A'],df['B'],df['C'],df['D']))

print("\n=====일원 분산분석=======")
print(stats.f_oneway(df['A'],df['B'],df['C'],df['D']))

ShapiroResult(statistic=0.9649054066073813, pvalue=0.8400161543468654)
ShapiroResult(statistic=0.9468040874196029, pvalue=0.6308700692815115)
ShapiroResult(statistic=0.9701646110856055, pvalue=0.892367306190296)
ShapiroResult(statistic=0.9752339025839644, pvalue=0.9346854448707653)

LeveneResult(statistic=1.9355354288758708, pvalue=0.14127835331346628)

F_onewayResult(statistic=89.12613851177174, pvalue=1.001838152252373e-16)


In [44]:
from google.colab import files
uploaded = files.upload()

Saving tree.csv to tree.csv


In [42]:
import pandas as pd
df = pd.read_csv("fertilizer.csv")

In [43]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
model = ols('성장 ~ C(비료)', df).fit()
print(anova_lm(model))

            df    sum_sq    mean_sq          F        PR(>F)
C(비료)      3.0  43.21875  14.406250  89.126139  1.001838e-16
Residual  36.0   5.81900   0.161639        NaN           NaN


### 02.이원 분산 분석
    요인수가 2개인 경우이다. 예시) 학습 방법과 장소에 따른 성적 분석하는 경우
    왜 일원 분산 분석을 두 번하지 않고 이원 분산 분석을 하는가?
    1종 오류가 커지기 때문이다. 독립 표본 t-검정을 반복하지 않고 일원 분산 분석을 하는 것과 같다.
------------------------------
#### 1. 기본 가정
  - 독립성 : 각 집단의 관측치들은 모든 다른 집단의 관측치들과 독립적이다.(기본 가정)
  - 정규성 : 각 집단에서의 관측치는 정규 분포를 따른다.(Shapiro-Wilk Test)
  - 등분산성 : 모든 집단에서의 관측치는 동일한 분산을 가진다.(Levene Test)
-----------------
#### 2. 귀무가설과 대립가설
    주 효과뿐만 아니라 상호작용 효과에도 관심을 둔다.
    학습 방법과 학습 장소를 요인으로 이원 분산 분석을 실시한 경우
    주 효과 2개, 상호작용 효과 1개로 다음과 같이 세가지 가설을 세울 수 있다.
  - 주효과 : A 요인(예: 학습방법)
    - 귀무가설(H0) 학습 방법에 따라 성적 차이가 없다.
    - 대립가설(H1) 학습 방법에 따라 성적 차이가 있다.
  - 주효과 : B 요인(예: 학습 장소)
    - 귀무가설(H0) 학습 장소에 따라 성적 차이가 없다.
    - 대립가설(H1) 학습 장소에 따라 성적 차이가 있다.
  - 상호작용 효과
    - 귀무가설(H0) A 요인과 B 요인 간에 상호작용이 없다.
    - 대립가설(H1) A 요인과 B 요인 간에 상호작용이 있다.

```python
model = ols(종속변수 ~ C(요인1) + C(요인2) + C(요인1):C(요인2)).fit()
annova_lm(model,typ=숫자)
```
- 종속변수 : 연속형 변수
- 요인1 : 첫 번째 독립변수(범주형 변수)
- 요인2 : 두 번째 독립변수(범주형 변수)
- typ=1 : 변수의 순서에 따른 분석(기본값)
- typ=2 : 각 변수 독립적인 효과 분석
- typ=3 : 모든 변수와 상호작용을 동시에 고려해 분석

--------------------------------
Q. 데이터는 네 가지 종류의 나무(A,B,C,D)에 대해 세 가지 종류의 비료(1,2,3)를 사용해 성장률을 조사한 결과다. 비료 간 및 나무 종류 간의 성장률 차이가 있는지 유의수준 0.05 하에서 검정하시오.(단, 독립성,정규성,등분산성에 만족한 데이터)

- 나무(주 효과)
  - 귀무가설 : 모든 나무 종류의 성장률은 동일하다.
  - 대립가설 : 나무 종류의 성장률에는 차이가 있다.
- 비료(주 효과)
  - 귀무가설 : 모든 비료의 성장률 효과는 동일하다.
  - 대립가설 : 비료의 성장률 효과에는 차이가 있다.
- 상호작용 효과
  - 귀무가설 : 나무 종류와 비료 간의 상호작용은 성장률에 영향을 주지 않는다.
  - 대립가설 : 나무 종류와 비료 간에는 성장률에 영향을 주는 상호작용이 있다.


In [56]:
import pandas as pd
df = pd.read_csv("tree.csv")
print(df.sample(10))

   나무  비료        성장률
10  A   2  48.365823
7   A   1  57.674347
18  A   2  43.919759
51  B   3  57.149177
25  A   3  57.109226
36  B   1  57.088636
2   A   1  56.476885
79  C   2  43.124311
42  B   2  56.843517
77  C   2  60.009926


In [57]:
import statsmodels.api as sm
from statsmodels.formula.api import ols

model = ols('성장률 ~ 나무 + 비료 + 나무:비료',data=df).fit()
anova_table = sm.stats.anova_lm(model)
print(anova_table)

             df       sum_sq      mean_sq          F        PR(>F)
나무          3.0  4783.353938  1594.451313  18.391274  9.016693e-10
비료          1.0   873.322002   873.322002  10.073374  1.942421e-03
나무:비료       3.0   394.801585   131.600528   1.517952  2.137666e-01
Residual  112.0  9709.960792    86.696078        NaN           NaN


In [58]:
model = ols('성장률 ~ C(나무) + C(비료) + C(나무):C(비료)',data=df).fit() //  ~ C(나무) * C(비료) : 가능하다.
anova_table = sm.stats.anova_lm(model)
print(anova_table)

                df       sum_sq      mean_sq          F        PR(>F)
C(나무)          3.0  4783.353938  1594.451313  18.855528  6.600012e-10
C(비료)          2.0  1127.924259   563.962129   6.669256  1.857612e-03
C(나무):C(비료)    6.0   717.520672   119.586779   1.414199  2.157357e-01
Residual     108.0  9132.639448    84.561476        NaN           NaN
