## ANOVA (變異數分析)
<font size = 5 color = red>目的 : 檢定其各類別間平均數是否相等</font>


[參考網址:wiki](https://zh.wikipedia.org/zh-tw/%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90#ANOVA%E7%9A%84%E6%A8%A1%E5%BC%8F%E5%81%87%E8%A8%AD)

參考書籍 : 統計學 - 李德治、童惠玲

### 前提假設
*   自變數(又稱解釋變數、獨立變數)為類別變數(categorical variable)
*   依變數(又稱應變數、因變數)必須是連續變數(continuous variable)
*   <font color = red>母群體必須是常態分佈(Normal Distribution)</font>
*   獨立事件(Independent event)：樣本須為獨立變項(Independent variable)
*   變異數(Variance)同質性：<font color = red>樣本間的變異數必須相等。</font>

### 單因子變異數分析(One-way ANOVA)：只有一個自變項的變異數分析。


[參考網站1](https://www.cyut.edu.tw/~cycheng/ftp/%BD%D5%ACd%AC%E3%A8s%A4%E8%AAk/%BD%D5%ACd%B2%CE%ADp-6%C5%DC%B2%A7%BC%C6%A4%C0%AAR%BBPF%C0%CB%A9w.pdf)\
[參考網站2](https://itunesu-assets.itunes.apple.com/itunes-assets/CobaltPublic3/v4/91/8e/43/918e434b-5f03-5932-ef2f-3793cafebf4d/314-8976499452160897626-15.pdf?a=v%3D3%26artistId%3D1280875126%26podcastId%3D1045845504%26podcastName%3D%25E7%25B5%25B1%25E8%25A8%2588%25E5%25AD%25B8%2528%25E4%25BA%258C%2529%2BStatistics%2BII%2B%253A%2B%25E9%2580%25B2%25E9%259A%258E%25E7%25B5%25B1%25E8%25A8%2588%26episodeId%3D1000353807943%26episodeName%3D%2528%25E8%25AC%259B%25E7%25BE%25A9%2529%2B%25E7%25AC%25AC%25E5%258D%2581%25E4%25BA%2594%25E7%25AB%25A0%2B%25E8%25AE%258A%25E7%2595%25B0%25E6%2595%25B8%25E5%2588%2586%25E6%259E%2590%26episodeKind%3Dpdf%26pageLocation%3Ditc)

因子指的是分類性，所以單因子代表只有一項分類（例如班級、血型等）。

模型可寫成 : $y_{ij} = \mu_{i} + \varepsilon_{ij}$\
其中 : $y_{ij} \sim N(\mu_i,\sigma^2) ~;~ \varepsilon_{ij} \sim N(0,\sigma^2)$ 且 $\varepsilon_{ij}$ 互為獨立 , $i = 1,2,...k ~;~ j = 1,2,...,n$

$\alpha_i = \mu_i - \mu$ : 第i個處理效應(treatment effect)，並且$\sum\alpha = 0$。\
所以模型可以改寫成 : $y_{ij} = \mu + \alpha_i + \varepsilon_{ij}$

&emsp;

$H_0 : 各組母體平均數都相等$\
$H_\alpha : 並非各組母體平均數都相等$

資料格式:\
注: 每個母體不一定是 $n$ 個樣本，所以通常會表示成 $n_1,n_2,...,n_k$

<img src="https://i.imgur.com/AbegM2I.png" width="40%" height="40%">


#### One-way ANOVA table

<font size = 5>符號 : </font>

*   k : 組數

*   N : 總樣本數 ( $\sum n_i$ )

*   $y_{k,i}$ : 第k組第i個觀察值 (上面表示成 $x_{i,k}$)

*   $\bar{y_{k}}$ : 第k組觀察值的平均值 (上面表示成 $\bar{x_{k}}$)

*   $\bar{y}$    : 所有觀察值的平均值 (上面表示成 $\bar{\bar{x}}$)

*   $SS_T (總變異) : \sum\limits_{k}\sum\limits_{i}(y_{k,i} - \bar{y})^2 ~=~ n_T\sigma_T^2 ~=~ (n_T-1)s_T^2 $

*   $SS_G (組間變異, SS_A) : \sum\limits_{k}n_k(\bar{y_{k}} - \bar{y})^2 = SS_T - SS_W = SS_T - SS_E$

*   $SS_W (組內變異, SS_E) : \sum\limits_{k}\sum\limits_{i}(y_{k,i} - \bar{y_{k}})^2  = \sum\limits_{k}(n_k-1)(\frac{1}{n_k-1}\sum\limits_{i}(y_{k,i} - \bar{y_{k}})^2) = \sum\limits_{k} (n_k-1)s_k^2$

*   $SS_T = SS_G + SS_W$

*   $F^*$   : 若 $F^* > F_\alpha(k-1,n-k)$，則 $ reject ~~H_0 $ 。


<img src="https://i.imgur.com/R2OoUE9.png" width="60%" height="60%">

#### python

In [152]:
from pickle import FALSE
import numpy as np
import pandas as pd

##input
G = 12 #組別



##建立資料
data = {}
n = []
for i in range(G):
    ni = np.random.randint(12,30)
    data["母體{}".format(i+1)] = np.random.normal(loc = 10, scale = 5 ,size = ni)
    n.append(ni)
N = np.sum(n) #總樣本數

##處理資料(python 不同長度製作成data frame很麻煩，所以直接處理資料在製作，之後計算也比較方便)
pre_ = ["ni","xbar",'std'] #小母體樣本數,平均值,樣本標準差
pre_data = {"ni"   : [ len(data[i]) for i in data.keys()],
            'xbar' : [ np.mean(data[i]) for i in data.keys()] ,
            's2'  :  [ np.var(data[i],ddof = 1) for i in data.keys()]}
df = pd.DataFrame(pre_data)
df.index = data.keys()
df

##run
all_mean = np.mean(df['ni'] * df['xbar']) #sum(ni*xbar/sum(ni))
SSG =np.sum(df['ni']*(df['xbar']-all_mean)**2)  #sum(nk(xbar-xbarbar))
SSW = np.sum((df['ni']-1) * df['s2'] ) #sum((nk-1)*sk^2)
SST = SSG + SSW

SS = [SSG,SSW,SST]
df = [G-1,N-G,N-1]
MS = [SS[0]/df[0],SS[1]/df[1],np.NaN]
F = [ MS[0]/MS[1],np.NaN,np.NAN]

ANOVA_df = pd.DataFrame([SS,df,MS,F]).T
ANOVA_df.index = ["因子(組間)","隨機(組內)","總和"]
ANOVA_df.columns = ["平方和","自由度","平均平方和","F"]

ANOVA_df #用print 會沒對齊



Unnamed: 0,平方和,自由度,平均平方和,F
因子(組間),9632072.0,11.0,875642.934584,34792.909069
隨機(組內),5788.475,230.0,25.167281,
總和,9637861.0,241.0,,


3

### 雙因子變異數分析 (two way ANOVA)

雙因子代表有兩種分類性(A因子、B因子)，例如血型 (A,B,AB,O) 和 性別，所以種個有 4*2 = 8 種類別。

*   簡述:
    
    two way ANOVA 分成 <font size = 4 color = red>未重複實驗</font> 和 <font size = 4 color = red>重複實驗</font>，差別在於每個種類是否僅抽取一個觀察值 (未重複試驗 例如 :A1肥料B1品種只取1次收穫量,A2B1也是...)。
