## 17 變異數分析

前面的章節主要是針對單個變數進行統計分析，如描述性統計、參數估計等。然而，僅對單個變數進行分析所能獲得的訊息是有限的。以某公司股票的股價為例，對其進行單變數分析，我們最多只能獲得其概率分佈，然後據此來對股價進行預測。透過這樣的方式，盡管也能進行預測，但預測的可信度是非常有限的。然而，如果我們知道明天該公司會宣告發放股利，那們由此可判斷明天股價上漲的概率極高。所以，在分析某個變數的時候，往往還會需要其他變數的訊息。這樣，統計分析工作就涉及到了多個變數，不同於單變數分析，對於多個變數的統計分析，我們更多地關注多個變數之間存在的聯繫，以幫助提高預測的準確性。下面先來介紹一種對變數間關係的定性分析方法－－變異數分析（Analysis of Variance，ANOVA）。

### 17.1 變異數分析之思想

在正式介紹變異數分析之前，我們先來看一個問題：「不同行業股票的收益率是否相同？」。答案如果是「不同行業的股票有著明顯不同的收益率」，並在不同行業的股票收益率相互獨立的前提下，我們可以進一步提出疑問：食品行業的收益率會比金融行業的收益率更高嗎？再考慮總體經濟學中的失業問題中，失業率會因為地區的不同而不同。如果地區確實是影響失業率的一個重要的因素，那們台北的失業率會比高雄的失業率更高還是更低？

總結起來，上述兩個問題的前一半關注的都是，一個因子（Factor）變數（如行業和地區）是否會影響某一個變數（如收益率和失業率）的數值。因子變數的取值可以是不同的狀態，我們稱這些狀態為水平。例如，行業因子變數，其取值不是 1.14、3.1415926 諸如此類的數值，而是「食品行業」「金融行業」這樣的水平。欲研究的被影響變數被稱為反應變數（Response Variable）。這兩個問題的後一半歸結起來關注的是：兩個不同的水平下（食品行業 VS 金融行業，台北 VS 高雄）反應變數（如股票收益率，失業率）是如何取值的？哪種情況下反應變數的取值更高？

若要探究一個因子變數對反應變數的影響，變異數分析是一個較為適合的工具。變異數分析從反應變數（如上述的股票收益率和失業率）的變異數入手，研究諸多因子（如行業、地區等因素）中哪些因子對觀測變數有顯著影響。變異數分析的重點不在於預測（它無法預測出明天金融行業股票的走勢如何），而在於分析和比較各組之間的差異。例如，分析食品行業和金融行業股票收益率的差異，如果我們發現，這兩個行業的股票收益率是有顯著差異的，則可以得到下述結論：行業是影響股票收益率的一個重要的因素。

準確地說，變異數分析的研究對像是各個組別反應變數均值之間可能存在的差異，其中組別的劃分是以因子變數為依據的。由於需要借助變異數來觀察均值是否相同，所以被叫做變異數分析。透過變異數分析，可以檢定分組所依據的因子變數對反應變數是否具有重要的影響。如果反應變數在不同組別中的均值是相同的，則可以認為分組所依據的因子變數對反應變數沒有影響（如果所有地區的平均失業率都是一樣的，地區對失業率就沒有重要的影響）。反之，可以推斷分組所依據的因子變數是影響該反應變數的重要因素。請注意，不一定要求所有水平下反應變數的均值都不同，才能說明該因子變數是有重要影響的。只要存在至少兩個組別的均值顯著不同，就可以認為該因子變數對反應變數是有影響的。例如，哪怕只有台北和高雄的失業率不同，其他地區的失業率都一樣的，也可以說明地區是對失業率有影響的。

根據所研究的因素的數量，可以將變異數分為單因素變異數分析、多因素變異數分析和析因變異數分析。單因素變異數分析即是只研究一個因子的變異數分析，如前面談到的失業率，股票收益率等例子都屬於單因素變異數分析。多因素變異數分析則是研究多個因子的變異數分析，最常見的多因素變異數分析為二因素變異數分析，即研究兩個因子的變異數分析，比如探討施肥量和灌溉量對於糧食產量的影響即是一個二因素變異數分析。多因素變異數分析研究的是每個因子是否對因變數有著重要的影響，而不是這些因子整體對因變數是否有著重要影響。析因變異數分析則是在多因素變異數分析的基礎上加入了因子之間的乘項，其原因是一個因子對反應變數的影響大小可能受到另一個因子的平的影響。舉個簡單的例子。假設有兩個因子－－是否酗酒與年齡段。是否酗酒有兩個水平，即「是」和「否」；年齡段也有兩個水平，即「青年」和「老年」。我們都知道酗酒對身體有負面影響，同時老年人酗酒對身體的傷害比年輕人酗酒對身體的傷害更大，也就是說，是否酗酒對身體的影響在不同的年齡段水平是不一樣的。為了體現出這種影響，可以加入是否酗酒與年齡段的乘項，進行析因變異數分析。

在現實世界中，影響一個反應變數的因素往往有很多種，多因素變異數分析即體現了這一點。但是，盡管有著很多影響因素，有時我們只想研究其中的一兩種，而不是全部。值得注意的是，在變異數分析中，如果發現一個因素對反應變數有著重要的影響，這並不能保證該因素真的對反應變數有影響。之所以得到這樣的結果的原因可能是，有另外一個與該因素相關的因素對反應變數產生了影響，我們把這種因素叫做干擾因素（Confounding Factor）。為了避免干擾因素的影響，需要加入其他變數以控制干擾因素。如果加入的是因子變數，我們採取的就是隨機區組設計（Randomized Block Design）。如果加入的是連續變數 ，那麼該變數舊式共變數，我們所進行的舊式共變異數分析（Aanlysis of Covariance，ANCOVA）。

### 17.2 變異數分析之原理

變異數分析的目的在於分析因子對反應變數有無顯著影響；亦即，在因子的不同水平下，反應變數的均值是否有顯著差異。一般來說，影響反應變數的因素有兩大類：

##### 1. 不可控的隨機因素

即使兩塊一模一樣的土地、施加完全一樣的肥料、灌溉一樣數量的水、給予完全一樣的光照，得到的糧食產量也不見得會完全一樣。有太多無法控制的隨機因素會影響產量，例如這塊土地種植的大豆的基因或許比另一塊土地上大豆的基因好。即使是同一品種、同一棵植物上獲取的大豆也不見得相同。若要研究行業對股票的收益率的影響，除了行業間收益率可能存在差異以外，還存在其他不可控的隨機因素會影響股票的收益率。

##### 2. 研究中施加對結果

若要研究施肥量對於糧食產量的影響，施肥量則是對結果會產生影響的可控因素。

這些因素都會使我們收集到的反應變數產生波動。變異數分析透過分析不同來源的波動（不可控隨機 VS 可控因素）對總波動（反應變數的總體變化）的貢獻大小，進而確定可控因素（因子）對反應變數影響力的大小。如果反應變數的波動主要由可控因素引起，可控因素對於總波動的貢獻較大，則說明可控因素對於反應變數有顯著的影響。例如，如果不同施肥量條件下的糧食的產量大小相似，不同組別之間產量無變化，僅有的變化是由種子質量等不可控的隨機因素引起，我們無法得出「施肥量是影響糧食產量的一個重要因素」的結論。如果產量的變化很大程度上是由「施肥量」這個因素引起，即使這個產量整體變化差異很小，也可以說「施肥量」是產量的一個影響因素，只不過這個因素的影響作用有限。

#### 17.2.1 離差平方和

現在以單因素變異數分析為例，說明變異數分析的假設檢定過程。假設現在因子變數共有 $M$ 個水平，每個水平下試驗或觀測對象有 $N_j$ 個（$j=1,2,...,M$）。令 $Y_{ij}$ 表示第 $j$ 個水平組別下第 $i$ 個反應變數，其中 $i=1,2,...,N_j$。令 $\mu_j$ 代表第 $j$ 個水平組別下反應變數的均值，$\mu_0$ 代表所有反應變數的均值。若因子水平對反應變數無影響，則不同因子水平下反應變數的均值是相同的，這就是變異數分析之虛無假設：

$$H_0:\mu_1=\mu_2=...=\mu_M=\mu_0$$

現在我們觀測到不同因子水平下之樣本數據 $y_{ij}$ （$j=1,2,...,M$，$i=1,2,...,N_j$）