# 卡方檢定 (Chi-Squared Test)

*   是一種統計量的分布在虛無假說成立時近似服從卡方分布（$\chi ^{2}$ 分布）的假說檢定。
*   在沒有其他的限定條件或說明時，<font color = red>卡方檢定一般代指的是皮爾森卡方檢定</font>。其他常用的卡方檢定還有葉慈連續校正、概似比檢定、一元混成檢定等等－它們的統計值之機率分配都近似於卡方分配，故稱卡方檢定。
*   在卡方檢定的一般運用中，研究人員將<font color = red>觀察量的值劃分成若干互斥的分類</font>，並且使用一套理論（或虛無假說）嘗試去說明觀察量的值落入不同分類的機率分布的模型。


## 卡方分配

<img src="https://i.imgur.com/9SmEkrV.jpg" width="40%" height="40%">

## 皮爾森卡方檢定

*   用於<font color = red>類別變數的檢定</font>。
*   「皮爾森卡方檢定」的虛無假說（$H_0$）是：一個樣本中已發生事件的次數分配會遵守某個特定的理論分配。



「皮爾森卡方檢定」可用於兩種情境的變項比較：<font color = red>適合度檢定</font>和<font color = red>獨立性檢定</font>。
*   「適合度檢定」驗證一組觀察值的次數分配是否異於理論上的分配。
*   「獨立性檢定」驗證從兩個變數抽出的配對觀察值組是否互相獨立（例如：每次都從A國和B國各抽一個人，看他們的反應是否與國籍無關）。

不管哪個檢定都包含三個步驟：
1.  計算卡方檢定的統計值「 $\chi ^{2}$ 」：把每一個觀察值和理論值的差做平方後、除以理論值、再加總。
2.  計算  $\chi ^{2}$ 統計值的自由度「$df$」。
3.  依據研究者設定的信心水準（顯著性水平、P值或對應$\alpha$值），查出自由度為 $df$ 的卡方分配臨界值，比較它與第1步驟得出的 $\chi ^{2}$ 統計值，推論能否拒絕虛無假說。

### 適合度檢定（英語：Goodness of Fit test）
<font size = 4> 目的 : 測試樣本的機率分配與母體有多相似 ( 評估互斥類別的發生次數(O)是否不同於母體次數(E) )  )。 </font>

基本假設 : 
1.  互斥的類別 : 每一位研究參與者或每一個觀察只能被分配到一個類別，必須避免同一位參與者或同一個觀察被多次計算。
2.  彼此獨立的觀察 : 一位研究參與者或一個觀察被分配到一個類別不會對其他的類別帶來影響，也就是說，分配到任一類別的標準是相同的 ( 機率不會因為其他類別改變 )。
3.  足夠的樣本數 : 一般而言，卡方檢定要求每一個類別的期望次數不得少於5。如果期望次數太小，卡方檢定可能會產生錯誤的結果。

例 : 咖啡廳檢定客人對於 n 種咖啡的喜好度是否不同 ( 由此可知 $H_0 $: 喜好度相同(換句話說每個咖啡被購買的機率為$1/n$) ) 。假設抽取90人，結果如下：

<img src="https://i.imgur.com/LLWdUh3.jpg" width="50%" height="50%">

其中，<font color = red>自由度為類別數-1</font>，因為固定了總人數，所以只需 n-1 個類別的人數。

*   <font color = red>該檢定僅能指出觀察次數的整體模式是否不同於期望次數，但無法指出某一個特定的差值顯著地小於或大於期望的數值。</font>

*   卡方檢定統計量的計算方式為 :<font size = 5> $\chi^2 = \sum\frac{ (O_i - E_i)^2}{E_i}$</font>
    *    透過自由度和事先選擇好的α水準，找到相對應的卡方臨界值。若卡方檢定統計量等於或大於卡方臨界值，則拒絕虛無假設。


#### python 以上面例子為範例，$H_0 : 顧客對三種咖啡的喜好度無不同$

In [42]:
import pandas as pd
import numpy as np

# import data
O_data = [45,15,30]
H0 = "顧客對三種咖啡的喜好度相同"

# H_0 : 顧客對三種咖啡的喜好度相同
DF = len(O_data) - 1
N = np.sum(O_data)
E_data = [int(N/len(O_data)) for i in range(len(O_data))] + [N] 
O_data += [N]

# run
OmE = np.array(O_data) - np.array(E_data)
OmE2 = OmE**2

# 整理資料
data = {"觀察次數(O)" :O_data, "期望次數(E)" : E_data, "Oi-Ei" : OmE, "(Oi-Ei)^2" : OmE2}
data_frame = pd.DataFrame(data, index=["A 品牌","B 品牌", "C 品牌", "TOTAL"])
data_frame

Unnamed: 0,觀察次數(O),期望次數(E),Oi-Ei,(Oi-Ei)^2
A 品牌,45,30,15,225
B 品牌,15,30,-15,225
C 品牌,30,30,0,0
TOTAL,90,90,0,0


In [62]:
# 計算卡方統計量
from scipy.stats import chi2
chi_value = np.sum(np.array(OmE2)/np.array(E_data)) # 檢定統計量
chi_critical = chi2.ppf(0.95, DF) # 臨界值

if chi_value < chi_critical:
    print("因為檢定統計量(%.4f) < 臨界值(%.4f),\n所以 不拒絕H0(%s)" %(chi_value, chi_critical, H0))
else:
    print("因為檢定統計量(%.4f) > 臨界值(%.4f),\n所以 拒絕H0(%s)" %(chi_value, chi_critical, H0))

因為檢定統計量(15.0000) > 臨界值(5.9915),
所以 拒絕H0(顧客對三種咖啡的喜好度相同)


## 參考網址

*   [Wiki](https://zh.wikipedia.org/zh-tw/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C)
*   [皮爾森卡方檢定 Wiki](https://zh.wikipedia.org/zh-tw/%E7%9A%AE%E7%88%BE%E6%A3%AE%E5%8D%A1%E6%96%B9%E6%AA%A2%E5%AE%9A)
*   [卡方適合度檢定的假設檢定 - Dr. Fish 漫游社會統計](https://drfishstats.com/inferential-stats/statistical-tests/nonparametric-tests/chi-square-goodness-of-fit-test/)