# 機器學習_ML_feature_selection.chi2(卡方檢驗)
###### tags: `ML` `feature_selection` `chi2` `卡方檢驗`
## 說明
簡單計算範例，如有錯誤敬請指正  

卡方反應了觀察值(O)與期望值(E)的吻合程度，並以O、E計算出$X2$，屬類別資料統計，每個類別儲存格的資料不小於5。  

假如一個城市內感冒流行，我們想知道A、B這兩種藥物對感冒的症頭是否在舒解上有沒有效用上的差異。我們有下面70名用藥人的統計。  
$H_0$，有效無效跟藥無關  
$H_1$，有效無效跟藥有關  

|| 有效 | 無效 | 合計| 有效率 |
|--------| -------- | -------- | -------- | -------- |
|A| 10     | 15     | 25     |0.4|
|B| 15     | 30     | 45     |0.33|
|合計| 25     | 45     | 70     |0.36|


|| 有效(O) |有效期望(E)| 無效 (O)|無效期望(E)| 合計| 有效率 |
|--------| --------| --------| -------- | -------- | -------- | -------- |
|A| 10  |  8.9 | 15    | 16.1| 25     |0.4|
|B| 15    | 16.1| 30    |28.9 | 45     |0.33|
|合計| 25   |  | 45   |  | 70     |0.36|

期望值=$\frac{Column*Row}{n}$  
$AE$有效$=25*25/70=8.9$  
$AB$有效$=45*25/70=16.1$  
$AE$無效$=25*45/70=16.1$  
$AB$無效$=45*45/70=28.9$  

|| 有效(O) |有效期望(E)|有效卡方($X^2$)| 無效 (O)|無效期望(E)|無效卡方($X^2$)| 合計| 有效率 |
|--------| --------|--------| --------| -------- | -------- | -------- | -------- |-------- |
|A| 10  |  8.9 |0.136| 15    | 16.1|0.075| 25     |0.4|
|B| 15    | 16.1|0.075| 30    |28.9 |0.042| 45     |0.33|
|合計| 25   | | | 45   |  | |70     |0.36|
有了O、E就可以計算卡方($\frac{(O-E)^2}{E}$)  
$AX^2$有效$=\frac{(10-8.9)^2}{8.9}=0.136$  
$AB^2$有效$=\frac{(15-16.1)^2}{16.1}=0.075$  
$AX^2$無效$=\frac{(15-16.1)^2}{16.1}=0.075$  
$AB^2$無效$=\frac{(30-28.9)^2}{28.9}=0.042$  
$0.136+0.075+0.075+0.042=0.328$  
自由度為$df=1$((欄數-1)\*(列數-1))，$\alpha$一般為$0.05$，利用excel或google driver指令『=CHIINV(0.05,1)』得到臨界值為$3.84$  
$0.328<3.84$，接受$h_0$，或者利用卡方表查詢得知$X^2=0.328$，P會大於0.05，接受$h_0$，也就是代表這兩個藥在感冒的舒解上是沒有差異的。  
也因此，當期望值(E)愈接近觀測值(O)的時候所得卡方值是愈小的，那就會接受$H_0$的假設，即是無相關性。  
換言之，我們在選擇特徵的時候就會希望取卡方值愈大愈好，愈大代表相關性愈高!  
>![](https://i.imgur.com/GrHafK5.png)  
>> 資料取自：https://www.medcalc.org/manual/chi-square-table.php

## 範例

In [1]:
#  利用scipy計算卡方
from scipy import stats
import numpy as np

In [2]:
#  設置資料
data = np.array([[10, 15],
                 [15, 30]])

In [10]:
chi2, p, dof, expected = stats.chi2_contingency(data, False)

In [11]:
#  期望值矩陣
expected

array([[  8.92857143,  16.07142857],
       [ 16.07142857,  28.92857143]])

In [12]:
#  自由度
dof

1

In [13]:
#  p-value
p

0.57699916224874026

In [14]:
#  chi卡方
chi2

0.31111111111111156

In [15]:
#  差異來自於小數點取位，所以跟上面的計算數值不同
np.sum((np.square(data-expected))/expected)

0.31111111111111156

## 其它
[參考說明](http://www.cnblogs.com/dacc123/p/8746247.html)