# KS test (Kolmogorov-Smirnov test)

## <font color = red>目的 : 比較兩組資料是否來自相同分布</font>, 當然也可檢定某個資料是否屬於某個分布.

簡述 : 比較兩者CDF間的差異, 最大的差異越大代表越不相似 (KS statistic = sup|F_A(x) - F_B(x)|). <font color = orange>樣本的數量不需一致</font>

檢定用 H0 : 兩組來自相同分布

[圖片來源 : wiki](https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test)

<img src="https://imgur.com/qRL7qg1.jpg" alt="圖片描述" width="30%" height="30%">

### 使用樣本執行 KS-test

因為 KS-test 必須使用 CDF, 所以必須先將資料轉換成 CDF 的形式

以下為 KS-test 使用樣本數據的執行步驟

1. 計算 樣本A 和 樣本B 的累積機率密度函數(CDF)
   
   對樣本進行排序, 依照離散或連續, 計算各個小於 X 值( P(X<=x) )的個數, 再除以樣本數, 就會得到 CDF 估計.

2. 比較兩組數據的CDF

   KS-test 會比較兩組數據的CDF, 找出差異最大的值, 此值就是 KS統計量.

3. 計算p值

#### python 例子

In [14]:
import numpy as np
from scipy.stats import ks_2samp

# 給定數據
sample_A = np.array([1, 2, 3, 4, 5])
sample_B = np.array([2, 4, 6, 8, 10, 12, 14])
#sample_B = np.array([2, 4, 6, 8, 10])

# 進行 ks_test
ks_statistic, ks_p_value = ks_2samp(sample_A, sample_B)

# 輸出
print("KS統計量:", ks_statistic)
print("p值:", ks_p_value)

KS統計量: 0.7142857142857143
p值: 0.06565656565656565


#### 自己編寫

In [22]:
from scipy.stats import kstwobign # 計算 ks 統計量的 p value

def ks_stat(A, B):
    A = np.array(A)
    B = np.array(B)
    jump_point_set = set(list(A) + list(B))
    max_cdf_diff = 0
    for jp in jump_point_set:
        CDF_A = np.sum(A <= jp)/len(A)
        CDF_B = np.sum(B <= jp)/len(B)
        if max_cdf_diff < abs(CDF_A - CDF_B):
            max_cdf_diff = abs(CDF_A - CDF_B)
    return max_cdf_diff


sample_A = np.array([1, 2, 3, 4, 5])
sample_B = np.array([2, 4, 6, 8, 10, 12, 14])

ks_stat_value = ks_stat(sample_A, sample_B)
print(ks_stat_value)


0.7142857142857143
