## 三要素

- k 值选择
- 距离度量  （如欧氏距离）
- 分类策略  （多数表决）

## 实现

kd Tree

### 算法

输入：$T = {x_1, x_2, \cdots, x_N}$

其中 $x_i = \left(x_i^{(1)},x_i^{(2)},\cdots, x_i^{(m)}\right), i \in 1,2,\cdots,N$

输出：kd 树

（1）开始：构造根节点，选择 $x^{(1)}$ 为坐标轴，$T$ 中所有数据 $x^{(1)}$ 的中位数为切分点，
切分为两个区域，切分由节点切分点并与坐标轴 $x^{(1)}$ 垂直的超平面实现。
小于切分点的数据在左边，大于切分点的数据在右边，落在超平面上的数据保存在根节点。

（2）重复：深度为 $j$ 的结点，选择 $x^{(l)}$ 为切分的坐标轴，其中 $l=j \% m + 1$，所有节点数据 $x^{(l)}$
的中位数为切分点，如（1）中生成 $j+1$ 深度的左右节点

（3）结束：直到左右节点没有数据可分，返回 kd 树

In [89]:
import numpy as np
def build_kdtree(X, depth=0):
    
    N,m = X.shape
    j = depth % m
    
    if N == 0:
        return None
    
    Xj_sort_index = np.argsort(X[:,j])
    Xl_index = Xj_sort_index[0:int(N/2)]
    Xr_index = Xj_sort_index[int(N/2)+1:]
    Xc_index = Xj_sort_index[int(N/2)]
    
    Xl_data = X[Xl_index,:]
    Xr_data = X[Xr_index,:]
    Xc_data = X[Xc_index,:]
    
    return {
        "point": Xc_data,
        "left": build_kdtree(Xl_data,depth+1),
        "right": build_kdtree(Xr_data,depth+1)
    }

def distince(p1,p2):
    return np.sqrt(np.sum((p1-p2)**2))


def kd_tree_native_closest_point(root, point, best=None, depth=0):
    
    if root is None:
        return best
    
    if best is None or distince(point,best) > distince(point,root['point']):
        best= root['point']
    
    j = depth % len(point)
    if point[j] < root['point'][j]:
        next_root = root['left']
    else:
        next_root = root['right']
    
    return kd_tree_native_closest_point(next_root, point, best, depth+1)
    
    

In [92]:
X = np.array([[3,4],[1,7],[5,7],[2,9],[8,2],[9,10]])
kdtree = build_kdtree(X)
kd_tree_native_closest_point(kdtree, np.array([8,9]))

array([ 9, 10])