在实现 k 近邻算法时，最主要的问题是如何对训练数据进行快速 k 近邻搜索，这一步最简单的实现方法就是：线性扫描，此时要计算输入样本与每个训练样本的距离。而当训练集很大时，这个过程无疑是非常耗时的，于是就有了 kd 树的概念；     
- kd 树只适用于样本数远大于特征维数的情形，如果当样本数和特征维度差不多的时候，kd 树搜索效率几乎和线性扫描差不多。

kd 树是一种对 k 维空间中的样本点进行存储以便对其进行快速检索的树型数据结构。它是二叉树，表示对 k 维空间的一个划分。    

kd 树的核心部分分为两部分：
- 树的构建算法
- 树的搜索算法

# kd 树的构建算法

![dwa](./img/kdTree-build.png)

In [13]:
# 简单的代码描述
def build_tree(datas, depth=0):
    if not datas:
        return None

    fetures = len(datas[0]) # t特征数
    lenth = len(datas)      # 数据树

    # 按切分轴排序
    axis = depth % fetures
    print("*****************************") 
    print("切分轴为：", axis + 1)
    datas.sort(key = lambda x : x[axis])
    print("按切分轴排好序的数据集为：", datas)
    
    # 切分点
    median = len(datas) // 2
    print("切分点：", datas[median])

    # 递归切分
    build_tree(datas[:median], depth + 1)
    build_tree(datas[median + 1:], depth + 1)

In [18]:
if __name__ == '__main__':
    # example
    datas = [(2, 3), (5, 4), (9, 6), (4, 7), (8, 1), (7, 2)]
    # datas = [(2,3,1), (5,4,6), (9,6,7), (4,7,2), (8,1,3), (7,2,9)]
    build_tree(datas)

*****************************
切分轴为： 1
按切分轴排好序的数据集为： [(2, 3), (4, 7), (5, 4), (7, 2), (8, 1), (9, 6)]
切分点： (7, 2)
*****************************
切分轴为： 2
按切分轴排好序的数据集为： [(2, 3), (5, 4), (4, 7)]
切分点： (5, 4)
*****************************
切分轴为： 1
按切分轴排好序的数据集为： [(2, 3)]
切分点： (2, 3)
*****************************
切分轴为： 1
按切分轴排好序的数据集为： [(4, 7)]
切分点： (4, 7)
*****************************
切分轴为： 2
按切分轴排好序的数据集为： [(8, 1), (9, 6)]
切分点： (9, 6)
*****************************
切分轴为： 1
按切分轴排好序的数据集为： [(8, 1)]
切分点： (8, 1)


# kd 树搜索算法

![kdtree-search](./img/kdTree-search.png)

# kd 树的使用示例

![kdtreeexample](./img/kdTree-example.png)