<a href="https://colab.research.google.com/github/2022yingjie/Machine_Learning-xitutu/blob/main/K_Nearest_Neighbor.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1.基本概念
> 1.1 K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是上面所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

> 1.2 问题背景：最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来，当测试对象的属性和某个训练对象的属性完全匹配时，便可以对其进行分类。但是如果一个测试对象同时与多个训练对象匹配，导致一个训练对象被分到了多个类的问题，基于上述问题就产生了KNN。

# 2.常见的距离度量
> 2.1 欧式距离(Euclidean distance)
>> 两点之间的坐标距离，定义在欧氏空间当中，公式如下：$$d(X,Y)=\sqrt{(x_{1}-y_{1})^{2}+(x_{2}-y_{2})^{2}+...+(x_{n}-y_{n})^{2}}$$

> 2.2 曼哈顿距离
>> 定义曼哈顿距离是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和,公式如下：$$d(X,Y)=\sum_{n=1}^{N}|x_{n}-y_{n}|$$

> 2.3 余弦夹角
>> 几何中夹角余弦可用来衡量两个向量方向的差异，机器学习中借用这一概念来衡量样本向量之间的差异，公式如下：$$cosθ=\frac{X*Y}{|X||Y|}$$
>> 夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小，夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1，当两个向量的方向完全相反夹角余弦取最小值-1。

# 3.算法描述
* 计算测试数据和各个训练数据之间的距离；
* 对所有距离值进行排序，可以选择升序或降序；
* 选择前K个距离最小的点；
* 计算前K个点中所在类别出现的频率；
* 返回最高频率的类别作为当前测试数据的预测分类。

# 4.K值的选择
* 选用较小的K值：相当于用较小的领域中的训练实例进行预测，只有与测试数据相近的实例才会对分类结果起作用，也就是K值小容易过拟合。
* 选用较大的K值：与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，导致欠拟合。
* 选用K=N：则完全不足取，因为此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的累，模型过于简单，忽略了训练实例中大量有用信息。

# 5.K近邻的实现：KD树
>5.1 在实现K近邻的时候，最主要问题是考虑如何实现快速K近邻搜索。在特征空间维度较大或者训练数据多的时候有其必要。因为普通的K近邻实现是线性扫描，计算输入与每一个训练实例之间的距离，当训练集很大时耗时。

>5.2 KD树是一种二叉树。表示对K维空间的一种划分，构造KD树就是不断用垂直于坐标轴的超平面将K维空间切分的过程，左右子树分别为划分出的K维超矩形区域。

>5.3 算法流程（平衡KD树，即依次选择坐标轴对空间进行切分）
* K维度空间数据集$T=\{x_{1},x_{2},...,x_{N}\}$，其中$x_{i}=(x_{i}^{1},x_{i}^{2},...,x_{i}^{k})^{T},i=1,2,...,N$
* 选择$x^{1}$维度上的中位数点作为当前根结点(如果是偶数则选择两边)，在该维度$x_{i}^{1}<x_{m}^{1}$分左子区域，$x_{i}^{1}>x_{m}^{1}$分右子区域；
* 重复切分，第j次切分(深度)选择第j个维度，如果$j>K$,则选择第$j(mod K)+1$维度；
* 直到左右子区域无可划分，KD树构建完成。

# 6.搜索KD树
* 这个方法用于在KD树中找到最接近给定点的点。
* 它首先检查根节点是否为空，如果是，则返回当前最佳点。
* 选择一个轴基于当前深度，然后确定搜索路径：如果给定点在轴上的值小于根节点的值，* 则先搜索左子树，否则搜索右子树。
* 如果在相应的分支中找到更接近的点，则更新最佳点。
* 如果另一分支有可能包含更近的点（通过比较轴上的距离），则在那个分支上也进行搜索。

# 7.KD树的示例代码
>7.1 Node 类:
这是一个简单的节点类，用于表示KD树中的每个节点。
它有三个属性：point（节点存储的点），left（指向左子树的指针），和right（指向右子树的指针）。

>7.2 KDTree 类:
这个类用于构建和操作KD树。
它有一个初始化方法（__init__），接受一个点的列表作为输入，并使用build_tree方法来构建树。


>7.3 构建树
build_tree 方法:
这个方法递归地构建KD树。
它首先检查点的列表是否为空，如果为空，则返回None。
根据当前的深度（depth），选择一个轴（axis）来分割点。这里使用了模运算符（%）来在各个维度之间循环。
点列表根据选定的轴排序，然后选择中位数作为根节点。
最后，递归地为左侧和右侧的点集创建子树。


> 7.4 搜索最近邻点
closest_point 方法:
这个方法用于在KD树中找到最接近给定点的点。
它首先检查根节点是否为空，如果是，则返回当前最佳点。
选择一个轴基于当前深度，然后确定搜索路径：如果给定点在轴上的值小于根节点的值，则先搜索左子树，否则搜索右子树。
如果在相应的分支中找到更接近的点，则更新最佳点。
如果另一分支有可能包含更近的点（通过比较轴上的距离），则在那个分支上也进行搜索。

> 7.5 closest_point_helper 方法:
这是一个辅助递归方法，用于在closest_point方法中进行实际的搜索。
它的逻辑与closest_point类似，但是操作在非根节点上。

> 7.6 静态方法 distance:
这是一个静态方法，用于计算两点之间的欧几里得距离。



In [None]:
# 算法流程
# 1. 计算向量之间的距离
# 2. 用sorted函数排序，取前K个

# Example, point cloud，求每个点的K近邻
import numpy as np
import torch
N=500
point_cloud = torch.randn((N,3))
print(point_cloud)

tensor([[ 0.2035, -1.6443, -0.7201],
        [-1.5781, -0.0844, -0.7286],
        [ 0.0064,  1.0430, -2.6314],
        ...,
        [-0.3669, -1.1512, -0.2094],
        [-1.2366, -0.3461, -0.9010],
        [ 2.9251, -0.8772, -0.4081]])


In [None]:
def CalDis(p,pc,K=16):
  dis_mat = torch.sum((p - pc)**2,dim=1)
  print("dis_mat:",dis_mat.shape)
  dis_mat_index = dis_mat.topk(k=K,largest=False,dim=0)
  print("dis_mat_index:",dis_mat_index)# topk返回两个值，一个是前K个最小值，一个是这K个最小值对应的索引
  assert 1==2
def FindKNN(array, K=16):
  # pc.shape (N,3)
  Neighbor_index = []
  for p in pc:
    dis_p_index = CalDis(p,pc,K)
    Neighbor_index.append(dis_p_index)
  print(np.array(Neighbor_index).shape)


pc = point_cloud
FindKNN(pc,K=16)

dis_mat: torch.Size([500])
dis_mat_index: torch.return_types.topk(
values=tensor([0.0000, 0.0929, 0.2486, 0.2533, 0.3339, 0.4139, 0.4203, 0.4430, 0.4543,
        0.5558, 0.5655, 0.5751, 0.6286, 0.6885, 0.7098, 0.7582]),
indices=tensor([  0, 149, 271, 265,  28, 164, 123, 136, 474,  95, 244,  89, 248, 134,
        105, 199]))


AssertionError: ignored

In [1]:
class Node:
    def __init__(self, point, left=None, right=None):
        self.point = point
        self.left = left
        self.right = right

class KDTree:
    def __init__(self, points):
        self.root = self.build_tree(points, depth=0)

    def build_tree(self, points, depth):
        if not points:
            return None

        # Select axis based on depth so that axis cycles over all valid values
        k = len(points[0]) # Assumes all points have the same dimension
        axis = depth % k

        # Sort point list and choose median as pivot element
        points.sort(key=lambda x: x[axis])
        median = len(points) // 2

        # Create node and construct subtrees
        return Node(
            point=points[median],
            left=self.build_tree(points[:median], depth + 1),
            right=self.build_tree(points[median+1:], depth + 1)
        )

    def closest_point(self, point, depth=0, best=None):
        if self.root is None:
            return best

        if best is None or self.distance(point, best.point) > self.distance(point, self.root.point):
            best = self.root

        # Select axis based on depth
        k = len(point)
        axis = depth % k

        next_branch = None
        opposite_branch = None

        if point[axis] < self.root.point[axis]:
            next_branch = self.root.left
            opposite_branch = self.root.right
        else:
            next_branch = self.root.right
            opposite_branch = self.root.left

        if next_branch is not None:
            best = self.closest_point_helper(point, next_branch, depth+1, best)

        if opposite_branch is not None:
            if self.distance(point, best.point) > abs(point[axis] - self.root.point[axis]):
                best = self.closest_point_helper(point, opposite_branch, depth+1, best)

        return best

    def closest_point_helper(self, point, node, depth, best):
        if node is None:
            return best

        if self.distance(point, node.point) < self.distance(point, best.point):
            best = node

        # Select axis based on depth
        k = len(point)
        axis = depth % k

        next_branch = None
        opposite_branch = None

        if point[axis] < node.point[axis]:
            next_branch = node.left
            opposite_branch = node.right
        else:
            next_branch = node.right
            opposite_branch = node.left

        if next_branch is not None:
            best = self.closest_point_helper(point, next_branch, depth+1, best)

        if opposite_branch is not None:
            if self.distance(point, best.point) > abs(point[axis] - node.point[axis]):
                best = self.closest_point_helper(point, opposite_branch, depth+1, best)

        return best

    @staticmethod
    def distance(point1, point2):
        return sum((x - y) ** 2 for x, y in zip(point1, point2)) ** 0.5

# Example usage
points = [[2, 3], [5, 4], [9, 6], [4, 7], [8, 1], [7, 2]]
kdtree = KDTree(points)
point = [3, 4.5]
closest = kdtree.closest_point(point)
print("Closest point to", point, "is", closest.point)


Closest point to [3, 4.5] is [2, 3]
