### 总结
- k-近邻思想：物以类聚
- k-近邻没有显示的训练过程
- 距离度量：欧式距离，曼哈顿距离，切比雪夫距离

![k-近邻知识树 alt] (.\knn_knowledge_tree.svg)

### 距离度量

首先令 $ x_i=(x_i^{(1)}, x_i^{(2)}, \cdots, x_i^{(n)}), x_j=(x_j^{(1)}, x_j^{(2)}, \cdots, x_j^{(n)})   $

#### 欧式距离（也称二范数）
$$ L_2(x_i, x_j) = \left(\sum_{l=1}^n \mid x_i^{(l)} - x_j^{(l)} \mid^2 \right)^{\cfrac {1}{2}} $$

#### 曼哈顿距离（也称一范数 或城市街区距离）
$$ L_1(x_i, x_j) = \sum_{l=1}^n \mid x_i^{(l)} - x_j^{(l)} \mid $$

#### p范数
$$ L_p(x_i, x_j) = \left(\sum_{l=1}^n \mid x_i^{(l)} - x_j^{(l)} \mid^p \right)^{\cfrac {1}{p}} $$

当 $ p = \infty $时，它是各个坐标距离的最大值，即：
$$ L_{\infty}(x_i, x_j) = \underset{l}{max} \mid x_i^{(l)} - x_j^{(l)} \mid $$

### K 值的选择

#### 选择较小的k值
用较小的邻域进行预测。预测结果对邻近的实例点非常敏感。如果近邻的实例点恰好是噪声，预测就会出错。

#### 选择较大的k值
用较大的邻域进行预测。对于输入实例较远的（已经不太相似）的样本点也会对预测起作用，使预测发生错误。

#### 在应用中
先取一个较小的k值，再通过交叉验证法选取最有效的k值。training set，validate set, test set.



### 多数表决规则 Majority voting rule

**多数表决**

损失函数 
$$ \cfrac{1}{k}\sum_{x_i \in N_k(x)} I(y_i \neq c_j)  = 1 - \cfrac{1}{k}\sum_{x_i \in N_k(x)} I(y_i = c_j)$$

要使误分类最小**即经验风险最小**，就要使$ \sum_{x_i \in N_k(x)} I(y_i = c_j)$最大，所以**多数表决规则等价于经验风险最小化**。



### k-近邻算法

输入：训练数据集 $ T = \left[(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)\right] $
$ x_i \in X \subseteq R^n, y_i \in Y = \{c_1, c_2, \cdots, c_K\}, 实例特征向量 \mathit x 。$

1. 根据给定的距离度量，在训练集中找到与$\mathit x 最近的\mathit k个点，涵盖这\mathit k个点的邻域记作N_k(x) $
2. 在$N_k(x)中根据分类决策规则（如多数表决），决定\mathit x的类别\mathit y $

输出:实例$\mathit x所属的类别\mathit y $

### kd树

1. $ \mathit kd$树采用了特殊的结构存储训练数据。
2. $ \mathit kd$树可以减少计算距离的次数。
3. **当空间维数接近于训练实例树时，它的效率会迅速下降。**

**算法3.2（构造平衡$ \mathit kd$树）**
输入：$ \mathit k维空间数据集T=\{x_1, x_2, \cdots, x_N\}, 其中 x_i = (x_i^{(1)},x_i^{(2)}, \cdots, x_i^{(k)})^T, i=1,2,\cdots, N $ 
输出：$ \mathit kd$树

(1)开始：构造根节点，根节点对应于包含T的$\mathit k$维空间的超矩形区域。
选择$ x^{(1)}$为坐标轴，以T中所有实例的$ x^{(1)}$坐标的**中位数（2个中位数中较大的一个**为切分点，将节点对应的超矩形区域切分为两个子区域。切分由通过切分点并以坐标轴$ x^{(1)}$垂直的超平面实现。
由根节点生成深度为 1 的左、右子节点；左子节点对应坐标$ x^{(1)}$小于切分点的子区域，右子节点对应于坐标$ x^{(1)}$大于切分点的子区域。

将落在切分超平面上的实例点保存在根节点。

（2)重复：对深度为$ \mathit j$ 的结点，选择$ x^{(l)}$为切分的坐标轴，$ \mathit l = j(mod k) + 1$,以该节点的区域中所有实例的$ x^{(l)}$坐标的**中位数（2个中位数中较大的一个**为切分点，将该节点对应的超矩形区域切分为两个子区域。切分由通过切分点并以坐标轴$ x^{(l)}$垂直的超平面实现。

由该节点生成深度为$\mathit j+1$的左、右子节点：左子节点对应坐标$ x^{(l)}$小于切分点的子区域，右子节点对应于坐标$ x^{(l)}$大于切分点的子区域。
将落在切分超平面上的实例点保存在该结点。

（3）直到两个子区域没有实例存在时停止。从而形成$\mathit kd$树的区域划分。

**注意：平衡的$\mathit kd$树搜索时的效率未必时最优的**。


**算法3.3 （用$\mathit kd$树的最近邻搜索）**

输入：已构造的$\mathit kd$树，目标点$\mathid x$;
输出：$\mathid x$的最近邻。

（1）在$\mathit kd$树中找出包含目标点$\mathit x$的叶节点：从根节点出发，递归地向下访问$\mathit kd$树。若目标点$\mathit x$当前维的坐标小于切分点的坐标，则移动到左子节点，否则移动到右子节点。直到子节点为叶节点为止。

(2) 以此叶结点为“当前最近点”。

(3) 递归地向上回退，在每个结点进行以下操作：

   (a) 如果该结点保存的实例点比当前最近点距离目标点更近，则以该实例点为“当前最近点”。
    
   (b) 当前最近点一定存在于该结点一个子结点对应的区域。检查该子结点的父结点的另一子结点对应的区域是否有更近的点。具体地，检查另一子结点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超球体相交。
    
   如果相交，可能在另一个子结点对应的区域内存在距目标点更近的点，一定到另一个子结点。接着，递归地进行最近邻搜索；
   如果不相交，向上回退。
 
(4) 当回退到根节点时，搜索结束。最后的“当前最近点”即为$\mathit x$的最近邻点。

如果实例点是随机分布的，$\mathit kd$树搜索的平均计算复杂度是$\mathit O(\log N)$，这里$\mathit N$是训练实例数。$\mathit kd$树更适合用于训练实例树远大于空间维数$\mathit k$时的$\mathit k$近邻搜索。当空间位数接近训练实例数时，它的效率会迅速下降，几乎接近线性扫描。

In [2]:
import pandas as pd 
import akshare as ak 

print(ak.__version__)
print(pd.__version__)

0.5.46
1.2.0


In [3]:
df = ak.fund_em_fund_name().head(20).tail(5)
df = df[['基金代码','基金简称']]
print(df)

ConnectionError: HTTPConnectionPool(host='fund.eastmoney.com', port=80): Max retries exceeded with url: /js/fundcode_search.js (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x0000029C6246FA48>: Failed to establish a new connection: [WinError 10060] A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond'))