# 理论概要

最近邻是manifold learning(流形学习)和spectral clustering(谱聚类)的基础。

原理是从训练样本中找到与新点在距离上最近的预定数量的几个点，然后从这些点中预测标签。 这些点的数量可以是用户自定义的常量（K-最近邻学习）， 也可以根据不同的点的局部密度（基于半径的最近邻学习）确定。距离通常可以通过任何度量来衡量： standard Euclidean distance（标准欧式距离）是最常见的选择。

常见数据存储结构：Ball Tree 或 KD Tree）。

最近邻适用于决策边界非常不规则的分类情景下。

# sklearn.neighbors

## NearestNeighbors

无监督的学习，可以是基于k值的，也可以是基于半径的。

NearestNeighbors(algorithm='auto', leaf_size=30, metric='minkowski',
         metric_params=None, n_jobs=1, n_neighbors=5, p=2, radius=1.0)

参数

- n_neighbors：K值
- radius：半径
- algorithm：算法，{‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}，分别为{‘自动选择’, ‘球树’, ‘kd树’, ‘暴力法’}
- leaf_size : BallTree和KDTree的叶子结点数，影响树的构建与查询速度
- metric : 距离度量函数, default ‘minkowski’
    - from scikit-learn: [‘cityblock’, ‘cosine’, ‘euclidean’, ‘l1’, ‘l2’, ‘manhattan’]
    - from scipy.spatial.distance: [‘braycurtis’, ‘canberra’, ‘chebyshev’, ‘correlation’, ‘dice’, ‘hamming’, ‘jaccard’, ‘kulsinski’, ‘mahalanobis’, ‘minkowski’, ‘rogerstanimoto’, ‘russellrao’, ‘seuclidean’, ‘sokalmichener’, ‘sokalsneath’, ‘sqeuclidean’, ‘yule’]
    
方法

- kneighbors(X, ...)

In [14]:
from sklearn.neighbors import NearestNeighbors
import numpy as np

X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
nbrs = NearestNeighbors(n_neighbors=3, algorithm='ball_tree').fit(X)
distances, indices = nbrs.kneighbors(X, n_neighbors=3)

In [15]:
distances # 最近邻的距离

array([[0.        , 1.        , 2.23606798],
       [0.        , 1.        , 1.41421356],
       [0.        , 1.41421356, 2.23606798],
       [0.        , 1.        , 2.23606798],
       [0.        , 1.        , 1.41421356],
       [0.        , 1.41421356, 2.23606798]])

In [16]:
indices # 最近邻的索引

array([[0, 1, 2],
       [1, 0, 2],
       [2, 1, 0],
       [3, 4, 5],
       [4, 3, 5],
       [5, 4, 3]], dtype=int64)

## KDTree和BallTree

无监督的近邻算法。

初始化参数

- X：数据集
- leaf_size：树大小
- metric：距离度量指标

方法

- query(X, k=?)

In [23]:
from sklearn.neighbors import KDTree, BallTree
import numpy as np
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
kdt = KDTree(X, leaf_size=30, metric='euclidean')
distance, indices = kdt.query(X, k=2)

In [20]:
distance

array([[0.        , 1.        ],
       [0.        , 1.        ],
       [0.        , 1.41421356],
       [0.        , 1.        ],
       [0.        , 1.        ],
       [0.        , 1.41421356]])

In [21]:
indices

array([[0, 1],
       [1, 0],
       [2, 1],
       [3, 4],
       [4, 3],
       [5, 4]], dtype=int64)

## KNeighborsClassifier, RadiusNeighborsClassifier

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')
           
参数

- n_neighbors : K值(default = 5)
- weights : 近邻权重 (default = ‘uniform’) {‘uniform’，‘distance’，[callable]}
    ‘uniform’ : 均匀权重
    ‘distance’ : 权重与距离成反比
    [callable] : 自定义距离函数
- algorithm : {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, optional
- eaf_size : int, optional (default = 30)
- p : 明可夫斯基的p值 (default = 2)
- metric : 距离度量函数， default ‘minkowski’
- n_jobs : 并行线程数 (default=None)
           
RadiusNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
 metric_params=None, outlier_label=None, p=2, radius=1.0,
 weights='uniform')
 
参数

- radius : 半径 (default = 1.0)
- outlier_label : 异常点标签，没有近邻的样本标签是什么 (default = None)
- 其他参数：与K近邻模型相同
 

In [37]:
from sklearn.neighbors import KNeighborsClassifier

X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]

knc = KNeighborsClassifier(algorithm='kd_tree', n_neighbors=2).fit(X, y)
knc.predict([[0], [1], [9]])

array([0, 0, 1])

## KNeighborsRegressor,RadiusNeighborsRegressor

略，同分类器

## NearestCentroid

最近质心分类。先计算每个类别的质心，然后根据新样例与那个质心近来进行分类。

In [38]:
from sklearn.neighbors.nearest_centroid import NearestCentroid
import numpy as np
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
y = np.array([1, 1, 1, 2, 2, 2])
clf = NearestCentroid(metric='euclidean', shrink_threshold=None)
clf.fit(X, y)
print(clf.predict([[-0.8, -1]]))

[1]


# 最佳实践

查询时间受很多因素的影响：

1. 算法：暴力方法的查询时间复杂度为O(n)，BallTree的的查询时间复杂度为O(logn)，KDTree的的查询时间复杂度在低纬度的情况下是O(logn)，高纬度接近O(n)
2. 数据结构：暴力方法对数据结构不敏感，小维度的稀疏数据适合用树的方法
3. 查询是基于的k值：暴力方法对k值不敏感，树方法在k值增大时耗时变慢
