## 最近邻
最近邻方法背后的原理是找到距离新点最近的预定义数量的训练样本，并从中预测标签。样本数可以是用户定义的常数（k近邻学习），也可以根据点的局部密度而变化（基于半径的邻居学习）。距离通常可以是任何度量标准：标准欧几里德距离是最常见的选择。基于邻居的方法被称为非通用机器学习方法，因为它们仅“记住”其所有训练数据（可能转换为快速索引结构，例如 Ball Tree或KD Tree）。

尽管它很简单，但最近的邻居在许多分类和回归问题（包括手写数字和卫星图像场景）中都取得了成功。作为非参数方法，它通常在决策边界非常不规则的分类情况下成功。

### KNeighborsClassifier
最近邻分类器

**参数**:
 - n_neighbors:int,default=5;用于计算的另邻近样本数量
 - weights:{‘uniform’, ‘distance’} ,default="uniform";预测中的权重,"uniform":均匀的权重;"distance":权重点按其距离的倒数表示
 - algorithm:{‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, default=’auto’;用于计算最最近邻的算法;"auto"自动;"kd_tree",KDTree;"ball_True",BallTree;"brute",暴力搜索
 - leaf_size:int, default=30;叶大小传递给BallTree或KDTree。这会影响构造和查询的速度，以及存储树所需的内存。最佳值取决于问题的性质。
 - p:int, default=2;Minkowski指标的功率参数。当p = 1时，这等效于对p = 2使用manhattan_distance（l1）和euclidean_distance（l2）。对于任意p，使用minkowski_distance（l_p）。
 - metric:str or callable, default=’minkowski’;树使用的距离度量。默认度量标准为minkowski，p = 2等于标准欧几里德度量标准。
 - metric_params:dict, default=None;度量功能的其他关键字参数。
 - n_jobs:int, default=None;为邻居搜索运行的并行作业数。-1表示全部,但是可能会影响可视化编程的监控程序
 
距离度量:[https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.DistanceMetric.html#sklearn.neighbors.DistanceMetric](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.DistanceMetric.html#sklearn.neighbors.DistanceMetric)

In [1]:
X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
from sklearn.neighbors import KNeighborsClassifier
neigh = KNeighborsClassifier(n_neighbors=3)
neigh.fit(X, y)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                     weights='uniform')

In [2]:
print(neigh.predict([[1.1]]))

[0]


In [3]:
print(neigh.predict_proba([[0.9]]))

[[0.66666667 0.33333333]]


### KNeighborsRegressor
基于k最近邻的回归是通过对训练集中最近邻居的相关目标进行局部插值来预测目标。

**参数**:
 - n_neighbors:int,default=5;用于计算的另邻近样本数量。
 - weights:{‘uniform’, ‘distance’} ,default="uniform";预测中的权重,"uniform":均匀的权重;"distance":权重点按其距离的倒数表示。
 - algorithm:{‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, default=’auto’;用于计算最最近邻的算法;"auto"自动;"kd_tree",KDTree;"ball_True",BallTree;"brute",暴力搜索。
 - leaf_size:int, default=30;叶大小传递给BallTree或KDTree。这会影响构造和查询的速度，以及存储树所需的内存。最佳值取决于问题的性质。
 - p:int, default=2;Minkowski指标的功率参数。当p = 1时，这等效于对p = 2使用manhattan_distance（l1）和euclidean_distance（l2）。对于任意p，使用minkowski_distance（l_p）。
 - metric:str or callable, default=’minkowski’;树使用的距离度量。默认度量标准为minkowski，p = 2等于标准欧几里德度量标准。
 - metric_params:dict, default=None;度量功能的其他关键字参数。
 - n_jobs:int, default=None;为邻居搜索运行的并行作业数。-1表示全部,但是可能会影响可视化编程的监控程序。

In [4]:
X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
from sklearn.neighbors import KNeighborsRegressor
neigh = KNeighborsRegressor(n_neighbors=2)
neigh.fit(X, y)

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
                    metric_params=None, n_jobs=None, n_neighbors=2, p=2,
                    weights='uniform')

In [5]:
print(neigh.predict([[1.5]]))

[0.5]


### NearestCentroid

最近的质心分类器。

每个类别均以其质心表示，测试样本被分类为具有最接近质心的类别

 - metric:str or callable;距离度量,"precomputed"已弃用
 - rinkle_threshold:default=None,float;缩小质心以删除特征的阈值。

In [1]:
from sklearn.neighbors import NearestCentroid
import numpy as np
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
y = np.array([1, 1, 1, 2, 2, 2])
clf = NearestCentroid()
clf.fit(X, y)

print(clf.predict([[-0.8, -1]]))

[1]


In [2]:
X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
from sklearn.neighbors import RadiusNeighborsRegressor
neigh = RadiusNeighborsRegressor(radius=1.0)
neigh.fit(X, y)

print(neigh.predict([[1.5]]))

[0.5]
