# 分类模型之K近邻（KNN）
1、**基本原理**

- 通过计算待分类数据点与已知数据集中的所有数据点间的距离，选取距离最小的前K个点，根据“少数服从多数”的原则，将这个数据点划分到出现次数最多的那个类别。

2、**sklearn库与K近邻**

- 在sklearn库中，使用sklearn.neighbors.KNeighborsClassifier创建一个K近邻分类器，主要参数有：
 - **n_neighbors**：用于指定分类器中K的大小，默认值为5；
 - **weights**：设置选中的K个点对分类结果影响的权重，默认值为平均权重“uniform”，可以选择“distance”代表越近的点权重越高，也可以传入自己编写的以距离为参数的权重计算函数。
 - **algorithm**：设置用于计算临近点的方法，因为当数据量很大的情况下计算当前点和所有点的距离再选出最近的K个点，计算量较大且费时，所以选项中有ball_tree、kd_tree和brute，分别表示不同的寻找近邻的优化算法，默认值为auto，根据训练数据自动选择
 
3、**实践经验**

- 实际使用中，使用所有训练数据构成特征X和标签Y，使用fit()函数进行训练。在正式分类时，通过一次性构造测试集或者一个一个输入样本的方式，得到样本对应的分类结果。

- **关于K的取值**：
 - 若较大，则相当于使用较大邻域中的训练实例进行预测，可以减小估计误差，但是由于选取的邻域较大包含部分距离较远的样本，从而影响了预测结果导致预测错误；
 - 若较小，则相当于使用较小的邻域进行预测，若计算的相邻点恰好为噪声点，就会导致过拟合；
 - 一般情况下，**K值的选取倾向于较小值**，并使用**交叉验证法选取最优K值**

# 实例演示

### 1、创建一组数据X及对应的标签y

In [1]:
x = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]

### 2、使用import导入K近邻分类器

In [3]:
from sklearn.neighbors import KNeighborsClassifier

### 3、调用K近邻算法，并设定相关参数构建分类器

In [9]:
neigh = KNeighborsClassifier(n_neighbors = 3)

neigh_class = neigh.fit(x, y)
print(neigh_class)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=3, p=2,
           weights='uniform')
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=3, p=2,
           weights='uniform')


### 4、利用训练好的模型对未知数据进行分类

In [29]:
import numpy as np

a = np.arange(10).reshape((10, -1))

for i in a:
    print(i)
#     print('{} belong to Label {}。'.format(i, neigh_class.predict(i)))


[0]
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
