In [2]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler

In [3]:
x, y = load_iris(return_X_y = True)
# 数据标准化
scaler = StandardScaler()
x_std = scaler.fit_transform(x)

In [33]:
from sklearn.model_selection import GridSearchCV, train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2)
print(x_train.shape)
print(y_train.shape)
print(x_test.shape)
print(y_test.shape)

(120, 4)
(120,)
(30, 4)
(30,)


# SKL KNN

In [34]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(x_train, y_train) 
score = knn.score(x_test, y_test)
score 

0.9666666666666667

In [35]:
y_pre = knn.predict(x_test)
print(y_test)
print(y_pre)


[2 0 1 0 1 0 1 1 2 1 2 2 1 2 0 1 2 1 0 1 0 0 2 2 0 1 0 0 2 2]
[2 0 1 0 1 0 1 1 2 1 2 2 1 2 0 1 2 1 0 2 0 0 2 2 0 1 0 0 2 2]


# 优劣势

## 优势 
- 对噪声数据不敏感
- 支持增量式训练
- 可解释性强

## 劣势 
- k值选取对结果影响大
- 计算量大、内存消耗大 

# 参数说明
- sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights=’uniform’, 
    algorithm=’auto’, leaf_size=30, p=2, metric=’minkowski’, metric_params=None, 
    n_jobs=None, **kwargs) 
    
- n_neighbors：KNN中的k值，默认为5（对于k值的选择，前面已经给出解释）
- weights：用于标识每个样本的近邻样本的权重，可选择"uniform",“distance” 或自定义权重。默认"uniform"，所有最近邻样本权重都一样。如果是"distance"，则权重和距离成反比例；如果样本的分布是比较成簇的，即各类样本都在相对分开的簇中时，我们用默认的"uniform"就可以了，如果样本的分布比较乱，规律不好寻找，选择"distance"是一个比较好的选择； 
-  algorithm：限定半径最近邻法使用的算法，可选‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’。
    - ‘brute’对应第一种线性扫描；
    - ‘kd_tree’对应第二种kd树实现；
    - ‘ball_tree’对应第三种的球树实现；
    - ‘auto’则会在上面三种算法中做权衡，选择一个拟合最好的最优算法。  
-  leaf_size：这个值控制了使用kd树或者球树时， 停止建子树的叶子节点数量的阈值。这个值越小，则生成的kc树或者球树就越大，层数越深，建树时间越长，反之，则生成的kd树或者球树会小，层数较浅，建树时间较短。默认是30。

    这个值一般依赖于样本的数量，随着样本数量的增加，这个值必须要增加，否则不光建树预测的时间长，还容易过拟合。可以通过交叉验证来选择一个适中的值。当然，如果使用的算法是蛮力实现，则这个参数可以忽略；
- metric，p：距离度量（前面介绍过），默认闵可夫斯基距离 “minkowski”（p=1为曼哈顿距离， p=2为欧式距离）；
- metric_params：距离度量其他附属参数（具体我也不知道，一般用得少）；
- n_jobs：并行处理任务数，主要用于多核CPU时的并行处理，加快建立KNN树和预测搜索的速度。n_jobs= -1，即所有的CPU核都参与计算。

## 距离度量
- 闵可夫斯基距离（minkowski）
- 欧氏距离（euclidean，p=2）
- 曼哈顿距离（manhattan，p=1）
- 切比雪夫距离（chebyshev，p= ∞） 