### Tips:在处理之前，首先要对k值进行无量纲化的处理

## k-近邻算法


#### 优点：简单，易于理解，易于实现，无需训练

#### 缺点：必须指定K值，K值选择不当则分类精度不能保证；懒惰算法，对测试样本分类时的计算量大，内存开销大

#### 使用场景：小数据场景，几千～几万样本，具体场景具体业务去测试

In [None]:
# sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, algorithm='auto')

# n_neighbors: 默认=5
# algorithm：{'auto','ball_tree','kd_tree', 'brute'}

In [11]:
import sklearn 
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

In [20]:
# 1、获取数据
iris = load_iris()

In [27]:
# 2、划分数据集
x_train, x_test, y_train, y_test  = train_test_split(iris.data, iris.target, random_state = 22)

In [28]:
# 3、特征工程：标准化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)

# 当对测试集进行标准化时，因为要与训练集一样的处理，所以无需fit()
x_test = transfer.transform(x_test)

## 参数选择
使用构造函数 KNeighborsClassifier(n_neighbors=5, weights=‘uniform’, algorithm=‘auto’, leaf_size=30)，这里有几个比较主要的参数：

1.n_neighbors：

即 KNN 中的 K 值，代表的是邻居的数量。K 值如果比较小，会造成过拟合。如果 K 值比较大，无法将未知物体分类出来。一般我们使用默认值 5。

2.weights：是用来确定邻居的权重，有三种方式：

weights=uniform，代表所有邻居的权重相同；
weights=distance，代表权重是距离的倒数，即与距离成反比；
自定义函数，你可以自定义不同距离所对应的权重。大部分情况下不需要自己定义函数。

3.algorithm：用来规定计算邻居的方法，它有四种方式：

algorithm=auto，根据数据的情况自动选择适合的算法，默认情况选择 auto；
algorithm=kd_tree，也叫作 KD 树，是多维空间的数据结构，方便对关键数据进行检索，不过 KD 树适用于维度少的情况，一般维数不超过 20，如果维数大于 20 之后，效率反而会下降；
algorithm=ball_tree，也叫作球树，它和 KD 树一样都是多维空间的数据结果，不同于 KD 树，球树更适用于维度大的情况；
algorithm=brute，也叫作暴力搜索，它和 KD 树不同的地方是在于采用的是线性扫描，而不是通过构造树结构进行快速检索。当训练集大的时候，效率很低。

4.leaf_size：代表构造 KD 树或球树时的叶子数，默认是 30，调整 leaf_size 会影响到树的构造和搜索速度。

In [None]:
# 4、 knn算法预估器
estimator = KNeighborsClassifier(n_neighbors=3)
estimator.fit(x_train, y_train)

In [30]:
# 5、模型预估

# 方法1:直接比对真实值和预测值
y_predict = estimator.predict(x_test)

print("y_predict:\n",y_predict)
print("直接比对真实值和预测值:\n", y_test == y_predict)

# 方法2:计算准确率
score = estimator.score(x_test, y_test)
print("准确率为:\n",score)

y_predict:
 [0 2 1 2 1 1 1 2 1 0 2 1 2 2 0 2 1 1 1 1 0 2 0 1 2 0 2 2 2 2 0 0 1 1 1 0 0
 0]
直接比对真实值和预测值:
 [ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True False  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True]
准确率为:
 0.9736842105263158
