# k-近邻算法（kNN，k nearest neighbor）
- 如果一个样本在特征空间中的k个最相似（在特征空间中距离最近）的样本中大多数属于某一个类别，则该样本也属于这个类别
- 优点：简单，易于理解，易于实现，无需训练
- 缺点：
    - 必须指定K值，K值选择不当则分类精度不能保证
    - 懒惰算法，对测试样本分类时的计算量大，内存开销大
- 使用场景：小数据场景，几千～几万样本，具体场景具体业务去测试

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

In [2]:
# 1）获取数据
iris = load_iris()

# 2）划分数据集
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=0)

# 3）特征工程：标准化
transfer = StandardScaler()
# fit先计算数据的统计特征，如均值、标准差，在使用transform对数据进行改变
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

# 4）KNN算法预估器
estimator = KNeighborsClassifier(n_neighbors=3)
estimator.fit(x_train, y_train)

# 5）模型评估
# 方法1：直接比对真实值和预测值
y_predict = estimator.predict(x_test)
print("y_predict:\n", y_predict)
print("直接比对真实值和预测值:\n", y_test == y_predict)

# 方法2：计算准确率
score = estimator.score(x_test, y_test)
print("准确率为：\n", score)

y_predict:
 [2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]
直接比对真实值和预测值:
 [ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True False]
准确率为：
 0.9736842105263158
