### KNN算法
### k-nearest neighbors

核心思想：  
物以类聚，人以群分  
通过"邻居"推断数据的类别
如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。  

如何确定邻居，计算距离：  
- 欧氏距离
    两样本直接距离可以通过欧式距离计算，比如,a(a1,a2,a3),b(b1,b2,b3)
    $$\sqrt{(a1-b1)^2+(a2-b2)^2+(a3-b3)^2}$$
- 曼哈顿距离 绝对值距离
- 闵可夫斯基距离 

K 值：  
k 值是指离样本最近的 k 个值  
K 值过大，容易分类模糊  
K 值过小，容易受到异常点影响

k 值得选择：
- 经验
- 均方根误差

注意点：
因为 KNN 算法需要计算距离，使用 KNN 前需要对数据进行无量纲化处理。

#### API
sklearn.neighbors.KNeighborsClassifier 主要参数
- n_neighbors 邻居数，即 K 值
- algorithm 计算最近邻居的算法
#### 优缺点
1. 优点：简单，容易实现，无需训练
2. 缺点：
    - 必须指定 k 值， k 值选择不当会影响分类精度
    - 懒惰算法，计算量大，内存开销大
3. 使用场景：小数据场景，几千-几万样本。

In [40]:
# KNN iris 
# 用 KNN 算法对 iris 数据集分类
# attribute information
# - sepal length 花萼长度
# - sepal width 花萼宽度
# - petal length 花瓣长度
# - petal width 花瓣宽度
# class:
#     - iris-setosa 山鸢尾 
#     - iris-versicolour 杂色鸢尾
#     - iris-virginica 维吉尼亚鸢尾


import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
# 1. load iris data
iris = load_iris()

# 2. spilt dataset
X_train,X_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=30)

In [41]:
# 3. StandardScaler
tf = StandardScaler()
x_train = tf.fit_transform(X_train)
x_test = tf.transform(X_test)

In [42]:
# 4. KNN
estimator = KNeighborsClassifier(n_neighbors=15)
estimator.fit(X_train,y_train)


KNeighborsClassifier(n_neighbors=15)

In [47]:
# model evaluate
# 1. 直接比对真实值和预测值  
y_predict = estimator.predict(X_test)  
print(f"y_predict={y_predict}")
print(f"y_test == y_predict:\n{y_test == y_predict}")

y_predict_proba = estimator.predict_proba(X_test)
print(f"y_predict_proba=\n{y_predict_proba}")

# 2. 计算准确率  
score = estimator.score(X_test,y_test)
print(f"score:{score}")

y_predict=[0 0 0 2 1 1 2 2 1 2 0 2 1 1 0 1 0 0 0 1 2 0 0 0 2 2 1 2 0 1 2 1 2 2 2 2 1
 2]
y_test == y_predict:
[ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True]
y_predict_proba=
[[1.         0.         0.        ]
 [1.         0.         0.        ]
 [1.         0.         0.        ]
 [0.         0.2        0.8       ]
 [0.         1.         0.        ]
 [0.         1.         0.        ]
 [0.         0.46666667 0.53333333]
 [0.         0.06666667 0.93333333]
 [0.         1.         0.        ]
 [0.         0.         1.        ]
 [1.         0.         0.        ]
 [0.         0.13333333 0.86666667]
 [0.         1.         0.        ]
 [0.         1.         0.        ]
 [1.         0.         0.        ]
 [0.         1.         0.        ]
 [1.         0.         0.        ]
 [1.         0.         0.  

In [54]:
result = estimator.predict_proba(np.array([[5.8, 2.7, 5.1, 1.9]]))
result

array([[0. , 0.2, 0.8]])

In [52]:
X_test

array([[5.4, 3.4, 1.7, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.1, 1.5, 0.2],
       [5.8, 2.7, 5.1, 1.9],
       [5.8, 2.7, 3.9, 1.2],
       [5.5, 2.4, 3.8, 1.1],
       [6.3, 2.7, 4.9, 1.8],
       [6.7, 3. , 5.2, 2.3],
       [6.4, 2.9, 4.3, 1.3],
       [7.3, 2.9, 6.3, 1.8],
       [4.4, 3. , 1.3, 0.2],
       [6.3, 2.9, 5.6, 1.8],
       [5. , 2.3, 3.3, 1. ],
       [5.7, 2.8, 4.1, 1.3],
       [4.4, 2.9, 1.4, 0.2],
       [6.2, 2.9, 4.3, 1.3],
       [5.2, 4.1, 1.5, 0.1],
       [4.9, 3. , 1.4, 0.2],
       [4.8, 3.4, 1.9, 0.2],
       [6.3, 2.5, 4.9, 1.5],
       [6.3, 2.8, 5.1, 1.5],
       [4.4, 3.2, 1.3, 0.2],
       [5.1, 3.5, 1.4, 0.2],
       [5. , 3.2, 1.2, 0.2],
       [7.6, 3. , 6.6, 2.1],
       [6.4, 2.8, 5.6, 2.2],
       [5.9, 3.2, 4.8, 1.8],
       [6.3, 3.4, 5.6, 2.4],
       [4.7, 3.2, 1.3, 0.2],
       [6.3, 2.3, 4.4, 1.3],
       [6.9, 3.1, 5.4, 2.1],
       [5.5, 2.4, 3.7, 1. ],
       [6.8, 3. , 5.5, 2.1],
       [6.1, 3. , 4.9, 1.8],
       [7.7, 2