# k近邻学习
给定测试样本，基于某种距离度量找出训练集中与其最靠近的$k$个训练样本，然后基于这$k$个“邻居”的信息来进行预测。通常，在分类任务中可使用“投票法”，即选择这$k$个样本中出现最多的类别标记作为预测结果；在回归任务中时使用“平均法”，即将这$k$个样本的实值输出标记的平均值作为预测结果；还可基于距离远近进行加权平均或加权投票，距离越近的样本权重越大

它是“懒惰学习”的著名代表，此类学习技术在训练阶段仅仅是把样本保存起来，训练时间开销为零，待收到测试样本后再进行处理；相应的，那些在训练阶段就对样本进行学习处理的方法，称为“急切学习”

给定测试样本$\mathbf x$，若其最近邻样本为$\mathbf z$，则最近邻分类器出错的概率就是$\mathbf x$与$\mathbf z$类别标记不同的概率，令$c^* = \argmax_{c \in \mathcal Y}P(c | \mathbf x)$表示贝叶斯最优分类器的结果，有$P(err) = 1 - \sum_{c \in \mathcal Y}P(c | \mathbf x)P(c | \mathbf z) \simeq 1 - \sum_{c \in \mathcal Y}P^2(c | \mathbf x) \leq 1 - P^2(c^* | \mathbf x) = (1 + P(c^* | \mathbf x))(1 - P(c^* | \mathbf x)) \leq 2(1 - P(c^* | \mathbf x))$

In [12]:
import numpy as np

from sklearn.datasets import fetch_openml
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import f1_score


mnist = fetch_openml('mnist_784', as_frame=False)
X, y = mnist.data, mnist.target
X

  warn(


array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [13]:
X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

y_train_large = (y_train >= '7')
y_train_odd = (y_train.astype('int8') % 2 == 1)
y_multilabel = np.c_[y_train_large, y_train_odd]

knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train, y_multilabel)

In [14]:
some_digit = X[0]
knn_clf.predict([some_digit])

array([[False,  True]])

In [15]:
y_train_knn_pred = cross_val_predict(knn_clf, X_train, y_multilabel, cv=3)
f1_score(y_multilabel, y_train_knn_pred, average="macro")

0.976410265560605

[返回](readme.md)