## 关于

K Nearest Neighbor, 最近邻居法, K-近邻算法

是一种用于分类和回归的非参数统计方法, 即判断元素属于哪一类

物以类聚, 人以群分; 近朱者赤近墨者黑;

> k-means: 用于聚类, 判断哪些元素属于一类

特点:

* 惰性学习: 没有显示学习阶段, 数据集往往已经分类完成
* 计算复杂度高: 需要计算和每个一直元素的距离, 复杂度与一直元素数目正相关, 这也决定了它更适用于较小数据集

优点:

* 简单易用, 相比其他算法, KNN算是比较简洁明了的算法.即使没有很高的数学基础也能搞清楚它的原理
* 模型训练时间快, 上面说到KNN算法是惰性的, 这里也就不再过多讲述
* 预测效果好
* 对异常值不敏感

缺点:

* 对内存要求较高, 因为该算法存储了所有训练数据
* 预测阶段可能很慢
* 对不相关的功能和数据规模敏感

应用场景有字符识别, 文本分类, 图像识别等领域

## 工作流程

1. n维的坐标系中, 已知的元素映射在坐标系中
2. 未知的元素x, 提取坐标值, 映射到坐标系中
3. 计算x与其他已知元素的距离
4. 统计k个距离最近的元素, 对此k个元素进行分析, 从而确定元素x的分类

## K值选择

一个经典的图:

![](https://coolshell.cn/wp-content/uploads/2012/08/220px-KnnClassification.svg_.png)

实线: `k=3`, 分类为三角形

虚线: `k=5`, 分类为正方形

k过小: 噪声点影响

k过大: 分类交叉, 判断不明显

k取不同的值时, 有可能未知元素分类结果也会不同

为了确定合适的k值, 可以采取交叉验证的方式(将样本数据按照比例拆分成训练用和验证用的数据),
然后从一个较小的k只开始, 不断增加k, 获取验证结果准确率, 找到一个相对合适的k值

![](https://gitee.com/LuVx/img/raw/master/algorithm/knn_k.png)

## 距离计算

距离的远近, 表示元素具有某种特征的浓淡, 因此复杂场景下, 为了提升分类的准确率, 针对距离可以继续加工

课程中及以下坐标表示中, `x,y`均不表示坐标轴

[课程例子源码](https://github.com/cystanford/knn)

## K-Means

前面说到过, KNN和Kmeans听起来有些像, 但本质是有区别的, 这里我们就顺便说一下两者的异同吧

相同: 

* K值都是重点
* 都需要计算平面中点的距离

不同: 

Knn和Kmeans的核心都是通过计算空间中点的距离来实现目的, 只是他们的目的是不同的.
KNN的最终目的是分类, 而Kmeans的目的是给所有距离相近的点分配一个类别, 也就是聚类.

简单说, 就是画一个圈, KNN是让进来圈子里的人变成自己人, Kmeans是让原本在圈内的人归成一类人

## 课程例子

以某种镜头数量的多少表示这个电影的特征, 这些就可以理解为坐标中的坐标值, 特征镜头的数量即为坐标系的数量

如追加统计搞笑镜头的出现次数

这之前先看一下sklean提供的KNN构造函数:

```python
def KNeighborsClassifier(n_neighbors = 5,
               weights='uniform',
               algorithm = '',
               leaf_size = '30',
               p = 2,
               metric = 'minkowski',
               metric_params = None,
               n_jobs = None
               )
```

- n_neighbors: 这个值就是指 KNN 中的 `K`了. 前面说到过, 通过调整 K 值, 算法会有不同的效果.
- weights: 权重, 最普遍的 KNN 算法无论距离如何, 权重都一样, 但有时候我们想搞点特殊化, 比如距离更近的点让它更加重要. 这时候就需要 weight 这个参数了, 这个参数有三个可选参数的值, 决定了如何分配权重. 参数选项如下:
    * `uniform`: 不管远近权重都一样, 就是最普通的 KNN 算法的形式.
    * `distance`: 权重和距离成反比, 距离预测目标越近具有越高的权重.
    * 自定义函数: 自定义一个函数, 根据输入的坐标值返回对应的权重, 达到自定义权重的目的.
- algorithm: 在 sklearn 中, 要构建 KNN 模型有三种构建方式,
    1. 暴力法, 就是直接计算距离存储比较的那种放松.
    2. 使用 kd 树构建 KNN 模型
    3. 使用球树构建.  其中暴力法适合数据较小的方式, 否则效率会比较低. 如果数据量比较大一般会选择用 KD 树构建 KNN 模型, 而当 KD 树也比较慢的时候, 则可以试试球树来构建 KNN.

    参数选项如下:
    * `brute`: 蛮力实现, 不过当数据较小或比较稀疏时, 无论选择哪个最后都会使用 `brute`
    * `kd_tree`: kd 树实现 KNN
    * `ball_tree`: 球树实现 KNN
    * `auto`:  默认参数, 自动选择合适的方法构建模型

- leaf_size: 如果是选择蛮力实现, 那么这个值是可以忽略的, 当使用kd树或球树, 它就是是停止建子树的叶子节点数量的阈值. 默认30, 但如果数据量增多这个参数需要增大, 否则速度过慢不说, 还容易过拟合.
- p: 和metric结合使用的, 当metric参数是`minkowski`的时候, p=1为曼哈顿距离, p=2为欧式距离.
- metric: 指定距离度量方法, 一般都是使用欧式距离.
    * `euclidean`: 欧式距离
    * `manhattan`: 曼哈顿距离
    * `chebyshev`: 切比雪夫距离
    * `minkowski`: 闵可夫斯基距离, 默认参数
- n_jobs: 指定多少个cpu进行运算, 默认是-1, 也就是全部都算.

In [None]:
# -*- coding: utf-8 -*-
# 分类用
from sklearn.neighbors import KNeighborsClassifier
# 回归用
# from sklearn.neighbors import KNeighborsRegressor

# 手写数字分类
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_digits
import matplotlib.pyplot as plt

# 加载数据
digits = load_digits()
data = digits.data
# 数据探索, (1797, 64) -> 1797幅数字图像,每幅图像大小是8*8像素
print(data.shape)
# 查看第一幅图像
print(digits.images[0])
# 第一幅图像代表的数字含义
print(digits.target[0])
# 将第一幅图像显示出来
plt.gray()
plt.imshow(digits.images[0])
plt.show()

# 分割数据, 将25%的数据作为测试集, 其余作为训练集
train_x, test_x, train_y, test_y = train_test_split(data, digits.target, test_size=0.25, random_state=33)

# 采用Z-Score规范化
# ss = preprocessing.StandardScaler()
# 采用Min-Max规范化
ss = preprocessing.MinMaxScaler()
train_ss_x = ss.fit_transform(train_x)
test_ss_x = ss.transform(test_x)

# 创建KNN分类器
knn = KNeighborsClassifier()
knn.fit(train_ss_x, train_y)
predict_y = knn.predict(test_ss_x)
print("KNN准确率: %.4lf" % accuracy_score(test_y, predict_y))


## 写个例子

In [None]:
# -*- coding: utf-8 -*-
from numpy import *
import operator
import numpy as np
import matplotlib.pyplot as plt

#通过KNN进行分类
def classify(input, dataSet, label, k):
    dataSize = dataSet.shape[0]
    #计算欧式距离
    diff = tile(input, (dataSize, 1)) - dataSet
    sqdiff = diff ** 2
    #行向量分别相加, 从而得到新的一个行向量
    squareDist = sum(sqdiff, axis=1)
    dist = squareDist ** 0.5

    #对距离进行排序
    #argsort()根据元素的值从大到小对元素进行排序, 返回下标
    sortedDistIndex = argsort(dist)

    classCount = {}
    for i in range(k):
        voteLabel = label[sortedDistIndex[i]]
        #对选取的K个样本所属的类别个数进行统计
        classCount[voteLabel] = classCount.get(voteLabel, 0) + 1
    #选取出现的类别次数最多的类别
    maxCount = 0
    for key, value in classCount.items():
        if value > maxCount:
            maxCount = value
            classes = key
    return classes


def data1():
    group = array([[100, 5], [95, 3], [105, 31], [2, 59], [3, 60], [10, 80]])
    # labels = ['战狼', '红海行动', '碟中谍6', '前任3','春娇救志明','泰坦尼克号']
    labels = ['动作', '动作', '动作', '爱情', '爱情', '爱情']
    return group, labels


def data2():
    group = array([[1.0, 2.0], [1.2, 0.1], [0.1, 1.4], [0.3, 3.5]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels

def img(x,y):
    plt.scatter(x,y)
    plt.show()

def case1():
    # 点例子
    # dataSet, labels = data2()
    # input = array([1.1, 0.3])

    # 电影例子
    dataSet, labels = data1()
    # input = array([90, 4]) # 动作
    input = array([4, 90])  # 爱情
    # 训练集坐标图
    x=[]
    y=[]
    for i in range(len(dataSet)):
        x.append(dataSet[i][0])
        y.append(dataSet[i][1])
    x.append(input[0])
    y.append(input[1])
    img(x,y)

    K = 3
    output = classify(input, dataSet, labels, K)
    print("元素坐标为:", input, "分类结果为: ", output)

case1()


## 网上找到的例子

鸢尾花数据集

数据集主要包含了鸢尾花的花萼长度, 花萼宽度, 花瓣长度, 花瓣宽度4个属性(特征)

根据以上数据, 判断一个鸢尾花卉属于『Setosa, Versicolour, Virginica』三个种类中的哪一类

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection  import cross_val_score
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier

#读取鸢尾花数据集
iris = load_iris()
x = iris.data
y = iris.target

k_range = range(1, 31)
k_error = []
#循环, 取k=1到k=31, 查看误差效果
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    #cv参数决定数据集划分比例, 这里是按照5:1划分训练集和测试集
    scores = cross_val_score(knn, x, y, cv=6, scoring='accuracy')
    k_error.append(1 - scores.mean())

#画图, x轴为k值, y值为误差值
plt.plot(k_range, k_error)
plt.xlabel('Value of K for KNN')
plt.ylabel('Error')
plt.show()

合适的K值为11

In [None]:
import matplotlib.pyplot as plt
# from numpy import *
import numpy as np
from matplotlib.colors import ListedColormap
from sklearn import neighbors, datasets

# 上步骤计算出的较好的k值
n_neighbors = 11

# 导入一些要玩的数据
iris = datasets.load_iris()
# 我们只采用前两个feature,方便画图在二维平面显示
x = iris.data[:, :2]  
y = iris.target

h = .02  # 网格中的步长

# 创建彩色的图
cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF'])
cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])

#weights是KNN模型中的一个参数, 上述参数介绍中有介绍, 这里绘制两种权重参数下KNN的效果图
for weights in ['uniform', 'distance']:
    # 创建了一个knn分类器的实例, 并拟合数据.
    clf = neighbors.KNeighborsClassifier(n_neighbors, weights=weights)
    clf.fit(x, y)

    # 绘制决策边界. 为此, 我们将为每个分配一个颜色
    # 来绘制网格中的点 [x_min, x_max]x[y_min, y_max].
    x_min, x_max = x[:, 0].min() - 1, x[:, 0].max() + 1
    y_min, y_max = x[:, 1].min() - 1, x[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

    # 将结果放入一个彩色图中
    Z = Z.reshape(xx.shape)
    plt.figure()
    plt.pcolormesh(xx, yy, Z, cmap=cmap_light)

    # 绘制训练点
    plt.scatter(x[:, 0], x[:, 1], c=y, cmap=cmap_bold)
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.title("3-Class classification (k = %i, weights = '%s')"
              % (n_neighbors, weights))

plt.show()

## 各种距离的计算

### 欧式距离

点 `a(x1, x2), b(y1, y2)`

![](https://bkimg.cdn.bcebos.com/formula/34df776ddfdd406a96fbafedf1e0fcf4.svg)

N维空间

![](https://bkimg.cdn.bcebos.com/formula/87a52feb423631405eb499ddaec6941d.svg)

In [None]:
import numpy as np
from scipy.spatial.distance import pdist

a = np.array([1, 2])
b = np.array([4, 6])

# 公式
l1 = np.sqrt(np.sum(np.square(a - b)))
print(l1)
# numpy库
l2 = np.linalg.norm(a - b)
print(l2)
# scipy库
l3 = pdist(np.vstack([a, b]))
print(l3)

### 曼哈顿距离

两个点在坐标系上绝对轴距总和

`d(i, j) = |x1 - x2| + |y1 - y2|`

In [None]:
import numpy as np
from scipy.spatial.distance import pdist

a = np.array([1, 1])
b = np.array([2, 2])

# 公式
l1 = np.sum(np.abs(a - b))
print(l1)
# 库
l2 = np.linalg.norm(a - b, ord=1)
print(l2)
# scipy库
l3 = pdist(np.vstack([a, b]), 'cityblock')
print(l3)

### 切比雪夫距离

两个点坐标数值差的绝对值的最大值

点 `a(x1, x2), b(y1, y2)`

`d(i, j) = max(|x1 - y1|, |x2 - y2|)`



In [None]:
import numpy as np
from scipy.spatial.distance import pdist

a = np.array([1, 2])
b = np.array([4, 7])
# 公式
l1 = np.abs(a - b).max()
print(l1)
# numpy
l2 = np.linalg.norm(a - b, ord=np.inf)
print(l2)
# scipy
l3 = pdist(np.vstack([a, b]), 'chebyshev')
print(l3)


### 余弦距离

也叫余弦相似度

![](https://bkimg.cdn.bcebos.com/formula/50c51a907a949e8bbdbfa9219ed8bd35.svg)

余弦值的范围在`[-1, 1]`之间,
值越趋近于1, 代表两个向量的方向越接近,
越趋近于-1, 他们的方向越相反,
接近于0, 表示两个向量近乎于正交

In [None]:
import numpy as np

a = np.array([1, 1, 1])
b = np.array([2, 2, 2])

l1 = np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))
print(l1)


### 闵可夫斯基距离

![](https://bkimg.cdn.bcebos.com/formula/5461915cb8cdb80332251b27ecb23270.svg)

![](https://bkimg.cdn.bcebos.com/formula/199c95d9914c4b851533ce7e82bf8ecb.svg)

其中p代表空间的维数,
当p=1时, 就是曼哈顿距离;
当p=2时, 就是欧氏距离;
当p→∞时, 就是切比雪夫距离

In [None]:
import numpy as np
from scipy.spatial.distance import pdist

a = np.array([1, 2])
b = np.array([4, 7])

# 公式
l1 = np.sqrt(np.sum(np.square(a - b)))
print(l1)
# scipy
l2 = pdist(np.vstack([a, b]), 'minkowski', p=2)
print(l2)
