# K-近邻算法（分类）

## 基本思路
1. 存在一个具有标签的样本数据集，即了解每一个样本与分类的对应关系；
2. 输入没有标签的新样本之后
   - 计算新数据与样本数据集中每条数据的距离
   - 根据距离，选择前k个最相似的数据
3. 选择k个数据中出现次数最多的分类，作为新数据的分类。

## 特点
* 优点: 精度高、对异常值不敏感、无数据输入假定
* 缺点：计算复杂度高、空间复杂度高
* 使用数据范围： 数值和标称

## 一般流程
1. 收集数据 ：可以使用任何方法
2. 准备数据 : 距离计算所需要的数值，最好是结构化
3. 分析数据 : 可以使用任何方法
4. 训练算法 ：不适用K-近邻算法
5. 测试算法 ：计算错误率
6. 使用算法 ：首先需要输入样本数据和结构化的输出结果，然后运行Ｋ－近邻算法判定输入数据属于哪个分类，最后执行后续处理.

# 一个简单示例
> 根据电影中接吻镜头以及动作镜头判断电影是‘动作片’还是‘爱情片’

In [1]:
# 引入包
import numpy as np
import operator
import collections

In [2]:
# 构建数据集合
def createDataSet():
    # 四组二维特征（4个样本，动作镜头数量、接吻镜头数量）
    group = np.array([[3, 104], [2, 100], [1, 81], [101, 10], [99, 5], [98, 2]])
    # 四组特征的标签
    labels = ['爱情片', '爱情片', '爱情片', '动作片', '动作片', '动作片']
    return group, labels


In [5]:
# 构建K-NN分类器
"""
函数:K-NN分类器

输入：
    inX - 用于分类的数据(测试集)
    dataSet - 用于训练的数据(训练集)
    labes - 分类标签
    k - K-NN算法参数,选取相近k个数据
返回:
    分类结果
"""


def classify0(inx, dataset, labels, k):
    # 计算距离
    dist = np.sum((inx - dataset) ** 2, axis=1) ** 0.5
    print('距离')
    print(dist)
    # k个最近的标签
    k_labels = [labels[index] for index in dist.argsort()[0: k]]
    # 出现次数最多的标签即为最终类别
    label = collections.Counter(k_labels).most_common(1)[0][0]
    return label

In [6]:
# 应用分类器

group, labels = createDataSet()
inx = [18, 90]
label = classify0(inx, group, labels, 3)
print(label)

距离
[ 20.24845673  13.03840481 123.79418403 127.01574706]
爱情片
