### k近邻定义
K近邻算法，即K-Nearest Neighbor algorithm，简称KNN算法，可以根据字面意思理解为：K个最近的邻居。因为k近邻是分类算法，找到最近的邻居就能知道自己所在的类别。

### 用途
k近邻用于解决分类问题。因为需要计算特征之间的距离，所以需要将数据集中的特征数据变成数值型和标称型。

![image.png](attachment:02c8987b-c9e7-418f-b2e8-6fa234f5481d.png)

![image.png](attachment:0a1d604c-b140-464a-bb75-676721a4f316.png)

In [11]:
import numpy as np
import pandas as pd
import operator


 ### k近邻算法思想：
    1.计算出当前未知类型样本点与训练集中所有点的距离（欧氏距离）;
    2.按照距离大小，将训练集中的点递增排序;
    3.选取前k个样本点，计算出前k个样本每个类别出现的频率;
    4.频率最高的类别即为当前未知样本预测分类;
 由于此算法是计算未知样本与每一个训练点的距离,所以时间复杂度为O(n),之后将学习kd-tree,以降低时间复杂度


In [12]:
def create_dataset():
    # 四组二维
    X = np.array([[1,101],[5,89],[108,5],[155,8]])
    y = ['爱情片', '爱情片', '动作片', '动作片']
    return X, y

### 【knn函数注释】
 参数说明：
    test为测试样本(一个向量);
    train为训练集(训练样本的特征组成的矩阵);
    labels为标签(训练集中每一个样本对应的类型组成的向量);
    k为参数,表示选取距离最近的k个样本
    
 函数说明：train为[[1,101],[5,89],[108,5],[115,8]],test为1个样本[10,45],
    这里的操作是将test平铺成[[10,45],[10,45],[10,45],[10,45]],
    这样一来,train和test相减得到的矩阵，就可以用于我们计算测试样本到每一个训练样本的距离

In [24]:
def knn(test,train,labels,k):
    num_train_samples = train.shape[0]
    test = np.tile(test,(num_train_samples,1)) # np.tile将test复制num_train_samples行 复制1列
    diff_set = train-test
    distance = np.sqrt((diff_set ** 2).sum(axis=1))  # sum(axis=1)表示每一行的所有列求和
    sorted_distance_indicies = np.argsort(distance) # 返回数组 [1,0,2,3] 表示下标为1的元素值最小，其次是0，以此类推
    class_count = {} # 该字典用来存钱k个元素的类别，以及出现次数
    for i in range(k):
        label = labels[sorted_distance_indicies[i]]
#         dict.get(key,default=None) #字典的get方法返回指定键的值，如果不在字典中返回默认0
        class_count[label] = class_count.get(label,0)+1
        print(class_count[label])
    
    # 字典按照value值 降序排列
    # key = operator.itemgetter(1) 根据字典的值进行排序
    # key = operator.itemgetter(0) 根据字典的键进行排序
    # reverse 降序排序字典
    sorted_class_count = sorted(class_count.items(),key=operator.itemgetter(1),reverse=True) # 如[('爱情片', 2), ('动作片', 1)]
    return sorted_class_count[0][0]

In [25]:
train,labels = create_dataset()
test = [50,10]
knn(test,train,labels,k=3)

1
1
2


'爱情片'

KNN如何选择合适的K值:
    如果选择较小的K值,就相当于用较小的邻域内的样本点进行预测,如果碰巧里面噪声较多,预测结果就会出错,导致过拟合;
    如果选择较大的K值,就相当于用较大的邻域内的样本点进行预测,这时不相似的样本点也会对预测起作用,导致欠拟合;
    推荐方法:
        step 1:用交叉验证法,将样本集分为训练集和验证集(如随机分成5份,4份用于训练,1份用于验证),轮流选取一份当验证集,其余几份用来训练,
        统计每一轮的正确率,累计求均值,得到的结果即为当前K值的分类准确率；
        step 2:更换K值,重复step 1,最终选取平均预测准确率最高的k值作为模型的k值
    
 KNN 算法的优缺点:
    1.优点:
        (1) 理论成熟，思想简单，可处理数值型或者离散型数据,既可以用来做分类也可以用来做回归
        (2) 可用于非线性分类(线性不可分的样本集)
        (3) 训练时间复杂度比支持向量机之类的算法低，仅为O(n),kd-tree为O(log n)
        (4) 受异常值(离群点)的影响小
    2.缺点:
        (1) 计算量大，尤其是特征数非常多的时候
        (2) 样本分布不平衡的时候,对于小类别的预测准确性低
        (3) 使用懒散学习方法，基本上不学习，每次预测都要计算一遍在样本集中的最邻近点

![116491604930024_.pic.jpg](attachment:4eef1866-97de-4727-9607-2c6e61482fa2.jpg)