# K-nearest neighbor

$k$-近邻法是一种基本的分类方法，它的优点是算法简单、直观，无需训练，对异常点不敏感，但同时它也面临着样本不平衡问题以及维数灾难问题，而且预测时计算开销大，这对用户来说不是很友好。

总的来说，KNN算法就是在训练集中寻找与给定数据最近的K个点，若这K个点多数属于某个类，则判定这个给定的数据也属于这个类。

## 算法：

- 给定参数k值（近邻点个数），参数p值（Minkowski距离）；

- 计算测试数据与各个训练数据之间的距离（这里我们使用欧式距离）；

- 按照距离的递增关系进行排序；

- 选取距离最近的前$k$个点；

- 确定前$k$个点所在类别的出现频率；

- 返回前$k$个点中出现频率最高的类别作为测试数据的预测分类。

In [2]:
import numpy as np

In [24]:
class KNN:
    def __init__(self, k, p=2):#参数为近邻点个数k，以及Minkowski距离公式中的指数p
        self.k = k
        self.p = p
        
    def fit(self, X, y):#参数二维数组X为特征数组，一维数组y为类别数组，训练只是保存数组
        self.X = X
        self.y = y
        
    def predict(self, X_test):#参数为一维数组
        #计算距离
        dist_list = [(np.linalg.norm(X_test-self.X[i],ord=self.p),self.y[i]) for i in range(len(self.X))]
        #这里使用np.linalg.norm(a-b,ord=p)函数代替sum(abs(a-b)**p)**(1/p)，元组（距离，类别）表示测试数据与训练数据的信息，并用列表保存
        
        #按距离从小到大排序
        sort_list = sorted(dist_list,key=lambda x: x[0])#sorted,min,max中的key参数传入一个函数，按函数值来排序，或取最小最大值
        
        #选取前k个样本点
        knn_list = sort_list[:self.k]
        
        #统计这些样本点的类别个数
        knn_class=[i[1] for i in knn_list]
        knn_dict={}
        for key in knn_class:
            knn_dict[key] = knn_dict.get(key,0) + 1
        return max(knn_dict, key=knn_dict.get) #返回值最大的键名

## 测试

In [25]:
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split

In [26]:
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['label'] = iris.target

In [51]:
X = np.array(df.iloc[:, :-1])
y = np.array(df.iloc[:, -1])

In [96]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,random_state=0)

In [105]:
clf = KNN(k=3)

In [106]:
clf.fit(X_train, y_train)

In [107]:
y_prediction = [clf.predict(X_test[i,:]) for i in range(len(X_test))]#因为输入参数为一维数组，得到预测值

In [109]:
count = 0  #评估KNN算法的准确率
for i in range(len(y_test)):
    if y_prediction[i] == y_test[i]:
        count += 1
count/len(y_test)

0.9666666666666667

## 改进
- 没必要对所有的距离进行排序，只需要选取距离最小的k个点就行，会节省一些时间？
- 使用kdTree算法（暂时还不会写，以后补上）