In [2]:
#knn 2.1

In [3]:
#k-近邻（k-Nearest Neighbour，简称KNN），常用于有监督学习。

#KNN的工作原理很简单：存在一个训练样本集合A，在给定测试样本b时，基于某种距离度量，找出训练集A中与测试样本b最靠近的k个训练样本（通常k≤20且为整数），之后，基于这k个训练样本的信息来预测种类或值。

#其中，在分类问题中，KNN用来预测种类。一般使用“投票法”，选择这k个样本中出现最多的类别来作为测试样本的类别。

#在回归问题中，KNN预测一个值。使用“平均法”，将k个样本的实值输出的平均值作为测试样本的输出。一般情况下，距离度量选择欧式距离

#KNN算法作为一种较简单的算法，它的不足之处在于：

#(1)没有明显的训练过程，它是“懒惰学习”的典型代表，它在训练阶段所做的仅仅是将样本保存起来，如果训练集很大，必须使用大量的存储空间，训练时间开销为零；

#(2)必须对数据集中每个数据计算距离值，实际中可能非常耗时。

In [4]:
#为了提高KNN搜索的速度，可以利用特殊的数据存储形式来减少计算距离的次数。kd树就是一种以二叉树的形式存储数据的方法。
#kd树就是对k维空间的一个划分。构造kd树相当于不断用垂直于坐标轴的超平面将k维空间切分，构成一系列k维超矩阵区域。
#kd树的每一个节点对应一个超矩阵区域。（想要深入了解的同学可以参看李航老师的《统计机器学习》P41页）

In [5]:
import numpy as np
import operator

In [6]:
def createDataSet ():
    group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ["A","A","B","B"]
    return group,labels

In [7]:
group,labels = createDataSet ()
print(group)
print(labels)

[[ 1.   1.1]
 [ 1.   1. ]
 [ 0.   0. ]
 [ 0.   0.1]]
['A', 'A', 'B', 'B']


In [8]:
def classify0(inX,dataSet,labels,k):
    dataSetSize = dataSet.shape[0]
    #返回dataSet的行数
    diffMat = np.tile(inX,(dataSetSize,1))-dataSet
    print("diffMat:")
    print(diffMat)
    # tile（）函数实现矩阵重复，
    # 在列方向重复inX共1次，在行方向重复inX共dataSetSize次
    #可以使用help（tile）察看用法
    sqDiffMat =  diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    #sum()为求和，参数axis=1为行方向求和，axis=0为列方向求和
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()
    #distances.argsort()将distances中的元素按照从小到大排序，并且返回所引值
    #注意，sortedDistIndicies中存放的是返回的所引值，不是distances中的元素
    
    
    
    classCount = {}
    #创建一个字典dict
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        #返回距离排名第i的标签
        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
        #dict.get(key,default=None),返回字典中指定键key的值，如果键 key 不在字典中则返回default值
        #上式计算了类别的数目
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    # 将classCount中的值进行排序
    # sorted(iterable,cmp=None,key=None,reverse=False)
    # terable：是可迭代类型;
    # cmp：用于比较的函数，比较什么由key决定;
    # key：用列表元素的某个属性或函数进行作为关键字，有默认值，迭代集合中的一项;
    # key=operator.itemgetter(1)根据字典的值进行排序，key=operator.itemgetter(0)根据字典的键进行排序
    # reverse：排序规则. reverse = True  降序 或者 reverse = False 升序，有默认值。
    # 返回值：是一个经过排序的可迭代类型，与iterable一样。
    return sortedClassCount[0][0]
    # 返回分类的类别
    

In [9]:
# test
feilei = classify0([0,0],group,labels,3)
print(feilei)

diffMat:
[[-1.  -1.1]
 [-1.  -1. ]
 [ 0.   0. ]
 [ 0.  -0.1]]
B


In [10]:
import matplotlib
import matplotlib.pyplot as plt

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111)
# fig, axes = plt.subplots(m, n)完成上述两步操作
ax.scat