##    K-近邻算法
###    特点
-    优点：精度高，对异常值不敏感，无数据输入假定
-    缺点：计算复杂度高、空间复杂度高
-    使用数据范围：数值型和标称型

###    工作原理
-    存在样本集，并且样本均已标签化
-    输入无标签的新数据后，将新数据的每个特征与样本集中数据特征进行比较
-    使用算法提取样本集中特征k个最相似数据（最近邻）的分类标签。（Normally k <= 20)
-    选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

###    k-近邻算法的一般流程
1.   收集数据
2.   准备数据：距离计算所需要的数值。最好是结构化的数据格式。
3.   分析数据
4.   （训练算法）：对于k-近邻不适用
5.   测试算法：计算错误率
6.   使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪一个分类，最后应用对计算出的分类执行后续的处理。

In [4]:
import kNN
import numpy
import operator
group,labels = kNN.createDataSet()

print(group)
print(labels)

[[1.  1.1]
 [1.  1. ]
 [0.  0. ]
 [0.  0.1]]
['A', 'A', 'B', 'B']


---
### 实施kNN分类算法
#### 伪代码：
对位置类别属性的数据集中的每个点依次执行以下操作：
1. 计算已知类别数据集中的点到当前点的距离
2. 按照距离递增次序排序
3. 选取与当前点距离最小的k个点
4. 确定前k个点所在列表的出现频率
5. 返回前k个点出现频率最高的类别作为当前点的预测分类。

#### classify0()函数：

-  标签向量的元素数目和矩阵dataSet的行数相同。程序使用欧式距离公式，计算两个向量点xA和xB的距离
$$\sqrt{(xA_0-xB_0)^2+(xA_1-xB_1)^2}$$
-  


In [2]:
from numpy import *
import operator

def classify0(inX,dataSet,labels,k):
    '''
    func : k nearest neighbors
    Parameters: 
    inX: 用于分类的输入向量
    dataSet：输入的训练样本集
    labels:标签向量
    k：选择最近邻居的数目
    '''
    #获取数据集大小
    dataSetSize = dataSet.shape[0] #shape是numpy下获取矩阵长度的函数
    #求出dataSet和inX扩展后矩阵的差矩阵
    diffMat = tile(inX, (dataSetSize,1)) - dataSet #tile作用是在行方向和列方向上重复指定向量。
    #矩阵
    sqDiffMat = diffMat ** 2 # * 代表乘法，**代表乘方
    sqDistances =sqDiffMat.sum(axis = 1)
    '''
	假如矩阵A是n*n的矩阵
	A.sum（）是计算矩阵A的每一个元素之和。
	A.sum(axis=0)是计算矩阵每一列元素相加之和。
	A.Sum(axis=1)是计算矩阵的每一行元素相加之和。
	'''
    distances = sqDistances**0.5#开根号
    sortedDistIndicies = distances.argsort()
    classCount = {}
    for i in range(k):
    	voteIlabel = labels[sortedDistIndicies[i]]
    	classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]

def file2matrix(filename):
    '''
    func: 文本记录转换为Numpy的解析程序
    '''
    fr = open(filename)
    arrayOLines = fr.readlines()
    numberOfLines = len(arrayOLines)
    returnMat = zeros((numberOfLines,3))
    classLabelVector = []
    index = 0
    for line in arrayOLines:
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index +=1
    return returnMat,classLabelVector

def figureDraw(Mat,Labels):
    '''
    func: draw matplot
    '''
    import matplotlib
    import matplotlib.pyplot as plt
    %matplotlib inline
    fig = plt.figure()
    ax = fig.add_subplot(111)
    #ax.scatter(Mat[:,1],Mat[:,2])
    #plt.show()
    ax.scatter(Mat[:,1],Mat[:,2],15.0*array(Labels),15.0*array(Labels))
    plt.show()

def autoNorm(dataSet):
    '''
    function：归一化数据
    '''
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals,(m,1))
    normDataSet = normDataSet/tile(ranges,(m,1))
    return normDataSet,ranges,minVals
    
def datingClassTest():
    '''
    test code
    '''
    horatio = 0.10
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')
    normMat,ranges,minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*horatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],\
                                    datingLabels[numTestVecs:m],3)
        print("The classifier came back with : %d, the real answer is : %d"\
             %(classifierResult,datingLabels[i]))
        if(classifierResult != datingLabels[i]): errorCount +=1.0
    print("the total error rate is : %f"%(errorCount/float(numTestVecs)))
    

def main():
    datingClassTest()
    
    
if __name__ =="__main__":
	main()


    

The classifier came back with : 3, the real answer is : 3
The classifier came back with : 2, the real answer is : 2
The classifier came back with : 1, the real answer is : 1
The classifier came back with : 1, the real answer is : 1
The classifier came back with : 1, the real answer is : 1
The classifier came back with : 1, the real answer is : 1
The classifier came back with : 3, the real answer is : 3
The classifier came back with : 3, the real answer is : 3
The classifier came back with : 1, the real answer is : 1
The classifier came back with : 3, the real answer is : 3
The classifier came back with : 1, the real answer is : 1
The classifier came back with : 1, the real answer is : 1
The classifier came back with : 2, the real answer is : 2
The classifier came back with : 1, the real answer is : 1
The classifier came back with : 1, the real answer is : 1
The classifier came back with : 1, the real answer is : 1
The classifier came back with : 1, the real answer is : 1
The classifier