#### k近邻学习算法  
**输入**：训练数据集  
&emsp;$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N) \}$  
&emsp;其中，$x_i\in X\subseteq R_n$为实例的特征向量，$y_i\in Y=\{c_1,c_2,...c_K \}$为实例的类别，$i=1,2,...,N$；实例的特征向量x；   
**输出**：实例$x$所属的类$y$。  
（1）根据给定的距离度量，在训练集$T$中找出与$x$最近邻的$k$个点，涵盖这$k$个点的$x$的邻域记作$N_k(x)$；  
（2）在$N_k(x)$中根据分类决策规则（如多数表决）决定$x$的类别$y$；  
&emsp;&emsp;&emsp;$y=arg \max_{c_j}\sum {I(y_i=c_j)},i=1,2,...,N;j=1,2,...,K$  
&emsp;其中$I$为指示函数，即当$y_i=c_j$时$I$为1，否则$I$为0。

In [1]:
import numpy as np

#### 加载Mnist数据集：http://yann.lecun.com/exdb/mnist/  
*$fileName$*:要加载的文件路径  
*return*: 数据集和标签集

In [2]:
def loadData(fileName):
    dataArr = []; labelArr = []
    fr = open(fileName)
    #遍历文件中的每一行
    for line in fr.readlines():
        curLine = line.strip().split(',')
        dataArr.append([int(num) for num in curLine[1:]])
        labelArr.append(int(curLine[0]))
    #返回数据集和标记
    return dataArr, labelArr

#### 计算两个样本点向量之间的距离  
$x_1$:向量1  
$x_2$:向量2  
*return*:向量之间的欧式距离：$d=\sqrt[]{\sum (x_1-x_2)^2} $

In [3]:
def calcDist(x1, x2):
    return np.sqrt(np.sum(np.square(x1 - x2)))

#### 预测样本x的标记
$trainDataMat$: 训练集数据集  
$trainLabelMat$: 训练集标签集  
$x$: 要预测的样本x  
$topK$: 选择参考最邻近样本的数目（样本数目的选择关系到正确率，详看3.2.3 K值的选择）  
*return*: 预测的标记

In [4]:
def KNN(trainDataMat, trainLabelMat, x, topK):
    distList = [0] * len(trainLabelMat)
    #遍历训练集中所有的样本点，计算与x的距离
    for i in range(len(trainDataMat)):
        x1 = trainDataMat[i]
        curDist = calcDist(x1, x)
        distList[i] = curDist
    topKList = np.argsort(np.array(distList))[:topK]        #升序排序
    #建立一个长度时的列表，用于选择数量最多的标记
    labelList = [0] * 10
    #对topK个索引进行遍历
    for index in topKList:
        labelList[int(trainLabelMat[index])] += 1
    #max(labelList)：找到选票箱中票数最多的票数值
    return labelList.index(max(labelList))

#### 测试正确率  
$trainDataArr$:训练集数据集  
$trainLabelArr$: 训练集标记  
$testDataArr$: 测试集数据集  
$testLabelArr$: 测试集标记  
$topK$: 选择多少个邻近点参考  
*return*: 正确率

In [5]:
def model_test(trainDataArr, trainLabelArr, testDataArr, testLabelArr, topK):
    trainDataMat = np.mat(trainDataArr); trainLabelMat = np.mat(trainLabelArr).T
    testDataMat = np.mat(testDataArr); testLabelMat = np.mat(testLabelArr).T
    errorCnt = 0
    #遍历测试集，对每个测试集样本进行测试
    for i in range(200):
        if i%10 == 0:
            print('test %d:%d' % (i, 200))
        x = testDataMat[i]
        y = KNN(trainDataMat, trainLabelMat, x, topK)
        #如果预测标记与实际标记不符，错误值计数加1
        if y != testLabelMat[i]: errorCnt += 1
    #返回正确率
    return 1 - (errorCnt / 200)

#### 开始实验

In [7]:
#获取训练集
trainDataArr, trainLabelArr = loadData('Mnist/mnist_train.csv')
#获取测试集
testDataArr, testLabelArr = loadData('Mnist/mnist_test.csv')
#计算测试集正确率
accuracy = model_test(trainDataArr, trainLabelArr, testDataArr, testLabelArr, 25)
#打印正确率
print('accuracy rate is:', accuracy)

test 0:200
test 10:200
test 20:200
test 30:200
test 40:200
test 50:200
test 60:200
test 70:200
test 80:200
test 90:200
test 100:200
test 110:200
test 120:200
test 130:200
test 140:200
test 150:200
test 160:200
test 170:200
test 180:200
test 190:200
accuracy rate is: 0.97
