In [4]:
from numpy import *
import operator

# k近邻分类算法
def classify0(inX, dataSet, labels, k):
    '''
      inX：用来分类的测试集
      dataSet：用来训练的数据集
      labels：用来训练的数据集的标签
      k：k近邻的k值
    '''
    #欧式距离计算
    dataSetSize = dataSet.shape[0]#行数
    diffMat = tile(inX, (dataSetSize,1)) - dataSet  # tile()：将矩阵inX重复，行方向上重复dataSetSize次，列方向上重复1次
    sqDiffMat = diffMat**2
    sqDistinces = sqDiffMat.sum(axis=1)  #行方向求和
    distances = sqDistinces**0.5#sqrt(sum(test-train)^2)欧氏距离
    sortedDistIndicies = distances.argsort() #将距离值进行排序，并返回索引值
    
    #选择距离最小的k个点，并统计k个点中各个类别的数目
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1  #get(key,default)：若键key在字典中，返回key的value，否则返回默认值
    
    #排序，选择类别数目最多的所属类别
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)#按照第二个元素的顺序进行排序，逆序
    
    return sortedClassCount[0][0]


#归一化数值
#为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。
#data-min/(max-min)
def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]  #获取数据行数
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))
    return normDataSet, ranges, minVals


     
#以电影数据为例
dataSet = array([[3,104],[2,100],[1,81],[101,10],[99,5],[98,2]])  #接吻镜头次数、打斗镜头次数
labels = ['爱情片','爱情片','爱情片','动作片','动作片','动作片']
test = [18,90]  #未知电影的接吻镜头次数、打斗镜头次数
normMat, ranges, minVals = autoNorm(dataSet)  #归一化处理
classifierResult = classify0(test, normMat, labels, 3)
print("预测结果：", classifierResult)

预测结果： 爱情片
