# K近邻算法（欧氏距离）
存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据（(最近邻)计算两点之间的距离）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。


In [None]:
#创建函数集
import numpy as np
def createData():
    data=np.array([[1.,101],[5.,89],[108.,5],[115.,8],[100,40]])
    labels=['LoverView','LoverView','ActionView','ActionView','ActionView']
    return data,labels 
    # 生成数据集以及对应的数据标签

group ,labels = createData()
print(group)
print(labels)

## K近邻算法步骤
- 计算已知类别数据集中的点与当前点之间的距离；
- 按照距离递增次序排序；
- 选取与当前点距离最小的k个点；
- 确定前k个点所在类别的出现频率；
- 返回前k个点所出现频率最高的类别作为当前点的预测分类。

In [None]:
import operator
def KNN(test,Train,labels,K):
    # 获取样本个数，即属性行数
    row = Train.shape[0]
    # 测试集将规模扩展至训练集一致
    ready = np.tile(test,(row,1)) - Train
    # np.tile(array,(lay,row))将array的列复制lay次，行复制row次
    sqDis = ready**2
    befDis = sqDis.sum(axis=1)
    #  axis=1行内元素相加，axis=0列内元素相加
    Dis = befDis**0.5
    # 开方得到欧氏距离
    sortIndex = Dis.argsort()
    # 返回排序后的Index
    # 按照距离进行排序并返回对应的索引
    classCount={}
    # 设置字典记录出现频率
    for i in range(K):
        # 取出前K个元素的标记
        label = labels[sortIndex[i]]
        classCount[label] = classCount.get(label,0)+1
        # 0是默认值，没有找到返回默认值
    print(classCount)
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    print(sortedClassCount)
    # operator.itemgetter(1)是字典的value，operator.itemgetter(0)是字典的key
    return sortedClassCount[0][0]
   
test = [40,49]
testClass = KNN(test,group,labels,3)
print("this is a",testClass)


## 完整的K-近邻算法
- 收集数据：可以使用爬虫进行数据的收集，也可以使用第三方提供的免费或收费的数据。一般来讲，数据放在txt文本文件中，按照一定的格式进行存储，便于解析及处理。
- 准备数据：使用Python解析、预处理数据。
- 分析数据：可以使用很多方法对数据进行分析，例如使用Matplotlib将数据可视化。
- 测试算法：计算错误率。
- 使用算法：错误率在可接受范围内，就可以运行k-近邻算法进行分类。

### 海伦约会实例---预测下一个特征的人会是她的理想吗？


In [None]:
# 读取数据
def file2matrix(filename):
	#打开文件,此次应指定编码，
    
    fr = open(filename,'r',encoding = 'utf-8')
	#读取文件所有内容
    arrayOLines = fr.readlines()
    #针对有BOM的UTF-8文本，应该去掉BOM，否则后面会引发错误。
    arrayOLines[0]=arrayOLines[0].lstrip('\ufeff')
	#得到文件行数
    numberOfLines = len(arrayOLines)
	#返回的NumPy矩阵,解析完成的数据:numberOfLines行,3列
    returnMat = np.zeros((numberOfLines,3))
	#返回的分类标签向量
    classLabelVector = []
	#行的索引值
    index = 0

    for line in arrayOLines:
		#s.strip(rm)，当rm空时,默认删除空白符(包括'\n','\r','\t',' ')
        line = line.strip()
		#使用s.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
        listFromLine = line.split('\t')
		#将数据前三列提取出来,存放到returnMat的NumPy矩阵中,也就是特征矩阵
        returnMat[index,:] = listFromLine[0:3]
		#根据文本中标记的喜欢的程度进行分类,1代表不喜欢,2代表魅力一般,3代表极具魅力   
		# 对于datingTestSet2.txt  最后的标签是已经经过处理的 标签已经改为了1, 2, 3
        if listFromLine[-1] == 'didntLike':
            classLabelVector.append(1)
        elif listFromLine[-1] == 'smallDoses':
            classLabelVector.append(2)
        elif listFromLine[-1] == 'largeDoses':
            classLabelVector.append(3)
        index += 1
    return returnMat, classLabelVector

In [25]:
fr = open("L:/Machine-Learning/kNN/2.海伦约会/datingTestSet.txt",'r')
file = fr.readlines()
length = len(file)
# print(file,'--------')
margtix=np.zeros((length,3))
index =0
classr = []
for line in file:
    # print(line)
    line=line.strip()
    line=line.split('\t')
    margtix[index,:]=line[0:3]
    if line[-1] == 'didntLike':
        classr.append(1)
    elif line[-1] == 'smallDoses':
        classr.append(2)
    elif line[-1] == 'largeDoses':
        classr.append(3)
    index += 1
print(classr)


print(length)

[3, 2, 1, 1, 1, 1, 3, 3, 1, 3, 1, 1, 2, 1, 1, 1, 1, 1, 2, 3, 2, 1, 2, 3, 2, 3, 2, 3, 2, 1, 3, 1, 3, 1, 2, 1, 1, 2, 3, 3, 1, 2, 3, 3, 3, 1, 1, 1, 1, 2, 2, 1, 3, 2, 2, 2, 2, 3, 1, 2, 1, 2, 2, 2, 2, 2, 3, 2, 3, 1, 2, 3, 2, 2, 1, 3, 1, 1, 3, 3, 1, 2, 3, 1, 3, 1, 2, 2, 1, 1, 3, 3, 1, 2, 1, 3, 3, 2, 1, 1, 3, 1, 2, 3, 3, 2, 3, 3, 1, 2, 3, 2, 1, 3, 1, 2, 1, 1, 2, 3, 2, 3, 2, 3, 2, 1, 3, 3, 3, 1, 3, 2, 2, 3, 1, 3, 3, 3, 1, 3, 1, 1, 3, 3, 2, 3, 3, 1, 2, 3, 2, 2, 3, 3, 3, 1, 2, 2, 1, 1, 3, 2, 3, 3, 1, 2, 1, 3, 1, 2, 3, 2, 3, 1, 1, 1, 3, 2, 3, 1, 3, 2, 1, 3, 2, 2, 3, 2, 3, 2, 1, 1, 3, 1, 3, 2, 2, 2, 3, 2, 2, 1, 2, 2, 3, 1, 3, 3, 2, 1, 1, 1, 2, 1, 3, 3, 3, 3, 2, 1, 1, 1, 2, 3, 2, 1, 3, 1, 3, 2, 2, 3, 1, 3, 1, 1, 2, 1, 2, 2, 1, 3, 1, 3, 2, 3, 1, 2, 3, 1, 1, 1, 1, 2, 3, 2, 2, 3, 1, 2, 1, 1, 1, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 1, 1, 2, 1, 1, 2, 1, 1, 1, 2, 2, 3, 2, 3, 3, 3, 3, 1, 2, 3, 1, 1, 1, 3, 1, 3, 2, 2, 1, 3, 1, 3, 2, 2, 1, 2, 2, 3, 1, 3, 2, 1, 1, 3, 3, 2, 3, 3, 2, 3, 1, 3, 1, 3, 3, 1, 3, 2, 1, 3, 