## 实例：使用kNN算法改进dating website的配对效果

kNN-1中已解决了构造分类器将匹配对象划分到确切的分类中。在该实例中，收集的数据是：文本文件。

特征①：每年获得的飞行常客里程数

特征②：玩视频游戏所耗时间百分比

特征③：每周消耗的icecream公升数

### 使用k-近邻法开发ML学习程序的流程
1、**收集数据**：提供文本文件

2、**准备数据**：使用python解析文本文件（确保数据符合计算机处理格式）

3、**分析数据**：使用matplotlib画二维扩散图

4、**训练算法**：此步骤不适用于k-近邻法（？？）

5、**测试算法**：使用提供的部分数据作为测试样本

6、**使用算法**：产生简单的命令行程序，然后可以输入一些特征数据以判断对方是否为自己喜欢的类型


### 数据处理
输入数据前，需要将raw数据转化为分类器可处理的格式，如训练样本矩阵、分类标签向量。具体是在kNN实现代码上创建新函数**file2matrix**的函数，以此来处理输入格式。该函数的输入为文件名字符串，输出为训练样本矩阵和分类标签向量。

In [3]:
import numpy as np
import operator

#### kNN：

In [None]:

"""
Parameters:
    inX - 用于分类的数据(测试集)
    dataSet - 用于训练的数据(训练集)
    labes - 分类标签
    k - kNN算法参数,选择距离最小的k个点
Returns:
    sortedClassCount[0][0] - 分类结果
"""
# 函数说明:kNN算法,分类器
def classify0(inX, dataSet, labels, k):
    # distance caculation:
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    
    # k nearest neighbour:
    sortedDistIndices = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndices[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
        
    # Descending sort:
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]

#### 准备数据：
将文本文件解析为**特征矩阵**、**分类标签向量**

In [4]:
def file2matrix(filename):
    fr = open(filename)
    arrayOLines = fr.readlines()
    numberOfLines = len(arrayOLines)
    returnMat = np.zeros((numberOfLines,3))
    classLabelVector = []
    index = 0
    for line in arrayOLines:
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        if listFromLine[-1] == 'didntLike':
            classLabelVector.append(1)
        elif listFromLine[-1] == 'smallDoses':
            classLabelVector.append(2)
        elif listFromLine[-1] == 'largeDoses':
            classLabelVector.append(3)
        index += 1
    return returnMat, classLabelVector

In [5]:
datingDataMat, datingLabels = file2matrix('.\dataSet\datingTestSet.txt')
datingDataMat

array([[4.0920000e+04, 8.3269760e+00, 9.5395200e-01],
       [1.4488000e+04, 7.1534690e+00, 1.6739040e+00],
       [2.6052000e+04, 1.4418710e+00, 8.0512400e-01],
       ...,
       [2.6575000e+04, 1.0650102e+01, 8.6662700e-01],
       [4.8111000e+04, 9.1345280e+00, 7.2804500e-01],
       [4.3757000e+04, 7.8826010e+00, 1.3324460e+00]])

In [6]:
datingLabels[0:25]

[3, 2, 1, 1, 1, 1, 3, 3, 1, 3, 1, 1, 2, 1, 1, 1, 1, 1, 2, 3, 2, 1, 2, 3, 2]

In [None]:
import matplotlib
import matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(datingDataMat[:-1], datingDataMat[:2])
plt.show()