# 使用 k 近邻算法改进网站的配对效果

**说明：**

将数据集文件 'datingTestSet2.txt' 放在当前文件夹

In [216]:
import numpy as np
#******************解析数据***************************

def get_data_matrix(filename):
    
    with open(filename,mode='r') as file:
        dataLines=file.readlines()
        datalen=len(dataLines)
        dataResult=np.zeros(shape=(datalen,4))
        iters=0
        for line in dataLines:
            line=line.strip()
            line=line.split('\t')
            dataResult[iters,:]=line
            iters+=1
            
    return dataResult    
   
#**********************数据标准化*********************
def get_data_norm_v1(data,data_min=None,data_max=None):
    '''
    0-1标准化
    
    '''
    dataResult=data.copy()
    if data_min is None:
        data_min=dataResult[:,0:3].min(axis=0)
    if data_max is None:
        data_max=dataResult[:,0:3].max(axis=0)
        
    data_range=data_max-data_min
    
    dataResult[:,0:3]=dataResult[:,0:3]/data_range
    
    return dataResult,data_max,data_min
    

def get_data_norm_v2(data,data_mean=None,data_std=None):
    '''
    标准正态分布标准化

    '''
    dataResult=data.copy()
    if data_mean is None:
        data_mean=dataResult[:,0:3].mean(axis=0)
    if data_std is None:
        data_std=dataResult[:,0:3].std(axis=0)
    
    dataResult[:,0:3]=(dataResult[:,0:3]-data_mean)/(data_std+np.array([1e-8,1e-8,1e-8]))
    
    return dataResult,data_mean,data_std  

#****************************************************
    
def get_point_distance(point1,point2,p=2):
    '''
    计算样本点之间的距离
    
    '''
    distance=np.abs(point1-point2)
    distance=np.power(distance,p)
    distance=np.sum(distance)
    distance=np.power(distance,1/p)
    
    return distance
    
#***************************************************

def knn_model(data_train,data_test,feature_cnt=3,k=10,p=2):
    
    pre_list=list()
    for i in data_test:
        distance_list=list()
        for j in data_train:
            distance_list.append(get_point_distance(i[0:feature_cnt],j[0:feature_cnt],p=2))

        idx=np.argsort(distance_list)[0:k]
        pre_label=data_train_norm[idx,3].astype(int)
        pre_label=np.argmax(np.bincount(pre_label))
        pre_list.append(pre_label)
    
    return pre_list
    
    

In [217]:

data_orig=get_data_matrix('data/datingTestSet2.txt')
idx=np.random.permutation(1000)

data_train=data_orig[idx[0:700],:]
data_test=data_orig[idx[700:],:]

data_train_norm,data_max,data_min=get_data_norm_v1(data_train)
data_test_norm,_,_=get_data_norm_v1(data_test,data_min,data_max)


#### 从下面结果中得知：K选择5时效果最佳，距离度量对结果影响不明显(仅限欧式距离和曼哈顿距离的比较)；k值选的越大，误分率总体趋势上走高。

In [244]:
for i in range(1,51):
    y_pre=knn_model(data_train_norm,data_test_norm,k=i,p=2)
    error_rate=1-np.sum(data_test_norm[:,3]==np.array(y_pre))/len(y_pre)
    error_rate=round(error_rate,3)
    print('p=2(欧式距离),k={0}时，error_rate:{1}'.format(i,error_rate))

p=2(欧式距离),k=1时，error_rate:0.04
p=2(欧式距离),k=2时，error_rate:0.057
p=2(欧式距离),k=3时，error_rate:0.04
p=2(欧式距离),k=4时，error_rate:0.04
p=2(欧式距离),k=5时，error_rate:0.033
p=2(欧式距离),k=6时，error_rate:0.04
p=2(欧式距离),k=7时，error_rate:0.037
p=2(欧式距离),k=8时，error_rate:0.037
p=2(欧式距离),k=9时，error_rate:0.033
p=2(欧式距离),k=10时，error_rate:0.04
p=2(欧式距离),k=11时，error_rate:0.037
p=2(欧式距离),k=12时，error_rate:0.043
p=2(欧式距离),k=13时，error_rate:0.037
p=2(欧式距离),k=14时，error_rate:0.04
p=2(欧式距离),k=15时，error_rate:0.04
p=2(欧式距离),k=16时，error_rate:0.043
p=2(欧式距离),k=17时，error_rate:0.047
p=2(欧式距离),k=18时，error_rate:0.043
p=2(欧式距离),k=19时，error_rate:0.05
p=2(欧式距离),k=20时，error_rate:0.05
p=2(欧式距离),k=21时，error_rate:0.047
p=2(欧式距离),k=22时，error_rate:0.047
p=2(欧式距离),k=23时，error_rate:0.047
p=2(欧式距离),k=24时，error_rate:0.047
p=2(欧式距离),k=25时，error_rate:0.047
p=2(欧式距离),k=26时，error_rate:0.053
p=2(欧式距离),k=27时，error_rate:0.05
p=2(欧式距离),k=28时，error_rate:0.05
p=2(欧式距离),k=29时，error_rate:0.05
p=2(欧式距离),k=30时，error_rate:0.053
p=2(欧式距离),k=31时，error_rate:0.05

In [245]:

for i in range(1,51):
    y_pre=knn_model(data_train_norm,data_test_norm,k=i,p=1)
    error_rate=1-np.sum(data_test_norm[:,3]==np.array(y_pre))/len(y_pre)
    error_rate=round(error_rate,3)
    print('p=1(曼哈顿距离),k={0}时，error_rate:{1}'.format(i,error_rate))


p=1(曼哈顿距离),k=1时，error_rate:0.04
p=1(曼哈顿距离),k=2时，error_rate:0.057
p=1(曼哈顿距离),k=3时，error_rate:0.04
p=1(曼哈顿距离),k=4时，error_rate:0.04
p=1(曼哈顿距离),k=5时，error_rate:0.033
p=1(曼哈顿距离),k=6时，error_rate:0.04
p=1(曼哈顿距离),k=7时，error_rate:0.037
p=1(曼哈顿距离),k=8时，error_rate:0.037
p=1(曼哈顿距离),k=9时，error_rate:0.033
p=1(曼哈顿距离),k=10时，error_rate:0.04
p=1(曼哈顿距离),k=11时，error_rate:0.037
p=1(曼哈顿距离),k=12时，error_rate:0.043
p=1(曼哈顿距离),k=13时，error_rate:0.037
p=1(曼哈顿距离),k=14时，error_rate:0.04
p=1(曼哈顿距离),k=15时，error_rate:0.04
p=1(曼哈顿距离),k=16时，error_rate:0.043
p=1(曼哈顿距离),k=17时，error_rate:0.047
p=1(曼哈顿距离),k=18时，error_rate:0.043
p=1(曼哈顿距离),k=19时，error_rate:0.05
p=1(曼哈顿距离),k=20时，error_rate:0.05
p=1(曼哈顿距离),k=21时，error_rate:0.047
p=1(曼哈顿距离),k=22时，error_rate:0.047
p=1(曼哈顿距离),k=23时，error_rate:0.047
p=1(曼哈顿距离),k=24时，error_rate:0.047
p=1(曼哈顿距离),k=25时，error_rate:0.047
p=1(曼哈顿距离),k=26时，error_rate:0.053
p=1(曼哈顿距离),k=27时，error_rate:0.05
p=1(曼哈顿距离),k=28时，error_rate:0.05
p=1(曼哈顿距离),k=29时，error_rate:0.05
p=1(曼哈顿距离),k=30时，error_rate:0.053
p