# Python 机器学习实战 ——代码样例

# 第十二章 K 近邻算法

## 欧氏距离计算

首先，构造两个样本点：

In [1]:
import numpy as np
x=np.array([1,1])
y=np.array([4,5])   


计算上述两个样本点之间的欧式距离：

In [2]:
from math import *
def e_distance(x,y):
    return sqrt(sum(pow(a-b,2) for a, b in zip(x, y)))
    
print(e_distance(x, y))


5.0


## 曼哈顿距离计算

仍然使用上述的两个样本点，计算它们之间的曼哈顿距离：

In [3]:
from math import *
def m_distance(x,y):
    return sum(abs(x-y))
    
print(m_distance(x, y))


7


## 切比雪夫距离计算

计算两点之间的切比雪夫距离：

In [4]:
from math import *
def q_distance(x,y):
    return abs(x-y).max()
    
print(q_distance(x, y))


4


## 夹角余弦距离计算

计算两点之间的夹角余弦距离：

In [5]:
from math import *
def cos_distance(x,y):
    return np.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y))
    
print(cos_distance(x, y))


0.993883734674


## 使用K近邻算法对 Iris 数据集进行分类

本节我们将通过一个例子讲解 K 近邻对 Iris 数据集进行分类。Iris 数据集是一个常用的分类用数据集，以鸢尾花的特征作为数据来源，数据集包含 150 个样本，分为 3 类花种，每类 50 个样本，每个样本包含 4 个独立属性 ( 萼片长度、萼片宽度、花瓣长度、花瓣宽度 )。

In [13]:
# 首先，我们导入将用到的库。

from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn import cross_validation
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score


# 准备数据集，并分离训练集和验证集。

iris = datasets.load_iris()  
X = iris.data  
Y = iris.target 
validation_size = 0.20
seed = 1   
X_train, X_validation, Y_train, Y_validation = cross_validation.train_test_split(X, Y, test_size=validation_size, random_state=seed) 


In [16]:
# 创建 KNN 分类器，并拟合数据集。

knn = KNeighborsClassifier()
knn.fit(X_train, Y_train)

# 在验证集上进行预测，并输出 accuracy score，混淆矩阵和分类报告。

predictions = knn.predict(X_validation)
print('accuracy_score:',accuracy_score(Y_validation, predictions))
print('混淆矩阵： \n',confusion_matrix(Y_validation, predictions))
print('分类报告： \n',classification_report(Y_validation, predictions))


accuracy_score: 1.0
混淆矩阵： 
 [[11  0  0]
 [ 0 13  0]
 [ 0  0  6]]
分类报告： 
              precision    recall  f1-score   support

          0       1.00      1.00      1.00        11
          1       1.00      1.00      1.00        13
          2       1.00      1.00      1.00         6

avg / total       1.00      1.00      1.00        30

