# K近邻（分类算法）

## 实战：鸢尾（Iris）数据集（分类生物物种）

## Model Definition：


* K近邻本身是很简单的一种算法，一种通俗解释是“近朱者赤，近墨者黑”，与待分类样本在特征空间中距离最近的K个标记样本的标签比率决定了模型的预测结果。


* 因此，一旦K值选取不同，模型的预测结果一般也不同。再因此，K值的选择应该是个问题。（也许可以用cross validation）

读取数据集并给个数据说明。

In [1]:
# read the Iris dataset
from sklearn.datasets import load_iris

# 上面导入的是iris数据加载器，下面还需要用加载器读取数据并储存
iris = load_iris()

# 本书查验数据集的方法（查看数据集大小）
print iris.data.shape

# 查看数据说明
print iris.DESCR

(150L, 4L)
Iris Plants Database

Notes
-----
Data Set Characteristics:
    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20  0.76     0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :Date: July, 1988

This is a copy of UC

解释一下：


* (150L, 4L)指有150组（鸢尾）数据样本，每个样本包含4个特征


* Class Distribution: 33.3% for each of 3 classes指所有鸢尾均匀分布在3个亚种中

In [2]:
print type(iris)

<class 'sklearn.utils.Bunch'>


Get一个新技能：


* 这个数据集是sklearn中自带数据的结构，实际上就是个字典结构。


* 资料查自http://30daydo.com/article/325

马上要进行数据的分割（训练集和测试集），这里再说一下为什么要随机分割：


* 若不随机，分割的样本极大可能会不均衡（unbalanced），因此结果可能存在偏置bias且可信度降低

In [3]:
from sklearn.cross_validation import train_test_split as tts
X_train, X_test, y_train, y_test = tts(iris.data, iris.target, test_size = 0.25, random_state = 33)



看一下上面的banch数据中的data和target是什么。

In [6]:
print iris.target
print iris.target_names

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['setosa' 'versicolor' 'virginica']


In [5]:
print iris.data

[[ 5.1  3.5  1.4  0.2]
 [ 4.9  3.   1.4  0.2]
 [ 4.7  3.2  1.3  0.2]
 [ 4.6  3.1  1.5  0.2]
 [ 5.   3.6  1.4  0.2]
 [ 5.4  3.9  1.7  0.4]
 [ 4.6  3.4  1.4  0.3]
 [ 5.   3.4  1.5  0.2]
 [ 4.4  2.9  1.4  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 5.4  3.7  1.5  0.2]
 [ 4.8  3.4  1.6  0.2]
 [ 4.8  3.   1.4  0.1]
 [ 4.3  3.   1.1  0.1]
 [ 5.8  4.   1.2  0.2]
 [ 5.7  4.4  1.5  0.4]
 [ 5.4  3.9  1.3  0.4]
 [ 5.1  3.5  1.4  0.3]
 [ 5.7  3.8  1.7  0.3]
 [ 5.1  3.8  1.5  0.3]
 [ 5.4  3.4  1.7  0.2]
 [ 5.1  3.7  1.5  0.4]
 [ 4.6  3.6  1.   0.2]
 [ 5.1  3.3  1.7  0.5]
 [ 4.8  3.4  1.9  0.2]
 [ 5.   3.   1.6  0.2]
 [ 5.   3.4  1.6  0.4]
 [ 5.2  3.5  1.5  0.2]
 [ 5.2  3.4  1.4  0.2]
 [ 4.7  3.2  1.6  0.2]
 [ 4.8  3.1  1.6  0.2]
 [ 5.4  3.4  1.5  0.4]
 [ 5.2  4.1  1.5  0.1]
 [ 5.5  4.2  1.4  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 5.   3.2  1.2  0.2]
 [ 5.5  3.5  1.3  0.2]
 [ 4.9  3.1  1.5  0.1]
 [ 4.4  3.   1.3  0.2]
 [ 5.1  3.4  1.5  0.2]
 [ 5.   3.5  1.3  0.3]
 [ 4.5  2.3  1.3  0.3]
 [ 4.4  3.2  1.3  0.2]
 [ 5.   3.5

好吧，看起来data部分就是特征；target部分就是三种分类。

初始化K近邻分类器预测鸢尾类别。


注意这里书本先对数据进行了标准化（仅仅是X部分），我偏偏要都试一下，先原始数据再标准化。

In [7]:
# 导入K近邻分类器模块，训练原始数据
from sklearn.neighbors import KNeighborsClassifier
knc = KNeighborsClassifier()
knc.fit(X_train, y_train)
y_predict = knc.predict(X_test)


# 评估指标仍然用那四项，看起来所有分类问题都可以用？
from sklearn.metrics import classification_report
print 'The Accuracy of K-Nearest Neighbor Classifier for original data is:', knc.score(X_test, y_test)
print classification_report(y_test, y_predict, target_names = iris.target_names)

The Accuracy of K-Nearest Neighbor Classifier for original data is: 0.947368421053
             precision    recall  f1-score   support

     setosa       1.00      1.00      1.00         8
 versicolor       0.85      1.00      0.92        11
  virginica       1.00      0.89      0.94        19

avg / total       0.96      0.95      0.95        38



In [10]:
# 现在先标准化一下
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
X_train2 = ss.fit_transform(X_train)
X_test2 = ss.transform(X_test)


knc2 = KNeighborsClassifier()
knc2.fit(X_train2, y_train)
y_predict2 = knc2.predict(X_test2)
print 'The Accuracy of K-Nearest Neighbor Classifier for Standardized data is:', knc2.score(X_test2, y_test)
print classification_report(y_test, y_predict2, target_names = iris.target_names)

The Accuracy of K-Nearest Neighbor Classifier for Standardized data is: 0.894736842105
             precision    recall  f1-score   support

     setosa       1.00      1.00      1.00         8
 versicolor       0.73      1.00      0.85        11
  virginica       1.00      0.79      0.88        19

avg / total       0.92      0.89      0.90        38



结果是不标准化的结果反而更好QAQ！！！（对38个测试数据）

K近邻的优点：


K近邻不需要参数训练过程，是无参数模型Nonparametric Model中的一种简单模型。


K近邻的缺点：


K近邻的决策方式使得计算复杂度高，内存消耗也高，因为在决策时它会便利训练样本。这导致了平方级别的复杂度。