# Writing a KNN Classifier

### 目标
实现一个K近邻（k-Nearest Neighbour）分类器

在Ch04的基础上进行，我们在Ch04中使用了KNeighborsClassifier()作为分类器，现在我们要实现这个分类器

### K Nearest Neighbour
![knn.png](https://i.loli.net/2018/02/26/5a9373e9d852d.png)
- 对于一个测试点，看它最近的邻居属于那个类别
- 考虑最近邻居的时候，我们可以综合考虑与这个点距离最近的K个点，看它们中有多少输入类别A，多少属于类别B（本算法中K取1）
- 距离：两点间的直线距离（欧氏距离，Euclidean Distance）

    ![eucl_dist.png](https://i.loli.net/2018/02/26/5a9374270754f.png)

- 即考虑各个feature之间差异的平方和（在这里不考虑各feature的权重）

### 实现
ScrappyKNN：最简单的一个K近邻分类器

- 接口：

 - fit：用于训练，将训练集的feature和label作为输入
 
 - predict: prediction，将测试集的feature作为输入，输出预测的label
 
- Random Classifier

    随机挑一个label作为预测输出，由于我们是在三种花的结果中随机挑取一种花作为结果，所以结果大概在33%

KNN:

- 本算法中，设置K=1，也就是我们只考虑最近的那个点属于那个类别

- 用scipy.spatial.distance来计算距离

- 返回测试点最近邻的label

结论：

- 准确率：90%以上（这里也可能看出feature选得好的重要性）

- 优点：非常简单，易于理解

- 缺点：耗时（需要遍历所有训练点）；很难表示特征之间的关系

计算a,b两点的欧氏距离

In [1]:
import random
from scipy.spatial import distance

def euc(a, b):
    return distance.euclidean(a, b)

ScrappyKNN函数（最近邻分类器）

In [2]:
class ScrappyKNN():
    def __init__(self):
        pass

    def fit(self, X_train, y_train):
        self.X_train = X_train
        self.y_train = y_train

    def predict(self, X_test):
        predictions = []
        for row in X_test:
            # randomly choose a label in all labels
            # label = random.choice(self.y_train)
            label = self.closest(row)
            predictions.append(label)
        return predictions

    def closest(self, row):
        best_dist = euc(row, self.X_train[0])
        best_index = 0
        for i in range(1, len(self.X_train)):
            dist = euc(row, self.X_train[i])
            if dist < best_dist:
                best_dist = dist
                best_index = i
        return self.y_train[best_index]

获取数据集

In [3]:
from sklearn import datasets
iris = datasets.load_iris()

创建特征X和标签Y，将X、Y看做一个函数f(x)=y，x是输入，y是输出

In [4]:
X = iris.data
y = iris.target

分离训练数据和测试数据，各占原数据集的一半

*PS.*`sklearn.cross_validation`模块在0.18版本中被弃用，支持所有重构的类和函数都被移动到`sklearn.model_selection`模块。

In [5]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.5)

建立KNN分类器

In [6]:
my_classifier = ScrappyKNN()

对分类器进行训练

In [7]:
my_classifier.fit(X_train, y_train)

对分类器调用预测方法，并用它来分类测试数据

In [8]:
predictions = my_classifier.predict(X_test)

计算分类器的准确性

In [9]:
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, predictions))

0.9733333333333334
