In [1]:
import pandas as pd
import numpy as np
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

# KNN 算法
>本章实现了 KNN 算法，采用了两个实例进行实战：
* 约会对象的分类
* 手写数字识别

>本 Notebook 采用 sklearn 进行实例演示，并没有具体实现 KNN 算法，KNN 算法原理可参见其他文件。

**KNN 算法**
* 优点：精度高、对异常值不敏感、无数据输入假定。
* 缺点：计算复杂度高、空间复杂度高。
* 适用范围：数据型和标称型。

In [3]:
# 读取约会对象数据
df = pd.read_table('data/ch2/datingTestSet.txt', header=None, names=['miles', 'time', 'liters', 'types'])

In [4]:
# 根据三组属性分类约会对象类型
# miles：每年飞行里程
# time：玩游戏所耗时间百分比
# liters：吃冰淇淋公升数
# types：约会对象类型
df.head()

Unnamed: 0,miles,time,liters,types
0,40920,8.326976,0.953952,largeDoses
1,14488,7.153469,1.673904,smallDoses
2,26052,1.441871,0.805124,didntLike
3,75136,13.147394,0.428964,didntLike
4,38344,1.669788,0.134296,didntLike


In [5]:
# 由于三个属性的数字大小不一致，数字越大的属性对距离的计算影响越大
# 采用 sklearn 将三个属性的数据归一化
scaler = preprocessing.MinMaxScaler()
x = scaler.fit_transform(df[['miles', 'time', 'liters']])
#  将约会对象类型的“文本”转化为“数字”
le = preprocessing.LabelEncoder()
y = le.fit_transform(df['types'])

In [6]:
# 将数据分为训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.1)

In [7]:
# 训练 KNN 模型
knn = KNeighborsClassifier()
knn.fit(x_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')

In [9]:
# 预测约会对象类型
y_ = knn.predict(x_test)
le.inverse_transform(y_)

array(['didntLike', 'didntLike', 'smallDoses', 'smallDoses', 'didntLike',
       'largeDoses', 'largeDoses', 'didntLike', 'smallDoses', 'largeDoses',
       'didntLike', 'didntLike', 'largeDoses', 'smallDoses', 'didntLike',
       'smallDoses', 'largeDoses', 'smallDoses', 'didntLike', 'didntLike',
       'smallDoses', 'didntLike', 'didntLike', 'didntLike', 'smallDoses',
       'largeDoses', 'didntLike', 'largeDoses', 'largeDoses', 'didntLike',
       'largeDoses', 'largeDoses', 'largeDoses', 'didntLike', 'largeDoses',
       'didntLike', 'largeDoses', 'smallDoses', 'smallDoses', 'largeDoses',
       'smallDoses', 'didntLike', 'largeDoses', 'didntLike', 'largeDoses',
       'smallDoses', 'didntLike', 'didntLike', 'largeDoses', 'smallDoses',
       'didntLike', 'largeDoses', 'smallDoses', 'didntLike', 'smallDoses',
       'smallDoses', 'largeDoses', 'largeDoses', 'largeDoses',
       'largeDoses', 'smallDoses', 'smallDoses', 'largeDoses', 'didntLike',
       'smallDoses', 'smallDoses', '

In [10]:
# 测试模型精度
knn.score(x_test, y_test)

0.93000000000000005

**手写数字类似，略。**