## KNN 如何对手写数字进行识别？

In [5]:
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.datasets import load_digits
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier

# 加载数据
digits = load_digits()
data = digits.data

# 数据探索
print(data.shape)
# 查看第一幅图像
print(digits.images[0])
# 第一幅图像代表的数字含义
print(digits.target[0])
# 将第一幅图像显示出来
plt.gray()
plt.imshow(digits.images[0])
plt.show()

(1797, 64)
[[ 0.  0.  5. 13.  9.  1.  0.  0.]
 [ 0.  0. 13. 15. 10. 15.  5.  0.]
 [ 0.  3. 15.  2.  0. 11.  8.  0.]
 [ 0.  4. 12.  0.  0.  8.  8.  0.]
 [ 0.  5.  8.  0.  0.  9.  8.  0.]
 [ 0.  4. 11.  0.  1. 12.  7.  0.]
 [ 0.  2. 14.  5. 10. 12.  0.  0.]
 [ 0.  0.  6. 13. 10.  0.  0.  0.]]
0


<Figure size 640x480 with 1 Axes>

分割数据，将 25% 的数据作为测试集，其余作为训练集

In [6]:
train_x,test_x,train_y,test_y=train_test_split(data,digits.target,test_size=0.25,random_state=33)

采用 Z-Score 规范化

In [7]:
ss = preprocessing.StandardScaler()
train_ss_x=ss.fit_transform(train_x)
test_ss_x=ss.transform(test_x)

创建 KNN 分类器               
 KNeighborsClassifier(n_neighbirs = 5,weights='uniform',algorithm='auto',leaf_size=30)
 1. n_neighbors： 即 KNN 中的 K 值
 2. weights : 是用来确定邻居的权重，有三种方式：
     * weights = unifrom，代表所有邻居的权重相同；
     * weights = distance，代表权重是距离的倒数，即与距离成反比；
     * 自定义函数
 3. algorithm：用来规定计算邻居的方法，有四种方式：
     * algorithm = auto，根据数据情况，自动选择合适的算法，默认为 auto。
     * algorithm = kd_tree，KD树，是多维空间的数据结构。
     * algorithm = ball_tree，球树，不同于 KD 树，球树更适用于维度大的情况。
 4. leaf_size：代表构造 KD 数或者球树的叶子数，默认30。

In [8]:
knn = KNeighborsClassifier()
knn.fit(train_ss_x,train_y)
predict_y=knn.predict(test_ss_x)
print("KNN 准确率：{:.4f}".format(accuracy_score(predict_y,test_y)))

KNN 准确率：0.9756


创建 SVM 分类器

In [9]:
svm = SVC()
svm.fit(train_ss_x,train_y)
predict_y=svm.predict(test_ss_x)
print("SVM 准确率：{:.4f}".format(accuracy_score(predict_y,test_y)))

SVM 准确率：0.9867


采用 Min-Max 规范化

In [10]:
mm =preprocessing.MinMaxScaler()
train_mm_x=mm.fit_transform(train_x)
test_mm_x=mm.transform(test_x)

创建 Naive Bayes 分类器

In [11]:
mnb=MultinomialNB()
mnb.fit(train_mm_x,train_y)
predict_y=mnb.predict(test_mm_x)
print("多项式朴素贝叶斯准确率：{:.4f}".format(accuracy_score(predict_y,test_y)))

多项式朴素贝叶斯准确率：0.8844


创建 CART 决策树分类器

In [12]:

dtc = DecisionTreeClassifier()
dtc.fit(train_mm_x,train_y)
predict_y=dtc.predict(test_mm_x)
print("CART 决策树准确率：{:.4f}".format(accuracy_score(predict_y,test_y)))

CART 决策树准确率：0.8578
