In [1]:
import re
import glob
import numpy as np
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier as KNN
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

#### 加载文件并处理

##### 读取文件

In [2]:
train_files = glob.glob("./trainingDigits/*.txt")
test_files = glob.glob("./testDigits/*.txt")

##### 提取标签集合

In [3]:
train_lables = [x.split("\\")[1].split("_")[0] for x in train_files]
test_lables = [x.split("\\")[1].split("_")[0] for x in test_files]

##### 提取数据集合

In [4]:
def img2vector(filename): 
    with open(filename) as fr:
        data = fr.read()
    return re.findall('\d', data)

train_contents = []
test_contents = []

for filename in train_files:
    file = img2vector(filename)
    train_contents.append(file)

for filename in test_files:
    file = img2vector(filename)
    test_contents.append(file)

In [5]:
train_df = pd.DataFrame(train_contents)
test_df = pd.DataFrame(test_contents)

#### KNN 算法预测

In [6]:
model = KNN(n_neighbors=5, algorithm='brute', p=2, metric='minkowski')
model.fit(train_df, train_lables)

KNeighborsClassifier(algorithm='brute', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

In [7]:
model.predict(test_df)

array(['0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '7', '1', '1', '1', '1', '1', '1', '1', '1

In [8]:
model.score(test_df, test_lables)

0.9809725158562368

#### K 折交叉验证寻找最佳 K 值

In [9]:
# 网格搜索寻找最佳参数
parmas = {'n_neighbors': [3, 4, 5, 6, 7, 8, 9], 'p': [1, 2]}
model = KNN(algorithm='brute', metric='minkowski')
grid_search = GridSearchCV(model, parmas, cv=5)

grid_search.fit(train_df, train_lables)

GridSearchCV(cv=5, error_score='raise-deprecating',
             estimator=KNeighborsClassifier(algorithm='brute', leaf_size=30,
                                            metric='minkowski',
                                            metric_params=None, n_jobs=None,
                                            n_neighbors=5, p=2,
                                            weights='uniform'),
             iid='warn', n_jobs=None,
             param_grid={'n_neighbors': [3, 4, 5, 6, 7, 8, 9], 'p': [1, 2]},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring=None, verbose=0)

In [10]:
# 查看最佳参数
best_params = grid_search.best_params_
best_params

{'n_neighbors': 4, 'p': 1}

In [11]:
best_score = grid_search.best_score_
best_score

0.9586349534643226

In [12]:
knn_model = KNN(algorithm='brute', metric='minkowski', **best_params)
knn_model.fit(train_df, train_lables)

KNeighborsClassifier(algorithm='brute', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=4, p=1,
                     weights='uniform')

In [13]:
knn_model.predict(test_df)

array(['0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1

In [14]:
knn_model.score(test_df, test_lables)

0.9830866807610994

#### 贝叶斯手写数字识别

In [15]:
from sklearn import naive_bayes as bayes

In [21]:
# 因为都是 0，1 这样的特征，所以使用伯努利朴素贝叶斯
model = bayes.BernoulliNB(alpha=1, binarize=None) 
model.fit(train_df, train_lables)

BernoulliNB(alpha=1, binarize=None, class_prior=None, fit_prior=True)

In [22]:
model.predict(test_df)

array(['0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0',
       '0', '0', '0', '0', '0', '0', '0', '0', '0', '1', '1', '1', '1',
       '1', '1', '1', '1', '9', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '9', '1', '1', '1', '2', '2', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1',
       '1', '1', '1', '1', '1', '1', '1', '9', '1', '1', '1', '1', '1',
       '8', '1', '1', '7', '1', '1', '1', '1', '1', '1', '1', '1

In [23]:
model.score(test_df, test_lables)

0.9312896405919662

#### 对比朴素贝叶斯和 KNN 在手写数字识别的效果

In [None]:
# 相对来说，KNN 的效果比较好 
"""
1. 可能是因为大家写的数字的形状都差不多，所以 KNN 效果比较好
2. 朴素贝叶斯可能会对数字的位置的要求更高一些，差不多都在相近位置（中间，偏左等）的时候，效果可能会好一些
"""