Поставлена задача распознования рукописных символов (цифры + английские буквы). Используется The Chars74K dataset.
Рассматривается подможество нарисованных от руки символов, 55 образцов в классе, 62 различных класса, 3410 элементов всего. Изображения изначально были бинарные, 1200x900 пикселей. Каждое изобрражение было отцентрировано, преобразовано в квадрат, в разрешение 64x64 (или в 32x32), а также затем построчно добавлено в CSV файл.
В дальнейшем планируется отцентировать положение символов (изначально символы расположены в разных местах картинки, а также имеют разного размера).

![title](dataset/img003-049.png)
Исходное изображение 1200x900
![title](dataset/img003.png)
Изображение 64х64, неотнормированное и неотцентрированное
![title](dataset/img003-049_i64.png)
Отнормированное и отцентрированное изображение 64х64

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
size = 32
data = pd.read_csv("./dataset/data_i" + str(size) + ".csv", sep = ',', engine = 'python')

In [2]:
X = data.drop(('class'), axis = 1) # выбрасываем столбец 'class'
y = data['class']
feature_names = X.columns

In [3]:
print(X.shape)
print(y.shape)
N, d = X.shape

(3410, 1024)
(3410,)


In [4]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
N_train, _ = X_train.shape 
N_test,  _ = X_test.shape 
print(N_train, N_test)

2728 682


In [5]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors = 1, metric='hamming', n_jobs = 4)
knn.fit(X_train, y_train)

y_train_predict = knn.predict(X_train)
y_test_predict = knn.predict(X_test)

err_train = np.mean(y_train != y_train_predict)
err_test  = np.mean(y_test  != y_test_predict)

print(err_train, err_test)

0.0 0.28152492668621704


In [6]:
knn = KNeighborsClassifier(n_neighbors = 2, metric='hamming', n_jobs = 4)
knn.fit(X_train, y_train)
y_train_predict = knn.predict(X_train)
y_test_predict = knn.predict(X_test)

err_train = np.mean(y_train != y_train_predict)
err_test  = np.mean(y_test  != y_test_predict)

print(err_train, err_test)

0.15065982404692083 0.3152492668621701


In [7]:
knn = KNeighborsClassifier(n_neighbors = 3, metric='hamming', n_jobs = 4)
knn.fit(X_train, y_train)
y_train_predict = knn.predict(X_train)
y_test_predict = knn.predict(X_test)

err_train = np.mean(y_train != y_train_predict)
err_test  = np.mean(y_test  != y_test_predict)

print(err_train, err_test)

0.15139296187683285 0.3064516129032258


In [8]:
knn = KNeighborsClassifier(n_neighbors = 4, metric='hamming', n_jobs = 4)
knn.fit(X_train, y_train)
y_train_predict = knn.predict(X_train)
y_test_predict = knn.predict(X_test)

err_train = np.mean(y_train != y_train_predict)
err_test  = np.mean(y_test  != y_test_predict)

print(err_train, err_test)

0.17192082111436952 0.30058651026392963


In [9]:
knn = KNeighborsClassifier(n_neighbors = 5, metric='hamming', n_jobs = 4)
knn.fit(X_train, y_train)
y_train_predict = knn.predict(X_train)
y_test_predict = knn.predict(X_test)

err_train = np.mean(y_train != y_train_predict)
err_test  = np.mean(y_test  != y_test_predict)

print(err_train, err_test)

0.1814516129032258 0.2932551319648094


In [10]:
knn = KNeighborsClassifier(n_neighbors = 6, metric='hamming', n_jobs = 4)
knn.fit(X_train, y_train)
y_train_predict = knn.predict(X_train)
y_test_predict = knn.predict(X_test)

err_train = np.mean(y_train != y_train_predict)
err_test  = np.mean(y_test  != y_test_predict)

print(err_train, err_test)

0.19611436950146627 0.30058651026392963


In [29]:
knn = KNeighborsClassifier(n_neighbors = 8, metric='hamming', n_jobs = 4)
knn.fit(X_train, y_train)
y_train_predict = knn.predict(X_train)
y_test_predict = knn.predict(X_test)

err_train = np.mean(y_train != y_train_predict)
err_test  = np.mean(y_test  != y_test_predict)

print(err_train, err_test)

0.21444281524926687 0.2859237536656892


In [12]:
knn = KNeighborsClassifier(n_neighbors = 10, metric='hamming', n_jobs = 4)
knn.fit(X_train, y_train)
y_train_predict = knn.predict(X_train)
y_test_predict = knn.predict(X_test)

err_train = np.mean(y_train != y_train_predict)
err_test  = np.mean(y_test  != y_test_predict)

print(err_train, err_test)

0.22947214076246333 0.3035190615835777


In [13]:
knn = KNeighborsClassifier(n_neighbors = 12, metric='hamming', n_jobs = 4)
knn.fit(X_train, y_train)
y_train_predict = knn.predict(X_train)
y_test_predict = knn.predict(X_test)

err_train = np.mean(y_train != y_train_predict)
err_test  = np.mean(y_test  != y_test_predict)

print(err_train, err_test)

0.2313049853372434 0.28885630498533726


In [14]:
knn = KNeighborsClassifier(n_neighbors = 14, metric='hamming', n_jobs = 4)
knn.fit(X_train, y_train)
y_train_predict = knn.predict(X_train)
y_test_predict = knn.predict(X_test)

err_train = np.mean(y_train != y_train_predict)
err_test  = np.mean(y_test  != y_test_predict)

print(err_train, err_test)

0.24083577712609971 0.2991202346041056


In [15]:
knn = KNeighborsClassifier(n_neighbors = 18, metric='hamming', n_jobs = 4)
knn.fit(X_train, y_train)
y_train_predict = knn.predict(X_train)
y_test_predict = knn.predict(X_test)

err_train = np.mean(y_train != y_train_predict)
err_test  = np.mean(y_test  != y_test_predict)

print(err_train, err_test)

0.2587976539589443 0.3093841642228739


Лучшая ошибка на тестовой выборке получилась 0.271 в случае 1 соседа. Вторая величина ошибки получилась 0.28 при числе соседей 10 (0.225 на обучающей выборке). Для классификации 62 классв, для начала такое значение сойдет. Тем более, что в dataset присутсвуют очень похожие классы - g-9, 1-i-l, o-O-0, некоторые заглавные и прописные буквы.
Значения предсказаний:

In [16]:
res_test = pd.concat((pd.Series(np.array(y_test)), pd.Series(y_test_predict)), axis = 1)
res_test

Unnamed: 0,0,1
0,v,v
1,W,W
2,3,3
3,C,C
4,o,0
5,t,t
6,W,w
7,Q,O
8,f,f
9,Q,0


Запустим PCA для тренировочных данных, с числом главных компонент = 2:

In [42]:
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
pca.fit(X_train)

PCA(copy=True, iterated_power='auto', n_components=2, random_state=None,
    svd_solver='auto', tol=0.0, whiten=False)

In [43]:
print(pca.components_)
print(pca.explained_variance_)
print(pca.singular_values_)

[[-5.26376980e-20  2.23828345e-04  8.30658741e-04 ...  2.33656561e-03
   3.78179010e-04 -8.15432067e-05]
 [-8.11734455e-19  4.96753791e-04  1.99645002e-03 ...  2.25748338e-03
   4.31111576e-04 -8.77809531e-05]]
[20.49926831 13.5135574 ]
[236.43499041 191.96736972]


Преобразуем тренировочные и тестовые данные в соотвествии с новым базисом и запустим knn

In [44]:
X_train_pca = pca.transform(X_train)
X_test_pca = pca.transform(X_test)
knn = KNeighborsClassifier(n_neighbors = 10, n_jobs = 4)
knn.fit(X_train_pca, y_train)
y_train_predict_pca = knn.predict(X_train_pca)
y_test_predict_pca = knn.predict(X_test_pca)
err_train_pca = np.mean(y_train != y_train_predict_pca)
err_test_pca  = np.mean(y_test  != y_test_predict_pca)
print(err_train_pca)
print(err_test_pca)

0.7034457478005866
0.8533724340175953


Так как размерность задачи 64*64 признаков, то смысла использовать только 2 признака, т.е. 0.04% от всего количества признаков не имеет.

In [51]:
for n in range(16, min(size*size + 1, X_train.shape[0] + 1), 16):
    pca = PCA(n_components=n)
    print(n)
    pca.fit(X)
    X_train_pca = pca.transform(X_train)
    X_test_pca = pca.transform(X_test)
    knn = KNeighborsClassifier(n_neighbors = 8, n_jobs = 4)
    knn.fit(X_train_pca, y_train)
    y_train_predict_pca = knn.predict(X_train_pca)
    y_test_predict_pca = knn.predict(X_test_pca)
    err_train_pca = np.mean(y_train != y_train_predict_pca)
    err_test_pca  = np.mean(y_test  != y_test_predict_pca)
    print(err_train_pca)
    print(err_test_pca)

16
0.20491202346041057
0.2859237536656892
32
0.19318181818181818
0.2653958944281525
48
0.19538123167155425
0.25806451612903225
64
0.19208211143695014
0.2653958944281525
80
0.19611436950146627
0.2668621700879765
96
0.2005131964809384
0.2624633431085044
112
0.1975806451612903
0.2653958944281525
128
0.19978005865102638
0.2668621700879765
144
0.20381231671554254
0.2653958944281525
160
0.20491202346041057
0.27126099706744866
176
0.20491202346041057
0.2727272727272727
192
0.20711143695014664
0.27712609970674484
208
0.2060117302052786
0.2697947214076246
224
0.20674486803519063
0.27126099706744866
240
0.20417888563049855
0.28005865102639294
256
0.2060117302052786
0.2756598240469208
272
0.20491202346041057
0.28152492668621704
288
0.20857771260997068
0.28152492668621704
304
0.2060117302052786
0.2844574780058651
320
0.20747800586510265
0.2859237536656892
336
0.20491202346041057
0.2844574780058651
352
0.2060117302052786
0.28885630498533726
368
0.20527859237536658
0.2859237536656892
384
0.205278592