In [105]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_digits
from sklearn.metrics import accuracy_score
from collections import Counter
from sklearn.manifold import TSNE
import seaborn as sns
import warnings
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
warnings.filterwarnings("ignore")
%matplotlib inline

In [7]:
digits = load_digits()

In [8]:
digits

{'data': array([[ 0.,  0.,  5., ...,  0.,  0.,  0.],
        [ 0.,  0.,  0., ..., 10.,  0.,  0.],
        [ 0.,  0.,  0., ..., 16.,  9.,  0.],
        ...,
        [ 0.,  0.,  1., ...,  6.,  0.,  0.],
        [ 0.,  0.,  2., ..., 12.,  0.,  0.],
        [ 0.,  0., 10., ..., 12.,  1.,  0.]]),
 'target': array([0, 1, 2, ..., 8, 9, 8]),
 'frame': None,
 'feature_names': ['pixel_0_0',
  'pixel_0_1',
  'pixel_0_2',
  'pixel_0_3',
  'pixel_0_4',
  'pixel_0_5',
  'pixel_0_6',
  'pixel_0_7',
  'pixel_1_0',
  'pixel_1_1',
  'pixel_1_2',
  'pixel_1_3',
  'pixel_1_4',
  'pixel_1_5',
  'pixel_1_6',
  'pixel_1_7',
  'pixel_2_0',
  'pixel_2_1',
  'pixel_2_2',
  'pixel_2_3',
  'pixel_2_4',
  'pixel_2_5',
  'pixel_2_6',
  'pixel_2_7',
  'pixel_3_0',
  'pixel_3_1',
  'pixel_3_2',
  'pixel_3_3',
  'pixel_3_4',
  'pixel_3_5',
  'pixel_3_6',
  'pixel_3_7',
  'pixel_4_0',
  'pixel_4_1',
  'pixel_4_2',
  'pixel_4_3',
  'pixel_4_4',
  'pixel_4_5',
  'pixel_4_6',
  'pixel_4_7',
  'pixel_5_0',
  'pixel_5_1',
 

In [15]:
X_train, X_test,y_train, y_test = train_test_split(digits.data, digits.target, test_size=0.25)


In [91]:
digits = load_digits()
X = digits.data
y = digits.target
threshold = int(0.75 * len(X))
X_train, X_test = np.split(X, [threshold])
y_train, y_test = np.split(y, [threshold])

In [92]:
X_train.shape

(1347, 64)

In [93]:
y_train.shape

(1347,)

In [94]:
X_test.shape

(450, 64)

In [95]:
def plot_tsne(X_test, y_test, y_prob):
    tsne = TSNE()
    X_embedded = tsne.fit_transform(X_test)
    fig, ax = plt.subplots(1,2)
    sns.scatterplot(X_embedded[:,0], X_embedded[:,1], hue=y_test, ax=ax[0]).set_title('y_test')
    sns.scatterplot(X_embedded[:,0], X_embedded[:,1], hue=y_prob, ax=ax[1]).set_title('y_prob')
    fig.show()

In [96]:
def distance(x):
    arr = np.concatenate((((X_train-x)**2).sum(axis=1).reshape((-1,1)),y_train.reshape((-1,1))),axis=1)
    return arr[arr[:, 0].argsort()][0][1]

In [97]:
vdistance = np.apply_along_axis(distance,-1,X_test)

In [98]:
vdistance


array([3., 7., 3., 3., 4., 6., 6., 6., 4., 9., 1., 5., 0., 9., 6., 2., 8.,
       2., 0., 0., 1., 7., 6., 3., 2., 1., 7., 4., 6., 3., 1., 3., 9., 1.,
       7., 6., 8., 4., 3., 1., 4., 0., 5., 3., 6., 9., 6., 1., 7., 5., 4.,
       4., 7., 2., 8., 2., 2., 5., 7., 9., 5., 4., 8., 8., 4., 9., 0., 8.,
       0., 1., 2., 3., 4., 5., 6., 7., 8., 9., 0., 1., 2., 3., 4., 5., 6.,
       7., 8., 9., 0., 1., 2., 3., 4., 5., 6., 7., 8., 9., 0., 9., 5., 5.,
       6., 5., 0., 9., 8., 9., 8., 4., 1., 7., 7., 3., 5., 1., 0., 0., 2.,
       2., 7., 8., 2., 0., 1., 2., 6., 3., 3., 7., 3., 3., 4., 6., 6., 6.,
       4., 9., 1., 5., 0., 9., 5., 2., 8., 2., 0., 0., 1., 7., 6., 3., 2.,
       1., 7., 4., 6., 3., 1., 3., 9., 1., 7., 6., 8., 4., 3., 1., 4., 0.,
       5., 3., 6., 9., 6., 1., 7., 5., 4., 4., 7., 2., 8., 2., 2., 5., 7.,
       9., 5., 4., 8., 8., 4., 9., 0., 9., 9., 8., 0., 1., 2., 3., 4., 5.,
       6., 7., 1., 9., 0., 1., 2., 3., 4., 5., 6., 9., 0., 1., 2., 3., 4.,
       5., 6., 7., 1., 9.

In [99]:
y_test
    

array([3, 7, 3, 3, 4, 6, 6, 6, 4, 9, 1, 5, 0, 9, 5, 2, 8, 2, 0, 0, 1, 7,
       6, 3, 2, 1, 7, 4, 6, 3, 1, 3, 9, 1, 7, 6, 8, 4, 3, 1, 4, 0, 5, 3,
       6, 9, 6, 1, 7, 5, 4, 4, 7, 2, 8, 2, 2, 5, 7, 9, 5, 4, 8, 8, 4, 9,
       0, 8, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
       0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 9, 5, 5, 6, 5, 0, 9, 8, 9, 8, 4,
       1, 7, 7, 3, 5, 1, 0, 0, 2, 2, 7, 8, 2, 0, 1, 2, 6, 3, 3, 7, 3, 3,
       4, 6, 6, 6, 4, 9, 1, 5, 0, 9, 5, 2, 8, 2, 0, 0, 1, 7, 6, 3, 2, 1,
       7, 4, 6, 3, 1, 3, 9, 1, 7, 6, 8, 4, 3, 1, 4, 0, 5, 3, 6, 9, 6, 1,
       7, 5, 4, 4, 7, 2, 8, 2, 2, 5, 7, 9, 5, 4, 8, 8, 4, 9, 0, 8, 9, 8,
       0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 9, 0, 1, 2, 3,
       4, 5, 6, 7, 8, 9, 0, 9, 5, 5, 6, 5, 0, 9, 8, 9, 8, 4, 1, 7, 7, 3,
       5, 1, 0, 0, 2, 2, 7, 8, 2, 0, 1, 2, 6, 3, 3, 7, 3, 3, 4, 6, 6, 6,
       4, 9, 1, 5, 0, 9, 5, 2, 8, 0, 1, 7, 6, 3, 2, 1, 7, 4, 6, 3, 1, 3,
       9, 1, 7, 6, 8, 4, 3, 1, 4, 0, 5, 3, 6, 9, 6,

In [101]:
1-accuracy_score(y_test,vdistance)

0.0377777777777778

In [106]:
clf = RandomForestClassifier(n_estimators=1000)

In [107]:
clf.fit(X_train,y_train)

In [108]:
1-accuracy_score(y_test,clf.predict(X_test))

0.06888888888888889