# k-nearest-neighbor

## 必要なライブラリをインポート

In [183]:
#手書き文字のデータセット(mnist)をインポート
from keras.datasets import mnist
import numpy as np
#データプロットのライブラリをインポート
import matplotlib.pyplot as plt
from collections import Counter

##  教師データとテストデータの取得

In [184]:
#テストデータと教師データのデータとindexを取得
(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.astype('float32') / 255.
X_test = X_test.astype('float32') / 255.
X_train = np.reshape(X_train, (len(X_train), 28, 28, 1))  # adapt this if using `channels_first` image data format
X_test = np.reshape(X_test, (len(X_test), 28, 28, 1))  # adapt this if using `channels_first` image data format

##  教師データ、テストデータを(データ数,28,28,1)型から(データ数,784)型に変換

In [185]:
X_train = X_train.reshape(X_train.shape[0],-1)
X_test = X_test.reshape(X_test.shape[0],-1)

print(X_train.shape)
print(X_test.shape)

(60000, 784)
(10000, 784)


## KNN実装の前に... 

### sklearnを用いた実装

In [156]:
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=6)

### 教師データを学習

In [157]:
model.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=6, p=2,
           weights='uniform')

### テストデータの予想

In [182]:
model.predict(X_test[:100])

array([7, 2, 1, 0, 4, 1, 4, 9, 5, 9, 0, 6, 9, 0, 1, 5, 9, 7, 3, 4, 9, 6,
       6, 5, 4, 0, 7, 4, 0, 1, 3, 1, 3, 0, 7, 2, 7, 1, 2, 1, 1, 7, 4, 2,
       3, 5, 1, 2, 4, 4, 6, 3, 5, 5, 6, 0, 4, 1, 9, 5, 7, 8, 9, 3, 7, 4,
       6, 4, 3, 0, 7, 0, 2, 9, 1, 7, 3, 2, 9, 7, 7, 6, 2, 7, 8, 4, 7, 3,
       6, 1, 3, 6, 9, 3, 1, 4, 1, 7, 6, 9], dtype=uint8)

## つまり、データを学習し、テストデータを予想する２工程でKNNを扱えるようになりたい！

## KNNの実装

In [186]:
class KNN(object):
    def __init__(self,k):
        self.k=k
    #教師データの学習
    def fit(self,X_train,y_train):
        self.train_data=X_train
        self.target_data=y_train
    #テストデータの予想
    def predict(self,X_test):
        ret=[]
        for d in X_test:
            #全てのデータに対して距離を計算する
            distance = np.linalg.norm(self.train_data-d,axis=1)
            
            #距離が近い順に配列を並び替える
            sorted_label = self.target_data[np.argsort(distance)]
            
            #距離が近い順にk個調べ多数決をとり、数字を決定する
            pred_y = Counter(sorted_label[:self.k]).most_common()[0][0]
            
            ret.append(pred_y)
        return ret

In [187]:
f=KNN(k=1)

In [188]:
f.fit(X_train[:10000],y_train[:10000])

In [189]:
pred=f.predict(X_test[:100])
print(pred)

[7, 2, 1, 0, 9, 1, 9, 9, 5, 9, 0, 6, 9, 0, 1, 5, 4, 7, 3, 4, 9, 6, 6, 5, 9, 0, 7, 4, 0, 1, 3, 1, 3, 4, 7, 2, 7, 1, 2, 1, 1, 7, 4, 1, 3, 5, 1, 2, 4, 4, 6, 3, 5, 5, 6, 0, 4, 1, 9, 5, 7, 8, 9, 3, 7, 4, 6, 4, 3, 0, 7, 0, 2, 7, 1, 7, 3, 7, 9, 7, 7, 6, 2, 7, 8, 4, 7, 3, 6, 1, 3, 6, 4, 3, 1, 4, 1, 7, 6, 9]


## 精度評価 

||**実際が正例**|**実際が負例**|
|:---------:|:---------:|:---------:|
|**予測が正例**|True Positive (TP)|False Positive (FP)|
|**予測が負例**|False Negative (FN)|True Negative (TN)|

- 正解率 (Accuracy): 全データのうち, 予測が当たったものの割合
    $$ \text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{FP} + \text{FN} + \text{TN}} $$
- 適合率 (Precision): 正と予測したデータのうち, 実際に正であるものの割合
    $$ \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} $$
- 再現率 (Recall): 実際に正であるもののうち, 正であると予測されたものの割合
    $$ \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} $$
- F値 (F-measure): 精度と再現率の調和平均
    $$ \text{F-measure} = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} $$

## 精度評価実装

In [192]:
class evaluation(object):
    def __init__(self,pred,y_test):
        self.pred=pred
        self.y_test=y_test
        self.TP={}
        self.FP={}
        self.FN={}
        self.TN={}
        for i in np.arange(min(self.pred),max(self.pred)+1):
            self.TP.setdefault(i,0)
        for i in np.arange(min(self.pred),max(self.pred)+1):
            self.FP.setdefault(i,0)
        for i in np.arange(min(self.pred),max(self.pred)+1):
            self.FN.setdefault(i,0)
        for i in np.arange(min(self.pred),max(self.pred)+1):
            self.TN.setdefault(i,0)
    #TP,FP,FN,TNの分類
    def classify(self):
        #クラスiについて分類する
        for i in np.arange(min(self.pred),max(self.pred)+1):
            for j in range(len(self.pred)):
                #iであると予想され、かつ正解がiであるものをTPに分類
                if (self.pred[j] == i)and(y_test[j] == i):
                    self.TP[i]+=1
                #iであると予想されたが、正解がiでないものをFPに分類    
                elif (self.pred[j] == i)and(y_test[j] != i):
                    self.FP[i]+=1
                #iであると予想されなかったが、正解はiであるものをFNに分類
                elif (self.pred[j] != i)and(y_test[j] == i):
                    self.FN[i]+=1
                #iであると予想されず、かつ正解もiでないものをTNに分類
                else:
                    self.TN[i]+=1
    #正解率を表示
    def accuracy(self):
        acc={}
        for i in np.arange(min(self.pred),max(self.pred)+1):
            acc[i]=(self.TP[i]+self.TN[i])/(self.TP[i]+self.FP[i]+self.FN[i]+self.TN[i])
        return sorted(acc.items())
    #適合率を表示     
    def precision(self):
        self.prec={}
        for i in np.arange(min(self.pred),max(self.pred)+1):
            self.prec[i]=self.TP[i]/(self.TP[i]+self.FP[i])
        return sorted(self.prec.items())
    #再現率を表示
    def recall(self):
        self.rec={}
        for i in np.arange(min(self.pred),max(self.pred)+1):
            self.rec[i]=self.TP[i]/(self.TP[i]+self.FN[i])
        return sorted(self.rec.items())
    #F値を表示
    def F_measure(self):
        F={}
        for i in np.arange(min(self.pred),max(self.pred)+1):
            F[i]=2*self.prec[i]*self.rec[i]/(self.prec[i]+self.rec[i])
        return sorted(F.items())
    
    

In [193]:
eva=evaluation(pred,y_test)

In [195]:
eva.classify()

In [196]:
eva.accuracy()

[(0, 1.0),
 (1, 0.99),
 (2, 0.98),
 (3, 1.0),
 (4, 0.95),
 (5, 1.0),
 (6, 1.0),
 (7, 0.98),
 (8, 1.0),
 (9, 0.94)]

In [197]:
eva.precision()

[(0, 1.0),
 (1, 0.9333333333333333),
 (2, 1.0),
 (3, 1.0),
 (4, 0.8461538461538461),
 (5, 1.0),
 (6, 1.0),
 (7, 0.8823529411764706),
 (8, 1.0),
 (9, 0.7272727272727273)]

In [198]:
eva.recall()

[(0, 1.0),
 (1, 1.0),
 (2, 0.75),
 (3, 1.0),
 (4, 0.7857142857142857),
 (5, 1.0),
 (6, 1.0),
 (7, 1.0),
 (8, 1.0),
 (9, 0.7272727272727273)]

In [199]:
eva.F_measure()

[(0, 1.0),
 (1, 0.9655172413793104),
 (2, 0.8571428571428571),
 (3, 1.0),
 (4, 0.8148148148148148),
 (5, 1.0),
 (6, 1.0),
 (7, 0.9375),
 (8, 1.0),
 (9, 0.7272727272727273)]

## 参考:sklearnによる精度評価実装

In [206]:
# accuracy
from sklearn.metrics import accuracy_score
accuracy_score(y_test[:100], pred)

0.92

In [207]:
# precision, recall, f-scoreの計算
from sklearn.metrics import precision_recall_fscore_support
precision_recall_fscore_support(y_test[:100], pred)

(array([1.        , 0.93333333, 1.        , 1.        , 0.84615385,
        1.        , 1.        , 0.88235294, 1.        , 0.72727273]),
 array([1.        , 1.        , 0.75      , 1.        , 0.78571429,
        1.        , 1.        , 1.        , 1.        , 0.72727273]),
 array([1.        , 0.96551724, 0.85714286, 1.        , 0.81481481,
        1.        , 1.        , 0.9375    , 1.        , 0.72727273]),
 array([ 8, 14,  8, 11, 14,  7, 10, 15,  2, 11]))