# K-NN(K近傍法)

In [1]:
from sklearn.datasets import load_iris

In [2]:
iris = load_iris()  # irisデータをロード

print(iris.data.shape)  # データの形状
print(iris.target.shape)  # データのクラス(ラベル

(150, 4)
(150,)


In [5]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [6]:
print(iris)

{'data': array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
     

In [12]:
X = iris.data[:, [0, 2]]

In [14]:
y = iris.target

In [17]:
X.shape

(150, 2)

In [18]:
y.shape

(150,)

In [21]:
# データを訓練用と試験用に分割
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1, stratify=y)

In [23]:
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(105, 2)
(45, 2)
(105,)
(45,)


In [27]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()  # irisデータをロード

X = iris.data[:, [0, 2]]  # データの特徴量を2つに制限
y = iris.target  # データのラベル

# データを訓練用と試験用に分割
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=1, stratify=y
)


# モデル定義
class KNN:
    def __init__(self, k):
        self.k = k

    # 訓練はただ訓練データを取り込むだけ
    def train(self, x_train, y_train):
        self._x_train = x_train
        self._y_train = y_train

    # 予測を行うメソッド
    def predict(self, x_test):
        # 距離の配列を取得
        distance = self.calc_dist(x_test)

        # 予測結果を格納する配列
        pred = np.zeros(x_test.shape[0])

        for i in range(x_test.shape[0]):
            # 距離の配列のインデックスを昇順にソート(並び替え)する
            sorted_index = np.argsort(distance[i, :])

            # ラベルの配列も距離の配列のインデックスに合わせて並び替え、上からk個を取り出す
            sorted_labels = self._y_train[sorted_index][: self.k]

            # 取り出したラベルの頻度(個数)をカウント
            u, counts = np.unique(sorted_labels, return_counts=True)

            pred[i] = u[np.argmax(counts)]  # 最も頻度が高かったクラスを予測結果とする

        return pred

    # 距離を計算し、その結果を返すメソッド
    def calc_dist(self, x_test):
        # 距離を格納する配列
        dist = np.zeros([x_test.shape[0], self._x_train.shape[0]])

        for i in range(x_test.shape[0]):
            for j in range(self._x_train.shape[0]):
                # 距離の計算にはユークリッド距離を用いる
                distance = np.sum((x_test[i] - self._x_train[j]) ** 2)

                dist[i][j] = distance

        return dist


# ここから学習

knn = KNN(k=5)  # モデルのインスタンスを生成

# 訓練
knn.train(X_train, y_train)

# 試験データの予測
prediction = knn.predict(X_test)

# 予測の正解率を計算
accuracy = np.sum(y_test.astype(np.int64) == prediction) / len(prediction)  # 一致率を計算
print(accuracy)

[ 25  88  27  38   2  35  74  48  42  79  33  84  81  28  15  29  66  45
  40   5  95   3  20  85  34  99  69  73  13  26  90  75  59  49   9  61
  71  22  96  23   8  93  62  72  57  65  36  92  83  52  78  30  68 101
  18  14  91  70  24  11  56   6  67  51  80  37  32  21  17  10  43  50
  16   1  77  39  54  76 102  82  94  55  63  31  86  53   0  19  46  41
  89  97  64  87 103   7  98  58  12   4 100  60 104  44  47]
[  1  54  76  82  55  94  50  77   0  39  41  86  43  31  53  97 102  89
  87  64  46  58  63  16   7   4  98  19  12 103 100  44  60 104  47  10
  51  17  67  56  24  91  11  18  14 101  68  30  52  83  92  36  65  93
  72  23  96  71  61  22  75  26  13   9  69  34  20  49  40  45  81  33
  29  66  15  79  42  59  99  84  95   2  38  48  27  73  25  88  74  35
   5   3  28  85  90   8  62  57  78  70  80   6  37  32  21]
[103 100  12  98 104  60  19  63  46  44  87  64  58  47   4 102  89  53
  86  31  16  39  77  41  94  55  43  82  76  54   1   0  97  50   7  10
