# k近傍法(k-nearest neighbor)

## k近傍法とは<a name="description"></a>

- 最も単純なアルゴリズムの1つ
- 特徴空間内で距離的に近い教師データに基づいて分類

## 使用例<a name="example"></a>

### データ準備<a name="data"></a>

In [None]:
from sklearn import datasets
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap

# 2つの特徴のみ使用
iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target

cmap = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])

margin = .5
feature1, feature2 = X[:, 0], X[:, 1]
x_min, x_max = feature1.min() - margin, feature1.max() + margin
y_min, y_max = feature2.min() - margin, feature2.max() + margin

plt.figure(figsize=(3, 3))

plt.scatter(feature1, feature2, c=y, cmap=cmap)

plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())

plt.show()

### 学習<a name="training"></a>

In [None]:
from sklearn.neighbors import KNeighborsClassifier

n_neighbors = 15

clf = KNeighborsClassifier(n_neighbors, weights='uniform')
clf.fit(X, y)

### 結果の可視化<a name="visualization"></a>

In [None]:
import numpy as np

plt.figure(figsize=(3, 3))

resolution = 300
xx, yy = np.meshgrid(np.linspace(x_min, x_max, resolution), np.linspace(y_min, y_max, resolution))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)
plt.pcolormesh(xx, yy, Z, cmap=cmap, alpha=.6)

plt.scatter(feature1, feature2, c=y, cmap=cmap)

plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())

plt.show()

## 仕組み<a name="mechanism"></a>

- 分類したいデータから特徴空間内での距離の近いk個の教師データの多数決で分類を決定
- 訓練データからパラメータを学習せず、訓練データを暗記する怠惰学習(lazy learner)の代表例
- 学習にかかるコストはないが、訓練データが増えると特に記憶容量が問題になる
- 特徴が増えるに従って、次元の呪いに陥りやすい