# k-nearest neighbors

# Q1. k-nearest neightbors を用いたクラス分類について調べ、<br>そのアルゴリズムについて説明せよ。

# A1. 

## k-nearest neightborsとは

- n次元空間に存在するデータを使い新しいデータにラベル名をつける教師あり学習である。  
- n次元空間に存在するデータはラベル(データ名)と位置情報を元に領域が分かれている。  
- n次元空間に新しくラベルを持たないデータを入れた時、  
  新しいデータから最も近いk個のデータを見つけ、多数決により新しいデータのラベル名を決める。  
  
以上が、  
k-nearest neightborsを用いたクラス分類である。  

引用：https://ja.wikipedia.org/wiki/K%E8%BF%91%E5%82%8D%E6%B3%95

<img src="images/k-nn.png">


# k-nearest neightborsのアルゴリズムについて

k-nearest neightborsを解く為に必要な手順は以下。    
**1. 新しく入るデータと既存データとの距離の測り方**  
**2. 新しいデータが所属するグループを決める方法**  
**3. k個のデータ数を決める方法**  

1,2,3を解決することでk-nearest neightborsの問題を解くことができる。

## 1. 新しく入るデータと既存データとの距離の測り方

距離の測り方の一つにユーグリット距離がある。  
**ユーグリット距離とは**次元空間において二点間を最短距離で線形に測る方法。  
以下の図にある様に**二次元**の場合の距離の測り方は  
<img src="images/euclidean_1.png">

n次元になると以下の様にして求めることができる。
<img src="images/euclidean_2.png">

<img src="images/euclidean.png">

引用：https://ja.wikipedia.org/wiki/%E3%83%A6%E3%83%BC%E3%82%AF%E3%83%AA%E3%83%83%E3%83%89%E8%B7%9D%E9%9B%A2

## 2. 新しいデータが付けるラベルを決める方法

- 新しいデータ点を入れた場所からユーグリット距離を測る。  
- 新しいデータ点から最も近いk個のデータが持つラベルの最も多いグループのラベル名を付ける。  
この時、k個の個数だけに依存しており、選ばれたk個それぞれが新しいデータ点からの距離には意味を持たない。

## 3. k個のデータ数を決める方法

- k個の数を決める方法は既存データの数に依存する。  
- 指定する方法のひとつに、既存データ数の平方根をとり求めた数を使う。  
- 何パターンかkの個数を変えて学習させ、検証結果の精度で判断する。  

# Q2. 上述のアルゴリズムを Numpy を用いて実装し、Iris データに適用せよ。

# A2. 

In [1]:
from sklearn.datasets import load_iris
import pandas as pd
import scipy

iris = load_iris()

In [2]:
iris.target  # irisデータセットのラベルを確認

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [3]:
iris.feature_names  # irisデータセットに記載されているデータの名前

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [4]:
# irisデータをdataframeへ(カラム名はデータセットについている花弁とガクの長さと幅)
df = pd.DataFrame(
    iris.data,
    columns = iris.feature_names
)
df["label"] = iris.target  # irisデータセットにあるラベルを列を追加

In [5]:
df = df.sample(frac=1).reset_index(drop=True)  # irisデータをシャッフルし、インデックスを0から順に直す

In [6]:
df.head()  

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.0,3.0,1.6,0.2,0
1,5.4,3.9,1.7,0.4,0
2,5.1,3.8,1.5,0.3,0
3,6.7,3.1,4.7,1.5,1
4,4.9,3.1,1.5,0.1,0


In [7]:
df.shape

(150, 5)

In [8]:
dist = scipy.spatial.distance.pdist(df, metric='euclidean')

In [9]:
dist.shape

(11175,)

In [10]:
150*149/2

11175.0

In [11]:
"""全データがそれぞれのデータ対しての距離を出す(150 x 150 種類)"""
square_matrix = scipy.spatial.distance.squareform(scipy.spatial.distance.pdist(df, metric='euclidean'))  # 正方行列取得(対角成分も含まれる)


In [12]:
for i in range(150):
    label = 'distance_%s' % i
    df[label] = square_matrix[i]

In [13]:
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label,distance_0,distance_1,distance_2,distance_3,distance_4,...,distance_140,distance_141,distance_142,distance_143,distance_144,distance_145,distance_146,distance_147,distance_148,distance_149
0,5.0,3.0,1.6,0.2,0,0.0,1.00995,0.818535,3.898718,0.2,...,2.007486,4.147288,0.640312,0.812404,3.738984,2.5,0.360555,3.069202,4.319722,5.373081
1,5.4,3.9,1.7,0.4,0,1.00995,0.0,0.387298,3.679674,1.00995,...,2.286919,3.916631,0.608276,0.34641,3.611094,2.893095,1.014889,3.088689,4.1833,5.133225
2,5.1,3.8,1.5,0.3,0,0.818535,0.387298,0.0,3.966106,0.754983,...,2.362202,4.210701,0.447214,0.331662,3.874274,2.956349,0.734847,3.278719,4.410215,5.407402
3,6.7,3.1,4.7,1.5,1,3.898718,3.679674,3.966106,0.0,4.054627,...,2.443358,0.282843,3.803945,3.8704,0.374166,2.406242,4.038564,1.28841,1.224745,1.640122
4,4.9,3.1,1.5,0.1,0,0.2,1.00995,0.754983,4.054627,0.0,...,2.156386,4.303487,0.655744,0.787401,3.901282,2.651415,0.264575,3.221801,4.460942,5.521775


In [14]:
label_dict = {}
for j in range(150):
    sort_label = 'distance_%s' % j
    label_dict[sort_label] = df.sort_values(by=sort_label)[1:6]['label']

In [15]:
label_dict['distance_1']  # 自分自身を除く一番近いラベル5個をそれぞれ取得 , 例として'distance_1'を表示

81     0
143    0
126    0
33     0
2      0
Name: label, dtype: int64

In [16]:
from collections import Counter

In [17]:
list(Counter(label_dict['distance_1']))[0]

0

In [27]:
prediction_result = {}
for v in range(150):
    predict_label = 'distance_%s' % v
    prediction_result[v] = list(Counter(label_dict[predict_label]))[0]

In [29]:
prediction_result  # 予測結果をまとめる

{0: 0,
 1: 0,
 2: 0,
 3: 1,
 4: 0,
 5: 2,
 6: 1,
 7: 0,
 8: 1,
 9: 0,
 10: 2,
 11: 2,
 12: 0,
 13: 2,
 14: 1,
 15: 0,
 16: 0,
 17: 2,
 18: 1,
 19: 2,
 20: 1,
 21: 2,
 22: 2,
 23: 1,
 24: 1,
 25: 2,
 26: 2,
 27: 2,
 28: 0,
 29: 1,
 30: 0,
 31: 0,
 32: 1,
 33: 0,
 34: 0,
 35: 1,
 36: 1,
 37: 0,
 38: 2,
 39: 1,
 40: 1,
 41: 2,
 42: 1,
 43: 2,
 44: 0,
 45: 2,
 46: 0,
 47: 0,
 48: 1,
 49: 0,
 50: 2,
 51: 2,
 52: 0,
 53: 1,
 54: 0,
 55: 1,
 56: 1,
 57: 1,
 58: 1,
 59: 0,
 60: 0,
 61: 1,
 62: 1,
 63: 1,
 64: 0,
 65: 2,
 66: 2,
 67: 1,
 68: 0,
 69: 1,
 70: 0,
 71: 1,
 72: 2,
 73: 0,
 74: 2,
 75: 2,
 76: 0,
 77: 1,
 78: 2,
 79: 2,
 80: 1,
 81: 0,
 82: 2,
 83: 0,
 84: 2,
 85: 0,
 86: 0,
 87: 1,
 88: 1,
 89: 2,
 90: 2,
 91: 0,
 92: 2,
 93: 1,
 94: 0,
 95: 2,
 96: 0,
 97: 2,
 98: 1,
 99: 2,
 100: 2,
 101: 2,
 102: 1,
 103: 2,
 104: 0,
 105: 2,
 106: 2,
 107: 2,
 108: 0,
 109: 1,
 110: 1,
 111: 0,
 112: 1,
 113: 1,
 114: 0,
 115: 2,
 116: 1,
 117: 2,
 118: 2,
 119: 2,
 120: 0,
 121: 1,
 122: 1,
 12

In [33]:
for i in df['label']:
    print(i)

0
0
0
1
0
2
1
0
1
0
2
2
0
2
1
0
0
2
1
2
1
2
2
1
1
2
2
2
0
1
0
0
1
0
0
1
1
0
2
1
1
2
1
2
0
2
0
0
1
0
2
2
0
1
0
1
1
1
1
0
0
1
1
1
0
2
2
1
0
1
0
1
2
0
2
2
0
1
2
2
1
0
2
0
2
0
0
1
1
2
2
0
2
1
0
2
0
2
1
2
2
2
1
2
0
2
2
2
0
1
1
0
1
1
0
2
1
2
2
2
0
1
1
1
0
2
0
0
0
2
0
2
1
0
2
1
2
0
1
2
1
1
0
0
1
1
0
1
2
2


In [34]:
comparison_value = 0
for pred, correct in zip(prediction_result.values(), df['label']):
    comparison_value+= abs(pred - correct)
comparison_value   # 比較した結果　間違いはなし！？

0