# k-nearest neighbors

# Q1. k-nearest neightbors を用いたクラス分類について調べ、<br>そのアルゴリズムについて説明せよ。

# A1. 

## k-nearest neightborsとは

- n次元空間に存在するデータを使い新しいデータにラベル名をつける教師あり学習である。  
- n次元空間に存在するデータはラベル(データ名)と位置情報を元に領域が分かれている。  
- n次元空間に新しくラベルを持たないデータを入れた時、  
  新しいデータから最も近いk個のデータを見つけ、多数決により新しいデータのラベル名を決める。  
  
以上が、  
k-nearest neightborsを用いたクラス分類である。  

引用：https://ja.wikipedia.org/wiki/K%E8%BF%91%E5%82%8D%E6%B3%95

<img src="images/k-nn.png">


# k-nearest neightborsのアルゴリズムについて

k-nearest neightborsを解く為に必要な手順は以下。    
**1. 新しく入るデータと既存データとの距離の測り方**  
**2. 新しいデータが所属するグループを決める方法**  
**3. k個のデータ数を決める方法**  

1,2,3を解決することでk-nearest neightborsの問題を解くことができる。

## 1. 新しく入るデータと既存データとの距離の測り方

距離の測り方の一つにユーグリット距離がある。  
**ユーグリット距離とは**次元空間において二点間を最短距離で線形に測る方法。  
以下の図にある様に**二次元**の場合の距離の測り方は  
<img src="images/euclidean_1.png">

n次元になると以下の様にして求めることができる。
<img src="images/euclidean_2.png">

<img src="images/euclidean.png">

引用：https://ja.wikipedia.org/wiki/%E3%83%A6%E3%83%BC%E3%82%AF%E3%83%AA%E3%83%83%E3%83%89%E8%B7%9D%E9%9B%A2

## 2. 新しいデータが付けるラベルを決める方法

- 新しいデータ点を入れた場所からユーグリット距離を測る。  
- 新しいデータ点から最も近いk個のデータが持つラベルの最も多いグループのラベル名を付ける。  
この時、k個の個数だけに依存しており、選ばれたk個それぞれが新しいデータ点からの距離には意味を持たない。

## 3. k個のデータ数を決める方法

- k個の数を決める方法は既存データの数に依存する。  
- 指定する方法のひとつに、既存データ数の平方根をとり求めた数を使う。  
- 何パターンかkの個数を変えて学習させ、検証結果の精度で判断する。  

# Q2. 上述のアルゴリズムを Numpy を用いて実装し、Iris データに適用せよ。

# A2. 

In [14]:
from sklearn.datasets import load_iris
import pandas as pd
import scipy

iris = load_iris()

In [2]:
iris.target  # irisデータセットのラベルを確認

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [3]:
iris.feature_names  # irisデータセットに記載されているデータの名前

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [4]:
# irisデータをdataframeへ(カラム名はデータセットについている花弁とガクの長さと幅)
df = pd.DataFrame(
    iris.data,
    columns = iris.feature_names
)
df["label"] = iris.target  # irisデータセットにあるラベルを列を追加

In [5]:
df = df.sample(frac=1).reset_index(drop=True)  # irisデータをシャッフルし、インデックスを0から順に直す

In [6]:
df.head()  

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,4.4,3.0,1.3,0.2,0
1,7.0,3.2,4.7,1.4,1
2,4.6,3.6,1.0,0.2,0
3,6.4,3.1,5.5,1.8,2
4,4.4,3.2,1.3,0.2,0


In [19]:
df.shape

(150, 5)

In [15]:
dist = scipy.spatial.distance.pdist(df, metric='euclidean')

In [20]:
dist.shape

(11175,)

In [21]:
150*149/2

11175.0

In [111]:
"""全データがそれぞれのデータ対しての距離を出す(150 x 150 種類)"""
square_matrix = scipy.spatial.distance.squareform(scipy.spatial.distance.pdist(df, metric='euclidean'))  # 正方行列取得(対角成分も含まれる)
square_matrix

array([[0.        , 4.5607017 , 0.7       , ..., 2.54754784, 3.39558537,
        0.54772256],
       [4.5607017 , 0.        , 4.69574275, ..., 2.63248932, 1.48660687,
        4.13521463],
       [0.7       , 4.69574275, 0.        , ..., 2.96310648, 3.67423461,
        0.76811457],
       ...,
       [2.54754784, 2.63248932, 2.96310648, ..., 0.        , 1.2       ,
        2.3515952 ],
       [3.39558537, 1.48660687, 3.67423461, ..., 1.2       , 0.        ,
        3.06104557],
       [0.54772256, 4.13521463, 0.76811457, ..., 2.3515952 , 3.06104557,
        0.        ]])

In [122]:
result_df = pd.DataFrame(square_matrix)
# result_df[1:].loc[0].idxmin()
result_df.loc[0].idxmin()

KeyError: 0

In [85]:
distance_T = []
dist_T = dist.T

In [89]:
dist_T[0]

4.560701700396552

In [83]:
result = distance[0].append(distance_T[-1])

AttributeError: 'numpy.ndarray' object has no attribute 'append'

In [13]:
dist_matrix

array([0.        , 2.82842712, 2.82842712])