### K-近鄰演算法(KNN)
1. KNN屬於機器學習中的Supervised learning其中一種算法
2. KNN 的全名 K Nearest Neighbor , 顧名思義就是k個最接近的你"鄰居"
3. 分類的標準是由鄰居"多數表決"決定的
4. KNN可以用作分類或回歸

### KNN演算法
KNN演算法利用k個最近的鄰居，採多數決標準。來判定新的資料是在哪一群
1. 決定k值
2. 求每個鄰居(現有資料)跟自己(新資料)之間的距離
3. 找出跟自己最近的k個鄰居，查看哪一組鄰居數量最多，就加入哪一組

如果還是沒辦法決定在哪一組，回到第一步調整k值，再繼續

### 一定要正規化
我們可以透過資料正規化讓模型更Robust

### 一) 載入套件

In [None]:
import pandas as pd             #進行資料處理函式庫
import numpy as np              #高階大量的維度陣列與矩陣計算
import matplotlib.pyplot as plt #繪圖
import seaborn as sns           #繪圖
import io                       #負責處理資料 input/output
import requests                 #HTTP Request下載訓練資料用

### 二) 載入資料

In [None]:
url = "https://gist.githubusercontent.com/netj/8836201/raw/6f9306ad21398ea43cba4f7d537619d0e07d5ae3/iris.csv"
s = requests.get(url).content
df_train = pd.read_csv(io.StringIO(s.decode("utf-8")))
#df_train = df_train.drop(labels=["sepal.length"],axis=1)    #移除sepal.length  axis= 1為行 0為列
df_train

### 三) 手動編碼

In [None]:
lable_map = {"Setosa":0,"Versicolor":1,"Virginica":2}
#將編碼後的lable map存至df_train["variety"]中。
df_train["Class"] = df_train["variety"].map(lable_map)

lable_map
df_train

### 三) 檢查缺失值

In [None]:
X = df_train.drop(labels=["variety","Class"],axis=1).values #移除 class,variety(因為字母不參與訓練)
#checked missing data
print("checked missing data(NAN mount):",len(np.where(np.isnan(X))[0]))

### 四) 切割測試集與訓練集

In [None]:
from sklearn.model_selection import train_test_split
X = df_train.drop(labels=["Class","variety"],axis=1)
y = df_train["Class"]
X_train , X_test ,y_train , y_test = train_test_split(X,y , test_size = .3 , random_state=42)

In [None]:
print("Training data shape : ",X_train.shape)
print("Testing data shape : ", X_test.shape)

### 建立k-nearest neighbors(KNN)模型
Parameters:
1. n_neighbors : 設定鄰居的數量(k)，選取最近的k個點，預設為5
2. algorithm : 搜尋數演算法{"auto","ball_tree","kd_tree","brute"},可選
3. metric : 計算距離的方式，預設為毆幾里德距離

Attributes:
1. classes_ : 取得類別陣列
2. effective_metric_ : 取得計算距離的公式

Methods : 
1. fit : 放入X、y進行模型擬合
2. predict : 預測並回傳預測類別
3. score : 預測成功的比例

In [None]:
from sklearn.neighbors import KNeighborsClassifier

#建立KNN模型
knnModel = KNeighborsClassifier(n_neighbors=3)
#使用訓練資料訓練模型
knnModel.fit(X_train,y_train)
#使用訓練資料預測分類
predicted = knnModel.predict(X_train)

### 使用Score評估模型

In [None]:
#預測成功的比例
print("訓練集: ", knnModel.score(X_train,y_train))
print("測試集: ", knnModel.score(X_test,y_test))

### 真實分類

In [None]:
# 建立訓練集的 DataFrme
df_train = pd.DataFrame(X_train)
df_train["Class"] = y_train
#建立測試集的 DataFrme
df_test = pd.DataFrame(X_test)
df_test["Class"] = y_test

In [None]:
sns.lmplot("petal.length" , "petal.width" , hue="Class" ,data= df_train,fit_reg=False)

### KNN(訓練集)預測結果

In [None]:
df_train["Predict"]=predicted
sns.lmplot("petal.length" , "petal.width" , data=df_train,hue="Predict",fit_reg=False)