## KNN
概念
- KNN 是透過捕捉最近的k的資料點作為預測參考的模型，其隱含了捕捉局部資訊的能力，但這常常是被人忽略的部分。除了作為一個直覺、簡單的模型本身之外，也可以當作一個特徵工程的工具。
- 背後隱含的概念也可以用物以類聚的概念去思考，會聚在一起(距離近)的人，通常在某個層面上是有很相似的地方(局部資訊)，可以被視為一個具有資訊價值的特徵。

步驟
1. 在資料集上運行KNN，替每一個資料點產生一個分類或者是分類機率，
2. 將上述結果作為新的特徵，加入到資料點中，再去運行其他模型。

其他注意
- 這樣會使得原始資料被用來訓練2次(1次KNN、1次其他模型)

In [1]:
import sklearn
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score

import warnings
warnings.filterwarnings("ignore")

In [2]:
# 取得資料並且前處理(標準化)
from sklearn import datasets

data = datasets.load_iris()
X = data['data']
y = data['target']

In [9]:
# 先計算沒有特徵工程的LR
lr = LogisticRegression()

scores_without = cross_val_score(lr, X, y, cv=10, scoring='f1_macro')
print(scores_without)

[1.         0.93265993 1.         1.         0.93265993 0.93265993
 0.93265993 1.         1.         1.        ]


In [5]:
# 自動化新增特徵

knn = KNeighborsClassifier()
knn.fit(X, y)

x_local_opinion = knn.predict(X).reshape(-1, 1)
X_new = np.concatenate((X, x_local_opinion), axis=1)

In [6]:
X_new.shape

(150, 5)

In [10]:
knn_params = {
    'n_neighbors': 7,
    'weights': 'distance'
}

def add_feature_by_knn(X, y, knn_params):
    knn = KNeighborsClassifier(**knn_params)
    knn.fit(X, y)
    X_add = knn.predict(X).reshape(-1, 1)
    X_new = np.concatenate((X, X_add), axis=1)
    return X_new

X_new = add_feature_by_knn(X, y, knn_params)
# 計算有特徵工程的LR
lr = LogisticRegression()

scores = cross_val_score(lr, X_new, y, cv=10, scoring='f1_macro')
print(scores)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


In [11]:
# 相依樣本t檢定

from scipy.stats import ttest_rel

ttest_rel(scores, scores_without, nan_policy='propagate', alternative='greater')

Ttest_relResult(statistic=2.449489742783178, pvalue=0.018393748939893064)

> 雖然這是一個比較簡略的例子，但可以看出效果是有所提升的，不失為一個在不清楚domain-knowhow時的一個自動化特徵工程方法