# Nearest neighbors 
Thuật toán áp dụng cho supervised and unsupervised. Trong supervised, NN áp dụng trong cả Classification (class chính) hoặc Regression (average target value) trên các điểm tương đồng hoặc gần giống nhau

- feature phải được convert sang dạng numeric và chuẩn hoá scaling, multicollinearity không ảnh hưởng gì đến thuật toán.
- Đo sự tương đồng/khoảng cách: euclidean (popular), manhattan,...
- Giá trị k phù hợp: gridsearch đề tìm k phù hợp
    - Nều k low: overfitting
    - Nếu k high: giảm tác động của các neighbours gần nhất

Sử dụng KNN để hỗ trợ các loại pp phân lớp khác, kết quả của KNN được sử dụng như 1 feature mới tạo ra, hoặc sử dụng ensemble với pp khác

## Finding NN (unsupervised)

In [123]:
from sklearn.neighbors import NearestNeighbors

nbrs = NearestNeighbors(    
    n_neighbors=5,  # số lượng neighbors gần nhất muốn sử dụng để đánh giá
    radius=1.0,     # bán kính cho việc tìm kiếm neighbours
    algorithm='auto', # thuật toán xác định nearest neighbours {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, default=’auto’
    leaf_size=30, # kích thước leaf trong thuật toán ‘ball_tree’, ‘kd_tree’
    metric='minkowski', # metrics đo khoảng cách
    p=2, # với metric='minkowski' thì p=1 là khoảng cách L1, p=2 là khoảng cách L2 (euclidean)
    metric_params=None, #  Additional keyword arguments for the metric function
    n_jobs=None,
)

nbrs.fit(X_train)
distances, indices = nbrs.kneighbors(X_train)
indices[:3] # 5 NN index của 3 obs đầu tiên

array([[   0,  696,  729,  445, 1112],
       [   1, 1378,  450, 1316,  892],
       [   2, 1154,  655,  988, 1381]])

## KNN classification
Tìm majority class trong số k-nn của new record

In [1]:
from sklearn.neighbors import KNeighborsClassifier

knnc = KNeighborsClassifier(
    n_neighbors=5,
    weights='uniform', # set tỷ trọng cho các neighbours {‘uniform’, ‘distance’}
    algorithm='auto', # thuật toán xác định nearest neighbours {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, default=’auto’
    leaf_size=30, # kích thước leaf trong thuật toán ‘ball_tree’, ‘kd_tree’
    p=2, # với metric='minkowski' thì p=1 là khoảng cách L1, p=2 là khoảng cách L2 (euclidean)
    metric='minkowski', # metrics đo khoảng cách
    metric_params=None,  #  Additional keyword arguments for the metric function
    n_jobs=None,
)

## KNN classification
Tìm giá trị trung bình Y trong số k-nn của new record

In [1]:
from sklearn.neighbors import KNeighborsRegressor

knnr = KNeighborsRegressor(
    n_neighbors=5,
    weights='uniform', # set tỷ trọng cho các neighbours {‘uniform’, ‘distance’}
    algorithm='auto', # thuật toán xác định nearest neighbours {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, default=’auto’
    leaf_size=30, # kích thước leaf trong thuật toán ‘ball_tree’, ‘kd_tree’
    p=2, # với metric='minkowski' thì p=1 là khoảng cách L1, p=2 là khoảng cách L2 (euclidean)
    metric='minkowski', # metrics đo khoảng cách
    metric_params=None,  #  Additional keyword arguments for the metric function
    n_jobs=None,
)