# Tìm k láng giềng gần nhất** (*k-Nearest Neighbors*)

In [1]:
## Thư viện
import numpy      as np
import pandas     as pd
import warnings
warnings.filterwarnings('ignore')

from numpy.linalg import norm

---
## **Yêu cầu 1:**
*   Tính các khoảng cách từ vector v (hoa mới) đến mỗi dòng (mẫu hoa) trong **iris.csv**
---


In [2]:
## Khởi tạo (tùy ý) v là hoa mới mua rất đẹp, nhưng không biết là loại hoa gì !
##    Phương pháp: tìm những mẫu hoa có các đặc tính gần giống với hoa mới mua nhất
v = np.array([5.2, 3.2, 1.3, 0.1])

In [3]:
## Đọc tập tin iris.csv vào dataframe và tạo ma trận A
df = pd.read_csv('Data/iris.csv')
A  = np.array(df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']])
print(A.shape)

(150, 4)


In [4]:
## Tính khoảng cách (Euclidean) từ v_new đến mỗi dòng của ma trận A (150 mẫu đã thu thập)
A_v       = (A - v) # chuyển từ khái niệm NORM của vector sang KHOẢNG CÁCH giữa 2 điểm
distances = []
for i in range(A_v.shape[0]):
    distances.append(norm(A_v[i, :])) # L2 norm
result = np.array(distances)

result[:5]

array([0.34641016, 0.38729833, 0.50990195, 0.64807407, 0.46904158])

---
## **Yêu cầu 2:**
- Viết hàm Distance(A, v) để tính khoảng cách từ vector v đến ma trận A
- Hàm trả về vector là các khoảng cách (tính theo norm 2)
---

In [5]:
def Distance(A, v):
    A_v = (A - v)
    distances = []
    for i in range(A_v.shape[0]):
        distances.append(norm(A_v[i, :]))
    return np.array(distances)

In [6]:
result = Distance(A, v)
result[:5]

array([0.34641016, 0.38729833, 0.50990195, 0.64807407, 0.46904158])

---
## **Yêu cầu 3: Viết hàm KNN(A, v, k = 3) để tìm k phần tử gần nhất (ngầm định 3)**
- B1: Gọi đến hàm Distance để tính khoảng cách từ vector v đến ma trận A
- B2: Tạo ma trận D có 2 cột: D[index (bắt đầu từ 0), distance]
- B3: Sắp xếp D tăng dần theo khoảng cách và chọn ra k phần tử có khoảng cách nhỏ nhất

##### ==> Hàm trả về 2 arrays: $index$ và $distance$
---

In [7]:
## Hàm tìm k láng giềng gần nhất với v (ngầm định k = 3)
def KNN(A, v, k = 3):
    # Khoảng cách từ v đến ma trận A
    distances = Distance(A, v)

    # Tạo 2 arrays: index và distance
    D1 = np.arange(distances.shape[0]) # index
    D  = np.c_[D1, distances] # Ghép nối theo CỘT để tạo ma trận có 2 cột (numpy.r_ : ghép nối theo DÒNG)
    D  = D[np.argsort(D[:, 1])][:k] # sắp xếp tăng dần theo distance và chọn k phần tử có distance nhỏ nhất
    return (D[:,0], D[:,1]) # trả về 2 array: index, distance

---
## **Yêu cầu 4:**
- Tìm k phần tử gần vector v nhất
- In ra index và distance
- In ra df.iloc[ind] và cho nhận xét
---

In [8]:
## Tìm k láng giềng gần nhất
k = 9 # chọn tùy ý
idx, dist = KNN(A,v,k)

In [9]:
## Index của các láng giềng gần vector v nhất
idx.astype(int)

array([28, 35, 49, 39,  0,  7, 34, 27,  9])

In [10]:
## khoảng cách tương ứng giữa v và các láng giềng gần nhất
dist

array([0.24494897, 0.24494897, 0.26457513, 0.31622777, 0.34641016,
       0.36055513, 0.37416574, 0.37416574, 0.37416574])

In [11]:
## Xem dữ liệu của k láng giềng gần nhất
df.iloc[idx]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
28,5.2,3.4,1.4,0.2,setosa
35,5.0,3.2,1.2,0.2,setosa
49,5.0,3.3,1.4,0.2,setosa
39,5.1,3.4,1.5,0.2,setosa
0,5.1,3.5,1.4,0.2,setosa
7,5.0,3.4,1.5,0.2,setosa
34,4.9,3.1,1.5,0.1,setosa
27,5.2,3.5,1.5,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [12]:
## Nhận xét: với v = [5.2, 3.2, 1.3, 0.1] thì các láng giềng gần nhất thuộc nhóm hóa setosa

In [13]:
## Nếu chọn 3 láng giềng gần nhất (giá trị ngầm định): không cần gởi tham số k
idx, dist = KNN(A, v)
df.iloc[idx]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
28,5.2,3.4,1.4,0.2,setosa
35,5.0,3.2,1.2,0.2,setosa
49,5.0,3.3,1.4,0.2,setosa
