In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets, neighbors

**Iris flower dataset** là một bộ dữ liệu nhỏ (nhỏ hơn rất nhiều so với MNIST. Bộ dữ liệu này bao gồm thông tin của ba loại hoa Iris (một loài hoa lan) khác nhau: Iris setosa, Iris virginica và Iris versicolor. Mỗi loại có 50 bông hoa được đo với dữ liệu là 4 thông tin: **chiều dài, chiều rộng đài hoa (sepal), và chiều dài, chiều rộng cánh hoa (petal)**. Dưới đây là ví dụ về hình ảnh của ba loại hoa. (Chú ý, đây không phải là bộ cơ sở dữ liệu ảnh như MNIST, mỗi điểm dữ liệu trong tập này chỉ là một vector 4 chiều).


In [2]:
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
print('Số lượng nhãn được gán cho các hoa ', len(np.unique(iris_y)))
print(np.unique(iris_y))
print('Số lượng dữ liệu ', len(iris_y))

Số lượng nhãn được gán cho các hoa  3
[0 1 2]
Số lượng dữ liệu  150


In [3]:
X0 = iris_X[iris_y==0, :]
print('Ví dụ về mẫu hoa được gán nhãn 0\n', X0[:5, :])
X1 = iris_X[iris_y==1, :]
print('Ví dụ về mẫu hoa được gán nhãn 1\n', X1[:5, :])
X2 = iris_X[iris_y==2, :]
print('Ví dụ về mẫu hoa được gán nhãn 2\n', X2[:5, :])


Ví dụ về mẫu hoa được gán nhãn 0
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
Ví dụ về mẫu hoa được gán nhãn 1
 [[7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.9 1.5]
 [5.5 2.3 4.  1.3]
 [6.5 2.8 4.6 1.5]]
Ví dụ về mẫu hoa được gán nhãn 2
 [[6.3 3.3 6.  2.5]
 [5.8 2.7 5.1 1.9]
 [7.1 3.  5.9 2.1]
 [6.3 2.9 5.6 1.8]
 [6.5 3.  5.8 2.2]]


In [4]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size=50)
print('Kích thước data train: ', len(X_train))
print('Kích thước data test: ', len(X_test))

Kích thước data train:  100
Kích thước data test:  50


## Chọn 1 điểm

In [5]:
clf = neighbors.KNeighborsClassifier(n_neighbors=1, p=2) # chỉ chọn 1 điểm xung quanh để xét
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print('Kết quả test 20 điểm: ')
print('Dự đoán:  ' , y_pred[20:40])
print('Thực thế: ' , y_test[20:40])
# Đánh giá kết quả
from sklearn.metrics import accuracy_score
print('Accurancy of 1NN: ', accuracy_score(y_test, y_pred))

Kết quả test 20 điểm: 
Dự đoán:   [2 0 2 1 1 0 0 1 2 2 0 0 2 1 1 0 0 2 2 0]
Thực thế:  [2 0 2 1 1 0 0 1 2 2 0 0 2 1 1 0 0 2 2 0]
Accurancy of 1NN:  0.96


  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


`clf = neighbors.KNeighborsClassifier(n_neighbors=, p=)`
Trong đó:
- n_neighbors: là số điểm muốn đã train muốn xét để kết luận điểm mới
- p
    - nếu p = 0 thì dùng khoảng cách Hamming: được tính bằng cách đếm số lượng thành phần khác nhau giữa hai vector đó.
    - nếu p = 1 thì dùng khoảng cách Manhattan
    - nếu p = 2 thì dùng khoảng cách Euclid <br>
- Khoảng cách Euclid:
$$d_{\text{Euclid}}(\boldsymbol{x}_i, \boldsymbol{x}_j) = \sqrt{\sum_{k=1}^{m} (x_{ik} - x_{jk})^2}$$

- Khoảng cách Manhattan:
$$d_{\text{Manhattan}}(\boldsymbol{x}_i, \boldsymbol{x}_j) = \sum_{k=1}^{m} |x_{ik} - x_{jk}|$$

- Khoảng cách Chebyshev:
$$d_{\text{Chebyshev}}(\boldsymbol{x}_i, \boldsymbol{x}_j) = \max_{k=1}^{m} |x_{ik} - x_{jk}|$$
Trong các công thức trên, $\boldsymbol{x}_i$ và $\boldsymbol{x}_j$ là hai điểm dữ liệu cần tính khoảng cách, $m$ là số chiều của vector đặc trưng (số lượng thuộc tính của mỗi điểm dữ liệu), và $x_{ik}$ và $x_{jk}$ lần lượt là giá trị của thuộc tính thứ $k$ của hai điểm dữ liệu $\boldsymbol{x}_i$ và $\boldsymbol{x}_j$.

## Chọn 10 điểm

In [6]:
# chọn 10 điểm
clf = neighbors.KNeighborsClassifier(n_neighbors=10, p=2)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print('Kết quả test 20 điểm: ')
print('Dự đoán  :', y_pred[20:40])
print('Thực tế  :', y_test[20:40])
# Đánh giá
from sklearn.metrics import accuracy_score
print('accuracy of 10NN: ', accuracy_score(y_test, y_pred))

Kết quả test 20 điểm: 
Dự đoán  : [2 0 2 1 1 0 0 1 2 2 0 0 2 1 1 0 0 2 2 0]
Thực tế  : [2 0 2 1 1 0 0 1 2 2 0 0 2 1 1 0 0 2 2 0]
accuracy of 10NN:  0.98


  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


In [13]:
# sử dụng thêm trọng số, điểm nào càng gần thì trọng số càng cao
clf = neighbors.KNeighborsClassifier(n_neighbors=10, p=2, weights="distance") # mặc định là uniform
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print('Kết quả test 20 điểm: ')
print('Dự đoán  :', y_pred[20:40])
print('Thực tế  :', y_test[20:40])
# Đánh giá
from sklearn.metrics import accuracy_score
print('accuracy of 10NN: ', accuracy_score(y_test, y_pred))

Kết quả test 20 điểm: 
Dự đoán  : [2 0 2 1 1 0 0 1 2 2 0 0 2 1 1 0 0 2 2 0]
Thực tế  : [2 0 2 1 1 0 0 1 2 2 0 0 2 1 1 0 0 2 2 0]
accuracy of 10NN:  0.96
