In [None]:
import sklearn
from sklearn.neighbors import KNeighborsClassifier
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np

### Phần 1: Tạo đặc trưng

**Câu 1:** Cho một danh sách các văn bản và nhãn tương ứng như sau:

|       Các văn bản       | Nhãn |
|:-----------------------:|------|
| a very good movie       | 1    |
| this movie is excellent | 1    |
| very good and excellent | 1    |
| the movie is bad        | 0    |
| poor and boring plot    | 0    |
| bad and boring movie    | 0    |

Sau khi bỏ qua Stopword thì sẽ tạo được bộ từ điển có bao nhiêu từ?
- A. 13 từ
- B. 12 từ
- C. 11 từ
- D. 10 từ

**Đáp án đúng: B**

In [None]:
# 1. Tạo tập dữ liệu văn bản
vectorizer = CountVectorizer()
corpus = ["a very good movie",
          "this movie is excellent",
          "very good and excellent",
          "the movie is bad",
          "poor and boring plot",
          "very boring and bad plot"]

# 2. Biến đổi văn bản thành dạng ma trận tần suất từ
X = vectorizer.fit_transform(corpus)

# 3. Tạo nhãn dữ liệu
y_data = np.array([1, 1, 1, 0, 0, 0])

In [None]:
print(vectorizer.get_feature_names_out())
print("Số từ trong từ điển = số feature =", len(vectorizer.get_feature_names_out()))


['and' 'bad' 'boring' 'excellent' 'good' 'is' 'movie' 'plot' 'poor' 'the'
 'this' 'very']
Số từ trong từ điển = số feature = 12


In [None]:
X = X.toarray()
print(X)
print(y_data)

[[0 0 0 0 1 0 1 0 0 0 0 1]
 [0 0 0 1 0 1 1 0 0 0 1 0]
 [1 0 0 1 1 0 0 0 0 0 0 1]
 [0 1 0 0 0 1 1 0 0 1 0 0]
 [1 0 1 0 0 0 0 1 1 0 0 0]
 [1 1 1 0 0 0 0 1 0 0 0 1]]
[1 1 1 0 0 0]


**Câu 2:** Biết bộ từ điển được sắp xếp theo thứ tự như sau:

| and | bad | boring | excellent | good | is | movie | plot | poor | the | this | very |
|:---:|-----|:------:|-----------|------|----|-------|------|------|-----|------|------|

Vector đặc trưng khi nhận đầu vào là "movie is very bad" là?
- A. [0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0]
- B. [0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1]
- C. [0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1]
- D. [0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1]

**Đáp án đúng: D**

In [None]:
# 4. Dữ liệu thử nghiệm
x_test = vectorizer.transform(['movie is very bad']).toarray()
x_test

array([[0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1]])

### Phần 2: Tính khoảng cách


**Câu 3:** Hãy tính khoảng cách Euclid giữa câu thử nghiệm "**movie is very bad**" (bạn vừa thực hiện ở câu trước) và câu "**this movie is excellent**" trong tập văn bản đã được biến đổi thành ma trận đặc trưng. Khoảng cách Euclid giữa hai câu này bằng?
- A. 1.73
- B. 2.0
- C. 2.45
- D. 1.41

**Đáp án đúng: B**

["a very good movie",
          "this movie is excellent",
          "very good and excellent",
          "the movie is bad",
          "poor and boring plot", "poor and bad movie"]

In [None]:
# 5. Tính khoảng cách Euclid
distances = np.sqrt(((X - x_test)**2).sum(axis=1))
print(distances)

[1.73205081 2.         2.44948974 1.41421356 2.82842712 2.23606798]


**Câu 4:** Top 3 câu có khoảng cách gần nhất với câu thử nghiệm là?

- A. "a very good movie", "this movie is excellent", "very good and excellent"
- B. "poor and bad movie", "poor and boring plot", "bad and boring movie"
- C. "this movie is excellent", "a very good movie", "the movie is bad"
- D. "poor and boring plot", "the movie is bad", "poor and bad movie"

**Đáp án đúng: C**
- A. 1.73, 2.0, 2.45 (loại)
- B. 2.23 (loại)
- C. 2.0, 1.73, 1.41 (đáp án)
- D. 2.82 (loại)

In [None]:
# 6. Sắp xếp theo thứ tự giảm dần và lấy top 3
top_k = np.argsort(distances)
print(top_k)

k = 3
top_k = top_k[:k]
print(top_k)

[3 0 1 5 2 4]
[3 0 1]


In [None]:
for k in top_k:
  print(corpus[k])

the movie is bad
a very good movie
this movie is excellent


### Phần 3: Xây dựng và sử dụng mô hình KNN


**Câu 5:** Nếu sử dụng KNN với k = 5, với đầu vào là "movie is very bad" thì KNN sẽ cho kết quả là?

- A. 1
- B. 0
- C. 1.41
- D. 3

**Đáp án: A**

In [None]:
from sklearn.neighbors import KNeighborsClassifier

# 7. Khởi tạo mô hình KNN với k = 5
classifier = KNeighborsClassifier(n_neighbors=5)

# 8. Huấn luyện mô hình
classifier.fit(X, y_data)

# 9. Dự đoán nhãn cho dữ liệu thử nghiệm
y_pred = classifier.predict(x_test)
print(f"Predicted label: {y_pred}")

neibors = classifier.kneighbors(x_test, n_neighbors=6, return_distance=True)
print("Khoảng cách tới x_test:", neibors[0])
print("Index các câu sau khi sắp xếp theo thứ tự giảm dần:", neibors[1])

Predicted label: [1]
Khoảng cách tới x_test: [[1.41421356 1.73205081 2.         2.23606798 2.44948974 2.82842712]]
Index các câu sau khi sắp xếp theo thứ tự giảm dần: [[3 0 1 5 2 4]]
