In [None]:
import sklearn
from sklearn.neighbors import KNeighborsClassifier
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
import pandas as pd

# **Text Classification**

### **Mô tả bài toán với dữ liệu text**

Trong phần này, chúng ta sẽ xử lý một tập hợp các câu đánh giá phim và chuyển đổi nó thành định dạng vector bằng `CountVectorizer`. Sự chuyển đổi này rất cần thiết để chuẩn bị dữ liệu văn bản cho các mô hình Machine Learning. Sau đây là quy trình từng bước chuyển đổi:

**Bộ dữ liệu text - corpus**

Chúng ta bắt đầu với một bộ data nhỏ các câu đánh giá phim, mà chúng ta gọi là **corpus**. Corpus chứa 6 câu đánh giá khác nhau:

```python
corpus = ["a very good movie",
          "this movie is excellent",
          "very good and excellent",
          "the movie is bad",
          "poor and boring plot",
          "bad and boring movie"]


|       Các văn bản       | Nhãn |
|:-----------------------:|------|
| a very good movie       | 1    |
| this movie is excellent | 1    |
| very good and excellent | 1    |
| the movie is bad        | 0    |
| poor and boring plot    | 0    |
| bad and boring movie    | 0    |

## Tạo đặc trưng

In [None]:
# 1. Tạo tập dữ liệu văn bản
corpus = ["a very good movie",
          "this movie is excellent",
          "very good and excellent",
          "the movie is bad",
          "poor and boring plot",
          "very boring and bad plot"]

**Vectorization**

Chúng ta sử dụng CountVectorizer để chuyển đổi dữ liệu văn bản thành một ma trận, trong đó mỗi cột tương ứng với một từ trong bộ từ vựng và mỗi hàng đại diện cho một văn bản. Mỗi giá trị trong ma trận thể hiện số lần từ đó xuất hiện trong văn bản tương ứng.

*Ví dụ:* Câu đầu tiên là: "a very good movie" được thể hiện bằng vector `[0 0 0 0 1 0 1 0 0 0 0 1]` tức là đối với câu thứ nhất, có 1 từ ở index 4, 6, 11 trong bộ từ vựng vocab.

In [None]:
# 2. Biến đổi văn bản thành dạng ma trận tần suất từ
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

# 3. Tạo nhãn dữ liệu
y_data = np.array([1, 1, 1, 0, 0, 0])

In [None]:
print(vectorizer.get_feature_names_out())
print("Số từ trong từ điển = số feature =", len(vectorizer.get_feature_names_out()))


['and' 'bad' 'boring' 'excellent' 'good' 'is' 'movie' 'plot' 'poor' 'the'
 'this' 'very']
Số từ trong từ điển = số feature = 12


In [None]:
X = X.toarray()
print(X)
print(y_data)

[[0 0 0 0 1 0 1 0 0 0 0 1]
 [0 0 0 1 0 1 1 0 0 0 1 0]
 [1 0 0 1 1 0 0 0 0 0 0 1]
 [0 1 0 0 0 1 1 0 0 1 0 0]
 [1 0 1 0 0 0 0 1 1 0 0 0]
 [1 1 1 0 0 0 0 1 0 0 0 1]]
[1 1 1 0 0 0]


### **Câu 1:** Biết bộ từ điển được sắp xếp theo thứ tự như sau:

| and | bad | boring | excellent | good | is | movie | plot | poor | the | this | very |
|:---:|-----|:------:|-----------|------|----|-------|------|------|-----|------|------|

Vector đặc trưng khi nhận đầu vào là "movie is very bad" là?
- A. [0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0]
- B. [0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1]
- C. [0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1]
- D. [0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1]

**Đáp án đúng: D**

In [None]:
# 4. Dữ liệu thử nghiệm
x_test = vectorizer.transform(['movie is very bad']).toarray()
x_test

array([[0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1]])

## Tính khoảng cách


### **Câu 2:** Hãy tính khoảng cách Euclid giữa câu "**movie is very bad**" (bạn vừa thực hiện ở câu trước) và câu "**this movie is excellent**" trong tập văn bản đã được biến đổi thành ma trận đặc trưng. Khoảng cách Euclid giữa hai câu này bằng?
- A. 1.73
- B. 2.0
- C. 2.45
- D. 1.41

**Đáp án đúng: B**

In [None]:
# 5. Tính khoảng cách Euclid
distances = np.sqrt(((X - x_test)**2).sum(axis=1))
print(distances)

[1.73205081 2.         2.44948974 1.41421356 2.82842712 2.23606798]


["a very good movie",
          "this movie is excellent",
          "very good and excellent",
          "the movie is bad",
          "poor and boring plot", "poor and bad movie"]

### **Câu 3:** Top 3 câu có khoảng cách gần nhất với câu "**movie is very bad**" là?

- A. "a very good movie", "this movie is excellent", "very good and excellent"
- B. "poor and bad movie", "poor and boring plot", "bad and boring movie"
- C. "this movie is excellent", "a very good movie", "the movie is bad"
- D. "poor and boring plot", "the movie is bad", "poor and bad movie"

**Đáp án đúng: C**
- A. 1.73, 2.0, 2.45 (loại)
- B. 2.23 (loại)
- C. 2.0, 1.73, 1.41 (đáp án)
- D. 2.82 (loại)

In [None]:
# 6. Sắp xếp theo thứ tự giảm dần và lấy top 3
top_k = np.argsort(distances)
print(top_k)

k = 3
top_k = top_k[:k]
print(top_k)

[3 0 1 5 2 4]
[3 0 1]


In [None]:
for k in top_k:
  print(corpus[k])

the movie is bad
a very good movie
this movie is excellent


## Xây dựng và sử dụng mô hình KNN


### **Câu 4:** Nếu sử dụng KNN với k = 5, với đầu vào là "movie is very bad" thì KNN sẽ cho kết quả là?

- A. 1
- B. 0
- C. 1.41
- D. 3

**Đáp án: A**

In [None]:
from sklearn.neighbors import KNeighborsClassifier

# 7. Khởi tạo mô hình KNN với k = 5
classifier = KNeighborsClassifier(n_neighbors=5)

# 8. Huấn luyện mô hình
classifier.fit(X, y_data)

# 9. Dự đoán nhãn cho dữ liệu thử nghiệm
y_pred = classifier.predict(x_test)
print(f"Predicted label: {y_pred}")

neibors = classifier.kneighbors(x_test, n_neighbors=6, return_distance=True)
print("Khoảng cách tới x_test:", neibors[0])
print("Index các câu sau khi sắp xếp theo thứ tự giảm dần:", neibors[1])

Predicted label: [1]
Khoảng cách tới x_test: [[1.41421356 1.73205081 2.         2.23606798 2.44948974 2.82842712]]
Index các câu sau khi sắp xếp theo thứ tự giảm dần: [[3 0 1 5 2 4]]


# **Breast Cancer Wisconsin Diagnostic**


## **Tập Dữ Liệu Chẩn Đoán Ung Thư Vú**

Tập dữ liệu này chứa thông tin về các đặc trưng liên quan đến khối u ung thư vú, cùng với chẩn đoán của chúng. (Đây là dữ liệu đã được cắt vớt và chuẩn hóa)

### Mô Tả Dữ Liệu

| Chỉ số | Trung Bình Chu Vi | Trung Bình Diện Tích | Trung Bình Tính Chất Đặc | Chẩn Đoán |
|--------|-------------------|-----------------------|---------------------------|-----------|
| 0      | 0.32              | 0.20                  | 0.10                      | B         |
| 1      | 0.13              | 0.06                  | 0.20                      | B         |
| 2      | 0.31              | 0.19                  | 0.10                      | B         |
| 4      | 0.58              | 0.43                  | 0.47                      | M         |
| 5      | 0.56              | 0.36                  | 0.73                      | M         |
| 6      | 0.49              | 0.36                  | 0.16                      | M         |

### Các Đặc Trưng

- **Trung Bình Chu Vi**: Trung bình chu vi của các khối u.
- **Trung Bình Diện Tích**: Trung bình diện tích của các khối u.
- **Trung Bình Tính Chất Đặc**: Trung bình tính chất đặc của các khối u, được tính bằng (chu vi²/diện tích - 1.0).
- **Chẩn Đoán**: Nhãn lớp cho biết chẩn đoán của khối u, trong đó 'B' đại diện cho lành tính và 'M' đại diện cho ác tính.



In [None]:
!gdown 1-2NZ1j0P8AOZ0WWOn9XHAoSlGW9KFrO-

Downloading...
From: https://drive.google.com/uc?id=1-2NZ1j0P8AOZ0WWOn9XHAoSlGW9KFrO-
To: /content/final_dataset.csv
  0% 0.00/216 [00:00<?, ?B/s]100% 216/216 [00:00<00:00, 502kB/s]


In [None]:
df = pd.read_csv('/content/final_dataset.csv')
df

Unnamed: 0,perimeter_mean,area_mean,compactness_mean,diagnosis
0,0.32,0.2,0.1,B
1,0.13,0.06,0.2,B
2,0.31,0.19,0.1,B
3,0.24,0.14,0.06,B
4,0.21,0.12,0.13,B
5,0.58,0.43,0.47,M
6,0.56,0.36,0.73,M
7,0.49,0.36,0.16,M
8,0.6,0.44,0.43,M
9,0.54,0.4,0.31,M


In [None]:
X_train = df[["perimeter_mean", "area_mean", "compactness_mean"]].values.tolist()

print(type(X_train))
print(X_train)

<class 'list'>
[[0.32, 0.2, 0.1], [0.13, 0.06, 0.2], [0.31, 0.19, 0.1], [0.24, 0.14, 0.06], [0.21, 0.12, 0.13], [0.58, 0.43, 0.47], [0.56, 0.36, 0.73], [0.49, 0.36, 0.16], [0.6, 0.44, 0.43], [0.54, 0.4, 0.31]]


In [None]:
labels = df['diagnosis'].values.tolist()

print(type(labels))
print(labels)

<class 'list'>
['B', 'B', 'B', 'B', 'B', 'M', 'M', 'M', 'M', 'M']


### Câu 1: Đoạn mã bên dưới chuyển đổi lớp 'B' và lớp 'M' lần lượt thành?

A. Lớp 'B' = 1 và Lớp 'M" = 0

B. Lớp 'B' = 0 và Lớp 'M" = 1

C. Lớp 'B' = [0, 0, 0, 0] và Lớp 'M" = [1, 1, 1, 1]

D. Lớp 'B' = [1, 1, 1, 1] và Lớp 'M" = [0, 0, 0, 0]

Đáp án: B

In [None]:
y_train = []

for label in labels:
  if label == 'B':
    y_train.append(0)
  else:
    y_train.append(1)

print(type(y_train))
y_train

<class 'list'>


[0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

### Câu 2: Kết quả của mã nguồn bên dưới được hiểu như thế nào?

A. (Khoảng cách, Lớp)

B. (Lớp, Khoảng cách)

C. ([perimeter_mean, area_mean, compactness_mean], Lớp)

D. (Lớp, [perimeter_mean, area_mean, compactness_mean])

Đáp án: C

In [None]:
train_data = zip(X_train, y_train)
train_data = list(train_data)
train_data

[([0.32, 0.2, 0.1], 0),
 ([0.13, 0.06, 0.2], 0),
 ([0.31, 0.19, 0.1], 0),
 ([0.24, 0.14, 0.06], 0),
 ([0.21, 0.12, 0.13], 0),
 ([0.58, 0.43, 0.47], 1),
 ([0.56, 0.36, 0.73], 1),
 ([0.49, 0.36, 0.16], 1),
 ([0.6, 0.44, 0.43], 1),
 ([0.54, 0.4, 0.31], 1)]

## Tính khoảng cách

In [None]:
def manhattan_distance(x, sample):
  manhattan_distance = np.sum(np.abs(np.array(x) - np.array(sample[0])))
  return (np.round(manhattan_distance, 2), sample[1])

### Câu 3: Cho input x=[0.3, 0.3, 0.3]. Tính khoảng cách Manhattan từ x tới 3 điểm dữ liệu đầu tiên (3 dòng đầu trong bộ dữ liệu train) là?
A. 0, 0, 0

B. 0.32, 0.46, 0.44

C. 0.51, 0.32, 0.46

D. 0.32, 0.51, 0.32

Đáp án: D

In [None]:
x = [0.3, 0.3, 0.3]
neighbors = [manhattan_distance(x, sample) for sample in train_data]

print(f'Khoảng cách tới các dữ liệu khác: \n{neighbors}')

Khoảng cách tới các dữ liệu khác: 
[(0.32, 0), (0.51, 0), (0.32, 0), (0.46, 0), (0.44, 0), (0.58, 1), (0.75, 1), (0.39, 1), (0.57, 1), (0.35, 1)]


### Câu 4: Sắp xếp theo thứ tự tăng dần khoảng cách, nếu K=1 thì KNN sẽ trả về kết quả là ?
A. 0.32

B. 1

C. 0

D. 0.75

Đáp án:  A

In [None]:
neighbors.sort(key=lambda x: x[0])
neighbors

[(0.32, 0),
 (0.32, 0),
 (0.35, 1),
 (0.39, 1),
 (0.44, 0),
 (0.46, 0),
 (0.51, 0),
 (0.57, 1),
 (0.58, 1),
 (0.75, 1)]

### Câu 5: Sắp xếp theo thứ tự tăng dần khoảng cách, nếu K=5, có tổng cộng bao nhiêu Class 0 và 1?
A. Class 0: 1 và Class 1: 4

B. Class 0: 2 và Class 1: 3

C. Class 0: 3 và Class 1: 2

D. Class 0: 4 và Class 1: 1

Đáp án: C

In [None]:
neighbors[:5]

[(0.32, 0), (0.32, 0), (0.35, 1), (0.39, 1), (0.44, 0)]

In [None]:
from sklearn.neighbors import KNeighborsClassifier


def knn_classify(train_data, train_labels, test_data, k):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(train_data, train_labels)
    predictions = knn.predict(test_data)
    return predictions

train_data = [
[0.32, 0.20, 0.10],
[0.13, 0.06, 0.20],
[0.31, 0.19, 0.10],
[0.24, 0.14, 0.06],
[0.21, 0.12, 0.13],
[0.58, 0.43, 0.47],
[0.56, 0.36, 0.73],
[0.49, 0.36, 0.16],
[0.60, 0.44, 0.43],
[0.54, 0.40, 0.31]
]
train_labels = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
test_data = [
[0.30, 0.15, 0.10],
[0.55, 0.40, 0.50]
]
k=2


In [None]:
knn_classify(train_data, train_labels, test_data, k)

array([0, 1])

In [5]:
from sklearn.neighbors import KNeighborsClassifier

class Solution:
    def knn_classify(self, train_data, train_labels, test_data, k):
        knn = KNeighborsClassifier(n_neighbors=k)
        knn.fit(train_data, train_labels)
        predictions = knn.predict(test_data)
        return predictions


train_data = [
    [0.32, 0.20, 0.10],
    [0.13, 0.06, 0.20],
    [0.31, 0.19, 0.10],
    [0.24, 0.14, 0.06],
    [0.21, 0.12, 0.13],
    [0.58, 0.43, 0.47],
    [0.56, 0.36, 0.73],
    [0.49, 0.36, 0.16],
    [0.60, 0.44, 0.43],
    [0.54, 0.40, 0.31]
]

train_labels = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]  # Gán nhãn cho từng điểm
test_data = [
    [0.30, 0.25, 0.15],
    [0.57, 0.40, 0.50]
]
k = 2

# Kết quả dự kiến:
# Gọi hàm
solution = Solution()
predictions = solution.knn_classify(train_data, train_labels, test_data, k)
print(predictions)  # Kết quả dự kiến: [0, 1] (hoặc giá trị tương tự)


[0 1]
