# **Text Classification**

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np

## **Mô tả bài toán với dữ liệu text**

Trong phần này, chúng ta sẽ xử lý một tập hợp các câu đánh giá phim và chuyển đổi nó thành định dạng vector bằng `CountVectorizer`. Sự chuyển đổi này rất cần thiết để chuẩn bị dữ liệu văn bản cho các mô hình Machine Learning. Sau đây là quy trình từng bước chuyển đổi:

### 1. Bộ dữ liệu text ban đầu - corpus

Chúng ta bắt đầu với một bộ data nhỏ các câu đánh giá phim, mà chúng ta gọi là **corpus**. Corpus chứa 6 câu đánh giá khác nhau:

```python
corpus = ["a very good movie",
          "this movie is excellent",
          "very good and excellent",
          "the movie is bad",
          "poor and boring plot",
          "bad and boring movie"]


In [2]:
corpus = ["a very good movie",
          "this movie is excellent",
          "very good and excellent",
          "the movie is bad",
          "poor and boring plot",
          "bad and boring movie"]
vectorizer = CountVectorizer()

### 2. Vectorization
Chúng ta sử dụng CountVectorizer để chuyển đổi dữ liệu văn bản thành một ma trận, trong đó mỗi cột tương ứng với một từ trong bộ từ vựng và mỗi hàng đại diện cho một văn bản. Mỗi giá trị trong ma trận thể hiện số lần từ đó xuất hiện trong văn bản tương ứng.

*Ví dụ:* Câu đầu tiên là: "a very good movie" được thể hiện bằng vector `[0 0 0 0 1 0 1 0 0 0 0 1]` tức là đối với câu thứ nhất, có 1 từ ở index 4, 6, 11 trong bộ từ vựng vocab.

In [3]:
X = vectorizer.fit_transform(corpus)
print(f"Bộ từ vựng xây dựng từ corpus: {dict(sorted(vectorizer.vocabulary_.items()))}")

Bộ từ vựng xây dựng từ corpus: {'and': 0, 'bad': 1, 'boring': 2, 'excellent': 3, 'good': 4, 'is': 5, 'movie': 6, 'plot': 7, 'poor': 8, 'the': 9, 'this': 10, 'very': 11}


**Chú ý:** Ở đây, bộ từ vựng không hề có từ "a", hãy xem rằng từ "a" không mang lại nhiều ý nghĩa ở trong các câu trên.


In [4]:
X = X.toarray()
print("Vector đại diện cho bộ corpus sau khi vectorization: ")
print(X)

Vector đại diện cho bộ corpus sau khi vectorization: 
[[0 0 0 0 1 0 1 0 0 0 0 1]
 [0 0 0 1 0 1 1 0 0 0 1 0]
 [1 0 0 1 1 0 0 0 0 0 0 1]
 [0 1 0 0 0 1 1 0 0 1 0 0]
 [1 0 1 0 0 0 0 1 1 0 0 0]
 [1 1 1 0 0 0 1 0 0 0 0 0]]


## **Đề bài trắc nghiệm với KMean**

### **Iteration đầu tiên**
Cho tâm cụm là 2 tâm cụm ngẫu nhiên:
```
- C1 [1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1]: very good and excellent  
- C2 [0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0]: the movie is bad
```
Xác định khoảng cách Euclidean của mỗi tâm cụm tới các sample còn lại (Iteration đầu tiên):

In [5]:
C1 = X[2]
C2 = X[3]
C1, C2

(array([1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1], dtype=int64),
 array([0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0], dtype=int64))

#### Câu 1: Khoảng cách Euclidean của C1 tới các sample 0, 1, 4, 5 (làm tròn tới 3 chữ số thập phân) lần lượt là?
A.  1.732, 1.732, 2.499, 2.499  
B.  1.732, 1.732, 1.732, 2.499  
C.  1.732, 2.499, 2.499, 2.499  
D.  2.499, 2.499, 1.732, 1.732   
Đáp án: C


In [6]:
def euclidean_distance(x1, x2):
    return np.sqrt(np.sum(np.power(x1 - x2, 2)))

In [7]:
round(euclidean_distance(C1, X[0]), 3)

1.732

In [8]:
round(euclidean_distance(C1, X[1]), 3)

2.449

In [9]:
round(euclidean_distance(C1, X[4]), 3)

2.449

In [10]:
round(euclidean_distance(C1, X[5]), 3)

2.449

#### Câu 2: Khoảng cách Euclidean của C2 tới các sample 0, 1, 4, 5 (làm tròn tới 3 chữ số thập phân) lần lượt là?
A.  2.000, 2.236, 2.828, 2.236  
B.  2.236, 2.000, 2.828, 2.000  
C.  2.236, 2.828, 2.000, 2.828  
D.  2.236, 2.828, 2.000, 2.236  
Đáp án: B


In [11]:
def euclidean_distance(x1, x2):
    return np.sqrt(np.sum(np.power(x1 - x2, 2)))

In [12]:
round(euclidean_distance(C2, X[0]), 3)

2.236

In [13]:
round(euclidean_distance(C2, X[1]), 3)

2.0

In [14]:
round(euclidean_distance(C2, X[4]), 3)

2.828

In [15]:
round(euclidean_distance(C2, X[5]), 3)

2.0

In [16]:
import numpy as np


def euclidean_distance(x1, x2):
    return np.sqrt(np.sum(np.power(x1 - x2, 2)))

def sum_distance(train_data, centroid_values):
    train_data = np.array(train_data)
    centroid_values = np.array(centroid_values)
    result = []
    for x in train_data:
        distances = euclidean_distance(x, centroid_values)
        result.append(float(round(distances, 2)))
    return result

train_data = [
    [0.32, 0.20, 0.10],
    [0.13, 0.06, 0.20],
    [0.31, 0.19, 0.10],
    [0.24, 0.14, 0.06],
    [0.21, 0.12, 0.13],
    [0.58, 0.43, 0.47],
    [0.56, 0.36, 0.73],
    [0.49, 0.36, 0.16],
    [0.60, 0.44, 0.43],
    [0.54, 0.40, 0.31]
]

centroid_values = [0.56, 0.36, 0.73]

sum_distance(train_data, centroid_values)

[0.69, 0.75, 0.7, 0.77, 0.73, 0.27, 0.0, 0.57, 0.31, 0.42]

#### Câu 3: Xác định các điểm dữ liệu thuộc cụm 1 và cụm 2:
Vector biểu diễn phân cụm của bộ data X là?  
Ví dụ: Nếu câu đầu tiên thuộc cụm C1, câu thứ 2 thuộc cụm C2 thì vector biểu diễn phân cụm sẽ là `allocation = [C1, C2, ...]`  

A. `[C1, C1, C2, C1, C2, C1]`  
B. `[C1, C1, C2, C1, C1, C2]`  
C. `[C1, C2, C1, C2, C2, C1]`  
D. `[C1, C2, C1, C2, C1, C2]`  
Đáp án: D

In [17]:
centroids = [C1, C2]
def assign_clusters(data):
    distances = np.array([[euclidean_distance(x, centroid) for centroid in centroids] for x in data])
    return np.argmin(distances, axis=1)

In [18]:
clusters = assign_clusters(X)
clusters

array([0, 1, 0, 1, 0, 1], dtype=int64)

### **Iteration thứ 2**

#### Câu 4: Cập nhật tâm cụm:
Cập nhật tọa độ của tâm cụm thứ 1 và thứ 2 dựa trên các câu được gán cho mỗi tâm cụm (Chọn đáp án gần bằng, làm tròn 1 chữ số thập phân):  
A. `Cụm C1: [0.7, 0.0 , 0.3, 0.3, 0.6, 0.0 , 0.3, 0.3, 0.3, 0.0 , 0.0 , 0.7]`  
` Cụm C2: [0.3, 0.7, 0.3, 0.3, 0.0 , 0.7, 1.0 , 0.0 , 0.0 , 0.3, 0.3, 0.0 ]`  

B. `Cụm C1: [0.7, 0.0, 0.4, 0.4, 0.7, 0.0, 0.3, 0.3, 0.3, 0.1, 0.0, 0.6]`  
   `Cụm C2: [0.4, 0.7, 0.2, 0.3, 0.0, 0.6, 0.9, 0.1, 0.0, 0.2, 0.4, 0.0]`  

C. `Cụm C1: [0.5, 0.0, 0.4, 0.3, 0.6, 0.0, 0.2, 0.4, 0.3, 0.0, 0.1, 0.7]`  
   `Cụm C2: [0.3, 0.5, 0.4, 0.3, 0.0, 0.7, 1.0, 0.0, 0.0, 0.4, 0.2, 0.0]`  

D. `Cụm C1: [0.8, 0.0, 0.3, 0.3, 0.5, 0.0, 0.4, 0.2, 0.3, 0.0, 0.0, 0.7]`  
`Cụm C2: [0.3, 0.6, 0.4, 0.2, 0.0, 0.5, 0.8, 0.0, 0.1, 0.3, 0.4, 0.0]`   

Đáp án: A

In [19]:
def update_centroids(data):
    return np.array([data[clusters == i].mean(axis=0) for i in range(2)])

In [20]:
centroids = update_centroids(X)
centroids

array([[0.66666667, 0.        , 0.33333333, 0.33333333, 0.66666667,
        0.        , 0.33333333, 0.33333333, 0.33333333, 0.        ,
        0.        , 0.66666667],
       [0.33333333, 0.66666667, 0.33333333, 0.33333333, 0.        ,
        0.66666667, 1.        , 0.        , 0.        , 0.33333333,
        0.33333333, 0.        ]])

In [21]:
# prompt: round each element in centroids 2f

import numpy as np
rounded_centroids = np.around(centroids, 1)
print(rounded_centroids)


[[0.7 0.  0.3 0.3 0.7 0.  0.3 0.3 0.3 0.  0.  0.7]
 [0.3 0.7 0.3 0.3 0.  0.7 1.  0.  0.  0.3 0.3 0. ]]


#### Câu 5: Xác định các điểm dữ liệu thuộc cụm 1 và cụm 2 sau khi cập nhật tâm cụm (Theo vector biểu diễn)
A. `[C1, C2, C1, C2, C1, C2]`  
B. `[C2, C1, C1, C2, C1, C2]`  
C. `[C1, C2, C2, C1, C2, C1]`  
D. `[C1, C2, C2, C1, C2, C1]`  
Đán án: A

In [22]:
def assign_clusters(data):
    distances = np.array([[euclidean_distance(x, centroid) for centroid in centroids] for x in data])
    return np.argmin(distances, axis=1)

In [23]:
assign_clusters(X)

array([0, 1, 0, 1, 0, 1], dtype=int64)

### **Code tổng cả bài với centroids khởi đầu là X[2], X[3]**

#### Code tay

In [24]:
class kmeans:
    def __init__(self, k, max_iters=100):
        self.k = k                   # Số cụm
        self.max_iters = max_iters   # Số vòng lặp tối đa
        self.centroids = None        # Tọa độ tâm cụm
        self.clusters = None         # Cụm của từng điểm dữ liệu

    def euclidean_distance(self, x1, x2):
        return np.sqrt(np.sum(np.power(x1 - x2, 2)))

    def assign_clusters(self, data):
        distances = np.array([[self.euclidean_distance(x, centroid) for centroid in self.centroids] for x in data])
        return np.argmin(distances, axis=1)

    def update_centroids(self, data):
        return np.array([data[self.clusters == i].mean(axis=0) for i in range(self.k)])

    def fit(self, data):
        self.centroids = [data[2], data[3]]
        for i in range(self.max_iters):
            self.clusters = self.assign_clusters(data)
            new_centroids = self.update_centroids(data)

            if np.all(self.centroids == new_centroids):
                break

            self.centroids = new_centroids
        return [self.centroids, self.clusters]

    def predict(self, data):
        return self.assign_clusters(data)

In [25]:
model = kmeans(k=2, max_iters=100)
centroid_result, cluster_result = model.fit(X)
centroid_result, cluster_result

(array([[0.66666667, 0.        , 0.33333333, 0.33333333, 0.66666667,
         0.        , 0.33333333, 0.33333333, 0.33333333, 0.        ,
         0.        , 0.66666667],
        [0.33333333, 0.66666667, 0.33333333, 0.33333333, 0.        ,
         0.66666667, 1.        , 0.        , 0.        , 0.33333333,
         0.33333333, 0.        ]]),
 array([0, 1, 0, 1, 0, 1], dtype=int64))

#### Code thư viện

In [26]:
from sklearn.cluster import KMeans

initial_centroids = np.array([X[2], X[3]])
kmeans = KMeans(n_clusters=2, init=initial_centroids, n_init=1) # n_init=1 to force the algorithm to use the initial centroids
kmeans.fit(X)
labels = kmeans.labels_
centroids = kmeans.cluster_centers_
print("Centroids:")
print(centroids)
print("Labels:")
print(labels)
for sentence, label in zip(corpus, labels):
    print(f"Cluster {label}: {sentence}")

Centroids:
[[0.66666667 0.         0.33333333 0.33333333 0.66666667 0.
  0.33333333 0.33333333 0.33333333 0.         0.         0.66666667]
 [0.33333333 0.66666667 0.33333333 0.33333333 0.         0.66666667
  1.         0.         0.         0.33333333 0.33333333 0.        ]]
Labels:
[0 1 0 1 0 1]
Cluster 0: a very good movie
Cluster 1: this movie is excellent
Cluster 0: very good and excellent
Cluster 1: the movie is bad
Cluster 0: poor and boring plot
Cluster 1: bad and boring movie




### **Code nếu không chọn trước centroid thì kết quả sẽ thực sự đúng với ý nghĩa của câu**

In [27]:
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
labels = kmeans.labels_
centroids = kmeans.cluster_centers_
print("Centroids:")
print(centroids)
print("Labels:")
print(labels)
for sentence, label in zip(corpus, labels):
    print(f"Cluster {label}: {sentence}")



Centroids:
[[0.25 0.25 0.   0.5  0.5  0.5  0.75 0.   0.   0.25 0.25 0.5 ]
 [1.   0.5  1.   0.   0.   0.   0.5  0.5  0.5  0.   0.   0.  ]]
Labels:
[0 0 0 0 1 1]
Cluster 0: a very good movie
Cluster 0: this movie is excellent
Cluster 0: very good and excellent
Cluster 0: the movie is bad
Cluster 1: poor and boring plot
Cluster 1: bad and boring movie


# **Breast Cancer Wisconsin Diagnostic**


## **Tập Dữ Liệu Chẩn Đoán Ung Thư Vú**

Tập dữ liệu này chứa thông tin về các đặc trưng liên quan đến khối u ung thư vú, cùng với chẩn đoán của chúng. (Đây là dữ liệu đã được cắt vớt và chuẩn hóa)

### Mô Tả Dữ Liệu

| Chỉ số | Trung Bình Chu Vi | Trung Bình Diện Tích | Trung Bình Tính Chất Đặc | Chẩn Đoán |
|--------|-------------------|-----------------------|---------------------------|-----------|
| 0      | 0.32              | 0.20                  | 0.10                      | B         |
| 1      | 0.13              | 0.06                  | 0.20                      | B         |
| 2      | 0.31              | 0.19                  | 0.10                      | B         |
| 3      | 0.24              | 0.14                  | 0.06                      | B         |
| 4      | 0.21              | 0.12                  | 0.13                      | B         |
| 5      | 0.58              | 0.43                  | 0.47                      | M         |
| 6      | 0.56              | 0.36                  | 0.73                      | M         |
| 7      | 0.49              | 0.36                  | 0.16                      | M         |
| 8      | 0.60              | 0.44                  | 0.43                      | M         |
| 9      | 0.54              | 0.40                  | 0.31                      | M         |

### Các Đặc Trưng

- **Trung Bình Chu Vi**: Trung bình chu vi của các khối u.
- **Trung Bình Diện Tích**: Trung bình diện tích của các khối u.
- **Trung Bình Tính Chất Đặc**: Trung bình tính chất đặc của các khối u, được tính bằng (chu vi²/diện tích - 1.0).
- **Chẩn Đoán**: Nhãn lớp cho biết chẩn đoán của khối u, trong đó 'B' đại diện cho lành tính và 'M' đại diện cho ác tính.



## **Câu hỏi trắc nghiệm**

In [28]:
import pandas as pd
import numpy as np

In [29]:
df = pd.read_csv('../../Datasets/KMean & KNN/final_dataset.csv')
df

Unnamed: 0,perimeter_mean,area_mean,compactness_mean,diagnosis
0,0.32,0.2,0.1,B
1,0.13,0.06,0.2,B
2,0.31,0.19,0.1,B
3,0.24,0.14,0.06,B
4,0.21,0.12,0.13,B
5,0.58,0.43,0.47,M
6,0.56,0.36,0.73,M
7,0.49,0.36,0.16,M
8,0.6,0.44,0.43,M
9,0.54,0.4,0.31,M


In [30]:
train_data = df[["perimeter_mean", "area_mean", "compactness_mean"]].values
train_data

array([[0.32, 0.2 , 0.1 ],
       [0.13, 0.06, 0.2 ],
       [0.31, 0.19, 0.1 ],
       [0.24, 0.14, 0.06],
       [0.21, 0.12, 0.13],
       [0.58, 0.43, 0.47],
       [0.56, 0.36, 0.73],
       [0.49, 0.36, 0.16],
       [0.6 , 0.44, 0.43],
       [0.54, 0.4 , 0.31]])

### **Iteration1: Chọn 2 tâm cụm đầu tiên**
C1: `[0.24, 0.14, 0.06]`(Index 3)   
C2: `[0.56, 0.36, 0.73]`(Index 6)  

In [31]:
centroid_values = [train_data[3], train_data[6]]
centroid_values

[array([0.24, 0.14, 0.06]), array([0.56, 0.36, 0.73])]

In [32]:
def euclidean_distance(x1, x2):
    return np.sqrt(np.sum(np.power(x1 - x2, 2)))

#### Câu 1: Tính tổng khoảng cách của các điểm dữ liệu tới tâm cụm thứ nhất C1: `[0.24, 0.14, 0.06]` (Đáp án làm tròn tới 2 chữ số thập phân)  
A. 2.53  
B. 3.46  
C. 3.27  
D. 2.89  
Đáp án: C

In [33]:
centroid_values[0]

array([0.24, 0.14, 0.06])

In [34]:
S = 0
for i in range(len(train_data)):
    x = euclidean_distance(train_data[i], centroid_values[0])
    S += x
print(S)

3.2713032282965138


#### Câu 2: Tính tổng khoảng cách của các điểm dữ liệu tới tâm cụm thứ nhất C2: `[0.56, 0.36, 0.73]` (Đáp án làm tròn tới 2 chữ số thập phân)  
A. 5.32  
B. 5.23  
C. 4.57  
D. 4.75  
Đáp án: B

In [35]:
centroid_values[1]

array([0.56, 0.36, 0.73])

In [36]:
S2 = 0
for i in range(len(train_data)):
    x = euclidean_distance(train_data[i], centroid_values[1])
    S2 += x
print(S2)

5.226220976117363


#### Câu 3: Xác định các điểm dữ liệu thuộc cụm 1 và cụm 2:
Vector biểu diễn phân cụm của bộ data_train là?  
Ví dụ: C1 là 0, C2 là 1, nếu điểm 0 thuộc cụm 2, điểm 1 thuộc cụm 1 thì `allocation = [1, 0, ...]`  
`allocation = [[0], [1], [2], [3], [4], [5], [6], [7], [8], [9]]`  

A. `[0, 0, 0, 0, 0, 1, 1, 0, 1, 1]`  
B. `[0, 1, 0, 0, 0, 1, 1, 0, 1, 1]`  
C. `[0, 0, 1, 0, 0, 0, 1, 0, 1, 0]`  
D. `[0, 1, 0, 1, 0, 1, 0, 0, 1, 1]`  
Đáp án: A

In [37]:
def assign_clusters(data, centroid_values):
    data = np.array(data)
    centroid_values = np.array(centroid_values)
    distances = []
    distance1 = []
    distance2 = []
    for x in data:
        for i, centroid_value in enumerate(centroid_values):
            distance = euclidean_distance(x, centroid_value)
            if i == 0:
                distance1.append(distance)
            elif i == 1:
                distance2.append(distance)
    distances.append(distance1)
    distances.append(distance2)
    print(distances)

    rs = [0 if a < b else 1 for a, b in zip(distances[0], distances[1])]
    return rs

In [38]:
train_data = [
[0.32, 0.20, 0.10],
[0.13, 0.06, 0.20],
[0.31, 0.19, 0.10],
[0.24, 0.14, 0.06],
[0.21, 0.12, 0.13],
[0.58, 0.43, 0.47],
[0.56, 0.36, 0.73],
[0.49, 0.36, 0.16],
[0.60, 0.44, 0.43],
[0.54, 0.40, 0.31]
]

centroid_values = [[0.24, 0.14, 0.06], [0.56, 0.36, 0.73]]

clusters = assign_clusters(train_data, centroid_values)
clusters

[[0.1077032961426901, 0.19519221295943137, 0.09486832980505139, 0.0, 0.07874007874011812, 0.6064651680022521, 0.7744029958619736, 0.3477067730142742, 0.5970762095411272, 0.46914816422959604], [0.6928924880528003, 0.7455199527846321, 0.6987846592477542, 0.7744029958619736, 0.7349149610669251, 0.27, 0.0, 0.5742821606144491, 0.31304951684997057, 0.4223742416388575]]


[0, 0, 0, 0, 0, 1, 1, 0, 1, 1]

### Iteration 2:

#### Câu 4: Cập nhật tọa độ của tâm cụm thứ 1 và thứ 2 dựa trên các điểm dữ liệu được gán cho mỗi tâm cụm trước đó (Chọn đáp án gần bằng, làm tròn 2 chữ số thập phân):  
A. C1: `[0.48, 0.32, 0.27]`, C2: `[0.64, 0.23, 0.19]`  
B. C1: `[0.23, 0.12, 0.54]`, C2: `[0.18, 0.37, 0.34]`  
C. C1: `[0.32, 0.18, 0.32]`, C2: `[0.17, 0.24, 0.12]`  
D. C1: `[0.28, 0.18, 0.13]`, C2: `[0.57, 0.41, 0.49]`  
Đáp án: D

In [39]:
def update_centroids(data):
    return np.array([data[clusters == i].mean(axis=0) for i in range(2)])

In [40]:
centroid_values = update_centroids(train_data)
centroid_values

AttributeError: 'list' object has no attribute 'mean'

#### Câu 5: Xác định các điểm dữ liệu thuộc cụm 1 và cụm 2 sau khi cập nhật tâm cụm (Theo vector biểu diễn)

A. `[0, 1, 0, 0, 0, 1, 1, 0, 1, 1]`  
B. `[0, 0, 1, 0, 0, 0, 1, 0, 1, 0]`  
C. `[0, 0, 0, 0, 0, 1, 1, 0, 1, 1]`  
D. `[0, 1, 0, 1, 0, 1, 0, 0, 1, 1]`  
Đáp án: C

In [None]:
centroid_values

array([[0.28333333, 0.17833333, 0.125     ],
       [0.57      , 0.4075    , 0.485     ]])

In [None]:
def assign_clusters(data):
    distances = np.array([[euclidean_distance(x, centroid_value) for centroid_value in centroid_values] for x in data])
    return np.argmin(distances, axis=1)

In [None]:
clusters = assign_clusters(train_data)
clusters

array([0, 0, 0, 0, 0, 1, 1, 0, 1, 1])

### **Code tổng cả bài với centroids khởi đầu là train_data[3], train_data[6]**

#### Code tay

In [None]:
class kmeans:
    def __init__(self, k, max_iters=100):
        self.k = k                   # Số cụm
        self.max_iters = max_iters   # Số vòng lặp tối đa
        self.centroids = None        # Tọa độ tâm cụm
        self.clusters = None         # Cụm của từng điểm dữ liệu

    def euclidean_distance(self, x1, x2):
        return np.sqrt(np.sum(np.power(x1 - x2, 2)))

    def assign_clusters(self, data):
        distances = np.array([[self.euclidean_distance(x, centroid) for centroid in self.centroids] for x in data])
        return np.argmin(distances, axis=1)

    def update_centroids(self, data):
        return np.array([data[self.clusters == i].mean(axis=0) for i in range(self.k)])

    def fit(self, data):
        self.centroids = [data[3], data[6]]
        for i in range(self.max_iters):
            self.clusters = self.assign_clusters(data)
            new_centroids = self.update_centroids(data)

            if np.all(self.centroids == new_centroids):
                break

            self.centroids = new_centroids
        return [self.centroids, self.clusters]

    def predict(self, data):
        return self.assign_clusters(data)

In [None]:
model = kmeans(k=2, max_iters=100)
centroid_result, cluster_result = model.fit(train_data)
print(f"Centroids: {centroid_result}")
print(f"Labels: {cluster_result}")

Centroids: [[0.28333333 0.17833333 0.125     ]
 [0.57       0.4075     0.485     ]]
Labels: [0 0 0 0 0 1 1 0 1 1]


#### Code thư viện

In [None]:
from sklearn.cluster import KMeans

initial_centroids = np.array([train_data[3], train_data[6]])
kmeans = KMeans(n_clusters=2, init=initial_centroids, n_init=1)
kmeans.fit(train_data)
labels = kmeans.labels_
centroids = kmeans.cluster_centers_
print("Centroids:")
print(centroids)
print("Labels:")
print(labels)

Centroids:
[[0.28333333 0.17833333 0.125     ]
 [0.57       0.4075     0.485     ]]
Labels:
[0 0 0 0 0 1 1 0 1 1]


### **Code nếu không chọn trước centroid thì kết quả sẽ thực sự đúng với label thực**

In [None]:
kmeans = KMeans(n_clusters=2)
kmeans.fit(train_data)
labels = kmeans.labels_
centroids = kmeans.cluster_centers_
print("Centroids:")
print(centroids)
print("Labels:")
print(labels)

Centroids:
[[0.554 0.398 0.42 ]
 [0.242 0.142 0.118]]
Labels:
[1 1 1 1 1 0 0 0 0 0]


  super()._check_params_vs_input(X, default_n_init=10)
