# TD5 - Chia nhóm các bài báo thể thao trên VNExpress

## Mô tả

Ở TD3, chúng ta đã học kĩ năng thu thập dữ liệu từ Internet và xử lí dữ liệu để thu được các đoạn văn bản tương đối "sạch". Trong TD này, ta sẽ tiến hành chia nhóm các văn bản này.

### Tải dữ liệu

Khi chạy chương trình ở TD3 cho năm 2017 với thể loại **Thể thao**, ta thu được dữ liệu dưới dạng thư mục `RawData` <a href="https://drive.google.com/drive/folders/1u2IQzbDPvZ7Q_bE_uHMGkt5n9YF5QnmG?usp=sharing">ở đây</a>. Thư mục này gồm 12 file ứng với các tháng. Bạn cần tải thư mục này và lưu tại vị trí `Lesson5/TD/RawData`. Ta cũng cần làm việc với một danh sách các từ trong tiếng Việt, được trích xuất từ từ điển tiếng Việt của Hoàng Phê ([1]), nằm ở thư mục `VietnameseDictionary`. Bạn cần tải thư mục này và lưu tại `Lesson5/TD/VietnameseDictionary`. Cuối cùng, bạn có thể tải thư mục `FullData`, trong đó chứa kết quả bước 1 của TD trong trường hợp bạn không thực hiện thành công bước này.

### Quan sát sơ lược dữ liệu

Ta nhắc lại rằng ở TD3, mỗi bài báo của VNExpress được trích lọc tiêu đề, đoạn giới thiệu và nội dung. Ba thành phần này của mỗi bài báo đã được chúng ta lưu bằng một hàng của file dữ liệu, chúng cách nhau bởi hai khoảng trắng tab (`"\t\t"`). Riêng với thành phần thứ ba (nội dung của bài báo), các đoạn văn cách nhau bởi một khoảng trắng tab (`"\t"`).

Một số bài báo không có nội dung được lưu bằng một hàng trắng, không có kí tự nào khác ngoài kí tự xuống dòng (`"\n"`). Bạn có thể xem ví dụ từ <a href="https://drive.google.com/file/d/1aTV-WckP8idERHe33Kd7Fby3pwX1nZQD/view">RawData/Sport_012017</a>, hàng 31 là một hàng trắng.

### Mục tiêu

Từ 12 file dữ liệu "thô" này, ta sẽ thực hiện việc tìm hiểu các bài báo thể thao năm 2017 của vnexpress có thể được chia thành những nhóm nào dựa trên sự tương đồng về nội dung. Ta sẽ thực hiện theo quy trình sau:

- Bước 1: Preprocessing 1 - Biến bài báo thành bag-of-words
 - Ghép 12 file dữ liệu thành file duy nhất và xoá các hàng trắng. File này tương tự như `FullData/Sport2017_Solution.txt`.
 - Tách nội dung mỗi bài báo thành một túi từ (bag of words), gồm mỗi từ và các tần số của nó trong mỗi bài báo, và lưu nó vào một file. File này tương tự như `FullData/FrequencyBySportArticle_Solution.txt`
 - Tính tần số tổng cộng của các từ trên tất cả các bài báo và lưu nó vào một file. File này tương tự như `GlobalSportFrequency_Solution.txt`. File này sẽ giúp ta xác định những từ nào là thông dụng, ít thông dụng trong tiếng Việt để xử lí ở các phần sau.
 
- Bước 2: Preprocessing 2 - Chọn biến quan trọng và biến bag-of-words thành vectors
 - Từ kết quả bước 1, ta sẽ chọn ra những từ được xem là quan trọng để phân loại các bài báo thể thao, sau đó trên cở sở này biến mỗi bài báo thành một vector trong $[0, 1]^d$ ($d \in \mathbf N$ là số từ quan trọng được lựa chọn, cũng chính là số chiều của không gian). 
 - Do mỗi vector có số lượng 0 rất lớn, ta có thể lưu tất cả các vector dưới dạng một ma trận sparse thông qua scipy.sparse.

- Bước 3: Chia nhóm với K-Means. 

 Đến bây giờ khi đã có các vector, ta sẽ dùng K-Means để chia nhóm, rồi thử thay đổi các tham số, rồi phân tích kết quả.

- Bước 4: Thử thực hiện một số phương pháp khác để so sánh kết quả
 - Cho $k$ thay đổi (3, 4, 6, 8, 10, 20, ...)
 - Thử với khoảng cách Euclide và cosine
 - Chia nhóm với Hierarchical Clustering.
 - Bạn cũng có thể tự do thử với các mô hình khác có sẵn trong Python và so sánh hiệu quả của các phương pháp.
 
Bạn cần hoàn thành các hàm trong file <a href="https://raw.githubusercontent.com/riduan91/DSC101/master/Lesson5/TD/SportArticlesClustering.py">SportArticlesClustering.py</a>  ứng với yêu cầu của các bài tập, và test theo chỉ dẫn ở từng bài tập.

Bạn có thể tham khảo lời giải ở <a  href="https://raw.githubusercontent.com/riduan91/DSC101/master/Lesson5/TD/SportArticlesClustering_Solution.py">SportArticlesClustering_Solution.py</a>  sau khi hoàn thành.

In [2]:
from SportArticlesClustering_Solution import *
import pandas as pd

Dưới đây là các hằng số cơ bản chỉ đường dẫn đến các tập tin sẽ làm việc. Khi test, nhớ copy và chạy các dòng này.

In [3]:
RAW_DATA_FOLDER = "RawData/"
ALL_DATA_FILE = "FullData/Sport2017.txt"
WORDLIST_FILE = "VietnameseDictionary/WordList.txt"
FREQUENCY_FILE = "FullData/FrequencyBySportArticle.txt"
GLOBAL_FREQUENCY_FILE = "FullData/GlobalSportFrequency.txt"

## Phần 1. Preprocessing 1 - Chuyển đổi bài báo thành túi từ

### Bài 1. Tổng hợp các bài báo theo tháng thành file chung

Giả sử trong thư mục **`raw_data_folder`** chứa các file dữ liệu con (trong trường hợp của chúng ta: 12 file, mỗi file ứng với một tháng), và các file này có dạng như output ở TD3. Một số hàng trong file có thể trắng do bài báo không có nội dung. 

*Viết hàm **`concatenateDataFiles(raw_data_folder, full_data_folder, all_data_file)`** nhận đối số là tên thư mục **`raw_data_folder`**, nối tất cả dữ liệu trong các file này thành một file duy nhất tại đường dẫn **`all_data_file`**, đồng thời xoá tất cả các hàng trắng trong file. *

Bạn nên nối các file theo thứ tự tên của chúng, để các bài báo xuất hiện theo thứ tự từ tháng 1 đến tháng 12.

Đoạn code dưới đây giúp test hàm của bạn.

In [5]:
concatenateDataFiles(RAW_DATA_FOLDER, ALL_DATA_FILE)
data = pd.read_csv(ALL_DATA_FILE, sep="\t\t", header = None)
len(data)

5949

In [13]:
data.head()

Unnamed: 0,0,1,2
0,"Leicester thua trận, trở thành nhà ĐKVĐ tệ nhấ...",Thất bại 0-1 trên sân Burnley hôm 31/1 nối dài...,Kết quả trận đấu tại Turf Moor được định đoạt ...
1,Tottenham vượt Arsenal nhưng chưa thể thu hẹp ...,Thầy trò HLV Mauricio Pochettino hoà 0-0 trên ...,Tottenham hành quân đến sân Ánh Sáng với tham ...
2,Pato đầu quân cho đội bóng của Trung Quốc,Cựu tiền đạo của AC Milan là tên tuổi mới nhất...,Alexandre Pato đã hoàn tất vụ chuyển nhượng đế...
3,Beckham: 'Tôi không biết mình suýt bị Man Utd ...,Cựu thủ quân đội tuyển Anh tiết lộ sự thật đằn...,"""Tôi không hận thù, nhưng thực sự lúc đó cảm t..."
4,HLV Tottenham: 'Bắt kịp Chelsea là điều bất kh...,Mauricio Pochettino tỏ ra rất thực tế về cơ hộ...,Chelsea hiện dẫn đầu qua 22 vòng đấu với 55 đi...


In [14]:
data.tail()

Unnamed: 0,0,1,2
5944,Real Madrid áp đảo các đề cử giải thưởng Bóng ...,Đội chủ sân Bernabeu góp ứng cử viên ở một loạ...,Cristiano Ronaldo và Sergio Ramos là hai ứng c...
5945,Văn Quyết bị gạch tên khỏi đề cử Quả Bóng Vàng...,Tiền đạo vừa nhận án kỷ luật do lỗi đánh cầu t...,"""Ban tổ chức, sau khi tiến hành họp chiều 30/1..."
5946,Real 'bị loại' khỏi Cup Nhà Vua vì lỗi đánh máy,Trang web của LĐBĐ Tây Ban Nha hiển thị thông ...,Lỗi văn bản xuất hiện khi trang web Liên đoàn ...
5947,Conte bị phạt hơn 10.000 đôla vì lỗi phản ứng ...,HLV của Chelsea chỉ nộp phạt tiền sau khi bị t...,"BBC và Sky Sports cho biết, Antonio Conte sẽ n..."
5948,Allardyce ký hợp đồng 18 tháng với Everton,Cựu HLV tuyển Anh nhận lời giải cứu đội bóng t...,"Sam Allardyce trở lại Anh hôm 29/11, sau kỳ ng..."


### Bài 2. Hàm phụ [1]: Tách đoạn văn thành câu

Ta bắt đầu thực hiện việc chính của preprocessing 1: biến nội dung mỗi bài báo thành túi từ.

Trong TD3, ta đã chuyển đổi nội dung bài báo thành các "từ" với giả sử rằng mỗi từ luôn là một từ đơn. Ví dụ "long lanh" được xem là hai từ, "long" và "lanh". Điều này không thực tế đối với tiếng Việt. Do vậy ta cần thực hiện một quy trình "gần đúng" như sau:

- Biến mỗi đoạn văn thành câu
- Biến mỗi câu thành từng "thành phần"
- Biến mỗi thành phần thành từng tiếng (tương đương từ đơn)
- Ghép các tiếng thành từ (từ đơn, từ ghép hoặc từ láy)

Lưu ý rằng quy trình này chỉ là gần đúng, không nên hy vọng nó thực hiện chính xác 100% mong muốn của chúng ta.

Bài tập 2, 3, 4, 6 thực hiện 4 thao tác trên.

*Hãy viết hàm **`paragraphToSentences(paragraph)`** nhận đối số **`paragraph`** là một đoạn văn dưới dạng `str`, và biến nó thành một list các câu theo thuật toán sau: *

*- Xoá tất cả các kí tự '\xc2\xa0' có trong đoạn văn (đây là một kí tự vô dụng thường gặp ở vnexpress)*

*- Những nơi có dấu chấm theo sau bởi dấu cách (. ), ba chấm hoặc nhiều chấm theo sau bởi dấu cách (... ), chấm hỏi theo sau bởi dấu cách (? ), chấm than theo sau bởi dấu cách (! ) được xem là các vị trí kết thúc câu. Split đoạn văn thành các câu tại các vị trí đó.*

Đoạn code dưới đây giúp test hàm của bạn.

Đoạn văn gốc:
*Ngày 8/3, Văn phòng Trung ương Đảng có công văn về việc xử lý vụ Tổng công ty viễn thông Mobifone mua 95% cổ phần của Công ty cổ phần nghe nhìn Toàn Cầu (AVG). Theo đó, vừa qua, Ban Bí thư đã họp dưới sự chủ trì của Tổng Bí thư Nguyễn Phú Trọng để nghe Ban cán sự đảng Thanh tra Chính phủ báo cáo kết quả việc thanh tra dự án nêu trên! Ban Bí thư cho rằng, đây là một vụ việc rất nghiêm trọng, phức tạp, nhạy cảm, dư luận xã hội đặc biệt quan tâm. Thanh tra Chính phủ đã có nhiều cố gắng tiến hành thanh tra toàn diện, kết luận và báo cáo với Ban Bí thư... Ban Bí thư đề nghị Thường trực Chính phủ, Thanh tra Chính phủ chỉ đạo và chịu trách nhiệm về Kết luận thanh tra, sớm công bố Kết luận thanh tra theo quy định của pháp luật. Các cơ quan có trách nhiệm khẩn trương xem xét, xử lý vụ việc bảo đảm khách quan, chính xác theo quy định của Đảng và pháp luật Nhà nước với tinh thần kiên quyết, chặt chẽ, làm rõ đến đâu xử lý đến đó, đúng người, đúng vi phạm, đúng pháp luật và thu hồi tài sản Nhà nước bị thất thoát.*

In [29]:
p = "Ngày 8/3, Văn phòng Trung ương Đảng có công văn về việc xử lý vụ Tổng công ty viễn thông Mobifone mua " +\
    "95% cổ phần của Công ty cổ phần nghe nhìn Toàn Cầu (AVG). " +\
    "Theo đó, vừa qua, Ban Bí thư đã họp dưới sự chủ trì của Tổng Bí thư Nguyễn Phú Trọng để nghe Ban cán sự đảng Thanh tra " +\
    "Chính phủ báo cáo kết quả việc thanh tra dự án nêu trên!" +\
    "Ban Bí thư cho rằng, đây là một vụ việc rất nghiêm trọng, phức tạp, " +\
    "nhạy cảm, dư luận xã hội đặc biệt quan tâm. Thanh tra "+\
    "Chính phủ đã có nhiều cố gắng tiến hành thanh tra toàn diện, kết luận và báo cáo với Ban Bí thư... " +\
    "Ban Bí thư đề nghị Thường trực Chính phủ, Thanh tra Chính phủ chỉ đạo và chịu trách nhiệm về Kết luận thanh tra, " +\
    "sớm công bố Kết luận thanh tra theo quy định của pháp luật. Các cơ quan có trách nhiệm khẩn trương xem xét, " +\
    "xử lý vụ việc bảo đảm khách quan, chính xác theo quy định của Đảng và pháp luật Nhà nước với tinh thần kiên quyết, " +\
    "chặt chẽ, làm rõ đến đâu xử lý đến đó, đúng người, đúng vi phạm, đúng pháp luật và thu hồi tài sản Nhà nước bị thất thoát."
s = paragraphToSentences(p) # Kết quả là 1 list
pd.DataFrame(s) # Chuyển list thành DataFrame để dễ quan sát

Unnamed: 0,0
0,"Ngày 8/3, Văn phòng Trung ương Đảng có công vă..."
1,"Theo đó, vừa qua, Ban Bí thư đã họp dưới sự ch..."
2,Thanh tra Chính phủ đã có nhiều cố gắng tiến h...
3,"Ban Bí thư đề nghị Thường trực Chính phủ, Than..."
4,Các cơ quan có trách nhiệm khẩn trương xem xét...


### Bài 3. Hàm phụ [2]: Tách câu thành thành phần

Trong mỗi câu, ta có thể gặp các dấu câu khác như dấu phẩy, chấm phẩy, hai chấm, gạch ngang... Chúng chia câu thành các thành phần nhỏ hơn. Ví dụ, câu *"Theo đó, vừa qua, Ban Bí thư đã họp dưới sự chủ trì của Tổng Bí thư Nguyễn Phú Trọng để nghe Ban cán sự đảng Thanh tra Chính phủ báo cáo kết quả việc thanh tra dự án nêu trên!"* có thể được xem là tổng hợp của 3 thành phần *"Theo đó,", "vừa qua,", "Ban Bí thư đã họp dưới sự chủ trì của Tổng Bí thư Nguyễn Phú Trọng để nghe Ban cán sự đảng Thanh tra Chính phủ báo cáo kết quả việc thanh tra dự án nêu trên!"*

*Hãy viết hàm **`sentenceToSegments(sentence)`** nhận đối số **`sentence`** là một đoạn câu dưới dạng `str`, tức một phần tử của list trong output của bài 2, và biến nó thành một list các thành phần theo thuật toán tương tự như ở bài 2, nhưng đối với các dấu phẩy theo sau bởi dấu cách (, ), hai chấm theo sau bởi dấu cách (: ), chấm phẩy theo sau bởi dấu cách (; ), gạch ngang theo sau bởi dấu cách (- ), đóng ngoặc đơn theo sau bởi dấu cách () ), dấu cách theo sau bởi mở ngoặc đơn (( ).*

Đoạn code dưới đây giúp test hàm của bạn.

In [26]:
s = "Các cơ quan có trách nhiệm khẩn trương xem xét, xử lý vụ việc bảo đảm khách quan, chính xác; " +\
    "theo quy định của Đảng và pháp luật Nhà nước: với tinh thần kiên quyết, chặt chẽ, làm rõ đến đâu xử lý đến đó, " +\
    "đúng người, đúng vi phạm, đúng pháp luật và thu hồi tài sản Nhà nước bị thất thoát."
sg = sentenceToSegments(s) #Kết quả là  1 list
pd.DataFrame(sg)

Unnamed: 0,0
0,"Các cơ quan có trách nhiệm khẩn trương xem xét,"
1,"xử lý vụ việc bảo đảm khách quan,"
2,chính xác;
3,theo quy định của Đảng và pháp luật Nhà nước:
4,"với tinh thần kiên quyết,"
5,"chặt chẽ,"
6,"làm rõ đến đâu xử lý đến đó,"
7,"đúng người,"
8,"đúng vi phạm,"
9,đúng pháp luật và thu hồi tài sản Nhà nước bị ...


### Bài 4. Hàm phụ [3]: Tách thành phần thành tiếng
*Hãy viết hàm **`segmentToUnits(segment)`** nhận đối số **`segment`** là một thành phần dưới dạng `str`, tức một phần tử của list trong output của bài 3, và trả lại kết quả là một list tất cả các tiếng (từ đơn) sau khi bỏ hết các dấu câu, số và kí tự lạ.*

Regular expression (biểu thức chính quy) sau có thể giúp bạn: `r'[,;$\:\^\=\+\-\"\'\(\)\/\@\*\&\%\“\.{1,}\?\!\d]'` (bạn có thể thêm những dấu khác có thể gặp)

Đoạn code dưới đây giúp test hàm của bạn.

In [28]:
e = 'Cho phương trình "x^3 + 3mx^2 + 2x - 1 = 0" tìm m để phương trình có 3 nghiệm phân biệt.'
u = segmentToUnits(e) # Kết quả là 1 list
pd.DataFrame(u)

Unnamed: 0,0
0,Cho
1,phương
2,trình
3,x
4,mx
5,x
6,tìm
7,m
8,để
9,phương


### Bài 5. Tải (load) danh sách từ tiếng Việt

Việc tách câu thành đoạn, đoạn thành thành phần, thành phần thành tiếng có thể xem là các việc thuần tuý kĩ thuật. Thao tác còn lại: ghép tiếng thành từ để thực hiện được cần có sự trợ giúp của một từ điển được xem là chứa tất cả các từ (đơn, ghép, láy) trong tiếng Việt. Ta load từ điển trong bài này.


*Hãy viết hàm **`loadWordSet(wordlist_filename)`** nhận đối số **`wordlist_filename`** là đường dẫn của file chứa danh sách các từ (file này có dạng như `VietnameseDictionary/WordList.txt`), sau đó trả lại một **set** là tập hợp tất cả các từ trong file đó.*

Đoạn code dưới đây giúp test hàm của bạn.

In [8]:
s = loadWordSet(WORDLIST_FILE)
"nhân dân" in s, "người" in s, "công nghệ" in s

(True, True, True)

In [9]:
len(s)

29567

### Bài 6. Hàm phụ [4]: Ghép tiếng thành từ

Thông thường, không có từ điển nào liệt kê đủ mọi từ, bởi các từ mới luôn xuất hiện theo thời gian, và hàng loạt thuật ngữ, từ mượn, thành ngữ, danh từ riêng ... không phải lúc nào cũng xuất hiện trong từ điển.

Kể cả khi tồn tại một từ điển liệt kê đầy đủ các từ, thì việc ghép các từ đơn thành từ phức (ghép, láy) cũng không thể giải quyết tốt 100%, do hiện tượng đồng âm, kiêm nhiệm chức năng... của từ. Ví dụ, xét 2 câu:

- *"Mây được hình thành từ hơi nước."*

- *"Ta chia hình thành 3 phần bằng nhau."*

Trong câu 1, tổ hợp "hình thành" là một từ ghép, còn trong câu 2, tổ hợp "hình thành" là 2 từ đơn. Để biết câu đang xét thuộc trường hợp nào, đó là một bài toán data science khác vượt ngoài phạm vi TD này.

Vì vậy, ta chỉ có thể giải quyết gần đúng bài toán ghép tiếng thành từ. Chẳng hạn, với list các tiếng `['Ta', 'chia', 'hình', 'thành', 'phần', 'bằng', 'nhau']`, ta có thể chấp nhận để chương trình trả lại list các từ sau khi ghép `['ta', 'chia', 'hình thành', 'phần', 'bằng', 'nhau']`.

Một trong những thuật toán có thể ghép gần đúng tiếng thành từ là thuật toán **tham lam** hay **so khớp từ dài nhất** (longest matching) sau: 

- Đọc list các tiếng từ trái sang phải.

- Nếu một tiếng được viết hoa, **có mặt trong từ điển** nhưng không nằm kề một tiếng viết hoa nào, thì chuyển nó thành dạng viết thường. Các trường hợp khác giữ nguyên trạng thái viết hoa hoặc thường của nó: `['Trung', 'tâm', 'Hữu', 'nghị', 'Việt', 'Đức'] -> ['trung', 'tâm', 'hữu', 'nghị', 'Việt', 'Đức']`; `['Anh', 'và', 'Tây', 'Ban', 'Nha', 'và', 'Ireland', 'đều', 'thuộc', 'châu', 'Âu'] -> ['anh', 'và', 'Tây', 'Ban', 'Nha', 'và', 'Ireland', 'đều', 'thuộc', 'châu', 'âu']`.

- Ứng với mỗi tiếng, ghép nó với số lượng lớn nhất các tiếng ở sát bên phải nó sao cho tổ hợp tạo thành hoặc là một từ có mặt trong từ điển, hoặc là một dãy viết hoa liên tiếp cực đại. `['nhân', 'dân', 'ta', 'có', 'một', 'lòng', 'nồng', 'nàn', 'yêu', 'nước'] -> ['nhân dân', 'ta', 'có', 'một lòng', 'nồng nàn', 'yêu', 'nước']`; `['anh', 'và', 'Tây', 'Ban', 'Nha', 'và', 'Ireland', 'đều', 'thuộc', 'châu', 'âu'] -> ['anh', 'và', 'Tây Ban Nha', 'và', 'Ireland', 'đều', 'thuộc', 'châu', 'âu']`

 (tại các vị trí **nhân**, **một**, **nồng**; tổ hợp **nhân dân**, **một lòng**, **nồng nàn** có mặt trong từ điển còn **nhân dân ta**, **một lòng nồng**, **nồng nàn yêu** không có mặt trong từ điển, cũng không được viết hoa; tổ hợp "Tây Ban Nha" được viết hoa còn **Tây Ban Nha và** không được viết hoa, v.v.).

- Cuối cùng, nếu bản thân tiếng đó không có mặt trong từ điển và cũng không ghép được với tổ hợp nào ở sát bên phải để tạo từ, ta cũng xem nó là một từ: `['tích', 'xy', 'của', 'x', 'và', 'y'] -> ['tích', 'xy', 'của', 'x', 'và', 'y']` (**xy** trở thành từ dù nó không có trong từ điển)


*Hãy viết hàm **`unitsToWords(units, word_set)`** nhận đối số **`units`** là list các tiếng như output của bài 4 và **`word_set`** là danh sách các từ dưới dạng set như output của bài 5, sau đó thực hiện thuật toán tham lam nêu trên để trả lại list các từ được tạo thành.*

Đoạn code dưới đây giúp test hàm của bạn.

In [30]:
e = 'Cho phương trình "x^3 + 3mx^2 + 2x - 1 = 0" tìm m để phương trình có 3 nghiệm phân biệt.'
u = segmentToUnits(e)
s = loadWordSet(WORDLIST_FILE) # Kết quả là 1 set
w = unitsToWords(u, s) # Kết quả là 1 list
pd.DataFrame(w)

Unnamed: 0,0
0,Cho
1,phương trình
2,x
3,mx
4,x
5,tìm
6,m
7,để
8,phương trình
9,có


### Bài 7. Tổng hợp các bước: biến văn bản thành túi từ

Bây giờ ta có thể tổng hợp tất cả các bước từ các bài trên để từ file dữ liệu tổng hợp (`FullData/Sport2017_Solution.txt`) tạo ra các túi từ.

*Viết hàm **`getWordFrequencyFromArticles(data_file, word_list_file)`** nhận đối số **`data_file`** là đường dẫn của file dữ liệu tổng hợp và **`word_list_file`** là đường dẫn của file danh sách từ (`VietnameseDictionary/WordList.txt`), và trả lại một **list** có số phần tử bằng số bài báo trong **`data_file`**, mỗi phần tử là một **dict** của Python có dạng **từ : tần số xuất hiện của từ trong nội dung bài báo**).*

Đoạn code dưới đây giúp test hàm của bạn. (Thời gian chạy khoảng 1-2 phút)

In [47]:
freq_dict = getWordFrequencyFromArticles(ALL_DATA_FILE, WORDLIST_FILE) #Kết quả freq_dict là một list các dict
len(freq_dict)

5949

In [33]:
c1 = pd.Series(freq_dict[0].keys()) #freq_dict[0] là một dict, lấy tất cả các key (từ) của nó
c2 = pd.Series(freq_dict[0].values()) # Lấy tần số tương ứng
pd.DataFrame([c1, c2]) # Quan sát bằng DataFrame

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,216,217,218,219,220,221,222,223,224,225
0,lập,thời,Turf Moor,đang,tinh thần,hạng,nhất,bóng,còn,Mike Dean,...,lục,sân,ghi,đấu,trước,một mình,ngày,trận,vẫn,tại
1,1,1,2,3,1,5,2,1,1,1,...,1,3,1,3,3,1,1,5,1,3


Ví dụ trên cho thấy nội dung bài báo thứ nhất đã được chuyển đổi thành các bộ từ : tần số. Từ *"lập"* xuất hiện 1 lần, từ *"tinh thần"* xuất hiện 1 lần, từ *"Turf Moor"* xuất hiện 2 lần v.v...

### Bài 8. Lưu túi từ vào file

Để các bước tiếp theo không phải thực hiện lại quá trình preprocessing1 này, ta lưu kết quả đã thực hiện vào file (Trong thực tế, người ta lưu vào cơ sở dữ liệu thay vì file). Ta sẽ cần 2 file:

- Một file như `FullData/FrequencyBySportArticle_Solution.txt` chứa tiêu đề các bài báo và túi từ tương ứng của nó.
- Một file như `FullData/GlobalSportFrequency_Solution.txt` chứa tổng tần số của tất cả các từ xuất hiện ít nhất trong 1 bài báo, lấy trên tất cả các bài báo.

*Viết hàm **`saveWordFrequencyToFile(data_file, word_list_file, frequency_file, global_frequency_file)`** nhận đối số **`data_file`**, **`word_list_file`** là file các bài báo và file danh sách từ, rồi thực hiện việc biến các bài báo thành list các túi từ rồi ghi vào **`frequency_file`** theo quy tắc: Mỗi hàng tương ứng là một bài báo gồm: tiêu đề bài báo, theo sau bởi hai dấu tab (`\t\t`), theo sau bởi các cặp từ:tần số (ở giữa là dấu hai chấm), các cặp này cách nhau bởi 1 dấu tab (`\t`). Ví dụ hàng đầu tiên có dạng: **tieude1**\t\t**tu1**:**tanso1**\t**tu2**:**tanso2**...\t**tuN**:**tansoN**\n. *

*Tiếp theo, hàm tính tổng tần số của các từ trên tất cả các bài báo và lưu vào **`global_frequency_file`** sao cho mỗi từ ứng với một hàng, mỗi hàng gồm từ, theo sau bởi dấu hai chấm, theo sau bởi tổng tần số tương ứng. Để thuận tiện cho tính toán sau này, bạn nên lưu theo thứ tự tần số giảm dần, hàng tương ứng với từ có tần số cao hơn xuất hiện trước.*

Đoạn code dưới đây giúp test hàm của bạn.

In [39]:
saveWordFrequencyToFile(ALL_DATA_FILE, WORDLIST_FILE, FREQUENCY_FILE, GLOBAL_FREQUENCY_FILE)

In [47]:
pd.read_csv(FREQUENCY_FILE, sep="\t\t", names=["Tiêu đề", "Túi từ"]).head()

Unnamed: 0,Tiêu đề,Túi từ
0,"Leicester thua trận, trở thành nhà ĐKVĐ tệ nhấ...",lập:1\tthời:1\tTurf Moor:2\tđang:3\ttinh thần:...
1,Tottenham vượt Arsenal nhưng chưa thể thu hẹp ...,đánh rơi:1\tphần nhiều:1\tđang:1\thạng:1\tnhất...
2,Pato đầu quân cho đội bóng của Trung Quốc,Brazil:1\thạng:1\tnhất:2\tỞ:1\tCựu:1\tgiá:1\th...
3,Beckham: 'Tôi không biết mình suýt bị Man Utd ...,đang:1\tReal Madrid:2\txem:2\tgiành:1\tbóng:1\...
4,HLV Tottenham: 'Bắt kịp Chelsea là điều bất kh...,đua:2\txem:1\tđang:2\tgiúp:1\thạng:4\tnhất:1\t...


In [49]:
pd.read_csv(GLOBAL_FREQUENCY_FILE, sep=":", names=["Từ", "Tần số"]).head(20)

Unnamed: 0,Từ,Tần số
0,của,5568
1,và,5552
2,là,5321
3,với,5311
4,trong,5301
5,có,5114
6,khi,5078
7,một,4984
8,ở,4805
9,không,4784


## Phần 2: Preprocessing 2 - Số hoá túi từ

Từ thời điểm này, ta chỉ cần làm việc với 3 file, trong đó 2 file sau chính là kết quả của bước 1.
```python
WORDLIST_FILE = "VietnameseDictionary/WordList.txt"
FREQUENCY_FILE = "FullData/FrequencyBySportArticle.txt"
GLOBAL_FREQUENCY_FILE = "FullData/GlobalSportFrequency.txt"
```

Để thuận tiện cho việc thống nhất số liệu để so sánh kết quả với hướng dẫn của TD, bạn có thể dùng 2 file `..._Solution.txt` và đổi tên thành các file trên.


### Bài 9. Giảm số chiều bằng cách chọn các từ quan trọng

Để các thuật toán clustering có thể chạy được, ta phải biến các túi từ thành các vector, trong đó mỗi toạ độ thể hiện một từ. Vấn đề đầu tiên đặt ra: ta sử dụng hết tất cả các từ hiện có hay có thể chọn lọc trước một số từ quan trọng. Đây là bài toán giảm số chiều (reduction of dimension) trong machine learning. Ta chưa đi sâu vào các kĩ thuật cho bài toán này, mà sử dụng phương pháp đơn giản dựa vào quan sát file `FullData/GlobalSportFrequency.txt`.

Ta thấy:

- Những từ có tần số quá lớn thường không có tính phân loại, tức không quan trọng. Ví dụ các từ "và", "của", "hoặc"... có thể xuất hiện trong rất nhiều bài báo, không thể căn cứ vào đó để chia nhóm nội dung.

- Những từ có tần số quá nhỏ cũng không quan trọng. Đó là những từ chỉ xuất hiện đơn lẻ trong một vài bài báo, không đặc trưng cho một nhóm.

- Những từ xuất hiện đều đặn trong các bài báo (có tần số gần như nhau trong hầu hết tất cả bài báo) thường cũng không thể được dùng để phân loại các bài báo. 

Do đó, ta sẽ chọn ra những từ thoả mãn điều kiện sau:

- Có tần số nhỏ hơn hoặc bằng một giá trị chặn trên **upperbound**

- Có tần số lớn hơn hoặc bằng một giá trị chặn dưới **lowerbound**

- Có phương sai của list tần số lấy trên tất cả các bài báo lớn hơn hoặc bằng một giá trị **var_lowerbound**

Giả sử sau khi chọn xong, ta giữ lại được 5 từ (`"thể thao", "bóng đá", "Việt Nam", "Messi", "Ronaldo")`, ta có thể gán cho chúng 5 toạ độ, ví dụ `("thể thao" -> 0, "Messi" -> 1, "Ronaldo" -> 2, "Việt Nam" -> 3, "bóng đá" -> 4)`. Khi đó túi từ `("Việt Nam":2, "thể thao":1, "huy chương": 2, "là": 1)` sẽ được biến thành vector `[1, 0, 0, 2, 0]`.

*Hãy viết hàm **`getExplicativeFeatures(global_frequency_file, frequency_file, lowerbound, upperbound, var_lower_bound)`** nhận 5 đối số theo thứ tự là đường dẫn file túi từ theo bài báo, đường dẫn file tần số tổng quát, chặn dưới của tần số cần chọn, chặn trên của tần số cần chọn, chặn dưới của phương sai cần chọn, và trả lại một **dict** của Python gồm các key là các từ "có tính giải thích" được chọn và value tương ứng là số thứ tự của toạ độ.*

Trong ví dụ trên, kết quả trả lại cần là: `{"thể thao": 0, "Messi": 1, "Ronaldo": 2, "Việt Nam": 3, "bóng đá": 4}`

Đoạn code dưới đây giúp kiểm tra hàm của bạn.

In [3]:
MIN_AVG = 200
MAX_AVG = 1000
MIN_DEV = 0.5

In [8]:
features = getExplicativeFeatures(GLOBAL_FREQUENCY_FILE, FREQUENCY_FILE, MIN_AVG, MAX_AVG, MIN_DEV)
features

{'Argentina': 28,
 'Arsenal': 11,
 'Atletico': 10,
 'Bayern': 7,
 'Brazil': 12,
 'Chelsea': 18,
 'HC': 32,
 'Juventus': 30,
 'La Liga': 13,
 'Liverpool': 0,
 'Man City': 35,
 'Messi': 21,
 'Monaco': 19,
 'Mourinho': 16,
 'M\xe1\xbb\xb9': 1,
 'Neymar': 9,
 'PSG': 23,
 'Ronaldo': 8,
 'Tottenham': 40,
 'T\xc3\xa2y Ban Nha': 15,
 'Vi\xe1\xbb\x87t Nam': 3,
 'World Cup': 4,
 'Zidane': 22,
 'b\xc3\xa1n': 14,
 'b\xe1\xba\xa1n': 26,
 'c\xe1\xba\xadu': 42,
 'danh hi\xe1\xbb\x87u': 6,
 'gi\xc3\xa2y': 29,
 'hi\xe1\xbb\x87p': 5,
 'h\xe1\xbb\xa3p \xc4\x91\xe1\xbb\x93ng': 33,
 'm\xc3\xacnh': 25,
 'n\xe1\xbb\xaf': 41,
 'ph\xe1\xba\xa1t': 31,
 'quy\xe1\xbb\x81n': 36,
 'th\xc3\xac': 24,
 'ti\xe1\xbb\x81n': 38,
 'tr\xe1\xba\xbb': 34,
 'tr\xe1\xbb\x8dng t\xc3\xa0i': 37,
 'tuy\xe1\xbb\x83n': 39,
 'v\xc3\xa0ng': 20,
 'v\xe1\xbb\xa3t': 2,
 '\xc4\x91ua': 17,
 '\xc4\x91\xc3\xa1nh': 27}

In [7]:
c1 = pd.Series(features.keys()) 
c2 = pd.Series(features.values()) 
pd.DataFrame([c1, c2]) #Brazil ứng với toạ độ 12, Neymar ứng với toạ độ 9, v.v... Của bạn có thể khác

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,33,34,35,36,37,38,39,40,41,42
0,Brazil,bán,Neymar,đua,mình,Monaco,Tây Ban Nha,PSG,hiệp,HC,...,Chelsea,Messi,Man City,Zidane,Arsenal,vợt,danh hiệu,phạt,thì,quyền
1,12,14,9,17,25,19,15,23,5,32,...,18,21,35,22,11,2,6,31,24,36


### Bài 10. Biến túi từ thành các vector có toạ độ 0/1

Ta cần phân nhóm các bài báo theo độ tương đồng về nội dung. Theo đó, các vector ứng với các bài báo tương đồng (sử dụng chung một lượng từ "quan trọng" giống nhau) cần có khoảng cách nhỏ, còn các vector ứng với các bài báo không tương đồng có khoảng cách lớn. 

Vì điều kiện này, việc số hoá các túi từ thành các vector có toạ độ là tần số các từ không phải là lựa chọn tốt. 

Ví dụ xét 3 túi từ: 

- Túi từ `A {"Việt Nam": 1, "bóng đá": 2}`
- Túi từ `B {"Việt Nam": 2, "bóng đá": 4}`
- Túi từ `C {"Messi": 1, "Ronaldo": 1}`

Nếu biến mỗi túi từ thành vector tần số các từ thì `A, B, C` trở thành `[0, 0, 0, 1, 1]`, `[0, 0, 0, 2, 4]`, `[0, 1, 1, 0, 0]`. Khi đó `AB`$ = \sqrt{10} > $ `AC`$= 2$, trong khi `A` tương đồng với `B` hơn `C`.

Để khắc phục bất tiện này, ta nghĩ đến phương pháp sử dụng phép số hoá 0-1. Nếu một từ "quan trọng" có mặt trong bài báo (túi từ), toạ độ tương ứng của nó bằng 1. Nếu không, toạ độ tương ứng bằng 0.

Với ví dụ trên, `A, B, C` trở thành `[0, 0, 0, 1, 1]`, `[0, 0, 0, 1, 1]`, `[0, 1, 1, 0, 0]`. Khi đó `AB = 0, AC = 2`, một kết quả hợp lí hơn.

*Hãy viết hàm **`articlesToSparseVector(frequency_file, features_dict, coordinates_coding_mode = "0-1")`** nhận đối số **`frequency_file`** là file túi từ, **`features_dict`** là từ điển các từ quan trọng như output của bài 9, **coordinates_coding_mode** là một str cho biết cách số hoá, có giá trị "0-1" trong bài này và sẽ thay đổi ở một số bài sau; và trả lại một numpy array hoặc một sparse matrix hoặc một DataFrame (tuỳ bạn lựa chọn) tương ứng với một ma trận có số hàng bằng số bài báo, mỗi hàng là vector 0-1 đã được chuyển đổi từ túi từ của bài báo đó.*

Đoạn code dưới đây giúp test hàm của bạn (trong đó `X` được chọn là một sparse matrix)

In [6]:
COORDINATES_CODING_MODE = "0-1"
features = getExplicativeFeatures(GLOBAL_FREQUENCY_FILE, FREQUENCY_FILE, MIN_AVG, MAX_AVG, MIN_DEV)
X = articlesToSparseVector(FREQUENCY_FILE, features, COORDINATES_CODING_MODE)
pd.DataFrame(X.toarray()).head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,33,34,35,36,37,38,39,40,41,42
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
1,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
2,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,1,0,0,0,0
3,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


### Bài 11. Hàm phụ - Lấy tiêu đề của các bài báo

*Để tiện cho việc phân tích kết quả sau này, hãy viết hàm **`getTitles(frequency_file)`** nhận đối số **`frequency_file`** là file túi từ, và trả lại list tiêu đề theo đúng thứ tự.*

In [11]:
tt = getTitles(FREQUENCY_FILE)
pd.DataFrame(tt).head(10)

Unnamed: 0,0
0,"Leicester thua trận, trở thành nhà ĐKVĐ tệ nhấ..."
1,Tottenham vượt Arsenal nhưng chưa thể thu hẹp ...
2,Pato đầu quân cho đội bóng của Trung Quốc
3,Beckham: 'Tôi không biết mình suýt bị Man Utd ...
4,HLV Tottenham: 'Bắt kịp Chelsea là điều bất kh...
5,Tết buồn của cựu võ sĩ Trần Kim Tuyến
6,"Arsenal, Man Utd và Chelsea tránh nhau ở FA Cup"
7,Cầu thủ Leicester City: 'Ranieri đã phản bội tôi'
8,Tiến Minh và Vũ Thị Trang lần đầu đánh giải sa...
9,Suarez: 'Bóng đã qua vạch vôi cả mét'


## Phần 3 - KMeans

### Bài 12. Chia nhóm với KMeans và khoảng cách Euclide

*Hãy viết hàm **`train(vectors, nb_clusters, model = "KMeans")`** nhận đối số **`vectors`** là output của bài 10, **`nb_clusters`** là số nhóm cần chia, **`model`** là tên mô hình (trong bài này là **KMeans** by default), và trả lại mô hình dự đoán (predictive model) ứng với thuật toán KMeans với khoảng cách Euclide.*

*Sau đó, hãy viết hàm **`predict(predictive_model, vectors)`** để từ **`predictive_model`** là kết quả của hàm **`train`** trên, trả lại dự đoán của mô hình dành cho **`vectors`** dưới dạng một list gồm các số thứ tự của nhóm tương ứng với từng vector (bài báo).*

Đoạn code dưới đây giúp test hàm của bạn.

In [4]:
COORDINATES_CODING_MODE = "0-1"
NB_CLUSTER = 4
MODEL = "KMeans"
MIN_AVG = 200
MAX_AVG = 1000
MIN_DEV = 0.5

features = getExplicativeFeatures(GLOBAL_FREQUENCY_FILE, FREQUENCY_FILE, MIN_AVG, MAX_AVG, MIN_DEV)
X = articlesToSparseVector(FREQUENCY_FILE, features, COORDINATES_CODING_MODE)
predictive_model = train(X, NB_CLUSTER, model=MODEL)
prediction = predict(predictive_model, X)
prediction

array([2, 3, 3, ..., 1, 3, 2])

In [5]:
titles = getTitles(FREQUENCY_FILE)
c1 = pd.Series(titles)
c2 = pd.Series(prediction)
pd.concat([c1, c2], axis=1).head(10)

Unnamed: 0,0,1
0,"Leicester thua trận, trở thành nhà ĐKVĐ tệ nhấ...",2
1,Tottenham vượt Arsenal nhưng chưa thể thu hẹp ...,3
2,Pato đầu quân cho đội bóng của Trung Quốc,3
3,Beckham: 'Tôi không biết mình suýt bị Man Utd ...,2
4,HLV Tottenham: 'Bắt kịp Chelsea là điều bất kh...,3
5,Tết buồn của cựu võ sĩ Trần Kim Tuyến,2
6,"Arsenal, Man Utd và Chelsea tránh nhau ở FA Cup",3
7,Cầu thủ Leicester City: 'Ranieri đã phản bội tôi',2
8,Tiến Minh và Vũ Thị Trang lần đầu đánh giải sa...,0
9,Suarez: 'Bóng đã qua vạch vôi cả mét',1


Theo kết quả trên, bài báo 1 và 4 thuộc cùng 1 nhóm (chúng cùng liên quan đến Tottenham).

### Bài 13. Quan sát kết quả [1] - Nhìn vào từng nhóm

Bảng trên cho phép ta biết bài báo nào được phân vào nhóm nào, nhưng khá "khó nhìn" để phân tích kế quả. Ta tìm cách biểu diễn ở một dạng dễ phân tích hơn. 

*Hãy viết hàm **`getClusters(titles, prediction)`** nhận đối số **`titles`** là list tiêu đề các bài báo theo thứ tự, **`prediction`** là kết quả chia nhóm ở bài 12 dưới dạng một array (như array([0, 2, 0, ..., 4, 2, 3]), sau đó trả lại kết quả là một list gồm $k$ phần tử, trong đó phần tử thứ $i$ là một list tiêu đề các bài báo thuộc nhóm $i$.*

Đoạn code dưới đây giúp test hàm của bạn.

In [10]:
clusters = getClusters(titles, prediction)
pd.DataFrame(clusters[0]).head(10) #Các bài báo thuộc nhóm 0...

Unnamed: 0,0
0,Tiến Minh và Vũ Thị Trang lần đầu đánh giải sa...
1,Việt Nam cùng bảng với Campuchia ở vòng loại c...
2,Ban trọng tài VFF: ‘Samson chỉ trượt lên đầu g...
3,HAGL bất bình với pha ra đòn của cầu thủ Hà Nộ...
4,'Nữ hoàng đấu kiếm' Lệ Dung liên tục bị thất h...
5,"Man City đón tân binh trị giá 33,3 triệu đôla"
6,Tài năng bóng đá Việt Nam có cơ hội tập luyện ...
7,Bác sĩ tuyển Việt Nam: 'Không điều trị sai cho...
8,"Hoàng Xuân Vinh, Ánh Viên được vinh danh tại C..."
9,HLV Hữu Thắng: 'Bác sĩ làm lỡ hết kế hoạch của...


In [12]:
pd.DataFrame(clusters[1]).head(10) #Các bài báo thuộc nhóm 1...

Unnamed: 0,0
0,Suarez: 'Bóng đã qua vạch vôi cả mét'
1,Real nới rộng cách biệt tại Liga bằng chiến th...
2,Suarez giải cứu Barca bằng bàn thắng ở phút 90
3,Tháng 2 đầy chông gai đang chờ đón Barca
4,Alba: 'Real bị loại và lập tức hạ thấp Cup Nhà...
5,Neymar thất bại khi lôi kéo Coutinho về Barca
6,Real thua trong vụ kiện kênh truyền hình bôi x...
7,Scolari: 'Ronaldo giành Quả Bóng Vàng nhờ ý ch...
8,"Mất Modric và Marcelo, Real lâm vào khủng hoản..."
9,Zidane họp khẩn với cả đội Real sau trận thắng...


Như ví dụ trên, nhóm 0 gồm các bài báo có vẻ tương tự nhau, liên quan đến thể thao Việt Nam (không chính xác 100%). Nhóm 1, tương tự, nếu bạn có hiểu biết về bóng đá, sẽ cảm thấy nó liên quan đến bóng đá Tây Ban Nha. 

Trong bài này ta dùng $k = 4$. Bạn có thể kiểm tra kết quả 4 nhóm xem chúng có đặc trưng gì.

### Bài 14. Quan sát kết quả [2] - Nhìn vào tâm của từng nhóm

Như ta biết, thành phần toạ độ của mỗi vector chỉ có thể là 0 hoặc 1. Do đó tâm của mỗi nhóm là một vector có các thành phần nằm giữa 0 và 1. Thành phần nào càng lớn (càng gần 1) thì các bài báo ứng với nhóm đó càng hay chứa từ quan trọng tương ứng. Nghĩa là các bài báo tương đồng với nhau dựa trên việc dùng chung từ quan trọng đó.

Vậy, tâm của mỗi nhóm cho ta thông tin về nguyên nhân của sự tương đồng trong nhóm.

*Hãy viết hàm **`getClusterCenters(predictive_model, vectors, prediction)`** nhận đối số **`predictive_model`** là mô hình dự đoán đã học (train) từ bài 12, **`vectors`** là output từ bài 10 (ma trận 0-1), **`prediction`** là kết quả của việc chia nhóm (output của bài 12) và trả lại một array hoặc DataFrame gồm $k$ hàng, mỗi hàng là vector tâm của mỗi nhóm.*

Đoạn code dưới đây giúp test hàm của bạn.

In [16]:
centers = getClusterCenters(predictive_model, X, prediction) #Một array hoặc DataFrame
pd.DataFrame(centers)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,33,34,35,36,37,38,39,40,41,42
0,0.002759,0.082759,0.048276,0.986207,0.09931,0.16,0.056552,0.0,0.002759,0.001379,...,0.095172,0.28,0.005517,0.204138,0.10069,0.086897,0.288276,0.002759,0.22069,0.073103
1,0.053763,0.030722,0.005376,0.000768,0.141321,0.099846,0.211982,0.053763,0.294163,0.324885,...,0.196621,0.109063,0.0553,0.145929,0.078341,0.138249,0.135177,0.046851,0.013057,0.160522
2,0.042113,0.122541,0.101829,0.0,0.089058,0.166724,0.150155,0.059027,0.050742,0.013462,...,0.127028,0.161201,0.053849,0.15844,0.087332,0.108733,0.086296,0.02727,0.037625,0.124957
3,0.317073,0.035122,0.004878,0.003902,0.069268,0.200976,0.174634,0.074146,0.014634,0.020488,...,0.234146,0.130732,0.44878,0.12878,0.074146,0.131707,0.11122,0.292683,0.005854,0.164878


*Hãy viết tiếp hàm **`getExplicatveFeaturesForEachCluster(predictive_model, vectors, prediction, explicative_features)`** nhận các đối số **`predictive_model`** (mô hình học từ hàm **`train`** ở bài 12), **`vectors`** (ma trận  0-1 như output bài 10), **`prediction`** (kết quả chia nhóm như output hàm **`predict`** ở bài 12), **`explicative_features`** (từ điển các từ quan trọng như output bài 9), và trả lại một numpy array hoặc DataFrame gồm $k$ hàng ứng với $k$ cluster, mỗi phần tử là một list các tuple (từ quan trọng, toạ độ tương ứng) xếp theo thứ tự giảm dần của toạ độ.*

Đoạn code sau giúp test hàm của bạn.

In [20]:
features_by_cluster = getExplicatveFeaturesForEachCluster(predictive_model, X, prediction, features)
pd.DataFrame(features_by_cluster)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,33,34,35,36,37,38,39,40,41,42
0,"(Việt Nam, 0.986206896552)","(tuyển, 0.288275862069)","(trẻ, 0.28)","(nữ, 0.220689655172)","(thì, 0.216551724138)","(vàng, 0.213793103448)","(HC, 0.212413793103)","(quyền, 0.204137931034)","(mình, 0.198620689655)","(đánh, 0.198620689655)",...,"(Ronaldo, 0.00275862068966)","(Neymar, 0.00137931034483)","(La Liga, 0.00137931034483)","(Juventus, 0.00137931034483)","(Chelsea, 0.00137931034483)","(Arsenal, 0.00137931034483)","(Monaco, 0.0)","(Bayern, 0.0)","(Atletico, 0.0)","(Zidane, 0.0)"
1,"(La Liga, 0.625960061444)","(Messi, 0.367895545315)","(Neymar, 0.324884792627)","(Tây Ban Nha, 0.323348694316)","(Ronaldo, 0.294162826421)","(PSG, 0.275729646697)","(Brazil, 0.251152073733)","(danh hiệu, 0.21198156682)","(Argentina, 0.198156682028)","(hợp đồng, 0.196620583717)",...,"(Monaco, 0.042242703533)","(Chelsea, 0.0353302611367)","(Mỹ, 0.0307219662058)","(Arsenal, 0.0245775729647)","(Mourinho, 0.0238095238095)","(nữ, 0.0130568356375)","(giây, 0.00844854070661)","(HC, 0.00537634408602)","(vợt, 0.00537634408602)","(Việt Nam, 0.000768049155146)"
2,"(đánh, 0.198481187435)","(hiệp, 0.166724197446)","(trẻ, 0.161201242665)","(quyền, 0.158439765274)","(danh hiệu, 0.150155333103)","(bán, 0.148429409734)","(thì, 0.140490162237)","(mình, 0.128408698654)","(hợp đồng, 0.127027959959)","(cậu, 0.124956851916)",...,"(Brazil, 0.0355540214014)","(Atletico, 0.0279599585778)","(Tottenham, 0.0272695892302)","(HC, 0.0245081118398)","(Zidane, 0.0165688643424)","(Messi, 0.0162236796686)","(Neymar, 0.0134622022782)","(La Liga, 0.0031066620642)","(Chelsea, 0.000690369347601)","(Việt Nam, 0.0)"
3,"(Chelsea, 0.767804878049)","(Arsenal, 0.453658536585)","(Man City, 0.448780487805)","(Liverpool, 0.317073170732)","(Tottenham, 0.292682926829)","(hợp đồng, 0.234146341463)","(hiệp, 0.200975609756)","(Tây Ban Nha, 0.185365853659)","(thì, 0.185365853659)","(Mourinho, 0.184390243902)",...,"(giây, 0.0214634146341)","(Neymar, 0.020487804878)","(vàng, 0.020487804878)","(Ronaldo, 0.0146341463415)","(Messi, 0.0117073170732)","(Zidane, 0.00878048780488)","(nữ, 0.00585365853659)","(vợt, 0.00487804878049)","(Việt Nam, 0.00390243902439)","(HC, 0.00292682926829)"


Đến đây ta cảm thấy rõ hơn về cách chia nhóm do KMeans thực hiện:

- Nhóm 0 liên quan đến thể thao Việt Nam (toạ độ của "Việt Nam" chiếm áp đảo với 0.98)

- Nhóm 1 liên quan đến bóng đá Tây Ban Nha (bạn có thể tìm hiểu "La Liga", "Messi", "Neymar", ... là ai/gì nếu chưa biết)

- Nhóm 2 là một nhóm hỗn tạp (như quan sát, các toạ độ thành phần của tâm đều nhỏ, gần 0 hơn 1, tức không có từ quan trọng nổi trội quyết định nội dung chung của nhóm)

- Nhóm 3 liên quan đến bóng đá Anh (bạn có thể tìm hiểu "Chelse"a, "Arsenal", "Man City", ... là gì nếu chưa biết)

Thứ tự các nhóm có thể thay đổi trong chương trình của bạn.

## Phần 4 - Thử nghiệm các thao tác khác

### Bài 15 - Thay đổi k

Việc chọn $k=4$ có thể dẫn đến một số nhóm bị gộp vào một nhóm chung (thường là nhóm ở gốc toạ độ 0). Ta thử thay đổi $k$ xem kết quả có tiến triển không.

*Bạn hãy thử thay đổi $k$, tính thế năng tương ứng, vẽ đồ thị thế năng theo $k$ và nhận xét. Không có hàm nào cần viết thêm trong bài này.*

Kết quả có dạng như hình sau:

<img src="https://raw.githubusercontent.com/riduan91/DSC101/master/Lesson5/TD/figure_2.png" width=600></img>

Thực tế, đồ thị trên đề xuất ta chọn $k$ rất lớn, nhưng theo quan sát kết quả, ta có thể hài lòng với $k$ nhỏ. Chẳng hạn $k = 8$ dưới đây.

In [38]:
WORDLIST_FILE = "VietnameseDictionary/WordList.txt"
FREQUENCY_FILE = "FullData/FrequencyBySportArticle.txt"
GLOBAL_FREQUENCY_FILE = "FullData/GlobalSportFrequency.txt"
COORDINATES_CODING_MODE = "0-1"
NB_CLUSTER = 8
MODEL = "KMeans"
MIN_AVG = 200
MAX_AVG = 1000
MIN_DEV = 0.5

features = getExplicativeFeatures(GLOBAL_FREQUENCY_FILE, FREQUENCY_FILE, MIN_AVG, MAX_AVG, MIN_DEV)
X = articlesToSparseVector(FREQUENCY_FILE, features, COORDINATES_CODING_MODE)
titles = getTitles(FREQUENCY_FILE)

predictive_model = train(X, NB_CLUSTER, model=MODEL)
prediction = predict(predictive_model, X)
clusters = getClusters(titles, prediction)

centers = getClusterCenters(predictive_model, X, prediction)
explicativeFeatures = getExplicatveFeaturesForEachCluster(predictive_model, X, prediction, features)

In [39]:
pd.DataFrame(explicativeFeatures)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,33,34,35,36,37,38,39,40,41,42
0,"(đánh, 0.875179340029)","(hiệp, 0.583931133429)","(phạt, 0.272596843615)","(quyền, 0.253945480631)","(trọng tài, 0.233859397418)","(thì, 0.170731707317)","(bán, 0.163558106169)","(trẻ, 0.153515064562)","(mình, 0.124820659971)","(Mỹ, 0.123385939742)",...,"(Messi, 0.0444763271162)","(Brazil, 0.0401721664275)","(Atletico, 0.0401721664275)","(nữ, 0.0315638450502)","(PSG, 0.0286944045911)","(Neymar, 0.0272596843615)","(Monaco, 0.0243902439024)","(HC, 0.0143472022956)","(danh hiệu, 0.0143472022956)","(Zidane, 0.0100430416069)"
1,"(Việt Nam, 0.980625931446)","(trẻ, 0.286140089419)","(tuyển, 0.283159463487)","(nữ, 0.239940387481)","(HC, 0.235469448584)","(vàng, 0.233979135618)","(thì, 0.207153502235)","(quyền, 0.202682563338)","(mình, 0.18479880775)","(đánh, 0.160953800298)",...,"(Mourinho, 0.00149031296572)","(Juventus, 0.00149031296572)","(Chelsea, 0.00149031296572)","(Arsenal, 0.00149031296572)","(Monaco, 0.0)","(La Liga, 0.0)","(Bayern, 0.0)","(Tottenham, 0.0)","(Atletico, 0.0)","(Zidane, 0.0)"
2,"(Chelsea, 0.725341426404)","(Arsenal, 0.61153262519)","(Man City, 0.608497723824)","(Liverpool, 0.433990895296)","(Tottenham, 0.402124430956)","(hợp đồng, 0.215477996965)","(hiệp, 0.212443095599)","(thì, 0.197268588771)","(Mourinho, 0.177541729894)","(Tây Ban Nha, 0.166919575114)",...,"(Mỹ, 0.0257966616085)","(vàng, 0.0242792109256)","(Ronaldo, 0.0121396054628)","(Messi, 0.01062215478)","(Zidane, 0.00758725341426)","(Neymar, 0.00606980273141)","(Việt Nam, 0.00455235204856)","(vợt, 0.00303490136571)","(HC, 0.00151745068285)","(nữ, 0.00151745068285)"
3,"(hợp đồng, 0.152542372881)","(trẻ, 0.138241525424)","(bán, 0.127118644068)","(quyền, 0.126588983051)","(cậu, 0.125)","(thì, 0.116525423729)","(Tây Ban Nha, 0.112288135593)","(mình, 0.105402542373)","(tiền, 0.105402542373)","(bạn, 0.104343220339)",...,"(nữ, 0.0259533898305)","(Tottenham, 0.0233050847458)","(Zidane, 0.0195974576271)","(HC, 0.0169491525424)","(Neymar, 0.00900423728814)","(World Cup, 0.0)","(La Liga, 0.0)","(đánh, 0.0)","(Việt Nam, 0.0)","(danh hiệu, 0.0)"
4,"(La Liga, 0.991084695394)","(Tây Ban Nha, 0.337295690936)","(Ronaldo, 0.323922734027)","(Messi, 0.27191679049)","(danh hiệu, 0.245170876672)","(Atletico, 0.197622585438)","(Zidane, 0.194650817236)","(đua, 0.145616641902)","(Argentina, 0.139673105498)","(bán, 0.132243684993)",...,"(World Cup, 0.0326894502229)","(Mỹ, 0.0282317979198)","(Monaco, 0.0267459138187)","(Mourinho, 0.0267459138187)","(Arsenal, 0.0252600297177)","(nữ, 0.00594353640416)","(giây, 0.00297176820208)","(vợt, 0.00297176820208)","(Việt Nam, 0.00148588410104)","(HC, 0.0)"
5,"(World Cup, 0.964028776978)","(tuyển, 0.553956834532)","(Argentina, 0.306954436451)","(Tây Ban Nha, 0.275779376499)","(Brazil, 0.258992805755)","(Messi, 0.189448441247)","(trẻ, 0.179856115108)","(cậu, 0.172661870504)","(quyền, 0.170263788969)","(hợp đồng, 0.16067146283)",...,"(nữ, 0.0383693045564)","(Bayern, 0.0359712230216)","(Việt Nam, 0.0335731414868)","(Mourinho, 0.0287769784173)","(Zidane, 0.0287769784173)","(HC, 0.0239808153477)","(đua, 0.0215827338129)","(Atletico, 0.0143884892086)","(giây, 0.00719424460432)","(vợt, 0.00719424460432)"
6,"(Neymar, 0.872817955112)","(PSG, 0.817955112219)","(Brazil, 0.551122194514)","(hợp đồng, 0.418952618454)","(tiền, 0.326683291771)","(Messi, 0.316708229426)","(Tây Ban Nha, 0.254364089776)","(quyền, 0.229426433915)","(cậu, 0.224438902743)","(La Liga, 0.197007481297)",...,"(Arsenal, 0.0374064837905)","(vàng, 0.0349127182045)","(Atletico, 0.0299251870324)","(giây, 0.0199501246883)","(Mourinho, 0.0199501246883)","(Zidane, 0.0199501246883)","(nữ, 0.0174563591022)","(vợt, 0.0074812967581)","(HC, 0.00498753117207)","(Việt Nam, 0.00249376558603)"
7,"(danh hiệu, 1.0)","(mình, 0.217311233886)","(trẻ, 0.21546961326)","(vợt, 0.213627992634)","(bán, 0.206261510129)","(thì, 0.198895027624)","(bạn, 0.195211786372)","(cậu, 0.19152854512)","(Mỹ, 0.16758747698)","(hợp đồng, 0.16758747698)",...,"(World Cup, 0.036832412523)","(giây, 0.036832412523)","(Argentina, 0.0349907918969)","(Brazil, 0.0331491712707)","(La Liga, 0.0276243093923)","(Việt Nam, 0.0184162062615)","(Atletico, 0.0184162062615)","(Zidane, 0.0184162062615)","(trọng tài, 0.0147329650092)","(Neymar, 0.0110497237569)"


Các bài báo tương ứng của các nhóm (lấy khoảng 10 bài đầu tiên)

In [40]:
clusters_as_array = np.array([cluster[:10] for cluster in clusters])
pd.DataFrame(clusters_as_array)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,"Leicester thua trận, trở thành nhà ĐKVĐ tệ nhấ...",Pato đầu quân cho đội bóng của Trung Quốc,Beckham: 'Tôi không biết mình suýt bị Man Utd ...,Luis van Gaal và con đường dang dở,Man Utd đứt mạch bất bại khi vào chung kết Cup...,"Trút mưa bàn thắng, Barca vào bán kết Cup Nhà vua","Liverpool thất thủ, bị loại ở bán kết Cúp Liên...","Ronaldo sút phạt ghi bàn, nhưng Real bị loại k...",ĐKVĐ Bờ Biển Ngà bị loại ngay từ vòng bảng CAN...,Sao tiền vệ PSG nhận thẻ vàng kỳ lạ
1,Tiến Minh và Vũ Thị Trang lần đầu đánh giải sa...,Việt Nam cùng bảng với Campuchia ở vòng loại c...,Ban trọng tài VFF: ‘Samson chỉ trượt lên đầu g...,HAGL bất bình với pha ra đòn của cầu thủ Hà Nộ...,'Nữ hoàng đấu kiếm' Lệ Dung liên tục bị thất h...,Tài năng bóng đá Việt Nam có cơ hội tập luyện ...,Bác sĩ tuyển Việt Nam: 'Không điều trị sai cho...,"Hoàng Xuân Vinh, Ánh Viên được vinh danh tại C...",HLV Hữu Thắng: 'Bác sĩ làm lỡ hết kế hoạch của...,Em trai Lê Văn Duẩn giành cú đúp ở giải đua xe...
2,Tottenham vượt Arsenal nhưng chưa thể thu hẹp ...,HLV Tottenham: 'Bắt kịp Chelsea là điều bất kh...,"Arsenal, Man Utd và Chelsea tránh nhau ở FA Cup",Man City nhấn chìm đội bóng của Sam Allardyce ...,Cựu danh thủ Arsenal khoe vạch ra được điểm yế...,Wenger bị cấm chỉ đạo bốn trận vì vụ xô trọng tài,Graham Poll: 'Wenger đáng bị phạt sáu trận vì ...,Wenger bị khép tội hành xử thiếu chuẩn mực,Wenger đối mặt án cấm chỉ đạo dài hạn vì xô xá...,Cầu thủ Hull nứt sọ sau cú va chạm với Gary Ca...
3,Tết buồn của cựu võ sĩ Trần Kim Tuyến,Cầu thủ Leicester City: 'Ranieri đã phản bội tôi',Payet hoàn tất vụ chuyển nhượng về Marseille,Mourinho công khai tên cầu thủ duy nhất có thể...,"Juventus thắng nhẹ, Roma và Milan thua ngược t...",Bolt: 'Sự vĩ đại của tôi không thể bị hoen ố k...,Man City sắp nhận án phạt do vi phạm luật chốn...,Barca chạm trán Atletico ở bán kết Cup Nhà vua,"Mourinho: 'Man Utd không thua, trận đấu có tỷ ...",Usain Bolt mất kỷ lục siêu hattrick vì đồng độ...
4,Suarez: 'Bóng đã qua vạch vôi cả mét',Real nới rộng cách biệt tại Liga bằng chiến th...,Suarez giải cứu Barca bằng bàn thắng ở phút 90,Tháng 2 đầy chông gai đang chờ đón Barca,Alba: 'Real bị loại và lập tức hạ thấp Cup Nhà...,"Mất Modric và Marcelo, Real lâm vào khủng hoản...",Zidane họp khẩn với cả đội Real sau trận thắng...,"MSN cùng lập công, Barca đại thắng",Real đã vô địch La Liga nếu tính từ thời điểm ...,"Cựu danh thủ Barca và Real thay thế Riedl, dẫn..."
5,Ferguson: ‘Kỷ lục ghi bàn của Rooney có thể kh...,Rooney: 'Tôi chưa từng nghĩ đến kỷ lục ghi bàn...,Rivaldo tin Gabriel Jesus sẽ đi vào lịch sử Ma...,"Man City đón tân binh trị giá 33,3 triệu đôla",Louis van Gaal nghỉ hưu,Jorge Sampaoli: Kẻ cắt mạch bất bại của Real v...,Juventus giữ chặt sao tiền đạo Dybala bằng mác...,Lá thư cho bản thân của Ronaldinho: 'Đừng đá b...,Suarez không dự lễ trao giải FIFA vì còn bực v...,Cầu thủ già nhất Nhật Bản tiếp tục thi đấu ở t...
6,Neymar thất bại khi lôi kéo Coutinho về Barca,Scolari: 'Ronaldo giành Quả Bóng Vàng nhờ ý ch...,Cầu thủ Sociedad tố trọng tài bỏ qua thẻ đỏ ch...,"Thắng đối thủ kỵ giơ, Barca đặt một chân vào b...","Neymar qua mặt Messi, dẫn đầu thế giới về giá ...",Oscar để ngỏ khả năng quay lại Chelsea dù đã t...,Barca sa thải vị giám đốc phát biểu về Messi,HLV Enrique: 'Cầu thủ Barca tự quyết định việc...,Real áp đảo trong đội hình tiêu biểu FIFA FIFP...,Barca viết lại lịch sử khi dùng đội hình chỉ c...
7,Mesut Ozil phát cuồng vì Federer vô địch Austr...,Liverpool bị đội hạng dưới đá bay khỏi Cup FA,Valencia từng nghĩ sự quan tâm của Man Utd là ...,Federer từng không tin còn khả năng vào chung ...,Harry Kane: 'Chỉ có điên mới rời Tottenham lúc...,Federer bất ngờ với chính mình khi vào bán kết...,Serena vào tứ kết Australia Mở rộng,Chapecoense chơi trận đầu tiên sau tai nạn máy...,Serena thẳng tiến vào vòng ba Australia Mở rộng,"Djokovic thua tay vợt thứ 117 thế giới, dừng b..."


Căn cứ vào kết quả, ta thấy nhóm 3 vẫn là nhóm hỗn tạp (nhưng với size nhỏ hơn, có thể kiểm tra). Nhóm 1, 2, 4 nói về thể thao Việt Nam, bóng đá Anh và Tây Ban Nha. Một số nhóm mới xuất hiện, căn cứ vào toạ độ tâm ta có thể gọi tên *"các bài báo mô tả một trận đấu"* (nhóm 0), *"World Cup và các đội tuyển quốc gia"* (nhóm 5), *"Neymar và các chuyện liên quan"* (nhóm 6, nhớ rằng thương vụ chuyển nhượng Neymar từ Barcelona sang PSG tốn nhiều giấy mực của báo chí năm 2017), *"danh hiệu"* (nhóm 7). Tuy nhiên, ta có thể không thực sự hài lòng với sự liên quan của nội dung các bài báo, ví dụ ở nhóm 5, nhiều bài không liên quan đến World Cup. Có thể World Cup chỉ xuất hiện 1 lần trong bài báo trong văn cảnh ngẫu nhiên.

Tuỳ thuộc mục đích sử dụng kết quả, ta có thể hài lòng với $k=4$ (3 chủ đề chính), $k=8$ (cộng thêm một số chủ đề mới).

Cuối cùng về size của các cluster, ta thấy cluster hỗn tạp có size lớn nhất. Ta có thể tách riêng nó ra và thực hiện một lần clustering mới để hoặc thêm vào các cluster cũ, hoặc phát hiện ra các cluster có chủ đề mới với size nhỏ hơn.

In [41]:
[len(cluster) for cluster in clusters]

[697, 671, 659, 1888, 673, 417, 401, 543]

### Bài 16. Thay đổi cách tính khoảng cách

Cuối bài 15, ta đã thấy một hiện tượng phát sinh là việc không để ý đến tần số của các từ trong bài báo có thể khiến một số từ kém quan trọng (như "World Cup") trở nên quan trọng. Đây là vấn đề phát sinh từ việc số hoá 0-1.

Trước đó ta cũng thấy việc số hoá mỗi bài báo thành một vector chứa tần số từ là không hợp lí.

Ta tìm cách dung hoà hai phương pháp này bằng cách xây dựng một hàm `f` biến tần số $a$ mỗi từ thành thành phần toạ độ tương ứng với từ đó, sao cho:

Ứng với 3 bài báo `A`, `B`, `C` có tần số `a`, `b`, `c`.

- Nếu `a = 0 thì f(a) = 0`

- Nếu `a = 0`, `b, c > 0` thì `|f(b) - f(c)| < |f(b) - f(a)|` (Hai bài báo cùng chứa 1 từ có thành phần khoảng cách tương ứng nhỏ hơn 1 bài báo chứa và 1 báo không chứa)

- Nếu `a > b` thì  `f(a) > f(b)` (Tần số càng lớn, toạ độ càng lớn)

Theo cách này, ta có thể cho chẳng hạn $f(1) = 2$, đặt một chặn trên tại 4 và xây dựng 1 hàm tăng nhận giá trị trong [2, 4]. Điều kiện thứ 3 cho thấy tần số của 1 từ càng lớn thì độ liên quan đến từ đó càng lớn

Có thể giả sử rằng 1 từ không xuất hiện quá 8 lần trong bài báo, ta có thể chọn hàm $f(a) = 1+ \sqrt{a}$. (Có nhiều cách lựa chọn khác, ví dụ $f(a) = \log_2{(3 + a)}$)

*Hãy sửa chữa hàm **`freqToCoordinates`** đã viết ở bài 10, để khi đối số **`coordinates_coding_mode`** nhận giá trị **"sqrt"** thì output của hàm này sẽ là một ma trận mà mỗi hàng là các vector có thành phần toạ độ được tính theo hàm $f(a) = 1 + \sqrt{a}$.*

Đoạn code dưới đây giúp test hàm của bạn.

In [29]:
WORDLIST_FILE = "VietnameseDictionary/WordList.txt"
FREQUENCY_FILE = "FullData/FrequencyBySportArticle.txt"
GLOBAL_FREQUENCY_FILE = "FullData/GlobalSportFrequency.txt"
COORDINATES_CODING_MODE = "sqrt"
NB_CLUSTER = 8
MODEL = "KMeans"
MIN_AVG = 200
MAX_AVG = 1000
MIN_DEV = 0.5

features = getExplicativeFeatures(GLOBAL_FREQUENCY_FILE, FREQUENCY_FILE, MIN_AVG, MAX_AVG, MIN_DEV)
X = articlesToSparseVector(FREQUENCY_FILE, features, COORDINATES_CODING_MODE)
titles = getTitles(FREQUENCY_FILE)

predictive_model = train(X, NB_CLUSTER, model=MODEL)
prediction = predict(predictive_model, X)
clusters = getClusters(titles, prediction)

centers = getClusterCenters(predictive_model, X, prediction)
explicativeFeatures = getExplicatveFeaturesForEachCluster(predictive_model, X, prediction, features)

In [30]:
pd.DataFrame(explicativeFeatures)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,33,34,35,36,37,38,39,40,41,42
0,"(hiệp, 2.3699809451)","(đánh, 0.965998961995)","(phạt, 0.594122550533)","(trọng tài, 0.572241879888)","(quyền, 0.469221284562)","(thì, 0.355790974737)","(Man City, 0.353154465299)","(bán, 0.300041101448)","(trẻ, 0.281914660519)","(Arsenal, 0.279069161658)",...,"(Brazil, 0.105085875555)","(Monaco, 0.0827137797314)","(tuyển, 0.0813766216166)","(hợp đồng, 0.0764822190314)","(Neymar, 0.0706447686946)","(PSG, 0.057830353843)","(Zidane, 0.0507760721064)","(nữ, 0.0244265850691)","(HC, 0.0185185185185)","(vợt, 0.00617283950617)"
1,"(Chelsea, 2.3254744897)","(Arsenal, 1.33963831412)","(Man City, 1.10799496006)","(Liverpool, 0.826120098671)","(Tottenham, 0.782647220009)","(hợp đồng, 0.566800947501)","(Mourinho, 0.523850083375)","(danh hiệu, 0.461419676369)","(Tây Ban Nha, 0.431511083967)","(cậu, 0.428805646929)",...,"(giây, 0.0450561799803)","(vàng, 0.0435405617717)","(Messi, 0.0315424739294)","(Neymar, 0.0263678296862)","(Zidane, 0.0201000248228)","(Ronaldo, 0.0164709583539)","(nữ, 0.0108851404429)","(Việt Nam, 0.00905562742561)","(HC, 0.00776196636481)","(vợt, 0.00517464424321)"
2,"(Neymar, 2.7959805111)","(PSG, 2.26531783988)","(Brazil, 1.36841644585)","(hợp đồng, 0.94259267976)","(tiền, 0.70047877398)","(Messi, 0.696399332293)","(La Liga, 0.566831809717)","(cậu, 0.526841004919)","(Tây Ban Nha, 0.494922332565)","(quyền, 0.469114428461)",...,"(Mỹ, 0.0862648344813)","(Mourinho, 0.0656213569577)","(Arsenal, 0.0640849164636)","(Atletico, 0.0592332335292)","(giây, 0.0426780615616)","(Zidane, 0.0340231494956)","(nữ, 0.0235692256649)","(HC, 0.0135250059517)","(vợt, 0.0112044817927)","(Việt Nam, 0.00560224089636)"
3,"(Việt Nam, 2.60567170468)","(tuyển, 0.72572090513)","(HC, 0.72394296146)","(trẻ, 0.707170880204)","(vàng, 0.669229568357)","(nữ, 0.612548406283)","(thì, 0.535601432896)","(mình, 0.49457397255)","(quyền, 0.471726823682)","(đánh, 0.401087097383)",...,"(Tottenham, 0.00415205289904)","(Neymar, 0.003669017572)","(Arsenal, 0.003669017572)","(PSG, 0.00303951367781)","(Juventus, 0.00303951367781)","(Chelsea, 0.00303951367781)","(Monaco, 0.0)","(Bayern, 0.0)","(Atletico, 0.0)","(Zidane, 0.0)"
4,"(Ronaldo, 2.7546898077)","(La Liga, 1.20032932048)","(Messi, 0.60278211361)","(Tây Ban Nha, 0.599879871247)","(danh hiệu, 0.542351509961)","(Zidane, 0.47254364085)","(cậu, 0.422621268577)","(bán, 0.373362553631)","(quyền, 0.28812472287)","(hiệp, 0.287360556852)",...,"(Liverpool, 0.0727378906835)","(Chelsea, 0.0717287041501)","(Monaco, 0.0523566176274)","(Mourinho, 0.0485076158328)","(Arsenal, 0.0409204745831)","(nữ, 0.0364760301386)","(vợt, 0.0231426968053)","(HC, 0.0)","(giây, 0.0)","(Việt Nam, 0.0)"
5,"(hợp đồng, 0.384774356762)","(danh hiệu, 0.323396418294)","(quyền, 0.32289515296)","(trẻ, 0.311180411699)","(bán, 0.302445990177)","(tiền, 0.295843613289)","(La Liga, 0.293283426008)","(đua, 0.273566142067)","(Tây Ban Nha, 0.261776937219)","(Mỹ, 0.255595264007)",...,"(Argentina, 0.0630199637413)","(Messi, 0.0586264937297)","(Chelsea, 0.057005850599)","(nữ, 0.0510986478456)","(HC, 0.0405613706718)","(Neymar, 0.0385774158723)","(Việt Nam, 0.00174291938998)","(Ronaldo, 0.000871459694989)","(hiệp, 0.0)","(vợt, 0.0)"
6,"(World Cup, 1.61036471516)","(Argentina, 1.37537471749)","(Messi, 1.36625766004)","(tuyển, 1.11061237527)","(Tây Ban Nha, 0.83605949656)","(La Liga, 0.686189015107)","(Brazil, 0.595607724501)","(cậu, 0.592783489406)","(hợp đồng, 0.419230604188)","(danh hiệu, 0.407010559534)",...,"(Liverpool, 0.0796168264202)","(Bayern, 0.0771894807401)","(Zidane, 0.0614958441828)","(Tottenham, 0.0606733976919)","(HC, 0.0425020928324)","(nữ, 0.0425020928324)","(Mourinho, 0.0388174998255)","(giây, 0.0280230554455)","(Việt Nam, 0.0189937100731)","(vợt, 0.00451467268623)"
7,"(vợt, 3.14842856041)","(đánh, 0.840580284289)","(danh hiệu, 0.826462301495)","(bán, 0.660969985692)","(Tây Ban Nha, 0.518831124094)","(trẻ, 0.461116172362)","(Mỹ, 0.362508244793)","(nữ, 0.359942347988)","(thì, 0.35614131969)","(cậu, 0.299236552013)",...,"(Liverpool, 0.00615384615385)","(Atletico, 0.00615384615385)","(Zidane, 0.00615384615385)","(Neymar, 0.0)","(PSG, 0.0)","(Bayern, 0.0)","(Tottenham, 0.0)","(Mourinho, 0.0)","(Juventus, 0.0)","(Man City, 0.0)"


In [31]:
clusters_as_array = np.array([cluster[:10] for cluster in clusters])
pd.DataFrame(clusters_as_array)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,Man City nhấn chìm đội bóng của Sam Allardyce ...,"Trút mưa bàn thắng, Barca vào bán kết Cup Nhà vua","Liverpool thất thủ, bị loại ở bán kết Cúp Liên...","Ronaldo sút phạt ghi bàn, nhưng Real bị loại k...",Sao tiền vệ PSG nhận thẻ vàng kỳ lạ,Chapecoense chơi trận đầu tiên sau tai nạn máy...,Klopp thừa nhận Liverpool đáng thua tại Anfield,HAGL thua trận thứ ba liên tiếp tại V-League 2017,HLV từng vô địch C1 châu Âu thắng trận thứ ba ...,Sao Man City mất 50.000 đôla vì một dòng viết ...
1,Tottenham vượt Arsenal nhưng chưa thể thu hẹp ...,HLV Tottenham: 'Bắt kịp Chelsea là điều bất kh...,"Arsenal, Man Utd và Chelsea tránh nhau ở FA Cup",Liverpool bị đội hạng dưới đá bay khỏi Cup FA,Cựu danh thủ Arsenal khoe vạch ra được điểm yế...,Wenger bị cấm chỉ đạo bốn trận vì vụ xô trọng tài,Harry Kane: 'Chỉ có điên mới rời Tottenham lúc...,"Sir Alex: 'Van Gaal làm tốt, còn Mourinho thật...",Graham Poll: 'Wenger đáng bị phạt sáu trận vì ...,Wenger bị khép tội hành xử thiếu chuẩn mực
2,Neymar thất bại khi lôi kéo Coutinho về Barca,"MSN cùng lập công, Barca đại thắng",Messi nhường đồng đội đá 15 quả phạt đền của B...,"Thắng đối thủ kỵ giơ, Barca đặt một chân vào b...","Neymar, Suarez đua nhau chọc tức Pique",Bộ ba MSN đạt mốc 300 bàn chỉ trong 26 tháng,"Cựu thần đồng Real sẵn sàng giảm lương, để thá...","Qua mặt Neymar, Coutinho giành giải Cầu thủ Br...",Barca viết lại lịch sử khi dùng đội hình chỉ c...,"Đá phạt đền ở phút 90, Messi cứu Barca khỏi ng..."
3,Tiến Minh và Vũ Thị Trang lần đầu đánh giải sa...,Bolt: 'Sự vĩ đại của tôi không thể bị hoen ố k...,Usain Bolt mất kỷ lục siêu hattrick vì đồng độ...,Việt Nam cùng bảng với Campuchia ở vòng loại c...,Ban trọng tài VFF: ‘Samson chỉ trượt lên đầu g...,HAGL bất bình với pha ra đòn của cầu thủ Hà Nộ...,'Nữ hoàng đấu kiếm' Lệ Dung liên tục bị thất h...,Tài năng bóng đá Việt Nam có cơ hội tập luyện ...,Bác sĩ tuyển Việt Nam: 'Không điều trị sai cho...,"Hoàng Xuân Vinh, Ánh Viên được vinh danh tại C..."
4,Real nới rộng cách biệt tại Liga bằng chiến th...,Scolari: 'Ronaldo giành Quả Bóng Vàng nhờ ý ch...,Real thua trận thứ hai liên tiếp,Ronaldo tái xuất tại Cup Nhà vua sau hai năm v...,"Neymar qua mặt Messi, dẫn đầu thế giới về giá ...",Ronaldo gây phẫn nộ khi ném bóng vào cầu thủ S...,Ronaldo san bằng kỷ lục đá phạt đền tại La Liga,"Ramos phản lưới, Real nhận thất bại đầu tiên s...",HLV Simeone đá xoáy Ronaldo về Quả Bóng Vàng,"Ramos sút phạt đền kiểu Panenka, Real phá kỷ l..."
5,"Leicester thua trận, trở thành nhà ĐKVĐ tệ nhấ...",Pato đầu quân cho đội bóng của Trung Quốc,Beckham: 'Tôi không biết mình suýt bị Man Utd ...,Tết buồn của cựu võ sĩ Trần Kim Tuyến,Cầu thủ Leicester City: 'Ranieri đã phản bội tôi',Suarez: 'Bóng đã qua vạch vôi cả mét',Payet hoàn tất vụ chuyển nhượng về Marseille,Mourinho công khai tên cầu thủ duy nhất có thể...,"Juventus thắng nhẹ, Roma và Milan thua ngược t...",Suarez giải cứu Barca bằng bàn thắng ở phút 90
6,Ferguson: ‘Kỷ lục ghi bàn của Rooney có thể kh...,Tevez: 'Tôi không nhận mức lương cao nhất thế ...,Rivaldo tin Gabriel Jesus sẽ đi vào lịch sử Ma...,"Man City đón tân binh trị giá 33,3 triệu đôla",Louis van Gaal nghỉ hưu,Jorge Sampaoli: Kẻ cắt mạch bất bại của Real v...,Juventus giữ chặt sao tiền đạo Dybala bằng mác...,Messi quân bình kỷ lục của Raul Gonzalez,Barca sa thải vị giám đốc phát biểu về Messi,Lá thư cho bản thân của Ronaldinho: 'Đừng đá b...
7,Mesut Ozil phát cuồng vì Federer vô địch Austr...,Federer từng không tin còn khả năng vào chung ...,Federer bất ngờ với chính mình khi vào bán kết...,Serena vào tứ kết Australia Mở rộng,"ĐKVĐ Kerber bị loại, Venus vào tứ kết Australi...",Murray bị loại ở vòng bốn Australia Mở rộng,Bouchard dừng bước tại vòng ba Australia Mở rộng,"Djokovic tâm phục, khẩu phục khi thua đối thủ ...",Nadal vào vòng ba Australia Mở rộng,Serena thẳng tiến vào vòng ba Australia Mở rộng


Kiểm tra lại rằng có điểm khác biệt: các cluster là: *mô tả trận đấu, bóng đá Anh, Neymar và chuyện liên quan, thể thao Việt Nam, bóng đá Tay Ban Nha, cluster hỗn tạp, World Cup và các đội tuyển quốc gia* (nhưng toạ độ của "World Cup" bằng 1.61 nhỏ hơn hẳn so với các từ quan trọng ở các cluster khác), *quần vợt* (toạ độ của "vợt" bằng 3.14 lớn hơn hẳn so với các từ quan trọng ở các cluster khác, lí do nó xuất hiện trong thuật toán này).

Vì vậy, nếu giảm còn 7 cluster, cluster về World Cup sẽ biến mất (tách và tan trong các cluster khác), như quan sát dưới đây.

In [35]:
WORDLIST_FILE = "VietnameseDictionary/WordList.txt"
FREQUENCY_FILE = "FullData/FrequencyBySportArticle.txt"
GLOBAL_FREQUENCY_FILE = "FullData/GlobalSportFrequency.txt"
COORDINATES_CODING_MODE = "sqrt"
NB_CLUSTER = 7
MODEL = "KMeans"
MIN_AVG = 200
MAX_AVG = 1000
MIN_DEV = 0.5

features = getExplicativeFeatures(GLOBAL_FREQUENCY_FILE, FREQUENCY_FILE, MIN_AVG, MAX_AVG, MIN_DEV)
X = articlesToSparseVector(FREQUENCY_FILE, features, COORDINATES_CODING_MODE)
titles = getTitles(FREQUENCY_FILE)

predictive_model = train(X, NB_CLUSTER, model=MODEL)
prediction = predict(predictive_model, X)
clusters = getClusters(titles, prediction)

centers = getClusterCenters(predictive_model, X, prediction)
explicativeFeatures = getExplicatveFeaturesForEachCluster(predictive_model, X, prediction, features)
pd.DataFrame(explicativeFeatures)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,33,34,35,36,37,38,39,40,41,42
0,"(vợt, 3.14842856041)","(đánh, 0.840580284289)","(danh hiệu, 0.826462301495)","(bán, 0.660969985692)","(Tây Ban Nha, 0.518831124094)","(trẻ, 0.461116172362)","(Mỹ, 0.362508244793)","(nữ, 0.359942347988)","(thì, 0.35614131969)","(cậu, 0.299236552013)",...,"(Liverpool, 0.00615384615385)","(Atletico, 0.00615384615385)","(Zidane, 0.00615384615385)","(Neymar, 0.0)","(PSG, 0.0)","(Bayern, 0.0)","(Tottenham, 0.0)","(Mourinho, 0.0)","(Juventus, 0.0)","(Man City, 0.0)"
1,"(quyền, 0.374476700099)","(hiệp, 0.364047290606)","(đánh, 0.349193648869)","(hợp đồng, 0.32936044584)","(trẻ, 0.329137597244)","(danh hiệu, 0.300820357162)","(bán, 0.293070749954)","(Tây Ban Nha, 0.276467636627)","(tiền, 0.265427335951)","(mình, 0.262890608196)",...,"(vàng, 0.0935656113865)","(Tottenham, 0.0779046671629)","(Chelsea, 0.0679332869413)","(nữ, 0.0538972796894)","(HC, 0.0422266464506)","(Neymar, 0.0279347614935)","(Messi, 0.0128571428571)","(vợt, 0.00142857142857)","(Việt Nam, 0.000714285714286)","(Ronaldo, 0.0)"
2,"(Việt Nam, 2.58231875235)","(tuyển, 0.678563152679)","(HC, 0.66802042186)","(trẻ, 0.663927270165)","(vàng, 0.619859780696)","(nữ, 0.563842378554)","(thì, 0.513350910546)","(mình, 0.471850493718)","(quyền, 0.463445886533)","(đánh, 0.408813105354)",...,"(Tottenham, 0.00386976035066)","(Neymar, 0.00341956595237)","(Arsenal, 0.00341956595237)","(PSG, 0.0028328611898)","(Juventus, 0.0028328611898)","(Chelsea, 0.0028328611898)","(Monaco, 0.0)","(Bayern, 0.0)","(Atletico, 0.0)","(Zidane, 0.0)"
3,"(Neymar, 2.7745002913)","(PSG, 2.30343842231)","(Brazil, 1.44707363673)","(hợp đồng, 0.981576165549)","(tiền, 0.716535594014)","(Messi, 0.558476280565)","(cậu, 0.529902505404)","(Tây Ban Nha, 0.500536598068)","(La Liga, 0.490395978787)","(quyền, 0.479867767795)",...,"(Tottenham, 0.0916180272054)","(Mourinho, 0.0740430888145)","(Arsenal, 0.0724714290541)","(Atletico, 0.0605910153867)","(giây, 0.0436563552364)","(Zidane, 0.0348030497706)","(nữ, 0.0241094944481)","(HC, 0.0207525521121)","(vợt, 0.0114613180516)","(Việt Nam, 0.00573065902579)"
4,"(Ronaldo, 2.73420193876)","(La Liga, 1.11054441477)","(Tây Ban Nha, 0.59203820224)","(danh hiệu, 0.495138656012)","(Zidane, 0.46119205394)","(Messi, 0.456080894386)","(hiệp, 0.435019610346)","(cậu, 0.415802078928)","(bán, 0.410902493172)","(phạt, 0.311840626076)",...,"(Liverpool, 0.0658073893096)","(Mourinho, 0.0632986679493)","(Argentina, 0.0574484520873)","(Monaco, 0.0504507022105)","(Arsenal, 0.0479961746518)","(nữ, 0.035148208913)","(vợt, 0.018017587928)","(HC, 0.00428265524625)","(giây, 0.0)","(Việt Nam, 0.0)"
5,"(Chelsea, 1.97774540346)","(Arsenal, 1.35832962035)","(Man City, 1.19722629105)","(Liverpool, 0.839233468166)","(Tottenham, 0.736060358164)","(hợp đồng, 0.544180444428)","(Mourinho, 0.5127261347)","(hiệp, 0.508883805648)","(cậu, 0.465808356971)","(danh hiệu, 0.425366936119)",...,"(vàng, 0.0511448115762)","(giây, 0.0430679611021)","(Messi, 0.0265255953269)","(Neymar, 0.024382260712)","(Zidane, 0.0225033235351)","(Ronaldo, 0.0134304333413)","(nữ, 0.00887575270293)","(HC, 0.0084388185654)","(Việt Nam, 0.00738396624473)","(vợt, 0.00632911392405)"
6,"(Messi, 2.64054121332)","(Argentina, 1.5445698982)","(La Liga, 1.16840249352)","(World Cup, 0.663943871653)","(Tây Ban Nha, 0.661420385935)","(cậu, 0.492668801105)","(Neymar, 0.475834377215)","(hiệp, 0.473934893814)","(tuyển, 0.456991316273)","(phạt, 0.428904781601)",...,"(Arsenal, 0.0447130709739)","(Tottenham, 0.0444408214903)","(Chelsea, 0.0345651637782)","(Mỹ, 0.0317588719975)","(giây, 0.0294186823796)","(nữ, 0.0169491525424)","(HC, 0.0112994350282)","(Mourinho, 0.0077176576485)","(vợt, 0.00564971751412)","(Việt Nam, 0.0)"


Nếu tăng thành 9 hay 10 cluster, một số cluster mới xuất hiện làm cấu trúc clustering, thay đổi, như ở dưới đây, cluster *"đua xe"* xuất hiện (cluster 8), cluster "Bóng đá Tây Ban Nha" bị tách đôi (cluster 2 liên quan đến Messi, cluster 7 liên quan đến Ronaldo). 

Có thể giải thích: khi $k$ nhỏ, cluster "đua xe" bị hợp vào các cluster quan trọng khác có size lớn hơn. Nó chỉ xuất hiện khi $k$ đủ lớn. Một hay một số lớn cũng được phân thành nhiều cluster nhỏ hơn (trường hợp của *"bóng đá Tây Ban Nha"*) nếu trong cluster này lại tồn tại một cấu trúc chia được rõ ràng hơn các cluster khác.

In [49]:
WORDLIST_FILE = "VietnameseDictionary/WordList.txt"
FREQUENCY_FILE = "FullData/FrequencyBySportArticle.txt"
GLOBAL_FREQUENCY_FILE = "FullData/GlobalSportFrequency.txt"
COORDINATES_CODING_MODE = "sqrt"
NB_CLUSTER = 10
MODEL = "KMeans"
MIN_AVG = 200
MAX_AVG = 1000
MIN_DEV = 0.5

features = getExplicativeFeatures(GLOBAL_FREQUENCY_FILE, FREQUENCY_FILE, MIN_AVG, MAX_AVG, MIN_DEV)
X = articlesToSparseVector(FREQUENCY_FILE, features, COORDINATES_CODING_MODE)
titles = getTitles(FREQUENCY_FILE)

predictive_model = train(X, NB_CLUSTER, model=MODEL)
prediction = predict(predictive_model, X)
clusters = getClusters(titles, prediction)

centers = getClusterCenters(predictive_model, X, prediction)
explicativeFeatures = getExplicatveFeaturesForEachCluster(predictive_model, X, prediction, features)
pd.DataFrame(explicativeFeatures)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,33,34,35,36,37,38,39,40,41,42
0,"(hiệp, 2.409420513)","(đánh, 0.99521684314)","(quyền, 0.437982479221)","(phạt, 0.411793009915)","(Man City, 0.391267396054)","(thì, 0.330219225896)","(trẻ, 0.298503566344)","(bán, 0.288237555764)","(Arsenal, 0.277610942978)","(Liverpool, 0.27393814132)",...,"(Monaco, 0.0890458335115)","(hợp đồng, 0.0782055259108)","(Atletico, 0.0720428275425)","(PSG, 0.0600970723344)","(Messi, 0.057256154072)","(Zidane, 0.0421699841339)","(Neymar, 0.0315268903632)","(HC, 0.0215439856373)","(nữ, 0.0151063080114)","(vợt, 0.00718132854578)"
1,"(vợt, 3.15992120948)","(đánh, 0.844339351231)","(danh hiệu, 0.826875774956)","(bán, 0.665047641719)","(Tây Ban Nha, 0.526937860408)","(trẻ, 0.454526695173)","(Mỹ, 0.368172436118)","(nữ, 0.365566447175)","(thì, 0.35545602781)","(cậu, 0.291412123139)",...,"(Liverpool, 0.00625)","(Atletico, 0.00625)","(Neymar, 0.0)","(PSG, 0.0)","(Bayern, 0.0)","(Tottenham, 0.0)","(Mourinho, 0.0)","(Juventus, 0.0)","(Man City, 0.0)","(Zidane, 0.0)"
2,"(La Liga, 1.81813244438)","(Messi, 1.21082394442)","(Tây Ban Nha, 0.848009826605)","(Argentina, 0.812534419082)","(danh hiệu, 0.519669520709)","(World Cup, 0.445407362728)","(Atletico, 0.441550906916)","(hợp đồng, 0.362662828268)","(Juventus, 0.313522750241)","(tuyển, 0.311258434864)",...,"(Arsenal, 0.0578820524305)","(Monaco, 0.0560711003317)","(Mourinho, 0.0506172567334)","(Ronaldo, 0.0439329696053)","(Mỹ, 0.040508312071)","(nữ, 0.0178325574698)","(giây, 0.0178325574698)","(HC, 0.00684931506849)","(Việt Nam, 0.00467816919104)","(vợt, 0.00342465753425)"
3,"(hợp đồng, 0.430648915155)","(trẻ, 0.365737095804)","(quyền, 0.329915621427)","(tiền, 0.32274069765)","(danh hiệu, 0.317410153795)","(bán, 0.314813127746)","(cậu, 0.305749922905)","(Mỹ, 0.305528886182)","(Juventus, 0.272452144308)","(tuyển, 0.270991496424)",...,"(giây, 0.0466752852228)","(HC, 0.0452376961532)","(Messi, 0.0328957731427)","(Neymar, 0.0253305764851)","(La Liga, 0.00617283950617)","(trọng tài, 0.00514403292181)","(hiệp, 0.00205761316872)","(Việt Nam, 0.00102880658436)","(Ronaldo, 0.00102880658436)","(vợt, 0.00102880658436)"
4,"(Neymar, 2.8066071635)","(PSG, 2.34770865928)","(Brazil, 1.50495627378)","(hợp đồng, 0.971658467685)","(tiền, 0.75245051436)","(Messi, 0.630527736821)","(cậu, 0.558454444048)","(Tây Ban Nha, 0.475005357593)","(quyền, 0.470583354734)","(La Liga, 0.423013144737)",...,"(Mourinho, 0.0699308192056)","(Atletico, 0.0690933264774)","(Arsenal, 0.0623233288881)","(trọng tài, 0.0621744093276)","(giây, 0.0454807999328)","(Zidane, 0.0362575055819)","(HC, 0.0275899722004)","(nữ, 0.0251170554101)","(vợt, 0.0119402985075)","(Việt Nam, 0.00597014925373)"
5,"(trọng tài, 2.74226876271)","(phạt, 1.55934679105)","(quyền, 0.641471671452)","(hiệp, 0.569293979069)","(thì, 0.525214363719)","(đánh, 0.484500376891)","(mình, 0.339283640285)","(La Liga, 0.318033452042)","(Messi, 0.302479777122)","(Việt Nam, 0.290587608424)",...,"(Liverpool, 0.0854675599875)","(nữ, 0.0703454373909)","(Bayern, 0.0685840601176)","(danh hiệu, 0.063994399882)","(Tottenham, 0.0532915360502)","(Mỹ, 0.0339449126168)","(Zidane, 0.0211036075472)","(HC, 0.0188087774295)","(vợt, 0.0101444137226)","(Monaco, 0.00856442259426)"
6,"(Việt Nam, 2.68013550671)","(tuyển, 0.767752287049)","(trẻ, 0.733561497707)","(HC, 0.733482349645)","(vàng, 0.654045866441)","(nữ, 0.624700184828)","(thì, 0.519616706432)","(mình, 0.489982465683)","(quyền, 0.472976473329)","(đánh, 0.38534761296)",...,"(Liverpool, 0.00333333333333)","(Juventus, 0.00333333333333)","(Chelsea, 0.00333333333333)","(Monaco, 0.0)","(PSG, 0.0)","(La Liga, 0.0)","(Bayern, 0.0)","(Atletico, 0.0)","(Zidane, 0.0)","(Arsenal, 0.0)"
7,"(Ronaldo, 2.76593069354)","(La Liga, 1.13474356454)","(Messi, 0.622955991034)","(Tây Ban Nha, 0.579957928925)","(danh hiệu, 0.561748815784)","(Zidane, 0.484742696839)","(cậu, 0.481155590131)","(bán, 0.372490178632)","(tuyển, 0.31590350845)","(bạn, 0.285678600967)",...,"(trọng tài, 0.0760874544069)","(Liverpool, 0.0693725751864)","(Monaco, 0.0631482877984)","(Mourinho, 0.0547237938761)","(Arsenal, 0.0515314382048)","(nữ, 0.037052400818)","(vợt, 0.0235083827593)","(HC, 0.00451467268623)","(giây, 0.0)","(Việt Nam, 0.0)"
8,"(đua, 4.03455800249)","(giây, 1.8962701653)","(vàng, 0.6791946304)","(mình, 0.586819550102)","(trẻ, 0.462284250298)","(thì, 0.430111398509)","(HC, 0.405703489339)","(danh hiệu, 0.375521361485)","(Mỹ, 0.323797223554)","(Việt Nam, 0.318099094281)",...,"(La Liga, 0.0)","(Tottenham, 0.0)","(Mourinho, 0.0)","(Ronaldo, 0.0)","(Juventus, 0.0)","(Atletico, 0.0)","(Chelsea, 0.0)","(Man City, 0.0)","(Zidane, 0.0)","(Arsenal, 0.0)"
9,"(Chelsea, 2.35924930956)","(Arsenal, 1.36305064953)","(Man City, 1.11404695307)","(Liverpool, 0.862322574781)","(Tottenham, 0.799004925532)","(hợp đồng, 0.577709042857)","(Mourinho, 0.528034615826)","(danh hiệu, 0.463741788069)","(cậu, 0.44304749753)","(Tây Ban Nha, 0.430268381247)",...,"(vàng, 0.0460422082756)","(giây, 0.0449089290352)","(Neymar, 0.0251468294767)","(Messi, 0.0234559020109)","(Zidane, 0.0152162867656)","(Ronaldo, 0.0109439124487)","(Việt Nam, 0.00957592339261)","(nữ, 0.00877457395673)","(HC, 0.00820793433653)","(vợt, 0.00547195622435)"


In [50]:
clusters_as_array = np.array([cluster[:10] for cluster in clusters])
pd.DataFrame(clusters_as_array)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,Man City nhấn chìm đội bóng của Sam Allardyce ...,"Liverpool thất thủ, bị loại ở bán kết Cúp Liên...","Ronaldo sút phạt ghi bàn, nhưng Real bị loại k...",Chapecoense chơi trận đầu tiên sau tai nạn máy...,Klopp thừa nhận Liverpool đáng thua tại Anfield,HAGL thua trận thứ ba liên tiếp tại V-League 2017,HLV từng vô địch C1 châu Âu thắng trận thứ ba ...,"Mourinho: 'Man Utd tấn công, còn Liverpool phò...",Ibrahimovic tiếc khi Man Utd phải chia điểm vì...,Guardiola lập kỷ lục buồn khi Man City thua 0-4
1,Mesut Ozil phát cuồng vì Federer vô địch Austr...,Federer từng không tin còn khả năng vào chung ...,Federer bất ngờ với chính mình khi vào bán kết...,Serena vào tứ kết Australia Mở rộng,"ĐKVĐ Kerber bị loại, Venus vào tứ kết Australi...",Murray bị loại ở vòng bốn Australia Mở rộng,Bouchard dừng bước tại vòng ba Australia Mở rộng,"Djokovic tâm phục, khẩu phục khi thua đối thủ ...",Nadal vào vòng ba Australia Mở rộng,Serena thẳng tiến vào vòng ba Australia Mở rộng
2,Suarez giải cứu Barca bằng bàn thắng ở phút 90,Tháng 2 đầy chông gai đang chờ đón Barca,Alba: 'Real bị loại và lập tức hạ thấp Cup Nhà...,Real thua trong vụ kiện kênh truyền hình bôi x...,"Mất Modric và Marcelo, Real lâm vào khủng hoản...",Zidane họp khẩn với cả đội Real sau trận thắng...,"MSN cùng lập công, Barca đại thắng",Real đã vô địch La Liga nếu tính từ thời điểm ...,"Cựu danh thủ Barca và Real thay thế Riedl, dẫn...",Messi nhường đồng đội đá 15 quả phạt đền của B...
3,Pato đầu quân cho đội bóng của Trung Quốc,Beckham: 'Tôi không biết mình suýt bị Man Utd ...,Tết buồn của cựu võ sĩ Trần Kim Tuyến,Cầu thủ Leicester City: 'Ranieri đã phản bội tôi',Payet hoàn tất vụ chuyển nhượng về Marseille,Mourinho công khai tên cầu thủ duy nhất có thể...,"Juventus thắng nhẹ, Roma và Milan thua ngược t...",Luis van Gaal và con đường dang dở,Man City sắp nhận án phạt do vi phạm luật chốn...,Valencia từng nghĩ sự quan tâm của Man Utd là ...
4,Neymar thất bại khi lôi kéo Coutinho về Barca,"Man City đón tân binh trị giá 33,3 triệu đôla","Thắng đối thủ kỵ giơ, Barca đặt một chân vào b...","Qua mặt Neymar, Coutinho giành giải Cầu thủ Br...",Barca viết lại lịch sử khi dùng đội hình chỉ c...,Cầu thủ Barca bàn về sai lầm chiến thuật ngay ...,CĐV Tây Ban Nha chỉ mặt những 'con sâu làm rầu...,Lavezzi ăn lương khủng cả năm nhưng vẫn tịt ng...,"PSG - Barca: Trận cầu của dàn sao trị giá 1,3 ...",Ronaldinho: 'Chẳng có gì là bất khả thi trong ...
5,"Leicester thua trận, trở thành nhà ĐKVĐ tệ nhấ...",Suarez: 'Bóng đã qua vạch vôi cả mét',Bolt: 'Sự vĩ đại của tôi không thể bị hoen ố k...,Wenger bị cấm chỉ đạo bốn trận vì vụ xô trọng tài,"Mourinho: 'Man Utd không thua, trận đấu có tỷ ...","Trút mưa bàn thắng, Barca vào bán kết Cup Nhà vua",Graham Poll: 'Wenger đáng bị phạt sáu trận vì ...,Wenger bị khép tội hành xử thiếu chuẩn mực,Ban trọng tài VFF: ‘Samson chỉ trượt lên đầu g...,Sao tiền vệ PSG nhận thẻ vàng kỳ lạ
6,Tiến Minh và Vũ Thị Trang lần đầu đánh giải sa...,Usain Bolt mất kỷ lục siêu hattrick vì đồng độ...,Việt Nam cùng bảng với Campuchia ở vòng loại c...,'Nữ hoàng đấu kiếm' Lệ Dung liên tục bị thất h...,Tài năng bóng đá Việt Nam có cơ hội tập luyện ...,Bác sĩ tuyển Việt Nam: 'Không điều trị sai cho...,"Hoàng Xuân Vinh, Ánh Viên được vinh danh tại C...",HLV Hữu Thắng: 'Bác sĩ làm lỡ hết kế hoạch của...,Taekwondo Việt Nam giành bốn HC vàng trên đất ...,Giải golf lớn nhất Việt Nam có tổng thưởng 60 ...
7,Real nới rộng cách biệt tại Liga bằng chiến th...,Scolari: 'Ronaldo giành Quả Bóng Vàng nhờ ý ch...,Real thua trận thứ hai liên tiếp,Ronaldo tái xuất tại Cup Nhà vua sau hai năm v...,"Neymar qua mặt Messi, dẫn đầu thế giới về giá ...",Ronaldo san bằng kỷ lục đá phạt đền tại La Liga,"Ramos phản lưới, Real nhận thất bại đầu tiên s...",HLV Simeone đá xoáy Ronaldo về Quả Bóng Vàng,Lá thư cho bản thân của Ronaldinho: 'Đừng đá b...,"Ramos sút phạt đền kiểu Panenka, Real phá kỷ l..."
8,Tay lái mới của Mercedes mong đua tranh công b...,Em trai Lê Văn Duẩn giành cú đúp ở giải đua xe...,Maverick Vinales ra mắt Yamaha bằng chiến thắn...,"Lật ngược thế cờ, Vettel về nhất chặng ...",Hamilton giành pole tại chặng mở màn F1 2017,VĐV đua thuyền tỉnh Hải Dương chết đuối khi tập,Cua-rơ Việt mất chiến thắng vì mừng quá sớm ở ...,ĐKVĐ Cleverland thua sốc trong cuộc đại chi...,Tám đội quốc tế dự giải xe đạp mừng ngày 8/3,Cua-rơ Lào đoạt Áo Vàng chung cuộc Cup Truyền ...
9,Tottenham vượt Arsenal nhưng chưa thể thu hẹp ...,HLV Tottenham: 'Bắt kịp Chelsea là điều bất kh...,"Arsenal, Man Utd và Chelsea tránh nhau ở FA Cup",Liverpool bị đội hạng dưới đá bay khỏi Cup FA,Cựu danh thủ Arsenal khoe vạch ra được điểm yế...,Harry Kane: 'Chỉ có điên mới rời Tottenham lúc...,"Sir Alex: 'Van Gaal làm tốt, còn Mourinho thật...",Cầu thủ bị nứt sọ trong trận gặp Chelsea đã tỉ...,Cầu thủ Hull nứt sọ sau cú va chạm với Gary Ca...,Conte: 'Đưa Costa trở lại là quyết định tốt nh...


Ta kiểm tra lại size của các cluster. Cluster hỗn tạp vẫn có size lớn. Các cluster mới xuất hiện như "quần vợt", "đua xe" có size thuộc nhóm nhỏ nhất.

In [51]:
[len(cluster) for cluster in clusters]

[557, 320, 584, 1944, 335, 319, 600, 443, 116, 731]

### Bài 17. KMeans với cosine metric

Trong PC, ta biết rằng thực hiện k-means với cosine metric tương đương với thực hiện k-means với khoảng cách Euclide, nhưng cần preprocess để co dãn mỗi vector thành vector đơn vị.

*Hãy sửa chữa hàm **`train, predict, getClusterCenters, getExplicatveFeaturesForEachCluster`** để khi đối số **`model`** trong hàm **`train`** nhận giá trị **"KMeans_Cosine"** thì thuật toán KMeans với metric cosine được thực hiện. So sánh kết quả với KMeans với khoảng cách Euclide*

Đoạn code dưới đây giúp test hàm của bạn.

In [46]:
WORDLIST_FILE = "VietnameseDictionary/WordList.txt"
FREQUENCY_FILE = "FullData/FrequencyBySportArticle.txt"
GLOBAL_FREQUENCY_FILE = "FullData/GlobalSportFrequency.txt"
COORDINATES_CODING_MODE = "sqrt"
NB_CLUSTER = 10
MODEL = "KMeans_Cosine"
MIN_AVG = 200
MAX_AVG = 1000
MIN_DEV = 0.5

features = getExplicativeFeatures(GLOBAL_FREQUENCY_FILE, FREQUENCY_FILE, MIN_AVG, MAX_AVG, MIN_DEV)
X = articlesToSparseVector(FREQUENCY_FILE, features, COORDINATES_CODING_MODE)
titles = getTitles(FREQUENCY_FILE)

predictive_model = train(X, NB_CLUSTER, model=MODEL)
prediction = predict(predictive_model, X)
clusters = getClusters(titles, prediction)

centers = getClusterCenters(predictive_model, X, prediction)
explicativeFeatures = getExplicatveFeaturesForEachCluster(predictive_model, X, prediction, features)
pd.DataFrame(explicativeFeatures)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,33,34,35,36,37,38,39,40,41,42
0,"(La Liga, 0.479387503192)","(Messi, 0.18459970148)","(Tây Ban Nha, 0.158884548502)","(Atletico, 0.121204892175)","(Argentina, 0.0914813835899)","(danh hiệu, 0.0912992233222)","(Zidane, 0.0784765365384)","(hợp đồng, 0.0594358426404)","(đua, 0.0540370238948)","(Neymar, 0.050732304198)",...,"(Ronaldo, 0.0122896898179)","(Arsenal, 0.00906195259973)","(Mourinho, 0.0066862893088)","(Mỹ, 0.00644721198195)","(Monaco, 0.00623628022197)","(giây, 0.00208296274138)","(nữ, 0.0018463218014)","(Việt Nam, 0.000949027629226)","(vợt, 0.000766477879141)","(HC, 0.0)"
1,"(hiệp, 0.390231347615)","(đánh, 0.222241775408)","(trọng tài, 0.193534282257)","(phạt, 0.193376885171)","(quyền, 0.104338808544)","(thì, 0.07942197592)","(mình, 0.0463954377068)","(trẻ, 0.038870370192)","(Juventus, 0.0380101056318)","(Arsenal, 0.037478866348)",...,"(Man City, 0.0145356154564)","(tuyển, 0.0140494825131)","(danh hiệu, 0.0120574635079)","(PSG, 0.0101464651811)","(Neymar, 0.00750516117932)","(Monaco, 0.00736847061758)","(nữ, 0.00537027433431)","(Zidane, 0.00512041224721)","(HC, 0.00403821692674)","(vợt, 0.000481282507128)"
2,"(Ronaldo, 0.551769722873)","(La Liga, 0.22537339193)","(Tây Ban Nha, 0.104375399782)","(Messi, 0.101638201258)","(danh hiệu, 0.0953522186881)","(Zidane, 0.0818693874948)","(cậu, 0.0753773624292)","(bán, 0.0573555030241)","(hiệp, 0.0535033135737)","(bạn, 0.0497090511429)",...,"(Man City, 0.00810314995735)","(vàng, 0.00763618992154)","(Monaco, 0.0068328445197)","(nữ, 0.00591927289783)","(Mourinho, 0.00552580988348)","(Arsenal, 0.00529373978016)","(vợt, 0.00450130417079)","(HC, 0.0)","(giây, 0.0)","(Việt Nam, 0.0)"
3,"(Chelsea, 0.551870692421)","(Arsenal, 0.150796875717)","(Tottenham, 0.106275428516)","(Mourinho, 0.101929772114)","(hợp đồng, 0.0988422432161)","(Liverpool, 0.0831885734543)","(danh hiệu, 0.0769631543727)","(Tây Ban Nha, 0.0755676838808)","(cậu, 0.0643421498918)","(bạn, 0.0609720908351)",...,"(Neymar, 0.00494637797074)","(Messi, 0.00404563930265)","(giây, 0.00395274883008)","(Ronaldo, 0.00374004452802)","(vàng, 0.00351639769241)","(nữ, 0.00304400539681)","(vợt, 0.00269834334465)","(Zidane, 0.00215055142682)","(HC, 0.00140324969223)","(Việt Nam, 0.000477328374345)"
4,"(World Cup, 0.38754826347)","(tuyển, 0.294787885065)","(Argentina, 0.159586532135)","(Brazil, 0.101232734057)","(Tây Ban Nha, 0.0950425703704)","(Messi, 0.0782092562606)","(trẻ, 0.0669982936821)","(bạn, 0.063457712468)","(hợp đồng, 0.0530387942105)","(quyền, 0.0505576386252)",...,"(PSG, 0.0148086800364)","(Man City, 0.0118381444824)","(Zidane, 0.00938167965744)","(đua, 0.00839571904069)","(HC, 0.0077288787919)","(Mourinho, 0.00771526159536)","(Việt Nam, 0.00760407446352)","(Atletico, 0.00373013390599)","(giây, 0.00248407873272)","(vợt, 0.00106485383797)"
5,"(vợt, 0.67112531805)","(đánh, 0.168707461122)","(danh hiệu, 0.158870191794)","(bán, 0.124744353087)","(Tây Ban Nha, 0.104347434487)","(trẻ, 0.0823038594984)","(thì, 0.0621639327821)","(nữ, 0.0620731403033)","(Mỹ, 0.0604305656362)","(cậu, 0.0536769249507)",...,"(Messi, 0.00135145866041)","(Ronaldo, 0.00111958501226)","(Neymar, 0.0)","(PSG, 0.0)","(Bayern, 0.0)","(Tottenham, 0.0)","(Mourinho, 0.0)","(Juventus, 0.0)","(Man City, 0.0)","(Zidane, 0.0)"
6,"(hợp đồng, 0.104003065351)","(trẻ, 0.0929393490632)","(danh hiệu, 0.090434524437)","(Mỹ, 0.0855671623033)","(quyền, 0.0834150793595)","(tiền, 0.0814523493279)","(bán, 0.0805193468589)","(mình, 0.0756735706854)","(cậu, 0.0743042970123)","(Juventus, 0.0702955413653)",...,"(trọng tài, 0.00708330327537)","(hiệp, 0.00589627645837)","(World Cup, 0.00583538807184)","(Man City, 0.00538832251217)","(La Liga, 0.00415215954811)","(Chelsea, 0.0027684097658)","(Neymar, 0.002141686953)","(Ronaldo, 0.00165739267442)","(Việt Nam, 0.00165504712307)","(vợt, 0.000735860221911)"
7,"(Việt Nam, 0.582045931535)","(trẻ, 0.133043036524)","(tuyển, 0.131163985364)","(HC, 0.101953940855)","(nữ, 0.0946068289748)","(vàng, 0.0941947540446)","(thì, 0.0857880372495)","(quyền, 0.0823007608606)","(mình, 0.0790459516183)","(đánh, 0.0686188493742)",...,"(Chelsea, 0.000517682408059)","(Ronaldo, 0.000469391267238)","(Monaco, 0.0)","(PSG, 0.0)","(Liverpool, 0.0)","(La Liga, 0.0)","(Bayern, 0.0)","(Atletico, 0.0)","(Zidane, 0.0)","(Arsenal, 0.0)"
8,"(PSG, 0.391296835718)","(Neymar, 0.366181753513)","(Brazil, 0.188748068939)","(hợp đồng, 0.136117704781)","(Messi, 0.106055047753)","(tiền, 0.0857090991776)","(cậu, 0.0736351312139)","(Tây Ban Nha, 0.0689326082933)","(quyền, 0.0673967005495)","(La Liga, 0.0632921501341)",...,"(Mỹ, 0.0106929369919)","(vàng, 0.0106710079383)","(Arsenal, 0.00985217293274)","(Mourinho, 0.00979113877431)","(giây, 0.00637382475342)","(Zidane, 0.00502667812309)","(nữ, 0.00433164641829)","(vợt, 0.00133964366668)","(HC, 0.00133697522488)","(Việt Nam, 0.0)"
9,"(Man City, 0.456230305095)","(Arsenal, 0.220553931166)","(Liverpool, 0.157796209929)","(Chelsea, 0.127474758696)","(Tottenham, 0.121913138287)","(hiệp, 0.0796328017343)","(Mourinho, 0.0782184984598)","(hợp đồng, 0.0692996929933)","(cậu, 0.0684718601372)","(Tây Ban Nha, 0.0587065940033)",...,"(Ronaldo, 0.00717509146703)","(Mỹ, 0.00698389203357)","(vàng, 0.00687312326249)","(giây, 0.00660382144629)","(Zidane, 0.00230406611571)","(Neymar, 0.00172859965884)","(Việt Nam, 0.00123968718923)","(HC, 0.00103038160134)","(nữ, 0.000895401481367)","(vợt, 0.0)"


Kết quả tương đối tương tự KMeans do trong bài toán này ta chú trọng về sự khác biệt theo phương hơn là về độ lớn. (Nhắc lại điều kiện xây dựng hàm $f$, hai bài báo cùng chứa 1 từ có thành phần khoảng cách tương ứng với từ đó nhỏ hơn 1 bài báo chứa và 1 báo không chứa.)

### Bài 18. Hierarchical Clustering

*Hãy sửa chữa hàm **`train, predict, getClusterCenters, getExplicatveFeaturesForEachCluster`** để khi đối số model trong hàm train nhận giá trị **"Hierarchical_Euclidean"** thì thuật toán Hierachical với khoảng cách Euclide được thực hiện. So sánh kết quả và thời gian chạy với **KMeans.** *

(Kết quả nhìn chung tương tự với KMeans, do cả 2 phương pháp đều dựa trên giả thiết khoảng cách nhỏ khi tương đồng)

## Bình luận thêm

TD3 và 5 minh hoạ một project thực tế nhỏ về xử lí văn bản (text-mining). Bước preprocessing thường mất rất nhiều thời gian. Việc chọn model hợp lí cũng không hiển nhiên, thường qua nhiều bước thử chọn. Do khuôn khổ TD, ta không thực hiện bước dự đoán với các văn bản mới (có thể không lấy từ vnexpress). Bạn có thể tự thực hiện phần này.

Bài toán clustering nhìn chung "ill-defined" vì không có tiêu chuẩn rõ ràng về mặt toán học để đánh giá phương pháp nào là tốt hay xấu. Dựa trên hiểu biết và kinh nghiệm về lĩnh vực, ta có thể chọn ra một mô hình hợp lí.

Mô hình có thể được cải tiến theo nhiều hướng sau:

- Thay đổi cách giảm số chiều của vector bằng cách chọn từ quan trọng (ví dụ, thay đổi chặn trên, dưới của tần số và phương sai. Trong TD, ta dùng các tham số 200, 1000, 0.5. Chúng có thể được thay đổi)

- Thay đổi metric

- Thay đổi cách số hoá vector

- Dùng mô hình khác

- Tái phân nhóm cluster hỗn tạp 1 hoặc nhiều lần...

- Dùng $k$ lớn, rồi hợp các nhóm nhỏ có nội dung liên quan

- Dùng $k$ nhỏ, rồi với từng nhóm lại chia nhóm lần nữa, nhiều lần...

Bạn có thể tự thực hiện một hướng nếu tò mò.

## Tham khảo

[1] Viện Ngôn ngữ học, GS. Hoàng Phê chủ biên, *Từ điển tiếng Việt*, NXB Hồng Đức (2003)

[2] http://vnexpress.net

[3] http://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html

[4] http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html