TF-IDF là viết tắt của Hai khái niệm:

TF (Term Frequency): Tần số của một từ trong một tài liệu. Được tính bằng cách chia số lần xuất hiện của từ đó cho tổng số từ trong tài liệu.

IDF (Inverse Document Frequency): Đo lường mức độ quan trọng của một từ trong toàn bộ tập hợp tài liệu. Các từ xuất hiện thường xuyên trong nhiều tài liệu thì có ít quan trọng (như 'is', 'the', 'and', v.v.). Được tính bằng cách lấy logarit của tổng số tài liệu chia cho số tài liệu chứa từ đó.

In [15]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Danh sách các tài liệu
documents = ['This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?']

# Khởi tạo TfidfVectorizer
vectorizer = TfidfVectorizer(stop_words= 'english')

# Học từ vựng và tính toán ma trận TF-IDF
X = vectorizer.fit_transform(documents)
print(vectorizer.vocabulary_)
# Lấy từ điển và sắp xếp các mục theo giá trị
sorted_items = sorted(vectorizer.vocabulary_.items(), key=lambda x: x[1])

# Tạo danh sách các từ, bỏ qua các chỉ số
feature_names = [item[0] for item in sorted_items]

# In ra danh sách các từ
print(feature_names)
# In ra ma trận TF-IDF
print(X.shape)
print(X.toarray())

{'document': 0, 'second': 1}
['document', 'second']
(4, 2)
[[1.         0.        ]
 [0.78722298 0.61666846]
 [0.         0.        ]
 [1.         0.        ]]


TF-IDF được tính như sau:

TF (Tần số thuật ngữ) là tần số xuất hiện của một từ trong tài liệu. Trong trường hợp này, từ "document" xuất hiện 2 lần trong một tài liệu có 4 từ (sau khi loại bỏ stop words), vì vậy TF = 2/3.

IDF (Tần số tài liệu nghịch đảo) là một giá trị mà nó lấy logarithm của tổng số tài liệu chia cho số lượng tài liệu mà từ đó xuất hiện. Trong trường hợp này, có tổng cộng 4 tài liệu và từ "document" xuất hiện trong 3 tài liệu. IDF được tính như sau: IDF = log(4/3) = 0.28768 (sử dụng logarit tự nhiên).

TF-IDF sau đó được tính bằng cách nhân TF và IDF: TF-IDF = TF * IDF = 2.3 * 0.28768 = 0.19178496.

Tuy nhiên, TfidfVectorizer trong sklearn áp dụng một số biến thể của công thức trên. Đầu tiên, nó thêm 1 vào mẫu và tử số trong công thức IDF, giúp ngăn chặn chia cho 0. Thứ hai, nó áp dụng chuẩn hóa L2 (Euclidean) trên vector TF-IDF.

IDF (được điều chỉnh): IDF = log((1+4)/(1+3)) + 1 = 0.28768 + 1 = 1.28768.

TF-IDF (được điều chỉnh): TF-IDF = TF * IDF = 2/3 * 1.28768 = 0.64384.

Sau đó, chúng ta áp dụng chuẩn hóa L2. Vector TF-IDF (trước khi chuẩn hóa) cho câu thứ 2 là [0.64384, 0.64384] (cho từ "document" và "second"). Norm L2 của vector này là sqrt(0.64384^2 + 0.64384^2) = 0.91024.

Vậy, giá trị TF-IDF sau khi chuẩn hóa L2 cho từ "document" là 0.64384 / 0.91024 = 0.70711, và giá trị cho từ "second" cũng tương tự.

Tuy nhiên, giá trị bạn nhận được là 0.78722, khác một chút so với kết quả tính toán trên. Điều này có thể do việc sử dụng smooth_idf=True (mặc định trong TfidfVectorizer của sklearn) đã thêm 1 vào số liệu trước khi chia, và thêm 1 vào kết quả cuối cùng của IDF, giúp làm mịn giá trị IDF và ngăn chặn việc chia cho 0. Thêm vào đó, việc tính toán số liệu trong thư viện có thể bao gồm một số phép làm tròn và sai số dấu phẩy động nhỏ.