In [None]:
import numpy as np
import math

documents = ['Tôi thích học AI', 'AI là trí tuệ nhân tạo', 'AGI là siêu trí tuệ nhân tạo']

# Tạo list từ có trong document
words = set()
for doc in documents:
    words.update(doc.split())
words = list(words)

# Đo lường tần suất xuất hiện của một từ trong tài liệu
def compute_tf(doc):
    tf = {}
    doc_word = doc.split()
    for word in words:
        tf[word] = doc_word.count(word)/len(doc_word)
    return tf

for doc in documents:
    print(compute_tf(doc))

{'học': 0.25, 'Tôi': 0.25, 'tuệ': 0.0, 'trí': 0.0, 'tạo': 0.0, 'siêu': 0.0, 'AGI': 0.0, 'nhân': 0.0, 'AI': 0.25, 'là': 0.0, 'thích': 0.25}
{'học': 0.0, 'Tôi': 0.0, 'tuệ': 0.16666666666666666, 'trí': 0.16666666666666666, 'tạo': 0.16666666666666666, 'siêu': 0.0, 'AGI': 0.0, 'nhân': 0.16666666666666666, 'AI': 0.16666666666666666, 'là': 0.16666666666666666, 'thích': 0.0}
{'học': 0.0, 'Tôi': 0.0, 'tuệ': 0.14285714285714285, 'trí': 0.14285714285714285, 'tạo': 0.14285714285714285, 'siêu': 0.14285714285714285, 'AGI': 0.14285714285714285, 'nhân': 0.14285714285714285, 'AI': 0.0, 'là': 0.14285714285714285, 'thích': 0.0}


In [None]:
# Đo lường mức độ phổ biến của một từ trong tập hợp các tài liệu
def compute_idf(word):
    doc_count = sum(1 for doc in documents if word in doc.split())
    return math.log(len(documents)/(1 + doc_count))


In [None]:
# tích của TF và IDF, giúp xác định tầm quan trọng của một từ trong một tài liệu cụ thể, 
# đồng thời giảm thiểu ảnh hưởng của các từ phổ biến nhưng ít mang ý nghĩa.

tf_idf = []
for doc in documents:
    doc_tf = compute_tf(doc)
    doc_tfidf = {}
    for word in words:
        doc_tfidf[word] = doc_tf[word] * compute_idf(word)
    tf_idf.append(doc_tfidf)

print("\nDanh sách tất cả các từ trong tập tài liệu:")
print(words)

print("\nTF-IDF cho từng tài liệu:")
for i, doc_tfidf in enumerate(tf_idf):
    print(f"\nTài liệu {i+1}:")
    for word, score in doc_tfidf.items():
        print(f"{word}: {score:.4f}")


Danh sách tất cả các từ trong tập tài liệu:
['học', 'Tôi', 'tuệ', 'trí', 'tạo', 'siêu', 'AGI', 'nhân', 'AI', 'là', 'thích']

TF-IDF cho từng tài liệu:

Tài liệu 1:
học: 0.1014
Tôi: 0.1014
tuệ: 0.0000
trí: 0.0000
tạo: 0.0000
siêu: 0.0000
AGI: 0.0000
nhân: 0.0000
AI: 0.0000
là: 0.0000
thích: 0.1014

Tài liệu 2:
học: 0.0000
Tôi: 0.0000
tuệ: 0.0000
trí: 0.0000
tạo: 0.0000
siêu: 0.0000
AGI: 0.0000
nhân: 0.0000
AI: 0.0000
là: 0.0000
thích: 0.0000

Tài liệu 3:
học: 0.0000
Tôi: 0.0000
tuệ: 0.0000
trí: 0.0000
tạo: 0.0000
siêu: 0.0579
AGI: 0.0579
nhân: 0.0000
AI: 0.0000
là: 0.0000
thích: 0.0000
