# Day 21: Numpy - Term Frequency and Invert Document Frequency

In [1]:
import numpy as np

documents = ["Tôi thích học AI", "AI là trí tuệ nhân tạo", " AGI là siêu trí tuệ nhân tạo"]

## 1) Term Frequency
Đo lường tần suất xuất hiện của một từ trong một tài liệu

T F(t, d) = t/d

- t: Số lần xuất hiện của từ t trong tài liệu d
- d: Tổng số từ trong tài liệu d

In [21]:
def compute_tf(doc):
	# Tách các chữ thành một danh sách
	list_word = np.array(doc.lower().split())

	# tổng só từ trong tài liệu 
	total_words = len(list_word)

	# duyệt từng từ trong danh sách để có được số lần xuất hiện của chúng
	frequency_word_list, count = np.unique(list_word, return_counts = True)

	# Duyệt từng từ unique để tính tần suất xuất hiện của từ đó trong tài liệu
	result = dict()
	for i in range(len(count)):
		result[frequency_word_list[i]] = count[i] / total_words

	return result


compute_tf(documents[0])

{'ai': 0.25, 'học': 0.25, 'thích': 0.25, 'tôi': 0.25}

# 2) Inverse Document Frequency (IDF)
Đo lường mức độ phổ biến của một từ trong tập hợp các tài liệu. Công thức tính:

IDF(t, D) = log (|D|/(1+t))

- |D| là tổng số tài liệu 
- t là số tài liệu chứa t 



In [18]:
def compute_idf(docs):
	total_doc = len(docs)
	result = list()
	for doc in docs:
		list_word = np.array(doc.lower().split())
		idf_doc_list = dict()
		for word in list_word:
			idf = np.log(total_doc / (1 + sum(word in doc.lower().split() for doc in docs)))
			idf_doc_list[word] = idf
		result.append(idf_doc_list)
	return result


compute_idf(documents)

[{'tôi': 0.4054651081081644,
  'thích': 0.4054651081081644,
  'học': 0.4054651081081644,
  'ai': 0.0},
 {'ai': 0.0, 'là': 0.0, 'trí': 0.0, 'tuệ': 0.0, 'nhân': 0.0, 'tạo': 0.0},
 {'agi': 0.4054651081081644,
  'là': 0.0,
  'siêu': 0.4054651081081644,
  'trí': 0.0,
  'tuệ': 0.0,
  'nhân': 0.0,
  'tạo': 0.0}]

# 3) TF-IDF
Là tích của TF và IDF, giúp xác định tầm quan trọng của một từ trong một tài liệu cụ thể, đồng thời giảm thiểu ảnh hưởng của các từ phổ biến nhưng ít mang ý nghĩa.

TF-IDF(t, d, D) = TF(t, d) × IDF(t, D)

TF-IDF giúp phân biệt các từ quan trọng đối với nội dung của một tài liệu so với các từ xuất hiện thường xuyên trong nhiều tài liệu khác nhau nhưng ít mang giá trị thông tin.


In [32]:
def compute_tf_idf(docs):
	idf = compute_idf(docs)
	result = list()
	for i, doc in enumerate(docs):
		result_doc_dict = dict()
		tf = compute_tf(doc)
		for k, v in tf.items():
			result_doc_dict[k] = round(idf[i][k] * v, 4)
		result.append(result_doc_dict)
	return result


result = compute_tf_idf(documents)
for i, element in enumerate(result):
	print(f"Tài liệu {i + 1}")
	for k, v in element.items():
		print(f"\t{k}: {v}")

Tài liệu 1
	ai: 0.0
	học: 0.1014
	thích: 0.1014
	tôi: 0.1014
Tài liệu 2
	ai: 0.0
	là: 0.0
	nhân: 0.0
	trí: 0.0
	tuệ: 0.0
	tạo: 0.0
Tài liệu 3
	agi: 0.0579
	là: 0.0
	nhân: 0.0
	siêu: 0.0579
	trí: 0.0
	tuệ: 0.0
	tạo: 0.0
