In [2]:
import math
from collections import Counter

# Sample corpus
corpus = [
    "trường đại học công nghệ thông tin dhqg tp hcm được thành lập từ khi nào?",
    "trường uit đại học công nghệ thông tin dhqg tp hcm có những thành tựu gì nổi bật trong lĩnh vực đào tạo?"
]

# Function to compute term frequency for a document
def compute_tf(document):
    words = document.split()
    total_words = len(words)
    tf = Counter(words)
    for word in tf:
        tf[word] /= total_words
    return tf, total_words

# Function to compute inverse document frequency for the corpus
def compute_idf(corpus):
    num_documents = len(corpus)
    idf = {}
    all_words = set(word for doc in corpus for word in doc.split())
    for word in all_words:
        containing_docs = sum(1 for doc in corpus if word in doc.split())
        idf[word] = math.log(num_documents / (1 + containing_docs))
    return idf

# Function to compute TF-IDF for a document
def compute_tfidf(tf, idf):
    tfidf = {}
    for word, tf_value in tf.items():
        tfidf[word] = tf_value * idf.get(word, 0)
    return tfidf

# Compute IDF for the entire corpus
idf = compute_idf(corpus)

# Compute TF, IDF, and TF-IDF for each document
for i, document in enumerate(corpus):
    tf, total_words = compute_tf(document)
    tfidf = compute_tfidf(tf, idf)
    print(f"Document {i+1}:")
    print(f"Total number of words: {total_words}")
    print(f"{'Word':<20}{'TF':<10}{'IDF':<15}{'TF-IDF':<10}")
    print("-" * 55)
    for word in tf:
        tf_value = tf[word]
        idf_value = idf.get(word, 0)
        tfidf_value = tfidf[word]
        print(f"{word:<20}{tf_value:<10.4f}{idf_value:<15.4f}{tfidf_value:<10.4f}")
    print()


Document 1:
Total number of words: 15
Word                TF        IDF            TF-IDF    
-------------------------------------------------------
trường              0.0667    -0.4055        -0.0270   
đại                 0.0667    -0.4055        -0.0270   
học                 0.0667    -0.4055        -0.0270   
công                0.0667    -0.4055        -0.0270   
nghệ                0.0667    -0.4055        -0.0270   
thông               0.0667    -0.4055        -0.0270   
tin                 0.0667    -0.4055        -0.0270   
dhqg                0.0667    -0.4055        -0.0270   
tp.hcm              0.0667    -0.4055        -0.0270   
được                0.0667    0.0000         0.0000    
thành               0.0667    -0.4055        -0.0270   
lập                 0.0667    0.0000         0.0000    
từ                  0.0667    0.0000         0.0000    
khi                 0.0667    0.0000         0.0000    
nào?                0.0667    0.0000         0.0000    

Document 

In [None]:
Câu hỏi	bật	có	công	dhqg	gì	hcm	học	khi	lĩnh	lập	nghệ	những	nào	nổi	thành	thông	tin	tp	trong	trường	tạo	từ	tựu	uit	vực	đào	được	đại
trường đại học công nghệ thông tin dhqg tp.hcm được thành lập từ khi nào?	0.0	0.0	0.21886155573996818	0.21886155573996818	0.0	0.21886155573996818	0.21886155573996818	0.3076022800987954	0.0	0.3076022800987954	0.21886155573996818	0.0	0.3076022800987954	0.0	0.21886155573996818	0.21886155573996818	0.21886155573996818	0.21886155573996818	0.0	0.21886155573996818	0.0	0.3076022800987954	0.0	0.0	0.0	0.0	0.3076022800987954	0.21886155573996818
trường uit đại học công nghệ thông tin dhqg tp.hcm có những thành tựu gì nổi bật trong lĩnh vực đào tạo?	0.23857799712952948	0.23857799712952948	0.16975020991497183	0.16975020991497183	0.23857799712952948	0.16975020991497183	0.16975020991497183	0.0	0.23857799712952948	0.0	0.16975020991497183	0.23857799712952948	0.0	0.23857799712952948	0.16975020991497183	0.16975020991497183	0.16975020991497183	0.16975020991497183	0.23857799712952948	0.16975020991497183	0.23857799712952948	0.0	0.23857799712952948	0.23857799712952948	0.23857799712952948	0.23857799712952948	0.0	0.16975020991497183

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    "trường đại học công nghệ thông tin dhqg tp.hcm được thành lập từ khi nào?",
    "trường uit đại học công nghệ thông tin dhqg tp.hcm có những thành tựu gì nổi bật trong lĩnh vực đào tạo?",
]

vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(corpus)

print(tfidf_matrix.shape)


(2, 28)


In [5]:
print(vectorizer.vocabulary_)

{'trường': 19, 'đại': 27, 'học': 6, 'công': 2, 'nghệ': 10, 'thông': 15, 'tin': 16, 'dhqg': 3, 'tp': 17, 'hcm': 5, 'được': 26, 'thành': 14, 'lập': 9, 'từ': 21, 'khi': 7, 'nào': 12, 'uit': 23, 'có': 1, 'những': 11, 'tựu': 22, 'gì': 4, 'nổi': 13, 'bật': 0, 'trong': 18, 'lĩnh': 8, 'vực': 24, 'đào': 25, 'tạo': 20}


In [None]:
print(vectorizer.vocabulary_)

In [6]:
print(tfidf_matrix.toarray())

[[0.         0.         0.21886156 0.21886156 0.         0.21886156
  0.21886156 0.30760228 0.         0.30760228 0.21886156 0.
  0.30760228 0.         0.21886156 0.21886156 0.21886156 0.21886156
  0.         0.21886156 0.         0.30760228 0.         0.
  0.         0.         0.30760228 0.21886156]
 [0.238578   0.238578   0.16975021 0.16975021 0.238578   0.16975021
  0.16975021 0.         0.238578   0.         0.16975021 0.238578
  0.         0.238578   0.16975021 0.16975021 0.16975021 0.16975021
  0.238578   0.16975021 0.238578   0.         0.238578   0.238578
  0.238578   0.238578   0.         0.16975021]]


In [7]:
corpus = [
    "trường đại học công nghệ thông tin dhqg tp.hcm được thành lập từ khi nào?",
    "trường uit đại học công nghệ thông tin dhqg tp.hcm có những thành tựu gì nổi bật trong lĩnh vực đào tạo?",
]

In [8]:
import collections

def build_vocabulary(corpus):
    vocabulary = collections.Counter()
    for doc in corpus:
        vocabulary.update(doc.lower().split())
    return vocabulary

vocabulary = build_vocabulary(corpus)
print(vocabulary)

Counter({'trường': 2, 'đại': 2, 'học': 2, 'công': 2, 'nghệ': 2, 'thông': 2, 'tin': 2, 'dhqg': 2, 'tp.hcm': 2, 'thành': 2, 'được': 1, 'lập': 1, 'từ': 1, 'khi': 1, 'nào?': 1, 'uit': 1, 'có': 1, 'những': 1, 'tựu': 1, 'gì': 1, 'nổi': 1, 'bật': 1, 'trong': 1, 'lĩnh': 1, 'vực': 1, 'đào': 1, 'tạo?': 1})


In [9]:
tf_matrix = []
for doc in corpus:
    tf_counter = collections.Counter(doc.lower().split())
    tf_matrix.append([tf_counter[word] for word in vocabulary])

print(tf_matrix)

[[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]


In [10]:
import math

def calculate_idf(corpus, unique_words):
    idf_dict = {}
    N = len(corpus)
    for word in unique_words:
        count = sum(1 for doc in corpus if word in doc.lower().split())
        idf_dict[word] = math.log((N+1) / (count+1)) + 1
    return idf_dict

idf_dict = calculate_idf(corpus, vocabulary)
print(idf_dict)

{'trường': 1.0, 'đại': 1.0, 'học': 1.0, 'công': 1.0, 'nghệ': 1.0, 'thông': 1.0, 'tin': 1.0, 'dhqg': 1.0, 'tp.hcm': 1.0, 'được': 1.4054651081081644, 'thành': 1.0, 'lập': 1.4054651081081644, 'từ': 1.4054651081081644, 'khi': 1.4054651081081644, 'nào?': 1.4054651081081644, 'uit': 1.4054651081081644, 'có': 1.4054651081081644, 'những': 1.4054651081081644, 'tựu': 1.4054651081081644, 'gì': 1.4054651081081644, 'nổi': 1.4054651081081644, 'bật': 1.4054651081081644, 'trong': 1.4054651081081644, 'lĩnh': 1.4054651081081644, 'vực': 1.4054651081081644, 'đào': 1.4054651081081644, 'tạo?': 1.4054651081081644}


In [11]:
tfidf_matrix = []
for tf_vector in tf_matrix:
    tfidf_vector = [a*b for a,b in zip(tf_vector, idf_dict.values())]
    tfidf_matrix.append(tfidf_vector)

print(tfidf_matrix)    

[[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.4054651081081644, 1.0, 1.4054651081081644, 1.4054651081081644, 1.4054651081081644, 1.4054651081081644, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.4054651081081644, 1.4054651081081644, 1.4054651081081644, 1.4054651081081644, 1.4054651081081644, 1.4054651081081644, 1.4054651081081644, 1.4054651081081644, 1.4054651081081644, 1.4054651081081644, 1.4054651081081644, 1.4054651081081644]]


In [12]:
import numpy as np

def l2_normalize(tfidf_matrix):
    norms = np.linalg.norm(tfidf_matrix, axis=1, keepdims=True)
    return tfidf_matrix / norms

normalized_tfidf = l2_normalize(np.array(tfidf_matrix))
print(normalized_tfidf)

[[0.22429949 0.22429949 0.22429949 0.22429949 0.22429949 0.22429949
  0.22429949 0.22429949 0.22429949 0.31524511 0.22429949 0.31524511
  0.31524511 0.31524511 0.31524511 0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.        ]
 [0.17225005 0.17225005 0.17225005 0.17225005 0.17225005 0.17225005
  0.17225005 0.17225005 0.17225005 0.         0.17225005 0.
  0.         0.         0.         0.24209144 0.24209144 0.24209144
  0.24209144 0.24209144 0.24209144 0.24209144 0.24209144 0.24209144
  0.24209144 0.24209144 0.24209144]]
