In [2]:
# Two documents in Vietnamese
docA = "Phở là món ăn nổi tiếng của Việt Nam. Người Việt Nam rất thích ăn phở."
docB = "Bánh mì là món ăn phổ biến ở Việt Nam. Người Việt Nam thường ăn bánh mì vào bữa sáng."

# Tokenization (split into words)
bowA = docA.split(" ")
bowB = docB.split(" ")

# Create dictionary (unique words)
word_dict = set(bowA).union(set(bowB))

wordDictA = dict.fromkeys(word_dict, 0)
wordDictB = dict.fromkeys(word_dict, 0)

# Count word occurrences
for word in bowA:
    wordDictA[word] += 1

for word in bowB:
    wordDictB[word] += 1

print("Bag of Words for DocA:", wordDictA)
print("Bag of Words for DocB:", wordDictB)


Bag of Words for DocA: {'rất': 1, 'nổi': 1, 'Nam': 1, 'ở': 0, 'món': 1, 'Bánh': 0, 'phổ': 0, 'của': 1, 'vào': 0, 'biến': 0, 'thích': 1, 'Nam.': 1, 'Người': 1, 'ăn': 2, 'bánh': 0, 'sáng.': 0, 'mì': 0, 'bữa': 0, 'phở.': 1, 'tiếng': 1, 'thường': 0, 'Việt': 2, 'Phở': 1, 'là': 1}
Bag of Words for DocB: {'rất': 0, 'nổi': 0, 'Nam': 1, 'ở': 1, 'món': 1, 'Bánh': 1, 'phổ': 1, 'của': 0, 'vào': 1, 'biến': 1, 'thích': 0, 'Nam.': 1, 'Người': 1, 'ăn': 2, 'bánh': 1, 'sáng.': 1, 'mì': 2, 'bữa': 1, 'phở.': 0, 'tiếng': 0, 'thường': 1, 'Việt': 2, 'Phở': 0, 'là': 1}


In [4]:
# Calculate TF
def compute_TF(word_dict, bow):
    tf_dict = {}
    bow_count = len(bow)
    for word, count in word_dict.items():
        tf_dict[word] = count / float(bow_count)
    return tf_dict

tf_bowA = compute_TF(wordDictA, bowA)
tf_bowB = compute_TF(wordDictB, bowB)

print("TF for DocA:", tf_bowA)
print("TF for DocB:", tf_bowB)


TF for DocA: {'rất': 0.0625, 'nổi': 0.0625, 'Nam': 0.0625, 'ở': 0.0, 'món': 0.0625, 'Bánh': 0.0, 'phổ': 0.0, 'của': 0.0625, 'vào': 0.0, 'biến': 0.0, 'thích': 0.0625, 'Nam.': 0.0625, 'Người': 0.0625, 'ăn': 0.125, 'bánh': 0.0, 'sáng.': 0.0, 'mì': 0.0, 'bữa': 0.0, 'phở.': 0.0625, 'tiếng': 0.0625, 'thường': 0.0, 'Việt': 0.125, 'Phở': 0.0625, 'là': 0.0625}
TF for DocB: {'rất': 0.0, 'nổi': 0.0, 'Nam': 0.05, 'ở': 0.05, 'món': 0.05, 'Bánh': 0.05, 'phổ': 0.05, 'của': 0.0, 'vào': 0.05, 'biến': 0.05, 'thích': 0.0, 'Nam.': 0.05, 'Người': 0.05, 'ăn': 0.1, 'bánh': 0.05, 'sáng.': 0.05, 'mì': 0.1, 'bữa': 0.05, 'phở.': 0.0, 'tiếng': 0.0, 'thường': 0.05, 'Việt': 0.1, 'Phở': 0.0, 'là': 0.05}


In [6]:
import math

# Calculate IDF
def compute_IDF(doc_list):
    idf_dict = {}
    N = len(doc_list)
    
    # Count number of documents containing a word
    idf_dict = dict.fromkeys(doc_list[0].keys(), 0)
    for doc in doc_list:
        for word, count in doc.items():
            if count > 0:
                idf_dict[word] += 1

    # Calculate IDF for each word
    for word, count in idf_dict.items():
        idf_dict[word] = math.log(N / float(count))
    
    return idf_dict

idfs = compute_IDF([wordDictA, wordDictB])
print("IDF:", idfs)


IDF: {'rất': 0.6931471805599453, 'nổi': 0.6931471805599453, 'Nam': 0.0, 'ở': 0.6931471805599453, 'món': 0.0, 'Bánh': 0.6931471805599453, 'phổ': 0.6931471805599453, 'của': 0.6931471805599453, 'vào': 0.6931471805599453, 'biến': 0.6931471805599453, 'thích': 0.6931471805599453, 'Nam.': 0.0, 'Người': 0.0, 'ăn': 0.0, 'bánh': 0.6931471805599453, 'sáng.': 0.6931471805599453, 'mì': 0.6931471805599453, 'bữa': 0.6931471805599453, 'phở.': 0.6931471805599453, 'tiếng': 0.6931471805599453, 'thường': 0.6931471805599453, 'Việt': 0.0, 'Phở': 0.6931471805599453, 'là': 0.0}


In [8]:
# Calculate TF-IDF
def compute_TF_IDF(tf_bow, idfs):
    tfidf = {}
    for word, tf_value in tf_bow.items():
        tfidf[word] = tf_value * idfs[word]
    return tfidf

tfidf_bowA = compute_TF_IDF(tf_bowA, idfs)
tfidf_bowB = compute_TF_IDF(tf_bowB, idfs)

print("TF-IDF for DocA:", tfidf_bowA)
print("TF-IDF for DocB:", tfidf_bowB)

TF-IDF for DocA: {'rất': 0.04332169878499658, 'nổi': 0.04332169878499658, 'Nam': 0.0, 'ở': 0.0, 'món': 0.0, 'Bánh': 0.0, 'phổ': 0.0, 'của': 0.04332169878499658, 'vào': 0.0, 'biến': 0.0, 'thích': 0.04332169878499658, 'Nam.': 0.0, 'Người': 0.0, 'ăn': 0.0, 'bánh': 0.0, 'sáng.': 0.0, 'mì': 0.0, 'bữa': 0.0, 'phở.': 0.04332169878499658, 'tiếng': 0.04332169878499658, 'thường': 0.0, 'Việt': 0.0, 'Phở': 0.04332169878499658, 'là': 0.0}
TF-IDF for DocB: {'rất': 0.0, 'nổi': 0.0, 'Nam': 0.0, 'ở': 0.03465735902799726, 'món': 0.0, 'Bánh': 0.03465735902799726, 'phổ': 0.03465735902799726, 'của': 0.0, 'vào': 0.03465735902799726, 'biến': 0.03465735902799726, 'thích': 0.0, 'Nam.': 0.0, 'Người': 0.0, 'ăn': 0.0, 'bánh': 0.03465735902799726, 'sáng.': 0.03465735902799726, 'mì': 0.06931471805599453, 'bữa': 0.03465735902799726, 'phở.': 0.0, 'tiếng': 0.0, 'thường': 0.03465735902799726, 'Việt': 0.0, 'Phở': 0.0, 'là': 0.0}
