# **Numpy - Term frequency and Invert Document Frequency**

In [None]:
import numpy as np
import math

documents=["Tôi thích học AI", "AI là trí tuệ nhân tạo", "AGI là siêu trí tuệ nhân tạo"]
words=set()
for doc in documents:
    words.update(doc.split())
words=list(words)
words=words.sort

def compute_tf(doc):
    doc_words=doc.split()
    word_count=np.array([doc_words.count(word) for word in doc_words])
    return dict(zip(doc_words, word_count/len(doc_words)))

def compute_idf(word):
    doc_count=np.sum([1 for doc in documents if word in doc.split()])
    return np.log(len(documents)/doc_count) if doc_count!=0 else 0

def compute_tf_idf(tf, idf):
    tf_idf=[]
    for doc in documents:
        doc_tf=compute_tf(doc)
        doc_tf_idf={}
        tf_values=np.array(list(doc_tf.values()))
        idf_values=np.array([compute_idf(word) for word in words])
        tfidf_values=tf_values*idf_values
        doc_tfidf=dict(zip(words, tfidf_values))
        tf_idf.append(doc_tfidf)
    return tf_idf

tf_idf = compute_tf_idf(compute_tf, compute_idf)
print("\n Kết qủa TF-IDF cho từng tài liêu:")

for i, doc in enumerate(documents):
      tf=compute_tf(doc)
      idf=compute_idf(words)
      doc_tfidf=compute_tf_idf(tf, idf)
      print(f"\n Tài liệu {i+1}:")
      for word, score in doc_tfidf.items():
          print(f"{word}: : {score:,4f}")


TypeError: 'builtin_function_or_method' object is not iterable

In [None]:
import numpy as np
import math
documents=["Tôi thích học AI", "AI là trí tuệ nhân tạo", "AGI là siêu trí tuệ nhân tạo"]

words=set()
for doc in documents:
    words.update(doc.split())
words=list(words)

def compute_tf(doc):
    tf={}
    doc_words=doc.split()
    for word in words:
        tf[word]=doc_words.count(word)/len(doc_words)
    return tf

def compute_idf(word):
    doc_count=sum(1 for doc in documents if word in doc.split())
    return math.log(len(documents)/(1+doc_count))

tf_idf=[]
for doc in documents:
    doc_tf=compute_tf(doc)
    doc_tfidf={}
    for word in words:  #duyệt qua tất cả các từ trong copus ứng với mỗi doc.
        doc_tfidf[word]=doc_tf[word]* compute_idf(word)
    tf_idf.append(doc_tfidf)

print("Kết quả:")
for i, doc in enumerate(documents):
    tf=compute_tf(doc)
    idf=compute_idf(word)
    print(f"\n Tài liệu {i+1}:")
    for word, score in doc_tfidf.items():
        print(f"{word}: {score:.4f}")


Kết quả:

 Tài liệu 1:
Tôi: 0.0000
siêu: 0.0579
nhân: 0.0000
tạo: 0.0000
tuệ: 0.0000
học: 0.0000
trí: 0.0000
AGI: 0.0579
là: 0.0000
AI: 0.0000
thích: 0.0000

 Tài liệu 2:
Tôi: 0.0000
siêu: 0.0579
nhân: 0.0000
tạo: 0.0000
tuệ: 0.0000
học: 0.0000
trí: 0.0000
AGI: 0.0579
là: 0.0000
AI: 0.0000
thích: 0.0000

 Tài liệu 3:
Tôi: 0.0000
siêu: 0.0579
nhân: 0.0000
tạo: 0.0000
tuệ: 0.0000
học: 0.0000
trí: 0.0000
AGI: 0.0579
là: 0.0000
AI: 0.0000
thích: 0.0000


# BÀI SỬA

In [None]:
import numpy as np
import math
documents=["Tôi thích học AI", "AI là trí tuệ nhân tạo", "AGI là siêu trí tuệ nhân tạo"]

word_set=set()
for doc in documents:
    word_set.update(doc.split())
word_list=list(word_set)
word_list=sorted(word_list)
print(word_list)

def compute_tf(doc):
    words=doc.split(' ')
    word_dict={word: 0 for word in words}
    for word in words:
        word_dict[word]=words.count(word)/len(words)
    return word_dict

def compute_idf(documents):
    numerator=len(documents)
    result={word: 0 for word in word_list}
    for word in word_list:
        denominator=1+ sum(1 for doc in documents if word in doc.split())
        result[word]=np.log(numerator/denominator)
    return result

def compute_tf_idf(tf, idf):
    tf_idf={word: tf[word]*idf[word] for word in tf if word in idf} # Chỉ tính TF-IDF cho các từ có trong cả tf và idf, trong mỗi doc
    return tf_idf

for i, doc in enumerate(documents):  #duyệt qua tất cả các tài liệu trong bộ sưu tập
    tf = compute_tf(doc)
    idf= compute_idf(documents)
    tf_idf=compute_tf_idf(tf, idf)
    print(f"\n Tài liệu {i+1}:")
    for word, value in tf_idf.items():
        print(f"{word}: {value:.4f}")



['AGI', 'AI', 'Tôi', 'học', 'là', 'nhân', 'siêu', 'thích', 'trí', 'tuệ', 'tạo']

 Tài liệu 1:
Tôi: 0.1014
thích: 0.1014
học: 0.1014
AI: 0.0000

 Tài liệu 2:
AI: 0.0000
là: 0.0000
trí: 0.0000
tuệ: 0.0000
nhân: 0.0000
tạo: 0.0000

 Tài liệu 3:
AGI: 0.0579
là: 0.0000
siêu: 0.0579
trí: 0.0000
tuệ: 0.0000
nhân: 0.0000
tạo: 0.0000
