In [1]:
import math
from collections import Counter

documents = [
    "машинное обучение интересная область",
    "обучение с учителем ключевой аспект машинного обучения",
    "область nlp связана с машинным обучением"
]

tokenized_docs = [doc.split() for doc in documents]

def compute_tf(document):
    word_counts = Counter(document)
    total_words = len(document)
    tf_dict = {}
    for word, count in word_counts.items():
        tf_dict[word] = count / total_words
    return tf_dict

def compute_idf(tokenized_docs):
    num_docs = len(tokenized_docs)
    idf_dict = {}
    
    all_words = set()
    for doc in tokenized_docs:
        all_words.update(doc)
    
    for word in all_words:
        doc_count = sum(1 for doc in tokenized_docs if word in doc)
        idf_dict[word] = math.log(num_docs / doc_count)
    
    return idf_dict

tf_doc1 = compute_tf(tokenized_docs[0])
print("TF для документа 1:")
for word, tf in tf_doc1.items():
    print(f"  {word}: {tf:.4f}")

idf_dict = compute_idf(tokenized_docs)
print("\nIDF для всех слов:")
for word, idf in sorted(idf_dict.items()):
    print(f"  {word}: {idf:.4f}")

word = "машинное"
tf_idf = tf_doc1.get(word, 0) * idf_dict.get(word, 0)

print(f"\nРасчет для слова '{word}' в первом документе:")
print(f"  TF = {tf_doc1[word]:.4f}")
print(f"  IDF = {idf_dict[word]:.4f}")
print(f"  TF-IDF = {tf_idf:.4f}")

print(f"\nПроверка:")
print(f"  Ручной расчет TF = 0.25, получено = {tf_doc1[word]:.4f}")
print(f"  Ручной расчет IDF = 0, получено = {idf_dict[word]:.4f}")
print(f"  Ручной расчет TF-IDF = 0, получено = {tf_idf:.4f}")

TF для документа 1:
  машинное: 0.2500
  обучение: 0.2500
  интересная: 0.2500
  область: 0.2500

IDF для всех слов:
  nlp: 1.0986
  аспект: 1.0986
  интересная: 1.0986
  ключевой: 1.0986
  машинного: 1.0986
  машинное: 1.0986
  машинным: 1.0986
  область: 0.4055
  обучение: 0.4055
  обучением: 1.0986
  обучения: 1.0986
  с: 0.4055
  связана: 1.0986
  учителем: 1.0986

Расчет для слова 'машинное' в первом документе:
  TF = 0.2500
  IDF = 1.0986
  TF-IDF = 0.2747

Проверка:
  Ручной расчет TF = 0.25, получено = 0.2500
  Ручной расчет IDF = 0, получено = 1.0986
  Ручной расчет TF-IDF = 0, получено = 0.2747
