TF показывает, насколько часто слово (токен) встречается в конкретном документе относительно общего количества слов в этом документе.

IDF измеряет уникальность слова во всем корпусе документов. Можно вычислить как логарифм от общего количества документов деленное на количество документов, в которых встречается это слово.

1. Расчет TF
Слово "машинное" в первом документе встречается 1 раз. Всего слов - 4.

$$ TF=\frac{1}{4} =0.25 $$

2. Расчет IDF
Общее количество документов ($N$) = 3. Количество документов, содержащих корень "машинн" $n_t$ = 3.
IDF = $\log(N / n_t)$ = $\log(3 / 3)$ = $\log(1) = 0$.
Однако если рассматривать строгое соответствие формы "машинное", то оно встречается только в 1-м документе. Тогда IDF = $\log(3 / 1) \approx 1.098$.

3. Расчет TF-IDF
TF-IDF = TF * IDF
$$TF-IDF = 0.25 * 1.0986\approx0.27 $$


In [3]:
import math

# Исходные документы
documents = [
    "машинное обучение интересная область",
    "обучение с учителем ключевой аспект машинного обучения",
    "область nlp связана с машинным обучением"
]

def calculate_tfidf(target_word, doc_index, corpus):
    # Токенизация по словам
    tokenized_corpus = [doc.lower().split() for doc in corpus]
    target_doc = tokenized_corpus[doc_index]
    
    # 1. Расчет TF
    word_count_in_doc = target_doc.count(target_word.lower())
    total_words_in_doc = len(target_doc)
    tf = word_count_in_doc / total_words_in_doc
    
    # 2. Расчет IDF
    num_docs_with_word = sum(1 for doc in tokenized_corpus if target_word.lower() in doc)
    
    idf = math.log(len(corpus) / num_docs_with_word)
    
    # 3. Расчет TF-IDF
    tfidf = tf * idf
    
    return tf, idf, tfidf

# Расчет для слова "машинное" в 1-м документе (индекс 0)
word = "машинное"
tf_val, idf_val, tfidf_val = calculate_tfidf(word, 0, documents)

print(f"Слово: '{word}' в Документе 1")
print(f"TF: {tf_val:.4f}")
print(f"IDF: {idf_val:.4f}")
print(f"TF-IDF: {tfidf_val:.4f}")

Слово: 'машинное' в Документе 1
TF: 0.2500
IDF: 1.0986
TF-IDF: 0.2747
