TF-IDF（Term Frequency-Inverse Document Frequency）即词频 - 逆文档频率，它通过计算一个词语在文档中的重要性，结合了词语在文档中的频率和词语在整个语料库中的出现频率。

**词频 （Term Frequency, TF)**: 指给定的词在文档中出现的频率。频率越高说明该词越重要。计算公式如下：
$$ TF_{i,j} = \frac{n_{i,j}}{\sum_{k}n_{k,j}} $$
其中，$n_{i,j}$ 表示词 $i$ 在文档 $j$ 中出现的次数，$\sum_{k}n_{k,j}$ 表示文档 $j$ 中所有词的出现次数之和。  

**逆文档频率（Inverse Document Frequency, IDF)**: 由总文档数目除以包含该词语的文档的数目，再将得到的商取对数得到。数值越大说明该词越不常见，该词特征性越强。计算公式如下：
$$ IDF_i = \log\frac{N}{df_i} $$
其中，$N$ 表示语料库中的文档总数，$df_i$ 表示包含词 $i$ 的文档数量。  

**TF-IDF**: 词频和逆文档频率的乘积即为词的 TF-IDF 值。计算公式如下：
$$ TF-IDF_{i,j} = TF_{i,j} \times IDF_i $$
TF-IDF 的主要优点是可以过滤掉常见的无意义词语，如“的”、“是”等。同时，TF-IDF 还可以用于文本分类、信息检索等任务。

# 手动实现

In [18]:
# 准备预料库
corpus = [
    '这 是 第一个 文档',
    '这是 第二个 文档',
    '这是 最后 一个 文档',
    '没有 文档 了 文档 么 了'
]

# 词袋统计
words_list = []
for words in corpus:
    words_list.append(words.split()) # 每个文档的词袋
# print(words_list)
# [['这', '是', '第一个', '文档'], ['这是', '第二个', '文档'], ['这是', '最后', '一个', '文档'], ['没有', '文档', '了', '文档', '么', '了']]

# 词频统计
from collections import Counter
word_count = []
for i in range(len(words_list)):
    word_count.append(Counter(words_list[i])) # 每个文档的词频

# print(word_count) 
# [Counter({'这': 1, '是': 1, '第一个': 1, '文档': 1}), Counter({'这是': 1, '第二个': 1, '文档': 1}), Counter({'这是': 1, '最后': 1, '一个': 1, '文档': 1}), Counter({'文档': 2, '了': 2, '没有': 1, '么': 1})]

import math
# 计算TF
def TF(word, word_count):
    return word_count[word] / sum(word_count.values()) # 词在当前文档中出现的次数

# 计算IDF
def IDF(word, word_count_list):
    return math.log(len(word_count_list) / sum([1 for count in word_count_list if word in count]))

# 计算TF-IDF
def TF_IDF(word, word_count, word_count_list):
    """
    word: 词语
    word_count: 词语在当前文档中的词频
    word_count_list: 词语在所有文档中的词频
    """
    return TF(word, word_count) * IDF(word, word_count_list)

# 测试
# 计算每个文档的TF-IDF
for i in range(len(corpus)):
    print('第{}个文档的TF-IDF:'.format(i+1))
    score = {word: TF_IDF(word, word_count[i], word_count) for word in corpus[i].split() }
    print(score)

第1个文档的TF-IDF:
{'这': 0.34657359027997264, '是': 0.34657359027997264, '第一个': 0.34657359027997264, '文档': 0.0}
第2个文档的TF-IDF:
{'这是': 0.23104906018664842, '第二个': 0.46209812037329684, '文档': 0.0}
第3个文档的TF-IDF:
{'这是': 0.17328679513998632, '最后': 0.34657359027997264, '一个': 0.34657359027997264, '文档': 0.0}
第4个文档的TF-IDF:
{'没有': 0.23104906018664842, '文档': 0.0, '了': 0.46209812037329684, '么': 0.23104906018664842}
