TF-IDF（Term Frequency-Inverse Document Frequency）是一种在信息检索和文本挖掘中常用的权重计算方法，用于评估一个词语对于一个文档集或一个语料库中的其中一份文件的重要程度。它由两部分组成：词频（TF）和逆文档频率（IDF）。

**词频（TF）** 是指某个词在文档中出现的频率，通常这个数字会进行归一化处理，以防止它偏向长的文件。词频的计算公式为：
\[ \text{TF}(t, d) = \frac{n_{t,d}}{N_d} \]
其中 \( n_{t,d} \) 是词 \( t \) 在文档 \( d \) 中出现的次数，\( N_d \) 是文档 \( d \) 中的总词数。

**逆文档频率（IDF）** 是一种度量词项在文档中重要性的方式。如果包含词项的文档越少，则该词项的IDF值越大，表示该词项具有越强的类别区分能力。IDF的计算公式为：
\[ \text{IDF}(t, D) = \log\frac{N}{df_t} \]
其中，\( N \) 是文档总数，\( df_t \) 是包含词 \( t \) 的文档数。在实际计算中，通常会在分母上加1，以避免某个词在语料库中没有出现时导致分母为零的情况。

**TF-IDF** 计算公式为：
\[ \text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D) \]

在构建特征矩阵时，每个文档会被表示为一个TF-IDF向量，其中每个维度对应一个词汇的TF-IDF值。这样，每个文档都由一个高维空间中的点表示，这个点的位置由TF-IDF值决定。

**Python代码示例** 使用 `sklearn` 库中的 `TfidfVectorizer` 来构建TF-IDF特征矩阵：

在这个例子中，`TfidfVectorizer` 会自动为我们完成计算TF-IDF值和构建特征矩阵的步骤。`X` 是一个稀疏矩阵，每一行对应一个文档，每一列对应一个词汇的TF-IDF值。

**应用**：
TF-IDF广泛应用于信息检索、文本分类、情感分析等领域。例如，在信息检索中，通过计算查询关键词的TF-IDF值，可以找到与查询最相关的文档；在文本分类中，TF-IDF向量可以作为分类器的输入特征。

**优缺点**：
- **优点**：简单易行，泛化能力强，可解释性好。
- **缺点**：过分依赖词频，对文本语义理解不足，对停用词处理不当。



In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 示例文档
documents = [
    "I have a dream",
    "I have a pen",
    "I think therefore I am",
    "I am machine learning",
    # ... 更多文档
]

# 初始化TfidfVectorizer
vectorizer = TfidfVectorizer()

# 转换文本数据为TF-IDF特征矩阵
X = vectorizer.fit_transform(documents)

# 获取特征词汇
feature_names = vectorizer.get_feature_names_out()

# 打印特征矩阵
print(X.toarray())

# 打印词汇
print(feature_names)

[[0.         0.78528828 0.6191303  0.         0.         0.
  0.         0.        ]
 [0.         0.         0.6191303  0.         0.         0.78528828
  0.         0.        ]
 [0.48693426 0.         0.         0.         0.         0.
  0.61761437 0.61761437]
 [0.48693426 0.         0.         0.61761437 0.61761437 0.
  0.         0.        ]]
['am' 'dream' 'have' 'learning' 'machine' 'pen' 'therefore' 'think']
