**TF-IDF 模型**

TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于信息检索和文本挖掘的常用文本特征表示方法。它衡量了一个词在一篇文档中的重要性，是基于词频和逆文档频率的计算得到的。

TF（词频）表示一个词在文档中出现的频率，而 IDF（逆文档频率）则衡量一个词的稀有程度，即在语料库中出现的文档数的倒数。

TF-IDF 的计算公式如下：
$$
\text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D)
$$
其中：
- $\text{TF}(t, d)$ 表示词 $t$ 在文档 $d$中的词频，可以使用简单的词频或归一化的词频。
- $\text{IDF}(t, D)$ 表示词 $t$ 的逆文档频率，计算方式为 $\log\frac{N}{\text{DF}(t, D) + 1}$，其中 $N$是语料库中的文档总数，$\text{DF}(t, D)$ 是包含词$t$的文档数。

TF-IDF 主要用于将文档表示为向量，其中每个维度对应于一个词的 TF-IDF 值。通过这种表示，可以比较不同文档之间的相似性，同时降低常见词汇的权重。

在 Python 中，可以使用 `TfidfVectorizer` 类来实现 TF-IDF 模型的构建。以下是一个简单的示例代码：

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 示例文档集合
documents = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?"
]

# 创建 TF-IDF 模型
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(documents)

# 获取词汇表
vocabulary = vectorizer.get_feature_names_out()

# 创建 DataFrame 显示结果
import pandas as pd
df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=vocabulary)
print(df_tfidf)

        and  document     first        is       one    second       the  \
0  0.000000  0.469791  0.580286  0.384085  0.000000  0.000000  0.384085   
1  0.000000  0.687624  0.000000  0.281089  0.000000  0.538648  0.281089   
2  0.511849  0.000000  0.000000  0.267104  0.511849  0.000000  0.267104   
3  0.000000  0.469791  0.580286  0.384085  0.000000  0.000000  0.384085   

      third      this  
0  0.000000  0.384085  
1  0.000000  0.281089  
2  0.511849  0.267104  
3  0.000000  0.384085  



上述代码中，`TfidfVectorizer` 将文档集合转换为 TF-IDF 矩阵，其中每一行代表一个文档，每一列代表一个词汇。最终的结果是一个 DataFrame，其中包含了文档的 TF-IDF 表示。