# 文本表示模型：TF-IDF
# 分类模型：DNN

![image.png](attachment:image.png)

tf-idf（英语：term frequency–inverse document frequency）是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了tf-idf以外，互联网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜索结果中出现的顺序。

### TF-IDF算法步骤：

第一步，计算词频：

![image.png](attachment:image.png)


考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

![image-2.png](attachment:image-2.png)


第二步，计算逆文档频率：

这时，需要一个语料库（corpus），用来模拟语言的使用环境。

![image-3.png](attachment:image-3.png)


如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

第三步，计算TF-IDF：

![image-4.png](attachment:image-4.png)


可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

In [1]:
#1.导入包和模块
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
text=["The quick brown fox jumped over the lazy dag.",
     "The dog."
      "The fox"
     ]

In [3]:
#2.创建变换函数
vectorizer=TfidfVectorizer()

In [4]:
# 3.词条化以及创建词汇表
vectorizer.fit(text)

TfidfVectorizer()

In [5]:
#4.特征以及每个特征（词）的idf
print("特征：",vectorizer.vocabulary_)
print("特征的IDF：",vectorizer.idf_)

特征： {'the': 8, 'quick': 7, 'brown': 0, 'fox': 3, 'jumped': 4, 'over': 6, 'lazy': 5, 'dag': 1, 'dog': 2}
特征的IDF： [1.40546511 1.40546511 1.40546511 1.         1.40546511 1.40546511
 1.40546511 1.40546511 1.        ]


In [6]:
# 5.编码文档
vector=vectorizer.transform([text[0]])
X=vectorizer.fit_transform(text)
print('TF-IDF矩阵：',X.toarray())

TF-IDF矩阵： [[0.342369   0.342369   0.         0.24359836 0.342369   0.342369
  0.342369   0.342369   0.48719673]
 [0.         0.         0.53215436 0.37863221 0.         0.
  0.         0.         0.75726441]]


In [7]:
#6.总结编码文档
print('shape:',vector.shape)

shape: (1, 9)


In [8]:
print(vector.toarray())

[[0.342369   0.342369   0.         0.24359836 0.342369   0.342369
  0.342369   0.342369   0.48719673]]
