# TF-IDF介绍

    TF-IDF是一种用于信息处理和数据挖掘的加权技术。采用统计方法，根据字词在文本中出现的次数和在整个语料种出现的文档频率来计算一个字词在整个语料种的重要程度。
   
## TF-IDF的优点

    能过滤掉一些常见的却无关紧要的词语，例如中文种的‘的’、‘也’等字词，同时保留影响整个文本的重要字词。
   
## TF与IDF

    TF（Term Frequency）:某个关键词在整篇文章种出现的频率。
    IDF(InversDocument Frequency):计算倒文档频率。文档频率是指某个关键词在整个语料所有文章中出现的次数。倒文档频率又称为逆文档频率，它是文档频率的倒数，主要用于降低所有文档中一些常见却对文档影响不大的词语的作用。
    
## 例子

    假设一篇文章包含了10000个词组，其中"中国"、"石油"出现100次，"开采"出现200次，"的"出现500次。
    
    语料库种共有1000篇文档，其中包含"中国"的文档有99篇，包含"石油"的文档59篇，包含"开采"d的文档19篇，包含"的"的文档有999篇。
    
   * 计算词频
   
    公式：词频=某个词组在文章中出现次数/该文章总词组数
    
    TF(中国) = 100/10000 = 0.01
    
    TF(石油) = 100/10000 = 0.01
    
    TF(开采) = 200/10000 = 0.02
    
    TF(的) = 500/10000 = 0.05
    
   * 计算逆文档频率
   
    公式：逆文档频率 = lg[语料库中文档总数/（包含该词组的文档数 + 1）]
    
    IDF(中国) = lg(1000/100) = 1
    
    IDF(石油) = lg(1000/60) = 1.221
    
    IDF(开采) = lg(1000/20) = 1.7
    
    IDF(的) = lg(1000/1000) = 0
    
    由上述结果可以发现，当某个词在语料库中各个文档出现的次数越多，它的IDF值越低，当它在所有文档中都出现时，其IDF计算结果为0，而通常这些出现次数非常多的词或字为"的"、"我"、"吗"等，它对文章的权重计算起不到较大的作用。
    
   * 计算TF-IDF值
   
    公式：TF-IDF = 词频 * 逆文档频率
    
    TF-IDF(中国) = 0.01 * 1 = 0.01
    
    TF-IDF(石油) = 0.01 * 1.221 = 0.01221
    
    TF-IDF(开采) = 0.02 * 1.7 = 0.0034
    
    TF-IDF(的) = 0.05 * 0 = 0
    
#  用scikit-learn计算TF-IDF值



   


In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer
 
tfidf = TfidfVectorizer()
 
corpus=["我 来到 北京 清华大学",#第一类文本切词后的结果，词之间以空格隔开
        "他 来到 了 网易 杭研 大厦",#第二类文本的切词结果
        "小明 硕士 毕业 与 中国 科学院",#第三类文本的切词结果
        "我 爱 北京 天安门"]#第四类文本的切词结果
 
result = tfidf.fit_transform(corpus).toarray()
print(result)
# 统计关键词
word = tfidf.get_feature_names()
print(word)
# 统计关键词出现次数，几句话对比几次
for k,v in tfidf.vocabulary_.items():
    print(k,v)
# 对比第i类文本的词语tf-idf权重
for i in range(len(result)):
    print('----------------------',i,'--------------------')
    for j in range(len(word)):
        print(word[j],result[i][j])

[[0.         0.52640543 0.         0.         0.         0.52640543
  0.         0.         0.66767854 0.         0.         0.        ]
 [0.         0.         0.52547275 0.         0.         0.41428875
  0.52547275 0.         0.         0.         0.         0.52547275]
 [0.4472136  0.         0.         0.         0.4472136  0.
  0.         0.4472136  0.         0.4472136  0.4472136  0.        ]
 [0.         0.6191303  0.         0.78528828 0.         0.
  0.         0.         0.         0.         0.         0.        ]]
['中国', '北京', '大厦', '天安门', '小明', '来到', '杭研', '毕业', '清华大学', '硕士', '科学院', '网易']
来到 5
北京 1
清华大学 8
网易 11
杭研 6
大厦 2
小明 4
硕士 9
毕业 7
中国 0
科学院 10
天安门 3
---------------------- 0 --------------------
中国 0.0
北京 0.5264054336099155
大厦 0.0
天安门 0.0
小明 0.0
来到 0.5264054336099155
杭研 0.0
毕业 0.0
清华大学 0.6676785446095399
硕士 0.0
科学院 0.0
网易 0.0
---------------------- 1 --------------------
中国 0.0
北京 0.0
大厦 0.5254727492640658
天安门 0.0
小明 0.0
来到 0.41428875116588965
杭研 0.5254727492640658
毕业 