# TF-IDF（term frequency–inverse document frequency）

TF-IDF是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。

TF（词频），如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性。

用统计语言来表示，是在词频的基础上,对每个词分配一个表示“重要性”的 权重 ，比如最常见的词（如停用词）给与最小的权重，而少见的词语给予较大的权重，这个权重叫做 “逆文档频率（IDF）”，它的大小与一个词的常见程度成反比。

频率（TF） 和 逆文档频率（IDF） 相乘，就得到了一个词的 TF-IDF值 ，值越大，说明词对文章的重要性越高。
    
TF-IDF算法的优点是简单快速，结果比较符合实际情况。缺点是，单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。

（一种解决方法是，对全文的第一段和每一段的第一句话，给予较大的权重。）


In [15]:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer  
from collections import Counter
import jieba
import pandas as pd

line = ["I come to China to travel with my gril friend but my gril freind is a boy", 
    "This is a car polupar in China which named hongqi",          
    "I love tea and Apple ",   
    "The work is to write some papers in science or acta"]

vectorizer=CountVectorizer()
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(line))  
print(tfidf)

  (0, 28)	0.2323987345417178
  (0, 26)	0.2323987345417178
  (0, 25)	0.3664516633475799
  (0, 15)	0.4647974690834356
  (0, 13)	0.1483371018604668
  (0, 10)	0.4647974690834356
  (0, 9)	0.2323987345417178
  (0, 8)	0.2323987345417178
  (0, 7)	0.2323987345417178
  (0, 6)	0.18322583167378995
  (0, 4)	0.2323987345417178
  (0, 3)	0.2323987345417178
  (1, 27)	0.361536687086221
  (1, 24)	0.361536687086221
  (1, 19)	0.361536687086221
  (1, 16)	0.361536687086221
  (1, 13)	0.23076418416976147
  (1, 12)	0.28503967675464414
  (1, 11)	0.361536687086221
  (1, 6)	0.28503967675464414
  (1, 5)	0.361536687086221
  (2, 22)	0.5
  (2, 14)	0.5
  (2, 2)	0.5
  (2, 1)	0.5
  (3, 30)	0.3219014546209422
  (3, 29)	0.3219014546209422
  (3, 25)	0.25379080422375233
  (3, 23)	0.3219014546209422
  (3, 21)	0.3219014546209422
  (3, 20)	0.3219014546209422
  (3, 18)	0.3219014546209422
  (3, 17)	0.3219014546209422
  (3, 13)	0.20546552870565465
  (3, 12)	0.25379080422375233
  (3, 0)	0.3219014546209422


In [21]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf2 = TfidfVectorizer()
re = tfidf2.fit_transform(line)
# 得到语料库all不重复的词
print(tfidf2.get_feature_names())
#得到每个词的对应 第几句和ID
print(tfidf2.vocabulary_)
#得到每个句子所对应的向量，向量里的数字的顺序是按词顺序来排列的
# 文本矩阵化
print(re.toarray())

print("文本数", len(re.toarray()))
print("单词数", len(re.toarray()[0]))
print( re)

['acta', 'and', 'apple', 'boy', 'but', 'car', 'china', 'come', 'freind', 'friend', 'gril', 'hongqi', 'in', 'is', 'love', 'my', 'named', 'or', 'papers', 'polupar', 'science', 'some', 'tea', 'the', 'this', 'to', 'travel', 'which', 'with', 'work', 'write']
{'come': 7, 'to': 25, 'china': 6, 'travel': 26, 'with': 28, 'my': 15, 'gril': 10, 'friend': 9, 'but': 4, 'freind': 8, 'is': 13, 'boy': 3, 'this': 24, 'car': 5, 'polupar': 19, 'in': 12, 'which': 27, 'named': 16, 'hongqi': 11, 'love': 14, 'tea': 22, 'and': 1, 'apple': 2, 'the': 23, 'work': 29, 'write': 30, 'some': 21, 'papers': 18, 'science': 20, 'or': 17, 'acta': 0}
[[0.         0.         0.         0.23239873 0.23239873 0.
  0.18322583 0.23239873 0.23239873 0.23239873 0.46479747 0.
  0.         0.1483371  0.         0.46479747 0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.36645166 0.23239873 0.         0.23239873 0.
  0.        ]
 [0.         0.         0.         0.         0.         0.36153

In [23]:
# from sklearn.feature_extraction.text import TfidfTransformer  
# from sklearn.feature_extraction.text import CountVectorizer  

# corpus = ["I love your eyes", "like the beautiful moon"]

# vectorizer = CountVectorizer()
# transformer = TfidfTransformer()
# tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))

# print(tfidf)


互信息是信息论里的一种信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量二减少的不确定性。 


In [26]:
from sklearn.feature_selection import mutual_info_classif
from sklearn import metrics as mr

m = re.toarray()

print("第一个单词和后三个单词之间的互信息：")
print(mr.mutual_info_score(m[0], m[1]))
print(mr.mutual_info_score(m[0], m[2]))
print(mr.mutual_info_score(m[0], m[3]))


第一个单词和后三个单词之间的互信息：
0.3528681999138815
0.0691103344933365
0.3946507687941262
