In [1]:
%matplotlib inline
%reload_ext autoreload
%autoreload 2
# 多行输出
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all" 

## TF_IDF

[TF-IDF与余弦相似度 - 知乎](https://zhuanlan.zhihu.com/p/32826433)

> TF-IDF(term frequency=inverse document frequency)是⼀种⽤于资讯检索与文本挖掘的常⽤加权技术。TF-IDF是⼀种统计方法，⽤以评估⼀字词对于⼀个文件集或⼀个语料库中的其中⼀份⽂件的重要程度。字词的重要性随着它在⽂件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常备搜索引擎应⽤，作为文件与用户查询之间相关程度的度量或评级

TF: 词频，IDF就是在词频的基础上，要对每个词分配一个“重要性”权重。最常见的词 （"的"、"是"、"在"）给予最小的权重，较常见的词（"中国"）给予较小的权重，较少见的词 （"蜜蜂"、"养殖"）给予较大的权重。这个权重叫做"逆⽂档频率"（Inverse Document Frequency，缩写为IDF），它的大小与一个词的常见程度成反比。 知道了"词频"（TF）和"逆文档频率"（IDF）以后，将这两个值相乘，就得到了一个词的TF-IDF 值。某个词对文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的几个词，就是这篇文章的关键词。
$$\text{TF}_i=\frac{\text{某个词在文档中出现的次数}}{\text{该文档中词的总数}}$$

$$\text{IDF}_i=log{\frac{\text{语料库的文档总数}}{\text{包含改词的文档总数} + 1}}$$

$$\text{TF-IDF}=\text{TF}_i * \text{IDF}_i$$

In [3]:
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer 

In [4]:
corpus=["I come to China to travel", 
        "This is a car polupar in China",          
        "I love tea and Apple ",   
        "The work is to write some papers in science"] 

In [5]:
vectorizer=CountVectorizer()
transformer = TfidfTransformer()

In [7]:
v = vectorizer.fit_transform(corpus)

In [10]:
v.todense()

matrix([[0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 1, 0, 0],
        [0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0],
        [1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1]],
       dtype=int64)

In [11]:
tfidf = transformer.fit_transform(v)

In [13]:
tfidf.todense()

matrix([[0.        , 0.        , 0.        , 0.34884223, 0.44246214,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.69768446, 0.44246214, 0.        , 0.        ],
        [0.        , 0.        , 0.4533864 , 0.35745504, 0.        ,
         0.35745504, 0.35745504, 0.        , 0.        , 0.4533864 ,
         0.        , 0.        , 0.        , 0.        , 0.4533864 ,
         0.        , 0.        , 0.        , 0.        ],
        [0.5       , 0.5       , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.5       , 0.        , 0.        ,
         0.        , 0.        , 0.5       , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ,
         0.28113163, 0.28113163, 0.        , 0.35657982, 0.        ,
         0.35657982, 0.35657982, 0.        , 0.35657982, 0.        

- 一步到位=向量化+TF-IDF

In [14]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [15]:
tfidf2 = TfidfVectorizer()
ret = tfidf2.fit_transform(corpus)

In [17]:
ret.todense()

matrix([[0.        , 0.        , 0.        , 0.34884223, 0.44246214,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.69768446, 0.44246214, 0.        , 0.        ],
        [0.        , 0.        , 0.4533864 , 0.35745504, 0.        ,
         0.35745504, 0.35745504, 0.        , 0.        , 0.4533864 ,
         0.        , 0.        , 0.        , 0.        , 0.4533864 ,
         0.        , 0.        , 0.        , 0.        ],
        [0.5       , 0.5       , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.5       , 0.        , 0.        ,
         0.        , 0.        , 0.5       , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ,
         0.28113163, 0.28113163, 0.        , 0.35657982, 0.        ,
         0.35657982, 0.35657982, 0.        , 0.35657982, 0.        

## 余弦相似性

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。这 结果是与向量的长度无关的，仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为0到1之间。
- 余弦相似度因此可以给出两篇文档在其主题方面的相似度。
- 余弦相似性就是 $cos(\theta)$