# tf-idf包

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
import math

In [2]:
#实例化tf实例
tv = TfidfVectorizer(use_idf=True, smooth_idf=True, norm=None)

In [3]:
# 输入训练集矩阵，每行表示一个文本
train = ["Chinese Beijing Chinese",
             "Chinese Chinese Shanghai",
             "Chinese Macao",
             "Tokyo Japan Chinese"]

In [4]:
# 训练，构建词汇表以及词项idf值，并将输入文本列表转成VSM矩阵形式
tv_fit = tv.fit_transform(train)

## 词汇表

In [5]:
# 查看一下构建的词汇表
tv.get_feature_names()

['beijing', 'chinese', 'japan', 'macao', 'shanghai', 'tokyo']

## VSM矩阵

In [6]:
# 查看输入文本列表的VSM矩阵
tv_fit.toarray()

array([[1.91629073, 2.        , 0.        , 0.        , 0.        ,
        0.        ],
       [0.        , 2.        , 0.        , 0.        , 1.91629073,
        0.        ],
       [0.        , 1.        , 0.        , 1.91629073, 0.        ,
        0.        ],
       [0.        , 1.        , 1.91629073, 0.        , 0.        ,
        1.91629073]])

## 计算方法

In [10]:
# 词语beijing的在第1篇文本中的频次为.0，tf(beijing,d1)=1.0
# 词语beijing只在第1篇文本中出现过df(d,beijing)=1,nd=4,
# 代入平滑版的tf-idf计算式得到1.9
1.0*(1+math.log((4+1)/(1+1)))

1.916290731874155

In [11]:
help(math.log)

Help on built-in function log in module math:

log(...)
    log(x[, base])
    
    Return the logarithm of x to the given base.
    If the base not specified, returns the natural logarithm (base e) of x.



In [12]:
# 词语chinese的在第1篇文本中的频次为2.0，tf(chinese,d1)=2.0
# 词语chinese只在4篇文本中都出现过df(d,beijing)=4,nd=4,
# 代入平滑版的tf-idf计算式得到2.0
2.0*(1+math.log(4/4))

2.0

上边得到的矩阵就可以喂到后续的线性分类模型中进行训练了，注意要带每篇文本的类别标记呦。

## 测试文本

In [13]:
test = ["Chinese Chinese Chinese Tokyo Japan"]

In [14]:
test_fit = tv.transform(test)

In [15]:
tv.get_feature_names()

['beijing', 'chinese', 'japan', 'macao', 'shanghai', 'tokyo']

In [16]:
test_fit.toarray()

array([[0.        , 3.        , 1.91629073, 0.        , 0.        ,
        1.91629073]])

手动计算一下Chinese和Japan这两个词项的tf-idf值

In [17]:
# chinese词项在测试文本中出现了3次，因此tf(chinese,t)=3
# 从训练集知道chinese在4篇文本中都出现，因此df(d,beijing)=4,nd=4
# 计算得到tf-idf值
3.0*(1+math.log((1+4)/(1+4)))

3.0

In [18]:
# japan词项在测试文本中出现了1次，因此tf(japan,t)=1
# 从训练集知道japan仅在第4篇文本中出现，因此df(d,japan)=1,nd=4
# 计算得到文本的tf-idf值
1.0*(1+math.log((1+4)/(1+1)))

1.916290731874155