In [1]:
import jieba
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

In [8]:
# 文本分词结果
corpus=["我 来到 北京 北京 清华大学",
        "他 来到 了 网易 杭研 大厦",
        "小明 硕士 毕业 与 中国 科学院",
        "我 爱 北京 天安门"
        ]

In [9]:
# 该类会将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i类文本下的词频
vectorizer = CountVectorizer()
tf_matrix = vectorizer.fit_transform(corpus) # 将文本转为词频矩阵
print('==========词频矩阵==========')
print(tf_matrix)
# （0，8）：0表示第0个文本，8表示词表的第8个词在这段文本中出现了。括号外面的数字表示该词的词频。

# 获得词袋模型中的所有词语，即词表
word = vectorizer.get_feature_names()
print(word)

  (0, 8)	1
  (0, 1)	2
  (0, 5)	1
  (1, 2)	1
  (1, 6)	1
  (1, 11)	1
  (1, 5)	1
  (2, 10)	1
  (2, 0)	1
  (2, 7)	1
  (2, 9)	1
  (2, 4)	1
  (3, 3)	1
  (3, 1)	1
['中国', '北京', '大厦', '天安门', '小明', '来到', '杭研', '毕业', '清华大学', '硕士', '科学院', '网易']


In [10]:
# 统计每个词语的tf-idf权值
transformer = TfidfTransformer()
tf_idf = transformer.fit_transform(tf_matrix) # 计算tf-idf
print('==========tf-idf权值==========')
print(tf_idf)

  (0, 5)	0.3889910975917116
  (0, 1)	0.7779821951834232
  (0, 8)	0.4933858834340294
  (1, 5)	0.41428875116588965
  (1, 11)	0.5254727492640658
  (1, 6)	0.5254727492640658
  (1, 2)	0.5254727492640658
  (2, 4)	0.4472135954999579
  (2, 9)	0.4472135954999579
  (2, 7)	0.4472135954999579
  (2, 0)	0.4472135954999579
  (2, 10)	0.4472135954999579
  (3, 1)	0.6191302964899972
  (3, 3)	0.7852882757103967


In [12]:
# 将tf-idf矩阵抽取出来，元素a[i][j]表示j词在i类文本中的tf-idf权重
weight = tf_idf.toarray()
print(weight) # weight的维度就是词表的长度
print(word)

[[0.         0.7779822  0.         0.         0.         0.3889911
  0.         0.         0.49338588 0.         0.         0.        ]
 [0.         0.         0.52547275 0.         0.         0.41428875
  0.52547275 0.         0.         0.         0.         0.52547275]
 [0.4472136  0.         0.         0.         0.4472136  0.
  0.         0.4472136  0.         0.4472136  0.4472136  0.        ]
 [0.         0.6191303  0.         0.78528828 0.         0.
  0.         0.         0.         0.         0.         0.        ]]
['中国', '北京', '大厦', '天安门', '小明', '来到', '杭研', '毕业', '清华大学', '硕士', '科学院', '网易']


In [13]:
# 每类文本的tf-idf权重
for i in range(len(weight)):
    print('第', i, '类文本的词语tf-idf权重')
    for j in range(len(word)):
        print(word[j], weight[i][j])

第 0 类文本的词语tf-idf权重
中国 0.0
北京 0.7779821951834232
大厦 0.0
天安门 0.0
小明 0.0
来到 0.3889910975917116
杭研 0.0
毕业 0.0
清华大学 0.4933858834340294
硕士 0.0
科学院 0.0
网易 0.0
第 1 类文本的词语tf-idf权重
中国 0.0
北京 0.0
大厦 0.5254727492640658
天安门 0.0
小明 0.0
来到 0.41428875116588965
杭研 0.5254727492640658
毕业 0.0
清华大学 0.0
硕士 0.0
科学院 0.0
网易 0.5254727492640658
第 2 类文本的词语tf-idf权重
中国 0.4472135954999579
北京 0.0
大厦 0.0
天安门 0.0
小明 0.4472135954999579
来到 0.0
杭研 0.0
毕业 0.4472135954999579
清华大学 0.0
硕士 0.4472135954999579
科学院 0.4472135954999579
网易 0.0
第 3 类文本的词语tf-idf权重
中国 0.0
北京 0.6191302964899972
大厦 0.0
天安门 0.7852882757103967
小明 0.0
来到 0.0
杭研 0.0
毕业 0.0
清华大学 0.0
硕士 0.0
科学院 0.0
网易 0.0
