利用gensim完成文档的TF-IDF统计

gensim中的基本概念：<br>
语料(coupus): 原始文档的集合<br>
向量(Vector):由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。<br>
稀疏向量(SparseVector):略去向量中多余的0元素,此时，向量中的每一个元素是一个(key, value)的元组<br>
模型（Model): 两个向量空间的变换<br>

In [1]:
import jieba
from gensim import corpora, models

In [2]:
raw_documents = [  
    '无偿居间介绍买卖毒品的行为应如何定性',  
    '吸毒男动态持有大量毒品的行为该如何认定',  
    '如何区分是非法种植毒品原植物罪还是非法制造毒品罪',  
    '为毒贩贩卖毒品提供帮助构成贩卖毒品罪',  
    '将自己吸食的毒品原价转让给朋友吸食的行为该如何认定',  
    '为获报酬帮人购买毒品的行为该如何认定',  
    '毒贩出狱后再次够买毒品途中被抓的行为认定',  
    '虚夸毒品功效劝人吸食毒品的行为该如何认定',  
    '妻子下落不明丈夫又与他人登记结婚是否为无效婚姻',  
    '一方未签字办理的结婚登记是否有效',  
    '夫妻双方1990年按农村习俗举办婚礼没有结婚证 一方可否起诉离婚',  
    '结婚前对方父母出资购买的住房写我们二人的名字有效吗',  
    '身份证被别人冒用无法登记结婚怎么办？',  
    '同居后又与他人登记结婚是否构成重婚罪',  
    '未办登记只举办结婚仪式可起诉离婚吗',  
    '同居多年未办理结婚登记，是否可以向法院起诉要求离婚'  
] 

In [3]:
# 通过jieba分词构造corpus的分词结果
texts = [jieba.lcut(text, cut_all=True) for text in raw_documents]
texts

Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/rk/nnl9yhm55kb6325ckffkn6hw0000gn/T/jieba.cache
Loading model cost 0.866 seconds.
Prefix dict has been built succesfully.


[['无偿', '居间', '介绍', '买卖', '毒品', '的', '行为', '应', '如何', '定性'],
 ['吸毒', '男', '动态', '持有', '大量', '毒品', '的', '行为', '该', '如何', '认定'],
 ['如何',
  '区分',
  '是非',
  '非法',
  '种植',
  '毒品',
  '原',
  '植物',
  '罪',
  '还是',
  '是非',
  '非法',
  '法制',
  '制造',
  '毒品',
  '罪'],
 ['为', '毒贩', '贩卖', '贩卖毒品', '毒品', '提供', '帮助', '构成', '贩卖', '贩卖毒品', '毒品', '罪'],
 ['将',
  '自己',
  '吸食',
  '的',
  '毒品',
  '原价',
  '转让',
  '让给',
  '朋友',
  '吸食',
  '的',
  '行为',
  '该',
  '如何',
  '认定'],
 ['为', '获', '报酬', '帮', '人', '购买', '毒品', '的', '行为', '该', '如何', '认定'],
 ['毒贩', '出狱', '后', '再次', '够买', '毒品', '途中', '被', '抓', '的', '行为', '认定'],
 ['虚夸', '毒品', '功效', '劝', '人', '吸食', '吸食毒品', '毒品', '的', '行为', '该', '如何', '认定'],
 ['妻子',
  '下落',
  '下落不明',
  '不明',
  '丈夫',
  '又',
  '与',
  '他人',
  '登记',
  '结婚',
  '是否',
  '为',
  '无效',
  '婚姻'],
 ['一方', '未', '签字', '办理', '的', '结婚', '结婚登记', '登记', '是否', '有效'],
 ['夫妻',
  '双方',
  '1990',
  '年',
  '按',
  '农村',
  '习俗',
  '举办',
  '婚礼',
  '没有',
  '结婚',
  '结婚证',
  '',
  '',
  '一方',
  '方可',
  '可否',
  '起诉',
  '离婚'],
 ['结婚',
 

In [5]:
# 构建gensim的dictionary
dictionary = corpora.Dictionary(documents=texts)
dictionary

<gensim.corpora.dictionary.Dictionary at 0x1a1df3b9b0>

In [17]:
# 得到词典里每个分词结果对应的id
dictionary.token2id

{'': 76,
 '1990': 77,
 '一方': 70,
 '丈夫': 57,
 '下落': 58,
 '下落不明': 59,
 '不明': 60,
 '与': 61,
 '为': 27,
 '举办': 78,
 '习俗': 79,
 '买卖': 0,
 '二人': 92,
 '人': 41,
 '介绍': 1,
 '他人': 62,
 '仪式': 112,
 '住房': 93,
 '再次': 46,
 '冒用': 102,
 '写': 94,
 '农村': 80,
 '出狱': 47,
 '出资': 95,
 '别人': 103,
 '制造': 17,
 '劝': 53,
 '办理': 71,
 '办结': 113,
 '功效': 54,
 '动态': 10,
 '区分': 18,
 '原': 19,
 '原价': 34,
 '又': 63,
 '双方': 81,
 '只': 114,
 '可': 115,
 '可以': 118,
 '可否': 82,
 '同居': 109,
 '名字': 96,
 '后': 48,
 '向': 119,
 '吗': 97,
 '吸毒': 11,
 '吸食': 35,
 '吸食毒品': 55,
 '多年': 120,
 '够买': 49,
 '大量': 12,
 '夫妻': 83,
 '如何': 2,
 '妻子': 64,
 '婚前': 98,
 '婚姻': 65,
 '婚礼': 84,
 '定性': 3,
 '对方': 99,
 '将': 36,
 '居多': 121,
 '居间': 4,
 '帮': 42,
 '帮助': 28,
 '年': 85,
 '应': 5,
 '怎么': 104,
 '怎么办': 105,
 '我们': 100,
 '抓': 50,
 '报酬': 43,
 '持有': 13,
 '按': 86,
 '提供': 29,
 '方可': 87,
 '无偿': 6,
 '无效': 66,
 '无法': 106,
 '是否': 67,
 '是非': 20,
 '有效': 72,
 '朋友': 37,
 '未': 73,
 '未办': 116,
 '未办理': 122,
 '构成': 30,
 '植物': 21,
 '毒品': 7,
 '毒贩': 31,
 '没有': 88,
 '法制': 22,
 '法

In [11]:
# 根据dictionary得到每个文本的稀疏向量表达形式
corpus = [dictionary.doc2bow(text) for text in texts]
corpus[0]   # gensim的内部存储结构，第一层列表元素为每个text的表示，内层列表(x,y)元素分别表示第x个word出现y次

[(0, 1),
 (1, 1),
 (2, 1),
 (3, 1),
 (4, 1),
 (5, 1),
 (6, 1),
 (7, 1),
 (8, 1),
 (9, 1)]

In [12]:
# 生成tf-idf模型
tfidf = models.TfidfModel(corpus)
tfidf  # 为一个生成器

<gensim.models.tfidfmodel.TfidfModel at 0x1a17c16940>

In [14]:
# 得到每句话对象的tf-idf
list(tfidf[corpus])

[[(0, 0.3960499659046336),
  (1, 0.3960499659046336),
  (2, 0.140106388335791),
  (3, 0.3960499659046336),
  (4, 0.3960499659046336),
  (5, 0.3960499659046336),
  (6, 0.3960499659046336),
  (7, 0.0990124914761584),
  (8, 0.0990124914761584),
  (9, 0.140106388335791)],
 [(2, 0.14687429413477868),
  (7, 0.10379533702084315),
  (8, 0.10379533702084315),
  (9, 0.14687429413477868),
  (10, 0.4151813480833726),
  (11, 0.4151813480833726),
  (12, 0.4151813480833726),
  (13, 0.4151813480833726),
  (14, 0.4151813480833726),
  (15, 0.17417603893637457),
  (16, 0.2075906740416863)],
 [(2, 0.08426390855657781),
  (7, 0.11909777458126991),
  (17, 0.23819554916253982),
  (18, 0.23819554916253982),
  (19, 0.23819554916253982),
  (20, 0.47639109832507964),
  (21, 0.23819554916253982),
  (22, 0.23819554916253982),
  (23, 0.23819554916253982),
  (24, 0.35729332374380973),
  (25, 0.23819554916253982),
  (26, 0.47639109832507964)],
 [(7, 0.14255475070372),
  (24, 0.21383212605558002),
  (27, 0.17213753432

In [15]:
# 可对模型进行保存和载入
tfidf.save('./tfidf_by_gensim.tfidf')

In [16]:
# 载入模型
tfidf2 = models.TfidfModel.load('./tfidf_by_gensim.tfidf')
tfidf2[corpus[1]]

[(2, 0.14687429413477868),
 (7, 0.10379533702084315),
 (8, 0.10379533702084315),
 (9, 0.14687429413477868),
 (10, 0.4151813480833726),
 (11, 0.4151813480833726),
 (12, 0.4151813480833726),
 (13, 0.4151813480833726),
 (14, 0.4151813480833726),
 (15, 0.17417603893637457),
 (16, 0.2075906740416863)]