gensim 中文文档
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
blog
imgs/Introduction
.gitignore
LICENSE
README.md

README.md

gensim 中文文档

欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远

目录

这些教程被组织为一系列示例,突出了gensim的各种功能。假设读者熟悉Python语言安装了gensim 并阅读了介绍

这些例子分为以下部分:

预赛

所有示例都可以直接复制到Python解释器shell。IPythoncpaste 命令对于复制代码片段(包括主要 >>>> 字符)特别方便。

Gensim使用Python的标准 logging 模块来记录各种优先级的各种东西; 要激活日志记录(这是可选的),请运行

>>> import logging
>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

快速示例

首先,让我们导入gensim并创建一个包含九个文档和十二个特征的小型语料库[1]

>>> from gensim import corpora, models, similarities
>>>
>>> corpus = [[(0, 1.0), (1, 1.0), (2, 1.0)],
>>>           [(2, 1.0), (3, 1.0), (4, 1.0), (5, 1.0), (6, 1.0), (8, 1.0)],
>>>           [(1, 1.0), (3, 1.0), (4, 1.0), (7, 1.0)],
>>>           [(0, 1.0), (4, 2.0), (7, 1.0)],
>>>           [(3, 1.0), (5, 1.0), (6, 1.0)],
>>>           [(9, 1.0)],
>>>           [(9, 1.0), (10, 1.0)],
>>>           [(9, 1.0), (10, 1.0), (11, 1.0)],
>>>           [(8, 1.0), (10, 1.0), (11, 1.0)]]

在gensim中,语料库只是一个对象,当迭代时,返回其表示为稀疏向量的文档。在这种情况下,我们使用元组列表的列表。如果您不熟悉矢量空间模型,我们将在下一个关于Corpora和Vector Spaces的教程中弥合原始字符串语料库稀疏矢量之间的差距。

如果您熟悉向量空间模型,您可能会知道解析文档并将其转换为向量的方式会对任何后续应用程序的质量产生重大影响。

注意: 在此示例中,整个语料库作为Python列表存储在内存中。但是,语料库接口只表示语料库必须支持对其组成文档的迭代。对于非常大的语料库,有利的是将语料库保持在磁盘上,并且一次一个地顺序访问其文档。所有操作和转换都以这样的方式实现,使得它们在内存方面独立于语料库的大小。

接下来,让我们初始化一个转换

>>> tfidf = models.TfidfModel(corpus)

转换用于将文档从一个向量表示转换为另一个向量表示:

>>> vec = [(0, 1), (4, 1)]
>>> print(tfidf[vec])
[(0, 0.8075244), (4, 0.5898342)]

在这里,我们使用了Tf-Idf,这是一种简单的转换,它将文档表示为词袋计数,并应用对常用术语进行折扣的权重(或者等同于促销稀有术语)。它还将得到的向量缩放到单位长度(在欧几里德范数中)。

主题和转换教程中详细介绍了转换

要通过TfIdf转换整个语料库并对其进行索引,以准备相似性查询:

>>> index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=12)

并查询我们的查询向量<span class="pre">vec</span>与语料库中每个文档的相似性:

>>> sims = index[tfidf[vec]]
>>> print(list(enumerate(sims)))
[(0, 0.4662244), (1, 0.19139354), (2, 0.24600551), (3, 0.82094586), (4, 0.0), (5, 0.0), (6, 0.0), (7, 0.0), (8, 0.0)]

如何阅读此输出?文档编号为零(第一个文档)的相似度得分为0.466 = 46.6%,第二个文档的相似度得分为19.1%等。

因此,根据TfIdf文档表示和余弦相似性度量,最类似于我们的查询文档vec是文档号。3,相似度得分为82.1%。请注意,在TfIdf表示中,任何不具有任何共同特征的 vec 文档(文档编号4-8)的相似性得分均为0.0。有关更多详细信息,请参阅Similarity Queries教程。


| [1] | 这与 Deerwester等人 使用的语料库相同(1990):通过潜在语义分析进行索引,表2。

联系方式

负责人

加入方式

免责声明 - 【只供学习参考】

  • ApacheCN 纯粹出于学习目的与个人兴趣翻译本书
  • ApacheCN 保留对此版本译文的署名权及其它相关权利

资料来源:

赞助我们