In [1]:
# 安装方式: pip install gensim -i https://pypi.tuna.tsinghua.edu.cn/simple/
import numpy as np
import gensim
from gensim.models import TfidfModel
from gensim.corpora import Dictionary

在Gensim中，有几个核心概念，包括文档（Document）、语料库（Corpus）、向量（Vector）和模型（Model）。文档是一些文本，语料库是文档的集合，向量是文档在数学上的表示形式，而模型则是将一种文档向量表示转换成另一种表示的算法。

官网文档：https://radimrehurek.com/gensim/apiref.html

### 字典演示

In [4]:
import jieba
text1 = "我是来自湖南张家界的小明，我喜好大海\n我从事IT相关工作\n我讨厌夏天"
text2 = "计算机视觉和自然语言我比较喜好自然语言的内容"
text3 = "我不想上班，我想出去玩"

# 正常的文本构建(针对每个文本进行分词)
docs = []
for text in [text1, text2, text3]:
    # text.replace('\n', '') 用于移除文本中的换行符
    # jieba.lcut 直接返回了一个包含分词结果的列表
    docs.append(list(jieba.lcut(text.replace('\n', ''))))
# 构建词典
dct = Dictionary(docs)
print(docs)
print(dct)
print(f"去重后单词数目/词典大小:{len(dct)}")

[['我', '是', '来自', '湖南', '张家界', '的', '小明', '，', '我', '喜好', '大海', '我', '从事', 'IT', '相关', '工作', '我', '讨厌', '夏天'], ['计算机', '视觉', '和', '自然语言', '我', '比较', '喜好', '自然语言', '的', '内容'], ['我', '不想', '上班', '，', '我', '想', '出去玩']]
Dictionary<26 unique tokens: ['IT', '从事', '喜好', '夏天', '大海']...>
去重后单词数目/词典大小:26


In [5]:
# 属性
vars(dct)

{'token2id': {'IT': 0,
  '从事': 1,
  '喜好': 2,
  '夏天': 3,
  '大海': 4,
  '小明': 5,
  '工作': 6,
  '张家界': 7,
  '我': 8,
  '是': 9,
  '来自': 10,
  '湖南': 11,
  '的': 12,
  '相关': 13,
  '讨厌': 14,
  '，': 15,
  '内容': 16,
  '和': 17,
  '比较': 18,
  '自然语言': 19,
  '视觉': 20,
  '计算机': 21,
  '上班': 22,
  '不想': 23,
  '出去玩': 24,
  '想': 25},
 'id2token': {},
 'cfs': {8: 7,
  9: 1,
  10: 1,
  11: 1,
  7: 1,
  12: 2,
  5: 1,
  15: 2,
  2: 2,
  4: 1,
  1: 1,
  0: 1,
  13: 1,
  6: 1,
  14: 1,
  3: 1,
  21: 1,
  20: 1,
  17: 1,
  19: 2,
  18: 1,
  16: 1,
  23: 1,
  22: 1,
  25: 1,
  24: 1},
 'dfs': {8: 3,
  9: 1,
  10: 1,
  11: 1,
  7: 1,
  12: 2,
  5: 1,
  15: 2,
  2: 2,
  4: 1,
  1: 1,
  0: 1,
  13: 1,
  6: 1,
  14: 1,
  3: 1,
  21: 1,
  20: 1,
  17: 1,
  19: 1,
  18: 1,
  16: 1,
  23: 1,
  22: 1,
  25: 1,
  24: 1},
 'num_docs': 3,
 'num_pos': 36,
 'num_nnz': 31,
 'lifecycle_events': [{'msg': "built Dictionary<26 unique tokens: ['IT', '从事', '喜好', '夏天', '大海']...> from 3 documents (total 36 corpus positions)",
   'datet

In [6]:
# # # 方法和属性，以及继承基类的方法和属性 # # # 
dir(dct)

['__abstractmethods__',
 '__class__',
 '__class_getitem__',
 '__contains__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__reversed__',
 '__setattr__',
 '__sizeof__',
 '__slots__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_abc_impl',
 '_adapt_by_suffix',
 '_load_specials',
 '_save_specials',
 '_smart_save',
 'add_documents',
 'add_lifecycle_event',
 'cfs',
 'compactify',
 'dfs',
 'doc2bow',
 'doc2idx',
 'filter_extremes',
 'filter_n_most_frequent',
 'filter_tokens',
 'from_corpus',
 'from_documents',
 'get',
 'id2token',
 'items',
 'iteritems',
 'iterkeys',
 'itervalues',
 'keys',
 'lifecycle_events',
 'load',
 'load_from_text',
 'merge_with',
 'most_common',
 'num_docs',
 'num_nnz',
 'num

In [7]:
dct.token2id

{'IT': 0,
 '从事': 1,
 '喜好': 2,
 '夏天': 3,
 '大海': 4,
 '小明': 5,
 '工作': 6,
 '张家界': 7,
 '我': 8,
 '是': 9,
 '来自': 10,
 '湖南': 11,
 '的': 12,
 '相关': 13,
 '讨厌': 14,
 '，': 15,
 '内容': 16,
 '和': 17,
 '比较': 18,
 '自然语言': 19,
 '视觉': 20,
 '计算机': 21,
 '上班': 22,
 '不想': 23,
 '出去玩': 24,
 '想': 25}

In [8]:
dct.save_as_text('./datas/a.txt')
print(dct.token2id['上班'])
print(dct[22])
print(dct[0])

22
上班
IT


In [8]:
n = len(dct) + 1 # 词典大小 = 实际词典大小 + 1
text4 = "我是来自北京的小明的朋友"
text4_words = list(jieba.lcut(text4.replace('\n', '')))
# 使用 dct.doc2idx 方法将分词后的列表 text4_words 转换为索引列表，未知词汇会被标记为 -1。然后将索引加1，以符合从1开始的索引
result = list(np.asarray(dct.doc2idx(text4_words, unknown_word_index=-1)) + 1)
print(text4_words)
print("序号化结果:")
print(result)

print("OneHot结果:")
result2 = [[0] * n for _ in range(len(result))]
for i,_id in enumerate(result):
    if _id != -1:
        result2[i][_id] = 1
print(result2)

print("词袋法结果:")
# 将One-Hot按列求和
result3 = list(np.sum(np.asarray(result2), 0))
print(result3)

['我', '是', '来自', '北京', '的', '小明', '的', '朋友']
序号化结果:
[9, 10, 11, 0, 13, 6, 13, 0]
OneHot结果:
[[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]
词袋法结果:
[2, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [9]:
text4 = "我是来自北京的小明，我喜好玩游戏"
text4_words = list(jieba.lcut(text4.replace('\n', '')))
result = dct.doc2idx(text4_words)
print(text4_words)
print("序号化结果:")
print(result)

# 手动
print("OneHot结果:")
result2 = [[0] * len(dct) for _ in range(len(result))]
for i,_id in enumerate(result):
    if _id != -1:
        result2[i][_id] = 1
print(result2)

print("词袋法结果:")
result3 = list(np.sum(np.asarray(result2), 0))
print(result3)
# doc2bow 将 text4_words 中的词汇转换为 (词汇ID, 出现次数) 的列表
result4 = dct.doc2bow(text4_words)
print(result4)

['我', '是', '来自', '北京', '的', '小明', '，', '我', '喜好', '玩游戏']
序号化结果:
[8, 9, 10, -1, 12, 5, 15, 8, 2, -1]
OneHot结果:
[[0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]
词袋法结果:
[0, 0, 1, 0, 0, 1, 0, 0, 2, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[(2

In [13]:
print(docs[0])
print(docs[1])
print(docs[2])

['我', '是', '来自', '湖南', '张家界', '的', '小明', '，', '我', '喜好', '大海', '我', '从事', 'IT', '相关', '工作', '我', '讨厌', '夏天']
['计算机', '视觉', '和', '自然语言', '我', '比较', '喜好', '自然语言', '的', '内容']
['我', '不想', '上班', '，', '我', '想', '出去玩']


In [16]:
# 创建语料库
corpus = [dct.doc2bow(text) for text in docs]
print(corpus[0])  # 单词的id和在文档中出现的次数

[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 4), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1)]


In [22]:
# 将文档列表转换成词袋模型表示形式
# dct.doc2bow(doc) 方法将每个文档转换成词袋模型
corpus = [dct.doc2bow(doc) for doc in docs]  # 词袋

# 使用 corpus 创建 TF-IDF 模型
model = TfidfModel(corpus=corpus)            # TF-IDF

# 输出第一个文档经过 TF-IDF 转换后的特征向量的维度大小
# 注意：model[corpus[0]] 返回的是一个列表，其中元素是 (word_id, tfidf_value) 形式的元组，
print("维度大小:{}".format(len(model[corpus[0]])))

# 输出词汇表，即每个单词对应的 ID
print("词汇表：", dct.token2id)

# 输出第一个文档的 TF-IDF 值
model[corpus[0]]

维度大小:15


AttributeError: 'Dictionary' object has no attribute 'tokenid'

In [23]:
# 获取第一个文档的TF-IDF值
tfidf_values = model[corpus[0]]

# 打印TF-IDF值，并映射ID到实际的单词
for word_id, value in tfidf_values:
    print(f"{dct[word_id]}: {value}")

IT: 0.28388205020418034
从事: 0.28388205020418034
喜好: 0.10477241822549672
夏天: 0.28388205020418034
大海: 0.28388205020418034
小明: 0.28388205020418034
工作: 0.28388205020418034
张家界: 0.28388205020418034
是: 0.28388205020418034
来自: 0.28388205020418034
湖南: 0.28388205020418034
的: 0.10477241822549672
相关: 0.28388205020418034
讨厌: 0.28388205020418034
，: 0.10477241822549672


In [24]:
# 获取第一个文档的TF-IDF值
tfidf_values = model[corpus[0]]

# 创建逆映射
id2token = {v: k for k, v in dct.token2id.items()}

# 打印TF-IDF值，并映射ID到实际的单词
print("TF-IDF values for the first document:")
for word_id, value in tfidf_values:
    print(f"{dct[word_id]}: {value}")

TF-IDF values for the first document:
IT: 0.28388205020418034
从事: 0.28388205020418034
喜好: 0.10477241822549672
夏天: 0.28388205020418034
大海: 0.28388205020418034
小明: 0.28388205020418034
工作: 0.28388205020418034
张家界: 0.28388205020418034
是: 0.28388205020418034
来自: 0.28388205020418034
湖南: 0.28388205020418034
的: 0.10477241822549672
相关: 0.28388205020418034
讨厌: 0.28388205020418034
，: 0.10477241822549672


# 一、加载数据(数据预处理)

In [26]:
# 加载数据文件
with open('./datas/first.txt', 'r', encoding='utf-8') as reader:
    content = reader.read()
# 读取文件内容并存储在变量 content 中

# 划分单词，并转换为二进制形式
# 使用 lambda 函数过滤掉空格和空白字符，并将每个单词编码为 UTF-8 字节串
words = list(map(lambda word: word.encode("utf-8"), filter(lambda t: t.strip(), content.split(" "))))

# 计算总单词数量
total_words = len(words)
print("总单词数目:", total_words)
print("总单词数目:{}".format(total_words))  # format告诉他要把total_words放进{}里
print("【前10个单词】:{}".format(words[:10]))

# 将其转换为文档的形式（必须，也就是一个文档可能存在多个单词）
# 模拟的方式：模拟多个文档
# 设置每个文档包含的单词数量
word_per_doc = 10000

# 初始化文档列表
docs = []

# 遍历所有单词，按设定的数量分隔成不同的文档
for i in range(total_words // word_per_doc + 1):
    # 计算当前文档的起始和结束索引
    start_idx = i * word_per_doc
    end_idx = start_idx + word_per_doc
    
    # 获取当前文档的单词列表
    tmp_words = words[start_idx:end_idx]
    
    # 如果当前文档的单词列表非空，则保存至文档列表中
    if len(tmp_words) > 0:
        docs.append(tmp_words)

# 输出总文档数目
print("总文档数目:{}".format(len(docs)))

总单词数目: 1104
总单词数目:1104
【前10个单词】:[b'In', b'this', b'age', b'of', b'rapid', b'internet', b'growth,', b'influencer', b'marketing', b'has']
总文档数目:1


In [27]:
content[:35]

'In this age of rapid internet growt'

In [28]:
words[:5]

[b'In', b'this', b'age', b'of', b'rapid']

# 二、构建词典

In [26]:
# 构建词典
# docs中必须是文档，文档内必须是一个一个的单词
# eg: docs --> list(list(str)) --> [['a', 'bv', 'c'], ['a', 'c'], ['d', 'f', ' f']]
dct = Dictionary(docs)
print(f"词典大小:{len(dct)}")
print(f"{len(dct.token2id)}")

词典大小:504
504


# 三、BOW词袋法转换

In [29]:
# 做一个词袋法转换(以dct中找到的单词作为特征属性，以文本中出现的数量作为特征值)
corpus = [dct.doc2bow(line) for line in docs]

In [37]:
corpus[0]  # (id, frequency)

[]

# 四、TF-IDF构建

In [38]:
model = TfidfModel(corpus=corpus)

# 五、TF-IDF应用

In [39]:
print("维度大小:{}".format(np.shape(model[corpus[0]])))
model[corpus[0]]

维度大小:(0,)


[]

In [40]:
# 针对其它字符串进行词向量转换
others = [
    ['my', 'name','name', 'is', 'gerry'],               # 分词
    ['my', 'name', 'is', 'xiaoming']
]
other_corpus = [dct.doc2bow(line) for line in others]   # 词袋
vectors = model[other_corpus]                           # tfidf
for vector in vectors:
    print(vector)

[]
[]
