In [2]:
import torch
import torch.nn as nn
import numpy as np
import matplotlib.pyplot as plt
import jieba

In [None]:
text = "自然语言是由文字构成的，而语言的含义是由单词构成的。即单词是含义的最小单位。因此为了让计算机理解自然语言，首先要让它理解单词含义。"
original_words = jieba.lcut(text)
print(original_words)

In [None]:
# 自定义一组停用词
stopwords = {'的','，' ,'。', '是','而','由'}

In [8]:
# 过滤不需要的词和标点符合
words = []
for word in original_words:
    if word not in stopwords: words.append(word)
print(words)


['自然语言', '文字', '构成', '语言', '含义', '单词', '构成', '即', '单词', '含义', '最小', '单位', '因此', '为了', '让', '计算机', '理解', '自然语言', '首先', '要', '让', '它', '理解', '单词', '含义']


In [9]:
# 构建词表
id2word = list(set(words))
print(id2word)

['要', '让', '它', '即', '单词', '为了', '单位', '含义', '自然语言', '因此', '计算机', '理解', '首先', '文字', '最小', '构成', '语言']


In [11]:
# 构建字典，记录wordtoid
word2id = {}
for i, word in enumerate(id2word):
    word2id[word] = i
print(word2id)

{'要': 0, '让': 1, '它': 2, '即': 3, '单词': 4, '为了': 5, '单位': 6, '含义': 7, '自然语言': 8, '因此': 9, '计算机': 10, '理解': 11, '首先': 12, '文字': 13, '最小': 14, '构成': 15, '语言': 16}


In [33]:
# 构建一个嵌入层
embed = nn.Embedding(len(id2word), 5)

In [34]:
# 前向传播，传入索引号，得到词向量
for k,v in word2id.items():
    word_emd = embed(torch.tensor(v))
    print(f"{v:>2}:{k:8}\t{word_emd.detach().numpy()}")

 0:要       	[1.9345132  0.10736947 0.29336035 0.9408728  0.20850663]
 1:让       	[-0.50909746 -1.3658268   0.5771052   0.04073388  0.53066367]
 2:它       	[ 0.12392501  0.9760738  -0.61505806  1.5670041  -0.86666095]
 3:即       	[ 0.65840083  1.7487724  -0.9384946   0.18946756 -0.5251572 ]
 4:单词      	[-1.0709012  -1.4285575  -1.1856719  -0.78264064 -2.1043305 ]
 5:为了      	[0.27002236 2.6341054  1.8971457  1.1035075  0.9675678 ]
 6:单位      	[-0.5336467   0.1014543  -1.8363354  -0.5419253   0.00539643]
 7:含义      	[-0.5123825   0.9305645   0.5959784   0.3783801   0.06315218]
 8:自然语言    	[ 1.4717176  -0.47938594 -1.9158726  -1.29773    -0.21339868]
 9:因此      	[-1.6276623  -0.2591723   0.19782028 -1.7223622   0.5523858 ]
10:计算机     	[ 1.0570966   0.42180833 -0.24100237  0.76189935  1.4884875 ]
11:理解      	[-0.57374203 -0.08922265 -1.8212603   1.2246591   0.48289672]
12:首先      	[-1.5239943   0.11415202  1.5546004  -0.49908897 -0.08441312]
13:文字      	[-0.08568203  1.5035596  -0.6089214 