In [38]:
import torch
import torch.nn as nn
import jieba

In [39]:
text = "自然语言是由文字构成的，而语言的含义是由单词构成的。即单词是含义的最小单位。因此为了让计算机理解自然语言，首先要让它理解单词含义。"

In [40]:
# 1. 分词
original_words = jieba.lcut(text)
print(original_words)

['自然语言', '是', '由', '文字', '构成', '的', '，', '而', '语言', '的', '含义', '是', '由', '单词', '构成', '的', '。', '即', '单词', '是', '含义', '的', '最小', '单位', '。', '因此', '为了', '让', '计算机', '理解', '自然语言', '，', '首先', '要', '让', '它', '理解', '单词', '含义', '。']


In [41]:
# 自定义一组停用词
stopwords = {"的", "是", "而", "由", "，", "。"}

In [42]:
# 2. 过滤停用词和标点符号
words = [ word for word in original_words if word not in stopwords ]
print(words)

['自然语言', '文字', '构成', '语言', '含义', '单词', '构成', '即', '单词', '含义', '最小', '单位', '因此', '为了', '让', '计算机', '理解', '自然语言', '首先', '要', '让', '它', '理解', '单词', '含义']


In [43]:
# 3. 构建词表（id2word）
id2word = list(set(words))
print(id2word)

['自然语言', '单位', '理解', '要', '语言', '让', '单词', '因此', '文字', '首先', '为了', '它', '构成', '含义', '最小', '即', '计算机']


In [44]:
# 4. 构建字典，保存word到索引号的映射(word2id)
word2id = dict()
for id, word in enumerate(id2word):
    word2id[word] = id
print(word2id)

{'自然语言': 0, '单位': 1, '理解': 2, '要': 3, '语言': 4, '让': 5, '单词': 6, '因此': 7, '文字': 8, '首先': 9, '为了': 10, '它': 11, '构成': 12, '含义': 13, '最小': 14, '即': 15, '计算机': 16}


In [45]:
# 5. 构建一个嵌入层
embed = nn.Embedding(num_embeddings=len(id2word), embedding_dim=5)

In [46]:
# 6. 前向传播，传入单词索引号，得到词向量
for id, word in enumerate(id2word):
    word_vec = embed(torch.tensor(id))
    print(f"{id:>2}:{word:8}\t{word_vec.detach().numpy()}")

 0:自然语言    	[0.6756485  1.1567926  1.4714301  0.06006525 0.8274371 ]
 1:单位      	[-0.9547002  -1.9623642   1.4999979   0.8210179  -0.01980313]
 2:理解      	[ 1.5148431  -0.23614424 -0.7871083   1.3706218   0.68019414]
 3:要       	[ 0.2817109   1.3691792   0.68404603 -0.64036214 -0.04662685]
 4:语言      	[ 0.11168046 -0.9685997   0.8012816  -1.0356132  -1.2301465 ]
 5:让       	[ 2.6092163e-01 -2.1006856e+00  5.4021608e-03 -1.4464767e-03
 -7.0674491e-01]
 6:单词      	[ 1.6369089   0.24764079  0.03394281 -1.0797516   1.6031066 ]
 7:因此      	[-0.6789     -0.23241594  1.183228   -1.620567   -0.6077596 ]
 8:文字      	[-0.47652173 -0.37066114 -1.3330994  -0.00562555 -2.0994968 ]
 9:首先      	[ 0.8923304  -0.53177303  1.0241966   0.01884548 -1.1159546 ]
10:为了      	[-2.4716163 -1.6041687 -1.1357589 -2.4126103 -1.172283 ]
11:它       	[ 1.0621117   0.3320949   0.22146663 -1.7689841   0.5919539 ]
12:构成      	[0.25455493 0.1719954  0.3139072  0.4699487  2.501754  ]
13:含义      	[ 1.3574433   0.45414907 

In [46]:
nn.Embedding.from_pretrained()