In [2]:
import torch
import torch.nn as nn
import jieba

In [3]:
text = "自然语言是由文字构成的，而语言的含义是由单词构成的。即单词是含义的最小单位。因此为了让计算机理解自然语言，首先要让它理解单词含义。"

In [4]:
# 1. 分词
original_words = jieba.lcut(text)
print(original_words)

Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/_8/0czfjdvn6z731jy826c5f4nc0000gn/T/jieba.cache
Loading model cost 0.397 seconds.
Prefix dict has been built successfully.


['自然语言', '是', '由', '文字', '构成', '的', '，', '而', '语言', '的', '含义', '是', '由', '单词', '构成', '的', '。', '即', '单词', '是', '含义', '的', '最小', '单位', '。', '因此', '为了', '让', '计算机', '理解', '自然语言', '，', '首先', '要', '让', '它', '理解', '单词', '含义', '。']


In [5]:
# 自定义一组停用词
stopwords = {"的", "是", "而", "由", "，", "。"}

In [6]:
# 2. 过滤停用词和标点符号
words = [ word for word in original_words if word not in stopwords ]
print(words)

['自然语言', '文字', '构成', '语言', '含义', '单词', '构成', '即', '单词', '含义', '最小', '单位', '因此', '为了', '让', '计算机', '理解', '自然语言', '首先', '要', '让', '它', '理解', '单词', '含义']


In [7]:
# 3. 构建词表（id2word）
id2word = list(set(words))
print(id2word)

['含义', '理解', '让', '单位', '文字', '构成', '因此', '计算机', '为了', '语言', '要', '最小', '首先', '它', '即', '自然语言', '单词']


In [8]:
# 4. 构建字典，保存word到索引号的映射(word2id)
word2id = dict()
for id, word in enumerate(id2word):
    word2id[word] = id
print(word2id)

{'含义': 0, '理解': 1, '让': 2, '单位': 3, '文字': 4, '构成': 5, '因此': 6, '计算机': 7, '为了': 8, '语言': 9, '要': 10, '最小': 11, '首先': 12, '它': 13, '即': 14, '自然语言': 15, '单词': 16}


In [9]:
# 5. 构建一个嵌入层
embed = nn.Embedding(num_embeddings=len(id2word), embedding_dim=5)

In [13]:
# 6. 前向传播，传入单词索引号，得到词向量
for id, word in enumerate(id2word):
    word_vec = embed(torch.tensor(id))
    print(f"{id:>2}:{word:8}\t{word_vec.detach().numpy()}")

 0:含义      	[-0.330275    1.1289854  -1.5443288   0.02006671  0.00931683]
 1:理解      	[ 1.0971719  -0.83762276  1.7921947   0.46767053 -0.56073076]
 2:让       	[ 0.7899296   0.92968756 -0.94414544  0.7551697  -0.21365397]
 3:单位      	[-0.15975133  0.51109576  1.9990683   0.4008941   0.44067976]
 4:文字      	[-1.5274218  -0.804685    1.4745408  -0.04206178 -0.30654472]
 5:构成      	[0.6666532  2.4114516  0.41900262 0.25818798 1.9585414 ]
 6:因此      	[ 0.406032    0.45430398  1.3160943  -0.52795506 -0.86243284]
 7:计算机     	[ 1.2980554  -0.90722936 -0.07016519  0.16730209  0.41251704]
 8:为了      	[-0.8295459  -1.1175883  -0.88730985 -0.67209756 -0.4134632 ]
 9:语言      	[-0.37864417 -0.0961262   0.25521857 -1.2132082  -1.3797332 ]
10:要       	[-0.39403912  0.32354316 -0.24603613 -0.60773224 -0.8689092 ]
11:最小      	[-9.2145376e-04  5.9729546e-01  1.0218860e+00  1.7188696e+00
  5.5309761e-01]
12:首先      	[-0.04275836 -1.0714496   0.9866353  -0.50521284 -0.68953425]
13:它       	[ 0.10786125 -0

In [14]:
nn.Embedding.from_pretrained()

TypeError: from_pretrained() missing 1 required positional argument: 'embeddings'