In [1]:
import collections
import math
import random
import sys
import time
import os
import numpy as np
import torch
from torch import nn
import torch.utils.data as Data

sys.path.append("..") 
import d2lzh_pytorch as d2l
print(torch.__version__)

1.7.1


In [3]:
assert 'ptb.train.txt' in os.listdir("data")

with open('data/ptb.train.txt', 'r') as f:
    lines = f.readlines()
    # st是sentence的缩写
    raw_dataset = [st.split() for st in lines]

'# sentences: %d' % len(raw_dataset) # 输出 '# sentences: 42068'

'# sentences: 42068'

In [282]:
for st in raw_dataset[1:4]:
    print('# tokens: %d,\n\n' % len(st),st[:])

# tokens: 15,

 ['pierre', '<unk>', 'N', 'years', 'old', 'will', 'join', 'the', 'board', 'as', 'a', 'nonexecutive', 'director', 'nov.', 'N']
# tokens: 11,

 ['mr.', '<unk>', 'is', 'chairman', 'of', '<unk>', 'n.v.', 'the', 'dutch', 'publishing', 'group']
# tokens: 23,

 ['rudolph', '<unk>', 'N', 'years', 'old', 'and', 'former', 'chairman', 'of', 'consolidated', 'gold', 'fields', 'plc', 'was', 'named', 'a', 'nonexecutive', 'director', 'of', 'this', 'british', 'industrial', 'conglomerate']


# 建立词语索引

为了计算简单，只保留在数据集中至少出现5次的词

In [5]:
# tk是token的缩写
# Counter是自动计数器，将产生一个字典(词:词的出现次数)
counter = collections.Counter([tk for st in raw_dataset for tk in st])
counter = dict(filter(lambda x: x[1] >= 5, counter.items()))

将词映射到整数索引

In [281]:
# 词->整数
idx_to_token = [tk for tk, _ in counter.items()]
# 整数->词
token_to_idx = {tk: idx for idx,tk in enumerate(idx_to_token)}
# 将每个句子的词翻译成整数索引，一个句子就是一个整数数组
dataset = [[token_to_idx[tk] for tk in st if tk in token_to_idx]
          for st in raw_dataset]
# 总的词数
num_tokens = sum([len(st) for st in dataset])
'# tokens: %d' % num_tokens # 输出 '# tokens: 887100'

for st in dataset[1:4]:
    print('# tokens: %d,\n\n' % len(st),st[:])

# tokens: 15,

 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 2]
# tokens: 11,

 [14, 1, 15, 16, 17, 1, 18, 7, 19, 20, 21]
# tokens: 23,

 [22, 1, 2, 3, 4, 23, 24, 16, 17, 25, 26, 27, 28, 29, 30, 10, 11, 12, 17, 31, 32, 33, 34]


# 二次采样

通常来说，在一个背景窗口中，一个词与较低频词同时出现比和较高频词同时出现对训练词嵌入模型更有益，

因此训练词嵌入模型时，可以对词进行二次采样。

数据集中，每个被索引词wi将有一定概率被丢弃，丢弃概率：

$$ P\left(w_{i}\right)=\max \left(1-\sqrt{\frac{t}{f\left(w_{i}\right)}}, 0\right) $$

1. t是一个超参数，一般取10E-4
2. f(w)表示数据集中词w的个数占总词数之比，可见f(w) > t时，词w才有可能被丢弃。频率越大，丢弃概率越大

In [33]:
def discard(idx):
    # 0到1均匀地取随机数，则有P(w)的概率取值小于P(w)
    # 如果随机数取到这个区间，则代表该词需要丢弃
    return random.uniform(0,1) < 1- math.sqrt(
        1e-4 / (counter[idx_to_token[idx]] / num_tokens)
    )

# 遍历数据集的所有句子st，
# 遍历每个句子的所有词tk
subsampled_dataset = [[tk for tk in st if not (discard(tk))] for st in dataset]
'# tokens: %d' % sum([len(st) for st in subsampled_dataset]) # '# tokens: 375875'

'# tokens: 375715'

二次采样后，我们去掉了一半左右的词，高频词the的采样率不足1/20

In [35]:
def compare_counts(token):
    return '# %s: before=%d, after=%d' % (
        token, 
        sum([st.count(token_to_idx[token]) for st in dataset]), 
        sum([st.count(token_to_idx[token]) for st in subsampled_dataset])
    )

compare_counts('the') # '# the: before=50770, after=2013

'# the: before=50770, after=2055'

# 提取中心词和背景词

背景词：与中心词距离不超过背景窗口大小的词作为它的背景词。

以下函数提取所有中心词及其背景词，其中背景窗口大小在[1,max_window_size]之间随机选取

In [52]:
# 提取所有中心词及其背景词，背景窗口大小在[1,max_window_size]之间随机选取
# dataset:多个以索引表示的句子
def get_centers_and_contexts(dataset, max_window_size):
    centers, contexts = [], []
    for st in dataset:
        if len(st) < 2: # 每个句子至少要有2个词才可能组成一对"中心词-背景词"
            continue
        centers += st
        for center_i in range(len(st)):
            # 每个句子对应的最大窗口是随机的
            window_size = random.randint(1, max_window_size)
            # 背景词索引
            indices = list(range(
                max(0, center_i - window_size),
                min(center_i + 1 + window_size, len(st))
            ))
            indices.remove(center_i) # 将中心词排除在背景词之外
            contexts.append([st[idx] for idx in indices])
    return centers,contexts 

下面我们创建一个人工数据集，其中含有词数分别为7和3的两个句子。

设最大背景窗口为2，打印所有中心词和它们的背景词。

In [51]:
tiny_dataset = [list(range(7)), list(range(7, 10))]
print('dataset', tiny_dataset)
for center, context in zip(*get_centers_and_contexts(tiny_dataset, 2)):
    print('center', center, 'has contexts', context)

dataset [[0, 1, 2, 3, 4, 5, 6], [7, 8, 9]]
center 0 has contexts [1]
center 1 has contexts [0, 2, 3]
center 2 has contexts [0, 1, 3, 4]
center 3 has contexts [2, 4]
center 4 has contexts [2, 3, 5, 6]
center 5 has contexts [4, 6]
center 6 has contexts [4, 5]
center 7 has contexts [8, 9]
center 8 has contexts [7, 9]
center 9 has contexts [7, 8]


实验中，我们令最大窗口数=5，下面提取数据集中所有的中心词和背景词：

In [70]:
all_centers, all_contexts = get_centers_and_contexts(subsampled_dataset,5)

# 负采样

我们使用负采样来进行**近似训练**，对于一对中心词和背景词，我们随机采样K个噪声词（实验中K=5），

根据论文建议，**噪声词采样概率P(w)** 设为w词频与总词频之比的0.75次方。

In [283]:
def get_negatives(all_contexts, sampling_weights, K):
    all_negatives, neg_candidates, i = [],[],0
    population = list(range(len(sampling_weights)))
    for contexts in all_contexts:
        negatives = []
        # 为什么随机采样 len(contexts) * K 个噪声词？
        while len(negatives) < len(contexts) * K:
            
            if i == len(neg_candidates):
                # 根据每个词的权重(sampling_weights)随机生成k个词的索引作为噪声词
                # 为了高效计算，将k设得稍大一些
                # 如果i使用到了1e5，则再随机生成k个噪声词
                i , neg_candidates = 0, random.choices(
                    # 从population中选取k次，不同元素被选取的相对权重由sampling_weights定义
                    population, sampling_weights, k = int(1e5) 
                )
                
            neg, i = neg_candidates[i], i + 1
            
            # 噪声词不能是背景词
            if neg not in set(contexts):
                negatives.append(neg)
                
        all_negatives.append(negatives)
        
    return all_negatives

In [109]:
# 采样权重
sampling_weights = [(counter[w]/ num_tokens)**0.75 for w in idx_to_token]
all_negatives = get_negatives(all_contexts, sampling_weights, 5)

In [107]:
print(len(all_contexts[0]))
print(len(all_negatives[0]))

3
15


random.choices：
1. population：集群。
2. weights：相对权重。
3. cum_weights：累加权重。
4. k：选取次数。

In [91]:
a = [1,2,3,4,5]
w = [1,0,0,1,1] # 相对权重
res = random.choices(a,w,k=5)
print(res)

[5, 5, 4, 5, 5]


# 读取数据

从数据集中提取所有中心词all_centers，以及每个中心词对应的背景词all_contexts和噪声词all_negatives。

这里，我们自定义一个Dataset类：

In [138]:
class MyDataset(torch.utils.data.Dataset):
    def __init__(self, centers, contexts, negatives):
        assert len(centers) == len(contexts) == len(negatives)
        self.centers = centers
        self.contexts = contexts
        self.negatives = negatives
    
    def __getitem__(self,index):
        return (self.centers[index], self.contexts[index], self.negatives[index])

    def __len__(self):
        return len(self.centers)

每个样本包括**一个中心词**和对应的**n个背景词**和**m个噪声词**。

由于每个样本选取的背景窗口大小是随机的，所以各样本n+m也会不同。

在构造小批量时，将每个样本的背景词和噪声词连接在一起，并**填充0项**以使长度相同。即长度为最大的样本的m+n。

为了避免填充项对损失函数计算的影响，我们构建**掩码变量masks**，该掩码变量每个元素与连接后的背景词噪声词contexts_negatives中的元素一一对应。如果mask对应到填充项，则masks中相同位置的元素取0.否则取1.

为了区分正类和负类，我们还需要将contexts_negatives变量中的背景词和噪声词区分开：具体思路是创建与contexts_negatives形状相同的**标签变量labels**，并将背景词(正类)对应的元素设1，其余设0.

下面我们实现这个小批量读取函数batchify：

In [143]:
# 输入data：是一个长度为批量大小的列表，其中每个元素分别包含中心词center、背景词context和噪声词negative
def batchify(data):
    """
    用作DataLoader的参数collate_fn: 输入是个长为batchsize的list, 
    list中的每个元素都是Dataset类调用__getitem__得到的结果
    """
    max_len = max(len(c) + len(n) for _,c,n in data)
    centers, contexts_negatives,masks,labels = [],[],[],[]
    for center, context, negative in data:
        cur_len = len(context) + len(negative)
        centers += [center]
        contexts_negatives += [context + negative + [0] * (max_len-cur_len)]
        masks += [[1] * cur_len + [0] * (max_len-cur_len)]
        labels += [[1] * len(context) + [0] * (max_len - len(context))]
    return (
        torch.tensor(centers).view(-1,1), # 列向量
        torch.tensor(contexts_negatives),
        torch.tensor(masks),
        torch.tensor(labels)
    )

我们用刚刚定义的batchify函数指定DataLoader实例中小批量的读取方式，然后打印读取的第一个批量中各个变量的形状。

In [144]:
batch_size = 512
num_workers = 0 if sys.platform.startswith('win32') else 0

dataset = MyDataset(all_centers,all_contexts,all_negatives)
data_iter = Data.DataLoader(dataset,batch_size,shuffle=True,
                            collate_fn=batchify,# 自定义DataLoader的小批量读取方式
                            num_workers = num_workers
                           )

for batch in data_iter:
    for name, data in zip(['centers', 'contexts_negatives', 'masks',
                           'labels'], batch):
        print(name,'shape:', data.shape)
    break

centers shape: torch.Size([512, 1])
contexts_negatives shape: torch.Size([512, 60])
masks shape: torch.Size([512, 60])
labels shape: torch.Size([512, 60])


# 跳字模型
我们将通过使用**嵌入层**和**小批量乘法**来实现跳字模型。它们也常常用于实现其他自然语言处理的应用。

## 嵌入层
获取词嵌入的层称为嵌入层，可以通过创建nn.Embedding实例得到。
嵌入层的**权重**是一个矩阵
1. 行数为词典大小（num_embeddings）
2. 列数为每个词向量的维度（embedding_dim）

In [224]:
# 我们设词典大小为20，词向量维度为4：
embed = nn.Embedding(num_embeddings=20, embedding_dim=4)
embed.weight.shape

torch.Size([20, 4])

嵌入层的**输入**是词的索引。

输入一个词的索引i，嵌入层**返回**权重矩阵的第i行作为它的词向量。


In [226]:
x = torch.tensor([[1,2,3],[4,5,6]], dtype = torch.long)
print(x.shape) # x:(2,3)
# 返回6个词的词向量，每个词向量为4维
res = embed(x)
print(res.shape)
print(res)

torch.Size([2, 3])
torch.Size([2, 3, 4])
tensor([[[ 0.8220, -0.1172,  0.2035, -3.2670],
         [-0.1323,  0.7140, -0.6359, -0.7604],
         [-0.0939, -1.1068,  1.3087,  0.0738]],

        [[-0.5157,  0.2548, -0.0407,  1.9367],
         [ 1.9984,  0.4180,  0.1604, -1.0349],
         [ 0.6693, -1.7447, -0.4789, -0.1335]]], grad_fn=<EmbeddingBackward>)


## 小批量乘法
给定两个形状分别为(n,a,b)和(n,b,c)的Tensor，小批量乘法输出的形状为(n,a,c)

In [155]:
X = torch.ones((2,1,4)) # 两个1,4的矩阵
Y = torch.ones((2,4,6)) # 两个4,6的矩阵
print(torch.bmm(X,Y).shape)

X = torch.ones((2,2,3)) # 两个1,4的矩阵
Y = torch.ones((2,2,3)) # 两个4,6的矩阵
print(torch.bmm(X,Y.permute(0, 2, 1)).shape) # 替换维度

torch.Size([2, 1, 6])
torch.Size([2, 2, 2])


## 跳字模型的前向计算
前向计算中，跳字模型的输入包含
1. 中心词索引center：(batch_size,1)
2. 连接的背景词和噪声词索引：contexts_and_negatives：(batch_size,max_len)

这两个变量分别通过词嵌入层由词索引变为词向量，维度分别为：
1. (batch_size,1,embedding_dim)
2. (batch_size,max_len,embedding_dim)

再通过小批量乘法得到形状为(batch_size,1,max_len)的输出，

**输出中每个元素是中心词向量与背景词向量或噪声词向量的内积。**

In [227]:
# 前向计算
def skip_gram(center, contexts_and_negatives, embed_v, embed_u):
    # v:(batch_size,1,embedding_dim)
    v = embed_v(center)
    
    # u:(batch_size,max_len,embedding_dim)
    u = embed_u(contexts_and_negatives)
    
    # 如何理解perd的含义？
    pred = torch.bmm(v,u.permute(0,2,1)) # permute将维度换位，即dim=2与dim=1维度互换，dim=1与dim2维度互换
    
    return pred # (batch_size,1,max_len)

permute的用法：

In [234]:
a = np.array([[[1,2,3],[4,5,6]]])
unpermuted = torch.tensor(a)
print(unpermuted.size())
print(unpermuted)
permuted = unpermuted.permute(1,0,2)
print(permuted.size())
print(permuted)

torch.Size([1, 2, 3])
tensor([[[1, 2, 3],
         [4, 5, 6]]])
torch.Size([2, 1, 3])
tensor([[[1, 2, 3]],

        [[4, 5, 6]]])


In [247]:
center_ = torch.tensor(np.ones((10,1,4)))
cotext_and_negative_ = torch.tensor(np.ones((10,60,4)))
res = torch.bmm(center_,cotext_and_negative_.permute(0,2,1))
print(res.shape)
print(res.view((10,60)).shape)

torch.Size([10, 1, 60])
torch.Size([10, 60])


# 二元交叉熵损失函数
二元交叉熵损失函数：https://zhuanlan.zhihu.com/p/326691760

根据负采样中损失函数的定义，我们可以使用二元交叉熵损失函数,下面定义SigmoidBinaryCrossEntropyLoss。

In [163]:
class SigmoidBinaryCrossEntropyLoss(nn.Module):
    def __init__(self): # none mean sum
        super(SigmoidBinaryCrossEntropyLoss, self).__init__()
    
    def forward(self, inputs, targets, mask=None):
        """
        input - Tensor shape:(batch_size, len)
        target - Tensor of the same shape as input
        """
        inputs, targets, mask = inputs.float(), targets.float(), mask.float()
        res = nn.functional.binary_cross_entropy_with_logits(inputs, targets, reduction="none",weight=mask)
        return res.mean(dim=1)
    
loss = SigmoidBinaryCrossEntropyLoss()

我们可以通过掩码变量指定小批量中参与损失函数计算的部分预测值和标签：
1. 当掩码为1时，相应位置的预测值和标签将参与损失函数的计算；
2. 当掩码为0时，相应位置的预测值和标签则不参与损失函数的计算。

我们之前提到，掩码变量可用于避免填充项对损失函数计算的影响。

In [232]:
# 假设有两个样本及其对应的标签和掩码
pred = torch.tensor([[1.5, 0.3, -1, 2], [1.1, -0.6, 2.2, 0.4]])
# 标签变量label中的1和0分别代表背景词和噪声词
label = torch.tensor([[1, 0, 0, 0], [1, 1, 0, 0]])
mask = torch.tensor([[1, 1, 1, 1], [1, 1, 1, 0]])  # 掩码变量
print('pred.shape:',pred.shape)
print('mask.shape[1]:',mask.shape[1])
print('mask.float().sum(dim=1):',mask.float().sum(dim=1))
print('loss(pred, label, mask):',loss(pred, label, mask))

print('loss:',loss(pred, label, mask) * mask.shape[1] / mask.float().sum(dim=1))

pred.shape: torch.Size([2, 4])
mask.shape[1]: 4
mask.float().sum(dim=1): tensor([4., 3.])
loss(pred, label, mask): tensor([0.8740, 0.9075])
loss: tensor([0.8740, 1.2100])


作为比较，下面将从零开始实现二元交叉熵损失函数的计算，并根据掩码变量mask计算掩码为1的预测值和标签的损失。

In [233]:
def sigmd(x):
    return - math.log(1 / (1 + math.exp(-x))) 

# 注意1-sigmoid(x) = sigmoid(-x)
print('%.4f' % ((sigmd(1.5) + sigmd(-0.3) + sigmd(1) + sigmd(-2)) / 4)) 
print('%.4f' % ((sigmd(1.1) + sigmd(-0.6) + sigmd(-2.2)) / 3))

0.8740
1.2100


# 训练模型

## 初始化模型

In [285]:
embed_size = 100 # 词向量维度100
net = nn.Sequential(
    # 权重的行数=词典大小
    # 权重的列数=词向量维度
    # 权重的值其实就是我们想得到的最终训练结果
    nn.Embedding(num_embeddings=len(idx_to_token), embedding_dim=embed_size),
    nn.Embedding(num_embeddings=len(idx_to_token), embedding_dim=embed_size)   
)

## 定义训练函数
这个训练函数的目的是net[0]和net[1]的权重，权重也就是词向量。

因此训练完模型后，就得到了词向量。

考虑到填充项的存在，损失函数有些不同

In [250]:
def train(net,lr,num_epochs):
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    print("train on:",device)
    net = net.to(device)
    optimizer = torch.optim.Adam(net.parameters(), lr = lr)
    for epoch in range(num_epochs):
        start, l_sum, n = time.time(), 0.0, 0
        for batch in data_iter:
            center, context_negative, mask, label = [d.to(device) for d in batch]
            
            pred = skip_gram(center, context_negative, net[0], net[1])
            
            # 使用掩码变量mask来避免填充项对损失函数计算的影响
            # pred:(batch_size,1,max_len) ，预测输出
            # label:(batch_size,max_len) ，标签
            l = (loss( pred.view(label.shape), label, mask ) * 
                mask.shape[1] / mask.float().sum(dim=1)).mean() # 一个batch的平均loss
            
            optimizer.zero_grad()
            l.backward()
            optimizer.step()
            
            l_sum += l.cpu().item()
            n += 1
            
        print('epoch %d, loss %.2f, time %.2fs'
              % (epoch + 1, l_sum / n, time.time() - start))

In [189]:
# 学习率：0.01，周期：10
train(net, 0.01, 10)

train on: cpu
epoch 1, loss 1.96, time 59.08s
epoch 2, loss 0.62, time 59.27s
epoch 3, loss 0.45, time 57.38s
epoch 4, loss 0.40, time 58.73s
epoch 5, loss 0.37, time 63.03s
epoch 6, loss 0.35, time 56.66s
epoch 7, loss 0.34, time 56.54s
epoch 8, loss 0.33, time 57.73s
epoch 9, loss 0.32, time 60.29s
epoch 10, loss 0.32, time 59.28s


# 应用词嵌入模型
训练好词嵌入模型之后，我们就借助词向量计算词与词之间的相似度。
具体做法是计算两个词向量的**余弦相似度**。

In [249]:
def get_similar_tokens(query_token, k, embed):
    W = embed.weight.data
    print(W.shape)
    x = W[token_to_idx[query_token]] # weight的其中一行为query_token的词向量
    print(x.shape)
    # 添加的1e-9是为了数值稳定性
    # cos：所有词向量与x的余弦相似度
    cos = torch.matmul(W,x) / (torch.sum(W*W,dim=1) * torch.sum(x*x) + 1e-9).sqrt()
    # 数组中前k+1个最大的值的下标
    _ , topk = torch.topk(cos, k = k+1)
    topk = topk.cpu().numpy()
    for i in topk[1:]: # 除去输入词
        print('cosine sim=%.3f: %s' % (cos[i], (idx_to_token[i])))

get_similar_tokens('chip', 3, net[0])

torch.Size([9858, 100])
torch.Size([100])
cosine sim=0.327: reruns
cosine sim=0.322: renamed
cosine sim=0.321: hit


In [200]:
a = [[1,2,3],[4,5,6]]
np.sum(a,axis=1)

array([ 6, 15])