# 细节分析——如何实现hop

假设有6个三元组，如下：

| 三元组     | 头实体 | 关系 | 尾实体 |
| ---------- | ------ | ---- | ------ |
| (h1,r1,t1) | h1     | r1   | t1     |
| (h2,r2,t2) | h2     | r2   | t2     |
| (h3,r3,t3) | h3     | r3   | t3     |
| (h4,r2,t4) | h4     | r2   | t4     |
| (h5,r1,t2) | h5     | r1   | t2     |
| (h3,r2,t1) | h3     | r2   | t1     |

那么可以计算出整个知识图谱有9个实体，3个关系。
实体分别是：

| 实体 | 编号 |
| ---- | ---- |
| h1   | 0    |
| h2   | 1    |
| h3   | 2    |
| h4   | 3    |
| h5   | 4    |
| t1   | 5    |
| t2   | 6    |
| t3   | 7    |
| t4   | 8    |

关系分别是：

| 关系 | 编号 |
| ---- | ---- |
| r1   | 0    |
| r2   | 1    |
| r3   | 2    |

三元组的矩阵形式：

$\begin{pmatrix}
0 &0  &5 \\ 
 1&1  &6 \\ 
 2&2  &7 \\ 
 3&1  & 8\\ 
 4&  0& 6\\ 
 2& 1 & 5
\end{pmatrix}$

In [1]:
import torch
Tsize = 6
Esize = 9
num_relations = 3
triples=torch.LongTensor([
                            [0,0,5],
                            [1,1,6],
                            [2,2,7],
                            [3,1,8],
                            [4,0,6],
                            [2,1,5]
                        ])

idx = torch.LongTensor([i for i in range(Tsize)])
Msubj = torch.sparse.FloatTensor(
    torch.stack((idx, triples[:,0])), torch.FloatTensor([1] * Tsize), torch.Size([Tsize, Esize]))
Mobj = torch.sparse.FloatTensor(
    torch.stack((idx, triples[:,2])), torch.FloatTensor([1] * Tsize), torch.Size([Tsize, Esize]))
Mrel = torch.sparse.FloatTensor(
    torch.stack((idx, triples[:,1])), torch.FloatTensor([1] * Tsize), torch.Size([Tsize, num_relations]))

In [2]:
Msubj.to_dense()

tensor([[1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0.]])

第i行代表第i个三元组，第j列代表第j个实体，因此Msubj\[i][j]=1说明第i个三元组的头实体就是第j个实体

In [3]:
Mobj.to_dense()

tensor([[0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0.]])

第i行代表第i个三元组，第j列代表第j个实体，因此Mobj\[i][j]=1说明第i个三元组的尾实体就是第j个实体

In [4]:
Mrel.to_dense()

tensor([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.],
        [0., 1., 0.],
        [1., 0., 0.],
        [0., 1., 0.]])

第i行代表第i个三元组，第j列代表第j个关系，因此Mrel\[i][j]=1说明第i个三元组的关系就是第j个关系

假设给定某一问题q，q中的topic entity是h4，下面来模拟hop的过程

In [5]:
last_e=torch.FloatTensor([[0,0,0,1,0,0,0,0,0]])
p_1=torch.FloatTensor([[0.2,0.5,0.3]])
x = torch.sparse.mm(Msubj, last_e.t()) * torch.sparse.mm(Mrel, p_1.t())
last_e_ = torch.sparse.mm(Mobj.t(), x).t()

In [6]:
print('Step t时刻的entity score vector：',last_e)
print('Step t+1时刻的entity score vector：（也就是经过了一次hop）',last_e_)

Step t时刻的entity score vector： tensor([[0., 0., 0., 1., 0., 0., 0., 0., 0.]])
Step t+1时刻的entity score vector：（也就是经过了一次hop） tensor([[0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.5000]])


In [7]:
torch.sparse.mm(Msubj, last_e.t())

tensor([[0.],
        [0.],
        [0.],
        [1.],
        [0.],
        [0.]])

torch.sparse.mm(Msubj, last_e.t()) 这一步的结果就是：**KG中每一个三元组的头实体的score**

In [8]:
torch.sparse.mm(Mrel, p_1.t())

tensor([[0.2000],
        [0.5000],
        [0.3000],
        [0.5000],
        [0.2000],
        [0.5000]])

torch.sparse.mm(Mrel, p_1.t()) 这一步的结果就是：**KG中每一个三元组的关系的score**

In [9]:
torch.sparse.mm(Msubj, last_e.t()) * torch.sparse.mm(Mrel, p_1.t())

tensor([[0.0000],
        [0.0000],
        [0.0000],
        [0.5000],
        [0.0000],
        [0.0000]])

torch.sparse.mm(Msubj, last_e.t()) * torch.sparse.mm(Mrel, p_1.t()) 这一步的结果就是：**根据当前问题中的实体(last_e)以及计算得到的关系(p_1)，遍历KG中所有的(head,relation)，计算对应的尾实体分数(计算方式为对应的head分数乘以对应的relation分数)**

**所以0.5代表KG中第4个三元组的尾实体分数，其余三元组的尾实体分数是0.0**

In [10]:
torch.sparse.mm(Mobj.t(), torch.sparse.mm(Msubj, last_e.t()) * torch.sparse.mm(Mrel, p_1.t())).t()

tensor([[0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.5000]])

### 最终的结果就是每一个实体经过一次hop后的分数

#### 所以TransferNet的整体思路是：
首先从问题中的topic entity出发，初始化一个one_hot向量，长度为KG中的实体数量，且只有topic entity的位置值是1（该向量也就是关于实体的概率分布，表明初始时刻只有topic entity被选中）：
1. 编码问题文本，计算问题感知的语义向量
2. 利用第一步的语义向量计算KG中每一个关系的分数，也就是将问题感知的语义向量映射成关于关系的概率分布
3. 根据实体分数向量和关系分数向量重新计算实体分数向量。计算方式为：根据两个分数向量遍历KG中每一个三元组的(head,relation)，计算对应的tail分数。

# 细节分析——Score Truncation

![image.png](attachment:image.png)

In [12]:
Mobj.to_dense().t()

tensor([[0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0., 1.],
        [0., 1., 0., 0., 1., 0.],
        [0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0.]])

**从Mobj可以看出，以实体t1为例，它是第一个和第六个三元组中的尾实体。因此对于t1来讲，它的得分就是第一个三元组的head分数\*relation分数+第六个三元组的head分数\*relation分数，所以计算的分数可能会大于1**

裁剪的目的有两个：
1. 避免梯度爆炸(当跳数增加的情况下)
2. 由于损失函数采用均方误差，大于1的值反而对损失产生负面作用

In [19]:
last_e=torch.randn(2,4)
last_e

tensor([[ 0.7807,  1.4580, -0.5712,  1.2942],
        [-0.4435,  0.3786,  1.3529,  0.3478]])

In [20]:
m=last_e.gt(1).float()
m

tensor([[0., 1., 0., 1.],
        [0., 0., 1., 0.]])

In [21]:
z = (m * last_e + (1-m)).detach()

In [22]:
z

tensor([[1.0000, 1.4580, 1.0000, 1.2942],
        [1.0000, 1.0000, 1.3529, 1.0000]])

In [23]:
last_e = last_e / z
last_e

tensor([[ 0.7807,  1.0000, -0.5712,  1.0000],
        [-0.4435,  0.3786,  1.0000,  0.3478]])

经过裁剪后，原来大于1的值变为1，小于1的值不变

# 细节分析——entity_range

![image.png](attachment:image.png)

sub_map是每一个头实体与对应的在KG中所有的(relation,tail)之间的映射

![image.png](attachment:image.png)

所以entity_range表示的是以head为中心实体，记录与其相连的2-hop路径上的所有实体

假设有6个实体，与问题中的topic_entity在2-hop路径上的实体有三个，分别是第2、3、6这三个实体:

In [29]:
answers=torch.LongTensor([0,0,1,0,0,0])#表明第3个实体是答案
entity_range=torch.LongTensor([0,1,1,0,0,1])#表明第2、3、6这三个实体与问题中的topic entity在2跳路径之内
last_e=torch.FloatTensor([0.1,0.3,0.8,0.3,0.7,0.6])#模型预测每一个实体作为答案的概率

In [30]:
weight=answers*99+1
weight

tensor([  1,   1, 100,   1,   1,   1])

In [31]:
entity_range*weight

tensor([  0,   1, 100,   0,   0,   1])

In [34]:
loss=torch.sum(entity_range*weight*torch.pow(last_e-answers,2))/torch.sum(entity_range*weight)
loss

tensor(0.0436)

计算损失时乘以entity_range\*weight这一项的目的就是让**<font color=red>与当前问题中的topic entity超出2跳路径外的所有实体对loss零贡献</font>**

即在计算损失值时**<font color=red>不考虑这些与当前问题中的topic entity超出2跳路径外的其他实体</font>**，因为这些实体不太可能作为当前问题的答案，因此让模型在预测答案的时候不考虑这些实体。（如果问题属于三跳以上的问题，则无法回答该问题）

同时针对答案实体，使得其对损失的贡献最大(为什么\*99的原因)

| 实验不同的参数 | nlpcc2018
| -------------- | --------- 
| 版本1          | 0.738          
| 版本2          | 0.714       
| 版本3          | 0.723       

- 版本1：entity_range\*weight=[0,1,100,0,0,1]
- 版本2：entity_range\*weight=[1,1,1,1,1,1] 
- 版本3：entity_range\*weight=[0,1,1,0,0,1] 