# PALE & LINE代码实现的核心算法和思想

两篇论文及源码的核心思想解读，通过模拟的方式进行计算实现（in other words, 没有读入图）

In [8]:
import numpy as np
import time
from collections import defaultdict

## 核心算法一：fast_sigmoid和adagrad对节点向量的实现过程

fast_sigmoid: 由于原版sigmoid计算耗时，所以采用近似代替或者table的方式加速计算<br>
近似代替： 用x/1+|x|代替，时间开销是原来的0.05%~~0.1%，误差很小。<br>
table:也就是源代码采用的方式。<br>
    建立table: 
        指定table_size = s, 计算上界bound = b
        for k in s: x = 2*b*k/s-b  table[k] = sigmoid(x)<br>
    计算某个val时查找table:
        val>b, sigmoid(val)=1-epsilon
        val<-b,sigmoid(val)=epsilon
        k = (val+b)*s/(2*b), sigmoid(val) = table[k]<br>
还是不太懂...

        
    


In [2]:
def fast_sigmoid(x):
    return x/(1+np.abs(x))

def sigmoid(x):
    return 1/(1+np.power(np.e,-x))


In [3]:
np.random.seed()
lr = .001
epsilon = 1e-7
BATCH_SIZE = 128
REP_SIZE = 128
NEG_RATIO = 5

In [4]:
 #模拟生成正负样本
    pos_u = np.random.rand(BATCH_SIZE,REP_SIZE) 
    pos_v = np.random.rand(BATCH_SIZE,REP_SIZE)
    neg_u = np.random.randn(BATCH_SIZE,NEG_RATIO,REP_SIZE)   #(batch_size,neg_ratio,rep_size)
    neg_v = np.random.randn(BATCH_SIZE,NEG_RATIO,REP_SIZE)
    posNum = pos_u.shape[0]
    negNum = neg_u.shape[0]*neg_u.shape[1]
    #calc u*v 
    pos_sum = np.sum(pos_u*pos_v,axis=1).reshape(-1,1) #(batch_size,1)
    neg_sum = np.sum(neg_u*neg_v, axis=2) #(batch_size, neg_ratio)
    #calc fast_sigmoid(u*v)
    start1 = time.clock()
    fast_sigmoid_pos_uv = np.array([fast_sigmoid(x) for x in pos_sum]).reshape(pos_sum.shape) #(batch_size,1)
    fast_sigmoid_neg_uv = np.array([fast_sigmoid(x) for x in neg_sum.reshape(-1,1)]).reshape(neg_sum.shape) #(batch_size, neg_ratio)
    end1 = time.clock()
    t1 = end1-start1
    #calc sigmoid(u*v)
    start2 = time.clock()
    sigmoid_pos_uv = sigmoid(pos_sum).reshape(pos_sum.shape)
    sigmoid_neg_uv = sigmoid(neg_sum.reshape(-1,1)).reshape(neg_sum.shape)
    end2 = time.clock()
    t2 = end2-start2
    # difference between fast_sigmoid and sigmoid
    diff = np.sum(np.power(fast_sigmoid_neg_uv-sigmoid_neg_uv,2)/posNum+np.power(fast_sigmoid_pos_uv-sigmoid_pos_uv,2)/negNum)
    print("fast sigmoid uses {} clk and sigmoid uses {} clk, difference is {}".format(t1, t2, diff))

fast sigmoid uses 0.004373000000000071 clk and sigmoid uses 8.299999999994423e-05 clk, difference is 1.9834429448417075


In [5]:

    #Gradient Descend
    grad_pos_u = np.array([(fast_sigmoid_pos_uv[i]-1)*pos_v[i,:] for i in range(posNum)])/posNum     #(batch_size, 128)
    grad_pos_v = np.array([(fast_sigmoid_pos_uv[i]-1)*pos_u[i,:] for i in range(posNum)])/negNum      #(batch_size, 128)
    grad_neg_u = list()
    for i in range(neg_u.shape[0]):
        for j in range(neg_u.shape[1]):
            grad_neg_u.append(fast_sigmoid_neg_uv[i][j]*neg_v[i,j,:])
    grad_neg_u = np.array(grad_neg_u)  #(128*5,128)
    grad_neg_v = list()
    for i in range(neg_u.shape[0]):
        for j in range(neg_u.shape[1]):
            grad_neg_v.append(fast_sigmoid_neg_uv[i][j]*neg_u[i,j,:])
    grad_neg_v = np.array(grad_neg_v) #(128*5,128)
    Loss = -np.mean(np.sum(np.log(fast_sigmoid_pos_uv))+np.sum(np.log(1-fast_sigmoid_neg_uv),axis=1))
    print("Loss:",Loss)

Loss: 7.487565969302136


 注意这里loss的写法：因为是batch_size所以用矩阵算loss。
    就要用到np.sum，因为loss是一个数值。
    sum时考虑除了batch_size维以外的所有维度。

In [6]:

    #对四个embedding 向量分别更新一次
    print("UPDATING...")
    r = 0
    r += np.sum(grad_pos_u*grad_pos_u)
    d_pos_u = (-lr/(epsilon+np.sqrt(r)))*grad_pos_u
    assert(d_pos_u.shape == pos_u.shape)
    pos_u += d_pos_u
    r = 0
    r += np.sum(grad_pos_v*grad_pos_v)
    d_pos_v = (-lr/(epsilon+np.sqrt(r)))*grad_pos_v
    assert(d_pos_v.shape == pos_v.shape)
    pos_v += d_pos_v
    r = 0
    r += np.sum(grad_neg_u*grad_neg_u)
    d_neg_u = (-lr/(epsilon+np.sqrt(r)))*grad_neg_u
    assert(d_neg_u.shape == grad_neg_u.shape)
    neg_u += d_neg_u.reshape(BATCH_SIZE,NEG_RATIO,REP_SIZE)
    r = 0
    r += np.sum(grad_neg_v*grad_neg_v)
    d_neg_v = (-lr/(epsilon+np.sqrt(r)))*grad_neg_v
    assert(d_neg_v.shape == grad_neg_v.shape)
    neg_v += d_neg_v.reshape(BATCH_SIZE,NEG_RATIO,REP_SIZE)
    print("UPDATE FINISH")

UPDATING...


UnboundLocalError: local variable 'pos_u' referenced before assignment

这里有一个trick: neg的原始维度是三维，但是d_neg是二维的，因为把前2维合并为1维了：(128,5)->640.因为grad_neg是对每个负节点的向量求梯度。而负节点的数目是128*5。<br>
为什么neg_u和neg_v是三维？这是源代码构建方法导致的。构建一个batch的样本时，每次挑出一个正的u编号，以及连边的一个正的v编号。同时按照分布挑选neg_ratio(K)数量的负u编号,负v编号。然后再用这些编号去所有节点的embedding矩阵(#NODE_NUM,128)中取向量。<br>
所以此时正的u,v编号是一维列表(BATCH_SIZE,1)可以直接取,取出来的就是(BATCH_SIZE,128)。负的u,v编号是二维列表(BATCH_SIZE,K),从矩阵里面取就是三维(BATCH_SIZE,K,128),因为是对每一个节点都取128维同时保证原维度不变。<br>
所以更新neg_u和neg_v时先把d_neg reshape为三维的，再加回去。

## 核心算法2： batch的构建方法

源码把获取batch的函数做成了一个迭代器，即batch_iter()
大致流程如下：<br>
  total_sample_num = xxx <br>
  start_idx = 0 <br>
  end_idx = min(start_idx+batch_size,totak_sample_num) <br>
  while end_idx < total_sample_num: <br>
      for i in range(start_idx, end_idx):<br>
          get batch<br>
      start_idx = end_idx<br>
      end_idx = min(start_idx+batch_size,totak_sample_num) <br>
      yield batch<br>
每一个执行batch_iter()后都用yield返回结果，同时迭代器内部返回while行等待下一次被调用。因为yield前已经更新了start和end，所以下一次取值时就从新的下标开始，实现了迭代。

## 核心算法3： 节点正负样本采样方法 

正样本：两点存在边，则它们俩分别是正样本u  正样本v<br>
负样本：对所有节点，按照概率分布判断是不是负样本，按照负采样数量每次采相应数量的节点。<br>
负样本组成是原先的正样本u（在这里起别名为负样本u）和按照上面规则挑出的负样本v。由此可见，我们认为u和v之间没有边。但实际上可能有边，因为我们是按照概率挑选的，不是实际去看非v邻居的那些点，开销太大了。<br>
关于负采样概率：

In [25]:
#模拟生成节点和度
nodeNum = 20
nodes = np.arange(nodeNum)
degree = defaultdict(int)
for v in nodes:
    degree[v] = np.random.randint(0,20)
degree

defaultdict(int,
            {0: 0,
             1: 14,
             2: 4,
             3: 16,
             4: 10,
             5: 19,
             6: 7,
             7: 14,
             8: 6,
             9: 16,
             10: 19,
             11: 8,
             12: 14,
             13: 3,
             14: 16,
             15: 13,
             16: 15,
             17: 17,
             18: 12,
             19: 6})

每个节点被负采样的概率p = dv^0.75/sum(di^0.75,i)，sum就是代码里面的norm

In [26]:
#首先建立负采样表，采集了若干节点
table_size = 100
neg_table = np.zeros(table_size) #开辟一块空间
norm = np.sum(np.power(np.array(list(degree.values())),0.75))
p = 0
i = 0
for j in range(nodeNum):
    p += np.power(degree[j],0.75)/norm  #没有归一化的化，不仅不是概率，而且会使p很大，整个表都填充第一个节点（absolutely NG!）
    while i<table_size and float(i)<p*table_size:
        neg_table[i] = j
        i += 1
print(neg_table)


[ 1.  1.  1.  1.  1.  1.  2.  2.  2.  3.  3.  3.  3.  3.  3.  4.  4.  4.
  4.  4.  5.  5.  5.  5.  5.  5.  5.  5.  6.  6.  6.  7.  7.  7.  7.  7.
  7.  8.  8.  8.  9.  9.  9.  9.  9.  9.  9. 10. 10. 10. 10. 10. 10. 10.
 10. 11. 11. 11. 11. 12. 12. 12. 12. 12. 12. 13. 14. 14. 14. 14. 14. 14.
 14. 15. 15. 15. 15. 15. 15. 16. 16. 16. 16. 16. 16. 17. 17. 17. 17. 17.
 17. 17. 18. 18. 18. 18. 18. 19. 19. 19.]


如何实现采样表的？<br>
要注意那个while循环，之前一直忽略了。首先neg_table的长度要很大很大，相当于开辟了一块空间。然后每个节点的被负采样概率p*table_size就是在table里占的格子数，就是while里面的东西。当下标＜格子数时，每个格子就一直放这个被采样的节点，直到它的格子数用完再去采下一个。<br>
注意为什么p是累加的？因为格子数和下标i一直在累加。neg_table的样子如下：假设前三个被采样到的节点是1，3，5：<br>
1 1 1 3 3 3 3 5 5 5 5 5...(占多少格子是瞎编的，具体可以看上面代码的运行结果)

In [30]:
#然后在负采样表里拿节点
neg_ratio = 5 #一次拿这些个
neg_v = list() #neg_u就是[pos_u,pos_u,pos_u,pos_u,pos_u]
for i in range(neg_ratio):
    neg_v.append(int(neg_table[np.random.randint(0,table_size-1)]))
neg_v


[9, 10, 2, 17, 5]

某次结果：neg_v=[18, 1, 2, 9, 9]，有重复节点，所以还要一系列去重操作.最简单的就是“有重复就一直取”。源代码还要求节点不能是neg_u里的。等等。

In [31]:
#带去重的负采样表拿节点
neg_ratio = 5 #一次拿这些个
neg_v = list() #neg_u就是[pos_u,pos_u,pos_u,pos_u,pos_u]
for i in range(neg_ratio):
    v = int(neg_table[np.random.randint(0,table_size-1)])
    while v in neg_v: #有重复就一直取
        v = int(neg_table[np.random.randint(0,table_size-1)])
    neg_v.append(v)
neg_v

[15, 3, 10, 16, 18]

## 核心思想：降维是什么

降维就是压缩，压缩就要还原。<br>
所以使用sigmoid函数对边存在概率建模，建立目标函数，同时考虑正负样本。正样本是指原来存在边的，那么它降维后再计算sigmoid就要越大越好，代表降维后也有边。
负样本指原来不存在边的，那么最大化1-sigmoid就好，因为需要sigmoid尽量小。所以有了这样的目标函数，取相反数变成loss再最小化。<br>
使用负采样是因为图的负样本太多了，不平衡。假如在一个分类问题中，负样本过多，那么分类器只会更多地学习负样本特征，抓不到正样本。

## 工程技巧：如何组织模型代码

PALE源代码（embedding部分里），首先定义一个类，封装的是模型，包含各种成员及方法。<br>
最重要的方法就是,batch_iter(),train_one_epoch()，其他方法都是服务于论文思想的。
再定义一个执行类，在__init()__里实例化model，并执行train_one_epoch()开始训练。然后模型其他方法传出来的各种信息可以在这里记录下。比如
模型有get_vectors()拿到每一次embedding，调用这个方法可以把每一个epoch的结果写成文件。<br>
当然，模型中可能还有预测什么的方法。具体看情况。

pale.py源码里面的一些技巧：<br>
lookup字典，记录节点标号---->0开始的连续值,在读取embedding文件/图文件时使用，如对每一行循环：<br>
LOOP:<br>
idx = 0 <br>
lookup[idx] = line[0] <br>
emb[line[0]] = map(float,line[1:]) <br>
idx += 1 <br>
每一行第一个数字是节点标号，后面的128(e.g.)个数字是embedding的每个维度

具体的tf搭模型方法等真正开始搭的时候再来看。