In [75]:
from __future__ import division
import numpy as np
# from model import *
# from utils import build_graph, Data, split_validation
import pickle
import argparse
import time

## 1.配置参数

In [44]:
parser = argparse.ArgumentParser()
parser.add_argument('--dataset', default='sample', help='dataset name: diginetica/yoochoose1_4/yoochoose1_64/sample')
parser.add_argument('--method', type=str, default='ggnn', help='ggnn/gat/gcn')
parser.add_argument('--validation', action='store_true', help='validation')
parser.add_argument('--epoch', type=int, default=30, help='number of epochs to train for')
parser.add_argument('--batchSize', type=int, default=100, help='input batch size')
parser.add_argument('--hiddenSize', type=int, default=100, help='hidden state size')
parser.add_argument('--l2', type=float, default=1e-5, help='l2 penalty')
parser.add_argument('--lr', type=float, default=0.001, help='learning rate')
parser.add_argument('--step', type=int, default=1, help='gnn propogation steps')
parser.add_argument('--nonhybrid', action='store_true', help='global preference')
parser.add_argument('--lr_dc', type=float, default=0.1, help='learning rate decay rate')
parser.add_argument('--lr_dc_step', type=int, default=3, help='the number of steps after which the learning rate decay')


opt = parser.parse_args(args=[])

## 2.加载数据

In [73]:

train_data = pickle.load(open('../SR-GNN-/datasets/' + opt.dataset + '/train.txt', 'rb'))
test_data = pickle.load(open('../SR-GNN-/datasets/' + opt.dataset + '/test.txt', 'rb'))

In [67]:
train_data[0]

[[1, 2],
 [1],
 [4],
 [6],
 [8, 9],
 [8],
 [10, 11, 11],
 [10, 11],
 [10],
 [12],
 [14],
 [15, 16, 17],
 [15, 16],
 [15],
 [19],
 [20],
 [21],
 [22, 22, 23, 23, 23, 22, 23],
 [22, 22, 23, 23, 23, 22],
 [22, 22, 23, 23, 23],
 [22, 22, 23, 23],
 [22, 22, 23],
 [22, 22],
 [22],
 [24, 25, 26],
 [24, 25],
 [24],
 [1, 28, 3],
 [1, 28],
 [1],
 [29],
 [31, 32, 31, 31, 31],
 [31, 32, 31, 31],
 [31, 32, 31],
 [31, 32],
 [31],
 [33, 33],
 [33],
 [34, 34, 34, 34, 34],
 [34, 34, 34, 34],
 [34, 34, 34],
 [34, 34],
 [34],
 [12, 13, 12, 13, 35, 35, 12, 13],
 [12, 13, 12, 13, 35, 35, 12],
 [12, 13, 12, 13, 35, 35],
 [12, 13, 12, 13, 35],
 [12, 13, 12, 13],
 [12, 13, 12],
 [12, 13],
 [12],
 [36],
 [37, 37, 37],
 [37, 37],
 [37],
 [39],
 [40],
 [42],
 [43, 44],
 [43],
 [45, 46, 47],
 [45, 46],
 [45],
 [35, 35],
 [35],
 [20],
 [46],
 [46],
 [10, 10],
 [10],
 [3],
 [13],
 [50],
 [51, 52],
 [51],
 [53, 54, 54],
 [53, 54],
 [53],
 [55, 56],
 [55],
 [7],
 [58, 59],
 [58],
 [60],
 [61, 61, 61, 61, 61, 61],
 [6

## utils 文件

In [47]:

def data_masks(all_usr_pois, item_tail): #输入：将所有输入序列all_usr_pois, 末尾补全的数据item_tail
    us_lens = [len(upois) for upois in all_usr_pois] #每一个输入序列的长度的列表
    len_max = max(us_lens)  #得到输入序列的最大长度
    us_pois = [upois + item_tail * (len_max - le) for upois, le in zip(all_usr_pois, us_lens)] #将所有输入序列按照最长长度尾部补全 item_tail
    us_msks = [[1] * le + [0] * (len_max - le) for le in us_lens] #有序列的位置是[1],没有动作序列的位置是[0]
    return us_pois, us_msks, len_max  #输出：补全0后的序列us_pois, 面罩序列us_msks, 最大序列长度len_max


In [48]:
inputs = train_data[0] 
# 补全0后的序列us_pois, 面罩序列us_msks, 最大序列长度len_max
inputs, mask, len_max = data_masks(inputs, [0])

In [49]:
len_max

16

In [71]:
class Data():
    def __init__(self, data, method='ggnn',  shuffle=False):
        inputs = data[0]   #输入序列的列表
        #详见函数 ---> data_masks() 
        #这个函数使得所有会话按照最长的长度补0了！
        inputs, mask, len_max = data_masks(inputs, [0])  
       
        self.inputs = np.asarray(inputs)  #补全0后的输入序列，并转化成array()
        self.mask = np.asarray(mask)     #面罩序列，并转化成array()
        self.len_max = len_max    #最大序列长度
        self.targets = np.asarray(data[1])  #预测的序列的列表  也就是标签
        self.length = len(inputs)  #输入样本的大小
        self.shuffle = shuffle   #是否打乱数据
    
    def generate_batch(self, batch_size):  
        #根据批的大小生成批数据的索引，如果shuffle则打乱数据
        if self.shuffle:  #如果需要打乱数据
            shuffled_arg = np.arange(self.length)  
            #生成array([0,1,...,样本长度-1])
            np.random.shuffle(shuffled_arg)  
            #随机打乱shuffled_arg的顺序
            self.inputs = self.inputs[shuffled_arg]  
            #按照shuffled_arg来索引输入数据
            self.mask = self.mask[shuffled_arg]   
            #按照shuffled_arg来索引面罩数据
            self.targets = self.targets[shuffled_arg]  
            #按照shuffled_arg来索引预测目标数据
        n_batch = int(self.length / batch_size)  #得到训练批数
        if self.length % batch_size != 0: #批数需要取向上取整
            n_batch += 1
        #所有数据按照批进行拆分。eg:[0,..,99][100,..,199]...
        slices = np.split(np.arange(n_batch * batch_size), n_batch)
        #最后一批有多少给多少。eg:[500,..506]
        slices[-1] = slices[-1][:(self.length - batch_size * (n_batch - 1))]  
        # 批量生成batch数据
        return slices
    
    def get_slice(self, i):  
            #根据索引i得到对应的数据，也就是第i个session
            inputs, mask, targets = self.inputs[i], self.mask[i], self.targets[i]
            #得到对应索引的输入，面罩，目标数据
            
            items, n_node, A, alias_inputs = [], [], [], []
            
            for u_input in inputs:
                n_node.append(len(np.unique(u_input)))  
                #n_node存储每个输入序列单独出现的点击动作类别的个数的列表
            
            max_n_node = np.max(n_node)   
            #得到批最长唯一动作会话序列的长度
            
            for u_input in inputs:
                node = np.unique(u_input)  
                #该循环的会话的唯一动作序列
                
                items.append(node.tolist() + (max_n_node - len(node)) * [0])  
                #单个点击动作序列的唯一类别并按照批最大类别补全0
                
                u_A = np.zeros((max_n_node, max_n_node)) 
                #存储行为矩阵的二维向量(方阵)，长度是最大唯一动作的数量
                
                #循环该序列的长度，就是循环session的所有节点
                for i in np.arange(len(u_input) - 1):  
                    
                    #循环到i的下一个动作时“0”动作时退出循环，
                    #因为0代表序列已经结束，后面都是补的动作0
                    if u_input[i + 1] == 0:  
                        break
                
                    u = np.where(node == u_input[i])[0][0] 
                    #该动作对应唯一动作集合的序号
                    v = np.where(node == u_input[i + 1])[0][0] 
                    #下一个动作对应唯一动作集合的序号
                    
                    #前一个动作u_input[i]转移到后一个
                    #动作u_input[i + 1]的次数变成1
                    u_A[u][v] = 1  
                    
                u_sum_in = np.sum(u_A, 0) #矩阵列求和，最后变成一行
                u_sum_in[np.where(u_sum_in == 0)] = 1
                u_A_in = np.divide(u_A, u_sum_in)
                u_sum_out = np.sum(u_A, 1) #矩阵行求和，最后变成一列
                u_sum_out[np.where(u_sum_out == 0)] = 1
                u_A_out = np.divide(u_A.transpose(), u_sum_out)
                
                #得到一个会话的连接矩阵
                u_A = np.concatenate([u_A_in, u_A_out]).transpose()  
                
                
                #存储该批数据图矩阵的列表，
                #u_A方阵的长度相同——为该批最长唯一动作会话序列的长度
                A.append(u_A)  
                
                #动作序列对应唯一动作集合的位置角标
                alias_inputs.append([np.where(node == i)[0][0] for i in u_input]) 

            #返回：动作序列对应唯一动作集合的位置角标，
            #该批数据图矩阵的列表，单个点击动作序列的
            #唯一类别并按照批最大类别补全0列表，面罩，目标数据
            return alias_inputs, A, items, mask, targets   

Data() 对原始数据做简单的处理，方便对模型的喂养


In [74]:
train_data = Data(train_data,method=opt.method,shuffle=True)

In [18]:
train_data.inputs[10:20]

array([[14,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [15, 16, 17,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [15, 16,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [15,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [19,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [20,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [21,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [22, 22, 23, 23, 23, 22, 23,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [22, 22, 23, 23, 23, 22,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [22, 22, 23, 23, 23,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0]])

In [24]:
train_data.mask

array([[1, 1, 0, ..., 0, 0, 0],
       [1, 0, 0, ..., 0, 0, 0],
       [1, 0, 0, ..., 0, 0, 0],
       ...,
       [1, 1, 1, ..., 0, 0, 0],
       [1, 1, 0, ..., 0, 0, 0],
       [1, 0, 0, ..., 0, 0, 0]])

In [27]:
train_data.targets

array([  3,   2,   5, ..., 287, 287, 287])

In [70]:
test_data = Data(test_data,method=opt.method,shuffle=False)

## 3.创建模型 SR-GNN

In [21]:
import datetime
import math
import numpy as np
import torch
from torch import nn
from torch.nn import Module, Parameter
import torch.nn.functional as F

In [61]:
class GNN(Module):
#     该函数主要是为了进行带有门控的GNN部分
    def __init__(self, hidden_size, step=1):  #输入仅需确定隐状态数和步数
        super(GNN, self).__init__()
        self.step = step  #gnn前向传播的步数 default=1
        self.hidden_size = hidden_size
        self.input_size = hidden_size * 2
        self.gate_size = 3 * hidden_size
        #有关Parameter函数的解释：首先可以把这个函数理解为类型转换函数，将一个不可训练的类型Tensor转换成可以训练的类型parameter
        #并将这个parameter绑定到这个module里面(net.parameter()中就有这个绑定的parameter，所以在参数优化的时候可以进行优化的)，
        #所以经过类型转换这个self.XX变成了模型的一部分，成为了模型中根据训练可以改动的参数了。
        #使用这个函数的目的也是想让某些变量在学习的过程中不断的修改其值以达到最优化。——————https://www.jianshu.com/p/d8b77cc02410
        self.w_ih = Parameter(torch.Tensor(self.gate_size, self.input_size))
        self.w_hh = Parameter(torch.Tensor(self.gate_size, self.hidden_size))
        self.b_ih = Parameter(torch.Tensor(self.gate_size))
        self.b_hh = Parameter(torch.Tensor(self.gate_size))
        self.b_iah = Parameter(torch.Tensor(self.hidden_size))
        self.b_oah = Parameter(torch.Tensor(self.hidden_size))
        #有关nn.Linear的解释：torch.nn.Linear(in_features, out_features, bias=True)，对输入数据做线性变换：y=Ax+b
        #形状：输入: (N,in_features)  输出： (N,out_features)
#         这是公式（1）中需要进行线性变换
        self.linear_edge_in = nn.Linear(self.hidden_size, self.hidden_size, bias=True)
        self.linear_edge_out = nn.Linear(self.hidden_size, self.hidden_size, bias=True)
        self.linear_edge_f = nn.Linear(self.hidden_size, self.hidden_size, bias=True)

    def GNNCell(self, A, hidden):
        #A-->实际上是该批数据图矩阵的列表  eg:(100,5?,10?(即5?X2))
        #hidden--> eg(100-batch_size,5?,100-embeding_size) 
        #后面所有的5?代表这个维的长度是该批唯一最大类别长度(类别数目不足该长度的会话补零)，根据不同批会变化
        #有关matmul的解释：矩阵相乘，多维会广播相乘  
        
        #这里是文中的公式1 ，对  input_in   input_out  分别做线性变换
        input_in = torch.matmul(A[:, :, :A.shape[1]], self.linear_edge_in(hidden)) + self.b_iah   #input_in-->(100,5?,100)
        input_out = torch.matmul(A[:, :, A.shape[1]: 2 * A.shape[1]], self.linear_edge_out(hidden)) + self.b_oah  #input_out-->(100,5?,100)
        
        #在第2个轴将tensor连接起来
        #这里就是文中的asi
        inputs = torch.cat([input_in, input_out], 2)  #inputs-->(100,5?,200)
        
        #关于functional.linear(input, weight, bias=None)的解释：y= xA^T + b 应用线性变换，返回Output: (N,∗,out_features)
        #[*代表任意其他的东西]
        gi = F.linear(inputs, self.w_ih, self.b_ih) #gi-->(100,5?,300)
        gh = F.linear(hidden, self.w_hh, self.b_hh) #gh-->(100,5?,300)
        #torch.chunk(tensor, chunks, dim=0)：将tensor拆分成指定数量的块，比如下面就是沿着第2个轴拆分成3块
        i_r, i_i, i_n = gi.chunk(3, 2)  #三个都是(100,5?,100)
        h_r, h_i, h_n = gh.chunk(3, 2)  #三个都是(100,5?,100)
        resetgate = torch.sigmoid(i_r + h_r)   #resetgate-->(100,5?,100)      原文公式(3)
        inputgate = torch.sigmoid(i_i + h_i)   #inputgate-->(100,5?,100)
        newgate = torch.tanh(i_n + resetgate * h_n)  #newgate-->(100,5?,100)  原文公式(4)
        hy = newgate + inputgate * (hidden - newgate)   #hy-->(100,5?,100)    原文公式(5)
        return hy
    
    
    def forward(self, A, hidden): 
        #A-->实际上是该批数据图矩阵的列表 eg:(100,5?,10?(即5?X2)) 5?代表这个维的长度是该批唯一最大类别长度(类别数目不足该长度的会话补零)，根据不同批会变化
        #hidden--> eg:(100-batch_size,5?,100-embeding_size) 即数据图中节点类别对应低维嵌入的表示
        
        #按照step进行多次的GRU学习，最终得到节点向量
        for i in range(self.step):  
            hidden = self.GNNCell(A, hidden)
        return hidden

NameError: name 'Module' is not defined

In [None]:
class SessionGraph(Module):
    进行
    def __init__(self, opt, n_node): #opt-->可控输入参数, n_node-->嵌入层图的节点数目
        super(SessionGraph, self).__init__()
        self.hidden_size = opt.hiddenSize  #opt.hiddenSize-->hidden state size
        self.n_node = n_node
        self.batch_size = opt.batchSize   #opt.batch_siza-->input batch size *default=100
        self.nonhybrid = opt.nonhybrid   #opt.nonhybrid-->only use the global preference to predicts
        self.embedding = nn.Embedding(self.n_node, self.hidden_size)
        self.gnn = GNN(self.hidden_size, step=opt.step) #opt.step-->gnn propogation steps
        self.linear_one = nn.Linear(self.hidden_size, self.hidden_size, bias=True)
        self.linear_two = nn.Linear(self.hidden_size, self.hidden_size, bias=True)
        self.linear_three = nn.Linear(self.hidden_size, 1, bias=False)
        self.linear_transform = nn.Linear(self.hidden_size * 2, self.hidden_size, bias=True)
        self.loss_function = nn.CrossEntropyLoss()  #交叉熵损失
        self.optimizer = torch.optim.Adam(self.parameters(), lr=opt.lr, weight_decay=opt.l2) #Adam优化算法
        #StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1) 将每个参数组的学习率设置为每个step_size epoch
        #由gamma衰减的初始lr。当last_epoch=-1时，将初始lr设置为lr。
        self.scheduler = torch.optim.lr_scheduler.StepLR(self.optimizer, step_size=opt.lr_dc_step, gamma=opt.lr_dc)
        self.reset_parameters()   #初始化权重参数

    def reset_parameters(self):
        stdv = 1.0 / math.sqrt(self.hidden_size)
        for weight in self.parameters():
            weight.data.uniform_(-stdv, stdv)

    def compute_scores(self, hidden, mask):
        #hidden-->(100,16?,100) 其中16?代表该样本所有数据最长会话的长度(不同数据集会不同)，单个样本其余部分补了0
        #mask-->(100,16?) 有序列的位置是[1],没有动作序列的位置是[0]
        #计算软注意力的机制，最终算出得分
        
        #这里是将所有的节点嵌入向量中最后一个 作为session的局部嵌入向量
        ht = hidden[torch.arange(mask.shape[0]).long(), torch.sum(mask, 1) - 1]  # batch_size x latent_size(100,100) 这是最后一个动作对应的位置，即文章中说的局部偏好
        
        #这里对应公式6里面的 W1vn + W2vi + c
        q1 = self.linear_one(ht).view(ht.shape[0], 1, ht.shape[1])  # batch_size x 1 x latent_size(100,1,100) 局部偏好线性变换后改成能计算的维度
        q2 = self.linear_two(hidden)  # batch_size x seq_length x latent_size (100,16?,100) 即全局偏好
        alpha = self.linear_three(torch.sigmoid(q1 + q2))  #(100,16,1)
        
        #这里的a就是公式6里的Sg 代表session的全局嵌入向量
        a = torch.sum(alpha * hidden * mask.view(mask.shape[0], -1, 1).float(), 1) #(100,100)  原文中公式(6)
        if not self.nonhybrid:
            a = self.linear_transform(torch.cat([a, ht], 1))  #原文中公式(7)

        #b就是候选需要打分的item
        b = self.embedding.weight[1:]  # n_nodes x latent_size  (309,100)
        
        #通过乘积得到候选item的得分
        scores = torch.matmul(a, b.transpose(1, 0))   #原文中公式(8)
        return scores  #(100,309)

    def forward(self, inputs, A):  
        #inputs-->单个点击动作序列的唯一类别并按照批最大唯一类别长度补全0列表(即图矩阵的元素的类别标签列表)  A-->实际上是该批数据图矩阵的列表
#        print(inputs.size())  #测试打印下输入的维度  （100-batch_size,5?） 5?代表这个维的长度是该批唯一最大类别长度(类别数目不足该长度的会话补0)，根据不同批会变化
        hidden = self.embedding(inputs) #返回的hidden的shape -->（100-batch_size,5?,100-embeding_size）
        #这里就是通过gru的GNN学习的节点向量
        hidden = self.gnn(A, hidden)
        return hidden  #(100,5?,100)

In [None]:
# 使用cpu  还是Gpu  进行训练
def trans_to_cuda(variable):
    if torch.cuda.is_available():
        return variable.cuda()
    else:
        return variable


def trans_to_cpu(variable):
    if torch.cuda.is_available():
        return variable.cpu()
    else:
        return variable

<b>定义模型在进行前传的时候的预处理，以及结合GNN以及计算得分两部分</b>

In [62]:
def forward(model, i, data):  #传入模型model(SessionGraph), 数据批的索引i, 训练的数据data(Data)
    #返回：动作序列对应唯一动作集合的位置角标，该批数据图矩阵的列表，单个点击动作序列的唯一类别并按照批最大类别补全0列表，面罩，目标数据
    alias_inputs, A, items, mask, targets = data.get_slice(i)  
    alias_inputs = trans_to_cuda(torch.Tensor(alias_inputs).long())  #(100,16?)
    test_alias_inputs = alias_inputs.numpy()  #测试查看alias_inputs的内容
    strange = torch.arange(len(alias_inputs)).long() #0到99
    items = trans_to_cuda(torch.Tensor(items).long())
    A = trans_to_cuda(torch.Tensor(A).float())
    mask = trans_to_cuda(torch.Tensor(mask).long())
    hidden = model(items, A)  #这里调用了SessionGraph的forward函数,返回维度数目(100,5?,100)
    get = lambda i: hidden[i][alias_inputs[i]]   #选择第这一批第i个样本对应类别序列的函数
    test_get = get(0)  # (16?,100)
    seq_hidden = torch.stack([get(i) for i in torch.arange(len(alias_inputs)).long()])  #(100,16?,100)
    return targets, model.compute_scores(seq_hidden, mask)


In [None]:
 #模型构建就靠这句话
model = trans_to_cuda(SessionGraph(opt, n_node)) 

## 4.构造训练

主要是进行模型的传参，计算损失，反传，优化等

In [78]:
def train_test(model, train_data, test_data): #传入模型SessionGraph，训练数据和测试数据Data
    model.scheduler.step()  #调度设置优化器的参数
    print('start training: ', datetime.datetime.now())
    model.train()  # 指定模型为训练模式，计算梯度
    total_loss = 0.0
    slices = train_data.generate_batch(model.batch_size)
    for i, j in zip(slices, np.arange(len(slices))):   #根据批的索引数据进行数据提取训练:i-->批索引, j-->第几批
        model.optimizer.zero_grad()  #前一步的损失清零
        targets, scores = forward(model, i, train_data) #
        targets = trans_to_cuda(torch.Tensor(targets).long())
        loss = model.loss_function(scores, targets - 1)
        loss.backward() # 反向传播
        model.optimizer.step()  # 优化
        total_loss += loss
        if j % int(len(slices) / 5 + 1) == 0:
            print('[%d/%d] Loss: %.4f' % (j, len(slices), loss.item()))
    print('\tLoss:\t%.3f' % total_loss)

    print('start predicting: ', datetime.datetime.now())
    model.eval()  # 指定模型为计算模式
    hit, mrr = [], []
    slices = test_data.generate_batch(model.batch_size)
    for i in slices:
        targets, scores = forward(model, i, test_data)
        sub_scores = scores.topk(20)[1]
        sub_scores = trans_to_cpu(sub_scores).detach().numpy()
        for score, target, mask in zip(sub_scores, targets, test_data.mask):
            hit.append(np.isin(target - 1, score))
            if len(np.where(score == target - 1)[0]) == 0:
                mrr.append(0)
            else:
                mrr.append(1 / (np.where(score == target - 1)[0][0] + 1))
    hit = np.mean(hit) * 100
    mrr = np.mean(mrr) * 100
    return hit, mrr

## 5.进行训练

In [None]:
    start = time.time()
    best_result = [0, 0]
    best_epoch = [0, 0]
    bad_counter = 0
    for epoch in range(opt.epoch):
        print('-------------------------------------------------------')
        print('epoch: ', epoch)
        hit, mrr = train_test(model, train_data, test_data)  #模型训练就靠这句话
        flag = 0
        if hit >= best_result[0]:
            best_result[0] = hit
            best_epoch[0] = epoch
            flag = 1
        if mrr >= best_result[1]:
            best_result[1] = mrr
            best_epoch[1] = epoch
            flag = 1
        print('Best Result:')
        print('\tRecall@20:\t%.4f\tMMR@20:\t%.4f\tEpoch:\t%d,\t%d'% (best_result[0], best_result[1], best_epoch[0], best_epoch[1]))
        bad_counter += 1 - flag
        if bad_counter >= opt.patience:
            break
    print('-------------------------------------------------------')
    end = time.time()
    print("Run time: %f s" % (end - start))
