## 推荐模型

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import torch
from torch import nn, optim
import torch.utils.data.dataset as Dataset
import torch.utils.data.dataloader as DataLoader

### Wide&Deep

In [4]:
class Linear(nn.Module): # Wide部分，实质上就是一个nn.Linear
    def __init__(self, input_dim): 
        super(Linear, self).__init__()
        self.linear = nn.Linear(in_features=input_dim, out_features=1)
    
    def forward(self, x):
        return self.linear(x)

class Dnn(nn.Module): # Deep部分
    def __init__(self, hidden_units, dropout=0.):
        """
        hidden_units: 列表， 每个元素表示每一层的神经单元个数， 比如[256, 128, 64], 两层网络， 第一层神经单元128， 第二层64， 第一个维度是输入维度
        dropout: 失活率
        """
        super(Dnn, self).__init__()
        # 下面这句是创建全连接网络，具体层数由hidden_units长度而定，下面是先按顺序拼成输入和输出维度的对应组，然后创建多个线性层，存成模块列表
        self.dnn_network = nn.ModuleList([nn.Linear(layer[0], layer[1]) for layer in list(zip(hidden_units[:-1], hidden_units[1:]))])
        self.dropout = nn.Dropout(p=dropout)
    
    def forward(self, x):
        for linear in self.dnn_network:
            x = linear(x)
            x = F.relu(x)
        x = self.dropout(x)
        return x

class WideDeep(nn.Module):
    def __init__(self, feature_columns, hidden_units, dnn_dropout=0.):# feature_columns的输入很有讲究，详情见下
        super(WideDeep, self).__init__()
        """
        举个feature_columns的例子，假设有四个特征:a,b,c,d。其中a和b是连续型，c和d是类别型，那么c和d就要先labelEncoder转成索引，然后Embeeding，
        据此将特征分为两组，稠密组和稀疏组，前者有a和b，后者是c和d；在特征输入到deep部分前，需要将c和d编码成稠密向量然后跟a和b拼接输入，所以需要
        在数据输入后对c和d进行Embedding操作，那么就要告诉模型c和d是一组的，a和b是一组，让模型仅对c和d操作即可，除此之外，还要告诉模型c和d各自的
        类别数和想要embedding的维度（一般所有稀疏特征Embedding的维度是统一的）。本模型中所设计的输入是这样的:
        feature_columns = [[{'feat_num':1, 'embed_dim':1}, {'feat_num':1, 'embed_dim':1}], 
                            [{'feat_num':vocab_c_size, 'embed_dim':5}, {'feat_num':vocab_c_size, 'embed_dim':5}]]
        解读：输入可拆成两部分，ab一组，cd一组，分别都是列表，里面存放很多字典，一个特征对应一个字典，字典里有两个key；
        对于稠密组的每个特征，feat_num和embed_dim都是1即可；对于稀疏组每个特征，feat_num是类别数，embed_dim是Embedding后的维度。（这里假设都是5）
    
        """
        self.dense_feature_cols, self.sparse_feature_cols = feature_columns # 分成两个组
        
        # embedding 
        self.embed_layers = nn.ModuleDict({ # 为每个稀疏特征创建对应的Embedding层，后面专门一对一转换
            'embed_' + str(i): nn.Embedding(num_embeddings=feat['feat_num'], embedding_dim=feat['embed_dim'])
            for i, feat in enumerate(self.sparse_feature_cols) # 循环取出稀疏组的每个特征对应的字典及特征位置索引，并用字典内信息定义Embedding层
        })
        
        # 前面输入的hidden_units是Deep部分每个线性层的维度，这里要把Embedding后输入维度插入到第一个元素前，这样才能形成整个维度转化链
        hidden_units.insert(0, len(self.dense_feature_cols) + len(self.sparse_feature_cols)*self.sparse_feature_cols[0]['embed_dim'])
        self.dnn_network = Dnn(hidden_units, dnn_dropout) # 把维度转化链参数输入DNN中
        self.linear = Linear(len(self.dense_feature_cols)) # 这个Wide部分的模型，就一个线性层（逻辑回归）
        self.final_linear = nn.Linear(hidden_units[-1], 1) # 这个是将DNN输出结果转为一维数值的线性层
    
    def forward(self, x): # 注意：这里是输入的数据集，其中的稀疏特征一定得是转化为索引值得
        dense_input, sparse_inputs = x[:, :len(self.dense_feature_cols)], x[:, len(self.dense_feature_cols):] # 把数据拆分成稠密部分和稀疏部分
        sparse_inputs = sparse_inputs.long() # 稀疏部分类型转为LongTesnor
        sparse_embeds = [self.embed_layers['embed_'+str(i)](sparse_inputs[:, i]) for i in range(sparse_inputs.shape[1])] # 对每个稀疏特征Embeeding，并以列表组在一起
        sparse_embeds = torch.cat(sparse_embeds, axis=-1) # 将列表里每个特征得Embedding向量拼接在一起
        dnn_input = torch.cat([sparse_embeds, dense_input], axis=-1) # 再将拼接好得稀疏部分和稠密部分拼接在一起，作为最终输入数据
        
        # Wide
        wide_out = self.linear(dense_input) # Wide部分，这里写的是输入且仅输入所有稠密部分，但其实靠人为定义，一般是特殊得组合特征和稀疏id特征等，到时候可能要加个参数
        
        # Deep
        deep_out = self.dnn_network(dnn_input) # 将拼接好的结果输入Deep层，得到输出结果（这里也未必输入所有数据）
        deep_out = self.final_linear(deep_out) # 将Deep的输入结果转为一维
        
        # out
        outputs = F.sigmoid(0.5 * (wide_out + deep_out)) # 最终输出结果是Wide和Deep部分的输出结果平均再过一个Sigmoid层，作为输出概率
        
        return outputs  


### Deep&Cross

In [21]:
class CrossNetwork(nn.Module): # Cross部分
    def __init__(self, layer_num, input_dim):
        super(CrossNetwork, self).__init__()
        self.layer_num = layer_num
        
        # 定义Cross部分各个层的初始化参数，并装在一个列表里
        self.cross_weights = nn.ParameterList([ # 这个列表跟list区别好像不大，但又有，就这么用吧
            nn.Parameter(torch.rand(input_dim, 1)) # nn.Parameter与torch.Tensor的区别就是nn.Parameter会自动被认为是module的可训练参数
            for i in range(self.layer_num)
        ])
        
        # 定义Cross部分各个层的偏移量初始化参数，并装在一个列表里
        self.cross_bias = nn.ParameterList([ 
            nn.Parameter(torch.rand(input_dim, 1))
            for i in range(self.layer_num)
        ])
    
    def forward(self, x):
        x_0 = torch.unsqueeze(x, dim=2) # x是(None, dim)的形状， 先扩展一个维度到(None, dim, 1)
        x = x_0.clone() # 深度复制变量
        xT = x_0.clone().permute((0, 2, 1))     # 获取当前最新转化数据的shape:（None, 1, dim)，permute函数可以改变tensor型变量的维度顺序
        for i in range(self.layer_num): # 这里是在执行Cross层交叉算法
            """
            1. 这里解释下前面升级x维度的目的，我们需要让每个样本都执行cross过程，这中间必然涉及三维tensor，就比如第一步计算外积，得到方阵，
            每个样本都要有这个方阵，方阵维度是2维，样本维度1个，加起来就是三维。如果开始不升级，用二维x去做，不可能出现3维，而且结果将
            会是每个样本得到方阵的求和，所以必须开辟新维度，这样会将第一个样本维度单独提出来，只对后面两个维度进行计算。
            2. 还要介绍下bmm和matmul两个函数，都是计算矩阵乘积的，区别是bmm只针对三维tensor间的计算，公式为：(b x m x n) @ (b x n x m) = (b x m x m)
            正好符合需求；而matmul可以对两个维度数量不同的矩阵计算乘积，它会自动广播，比如：(b x m x n) @ (n x 1) = (b x m x 1)
            它会进行"后排维度对齐"，最后两个维度彼此矩阵运算，其他维度互相广播，最后将后者广播成(b x n x 1)，然后进行计算，这实现了
            外积结果与参数向量运算的过程；最后加上偏移参数和自己，得到每层的输出结果。
            """
            x = torch.matmul(torch.bmm(x_0, xT), self.cross_weights[i]) + self.cross_bias[i] + x # (None, dim, 1)
            xT = x.clone().permute((0, 2, 1)) # 获得新的下一层输入的X_T，形状是(None, 1, dim)
        
        x = torch.squeeze(x)  # 运算结束，把维度降回来：(None, dim)
        return x

class Dnn(nn.Module): # Deep部分，与wide&deep中的完全一样
    def __init__(self, hidden_units, dropout=0.):
        super(Dnn, self).__init__()
        self.dnn_network = nn.ModuleList([nn.Linear(layer[0], layer[1]) for layer in list(zip(hidden_units[:-1], hidden_units[1:]))])
        self.dropout = nn.Dropout(p=dropout)
    
    def forward(self, x):
        for linear in self.dnn_network:
            x = linear(x)
            x = F.relu(x)
        x = self.dropout(x)
        return x
    
class DCN(nn.Module):
    def __init__(self, feature_columns, hidden_units, layer_num, dnn_dropout=0.):
        super(DCN, self).__init__()
        self.dense_feature_cols, self.sparse_feature_cols = feature_columns
        self.embed_layers = nn.ModuleDict({
            'embed_' + str(i): nn.Embedding(num_embeddings=feat['feat_num'], embedding_dim=feat['embed_dim'])
            for i, feat in enumerate(self.sparse_feature_cols)
        })
        
        hidden_units.insert(0, len(self.dense_feature_cols) + len(self.sparse_feature_cols)*self.sparse_feature_cols[0]['embed_dim'])
        self.dnn_network = Dnn(hidden_units, dnn_dropout)
        # 这上面所有操作与wide&deep相同
        
        self.cross_network = CrossNetwork(layer_num, hidden_units[0])  # layer_num是交叉网络的层数， hidden_units[0]表示输入的整体维度大小
        self.final_linear = nn.Linear(hidden_units[-1]+hidden_units[0], 1) # 这里的输入维度设置维Cross和Deep两部分输出维度之和（Cross部分网络层不改变维度）
    
    def forward(self, x):
        dense_input, sparse_inputs = x[:, :len(self.dense_feature_cols)], x[:, len(self.dense_feature_cols):]
        sparse_inputs = sparse_inputs.long()
        sparse_embeds = [self.embed_layers['embed_'+str(i)](sparse_inputs[:, i]) for i in range(sparse_inputs.shape[1])]
        sparse_embeds = torch.cat(sparse_embeds, axis=-1)
        x = torch.cat([sparse_embeds, dense_input], axis=-1)
        # 此函数中，这上面所有操作与wide&deep中相同
        
        # cross Network
        cross_out = self.cross_network(x)
        # Deep Network
        deep_out = self.dnn_network(x)
        #  Concatenate
        total_x = torch.cat([cross_out, deep_out], axis=-1) # 将Cross和DNN部分得到的结果拼接在一起
        # out
        outputs = F.sigmoid(self.final_linear(total_x)) # 拼接后的结果转为1维然后接sigmoid函数输出
        
        return outputs  


### DeepFM

In [22]:
class FM(nn.Module): # FM部分
    def __init__(self, latent_dim, fea_num):
        """
        latent_dim: 各个离散特征隐向量的维度
        input_shape: 这个最后离散特征embedding之后的拼接和dense拼接的总特征个数
        """
        super(FM, self).__init__()
        
        self.latent_dim = latent_dim
        # 初始化三个参数矩阵，注意这里的参数由于是可学习参数，需要用nn.Parameter进行定义
        self.w0 = nn.Parameter(torch.zeros([1,])) # 全局偏置矩阵，就是FM里面的偏移项
        self.w1 = nn.Parameter(torch.rand([fea_num, 1])) # 一阶参数矩阵，就是<w, x>里面的w
        self.w2 = nn.Parameter(torch.rand([fea_num, latent_dim])) # 隐向量矩阵，每行代表一个特征的隐向量
        
    def forward(self, inputs):   
        first_order = self.w0 + torch.mm(inputs, self.w1) # 一阶交叉，就是计算偏移项＋一阶特征，即：w0 + <w1, x>    
        second_order = 1/2 * torch.sum( # FM的二阶交叉项求和，这个用的是FM的最终化简公式
            torch.pow(torch.mm(inputs, self.w2), 2) - torch.mm(torch.pow(inputs,2), torch.pow(self.w2, 2)),
            dim = 1,
            keepdim = True
        )         
        
        return first_order + second_order # 所有项相加得到输出

class Dnn(nn.Module): # Deep部分，老生常谈，不解释
    def __init__(self, hidden_units, dropout=0.):
        super(Dnn, self).__init__()
        self.dnn_network = nn.ModuleList([nn.Linear(layer[0], layer[1]) for layer in list(zip(hidden_units[:-1], hidden_units[1:]))])
        self.dropout = nn.Dropout(dropout)
    
    def forward(self, x):  
        for linear in self.dnn_network:
            x = linear(x)
            x = F.relu(x)    
        x = self.dropout(x) 
        return x

class DeepFM(nn.Module): # DeepFM主架构
    def __init__(self, feature_columns, hidden_units, dnn_dropout=0.):
        super(DeepFM, self).__init__()
        self.dense_feature_cols, self.sparse_feature_cols = feature_columns
        self.embed_layers = nn.ModuleDict({
            'embed_' + str(i): nn.Embedding(num_embeddings=feat['feat_num'], embedding_dim=feat['embed_dim'])
            for i, feat in enumerate(self.sparse_feature_cols)
        })
        self.fea_num = len(self.dense_feature_cols) + len(self.sparse_feature_cols)*self.sparse_feature_cols[0]['embed_dim']
        hidden_units.insert(0, self.fea_num)
        # 上面这些依然参照wide&deep的注解
        
        self.fm = FM(self.sparse_feature_cols[0]['embed_dim'], self.fea_num) # 定义FM模块
        self.dnn_network = Dnn(hidden_units, dnn_dropout) # 定义DNN模块
        self.nn_final_linear = nn.Linear(hidden_units[-1], 1)
    
    def forward(self, x):
        dense_inputs, sparse_inputs = x[:, :len(self.dense_feature_cols)], x[:, len(self.dense_feature_cols):]
        sparse_inputs = sparse_inputs.long()
        sparse_embeds = [self.embed_layers['embed_'+str(i)](sparse_inputs[:, i]) for i in range(sparse_inputs.shape[1])]          
        sparse_embeds = torch.cat(sparse_embeds, dim=-1)
        x = torch.cat([sparse_embeds, dense_inputs], dim=-1)
        # 上面部分注解参见wide&deep
        
        # FM
        fm_outputs = self.fm(x)
        # deep
        deep_outputs = self.nn_final_linear(self.dnn_network(x))
        # 模型的最后输出
        outputs = F.sigmoid(torch.add(fm_outputs, deep_outputs))
        
        return outputs

In [1]:
class FM(nn.Module):
    def __init__(self, fea_num, latent_num):
        super(FM, self).__init__()
        self.w0 = nn.Parameter(torch.rand(1, ))
        self.w1 = nn.Parameter(torch.rand(fea_num, 1))
        self.w2 = nn.Parameter(torch.rand(fea_num, latent_num))
    def forward(self, x):
        first_order = self.w0 + torch.mm(x, self.w1)
        second_order = 1/2 * torch.sum(torch.pow(torch.mm(x, self.w2), 2) - torch.mm(torch.pow(x, 2), torch.pow(self.w2, 2)), dim = 1)

NameError: name 'nn' is not defined

### NFM

### DIN

### DIEN