## Description:
这里我们尝试建立一个PNN网络来完成一个ctr预测的问题。 关于Pytorch的建模流程， 主要有四步：
1. 准备数据
2. 建立模型
3. 训练模型
4. 使用和保存


## 导入包

In [24]:
import numpy as np
import pandas as pd

import torch
from torch.utils.data import DataLoader, Dataset, TensorDataset

import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

from torchkeras import summary, Model

from sklearn.metrics import roc_auc_score

import warnings
warnings.filterwarnings('ignore')

In [2]:
# 导入数据， 数据已经处理好了 preprocess/下
train_set = pd.read_csv('preprocessed_data/train_set.csv')
val_set = pd.read_csv('preprocessed_data/val_set.csv')
test_set = pd.read_csv('preprocessed_data/test.csv')

In [3]:
train_set.head()

Unnamed: 0,I1,I2,I3,I4,I5,I6,I7,I8,I9,I10,I11,I12,I13,C1,C2,C3,C4,C5,C6,C7,C8,C9,C10,C11,C12,C13,C14,C15,C16,C17,C18,C19,C20,C21,C22,C23,C24,C25,C26,Label
0,0.0,0.000381,0.000473,0.0,0.009449,0.082147,0.004825,0.003656,0.040447,0.0,0.081081,0.0,0.001299,0,236,331,326,1,4,64,17,1,518,95,1207,586,2,600,526,3,166,116,2,14,0,0,60,27,327,0
1,0.0,0.000127,0.0,0.0,0.075768,0.0,0.0,0.0,0.00071,0.0,0.0,0.0,0.0,33,51,1158,150,11,4,760,2,0,410,295,1203,167,13,75,50,8,145,0,0,1166,0,1,469,0,0,0
2,0.0,0.000381,0.000236,0.137931,0.004804,0.030185,0.007841,0.062157,0.024126,0.0,0.054054,0.0,0.015584,33,122,829,8,1,6,223,17,1,573,699,899,290,2,266,1066,8,99,0,0,588,0,11,434,0,0,0
3,0.0,0.011696,0.000473,0.034483,0.00218,0.0,0.0,0.032907,0.003193,0.0,0.0,0.0,0.003896,33,12,147,79,1,3,1105,2,1,534,631,412,487,13,273,894,6,188,34,1,862,0,0,67,27,380,1
4,0.0,0.00445,0.001064,0.034483,0.006119,0.039457,0.001206,0.009141,0.000887,0.0,0.027027,0.0,0.003896,56,17,938,555,1,0,943,2,1,194,866,17,211,12,105,323,4,348,0,0,296,0,9,23,0,0,0


In [4]:
# 这里需要把特征分成数值型和离散型， 因为后面的模型里面离散型的特征需要embedding， 而数值型的特征直接进入了stacking层， 处理方式会不一样
data_df = pd.concat((train_set, val_set, test_set))

dense_feas = ['I'+str(i) for i in range(1, 14)]
sparse_feas = ['C'+str(i) for i in range(1, 27)]

# 定义一个稀疏特征的embedding映射， 字典{key: value}, key表示每个稀疏特征， value表示数据集data_df对应列的不同取值个数， 作为embedding输入维度
sparse_feas_map = {}
for key in sparse_feas:
    sparse_feas_map[key] = data_df[key].nunique()

In [5]:
feature_info = [dense_feas, sparse_feas, sparse_feas_map]  # 这里把特征信息进行封装， 建立模型的时候作为参数传入

## 准备数据 

In [6]:
# 把数据构建成数据管道
dl_train_dataset = TensorDataset(torch.tensor(train_set.drop(columns='Label').values).float(), torch.tensor(train_set['Label']).float())
dl_val_dataset = TensorDataset(torch.tensor(val_set.drop(columns='Label').values).float(), torch.tensor(val_set['Label']).float())

dl_train = DataLoader(dl_train_dataset, shuffle=True, batch_size=16)
dl_val = DataLoader(dl_val_dataset, shuffle=True, batch_size=16)

In [9]:
# 查看一下数据
for b in iter(dl_train):
    print(b[0].shape, b[1].shape)
    break

torch.Size([16, 39]) torch.Size([16])


## 建立模型
建立模型有三种方式：
1. 继承nn.Module基类构建自定义模型
2. nn.Sequential按层顺序构建模型
3. 继承nn.Module基类构建模型， 并辅助应用模型容器进行封装

这里我们依然会使用第三种方式， 因为embedding依然是很多层。 模型的结构如下：

![](img/pnn.png)

这里简单的分析一下这个模型， 说几个比较重要的细节：
1. 这里的输入， 由于都进行了embedding， 所以这里应该是类别型的特征， 关于数值型的特征， 在把类别都交叉完了之后， 才把数值型的特征加入进去
2. 交叉层这里， 左边和右边其实用的同样的一层， 有着同样的神经单元个数， 只不过这里进行计算的时候， 得分开算，左边的是单个特征的线性组合lz， 而右边是两两特征进行交叉后特征的线性组合lp。 得到这两个之后， 两者进行相加得到最终的组合， 然后再relu激活才是交叉层的输出。
3. 交叉层这里图上给出的是**一个神经元**内部的计算情况， 注意这里是一个神经元内部的计算， 这些圈不是表示多个神经元。

下面说一下代码的逻辑：
1. 首先， 我们定义一个DNN神经网络， 这个也就是上面图片里面的交叉层上面的那一部分结构， 也就是很多个全连接层的一个网络， 之所以单独定义这样的一个网络， 是因为更加的灵活， 加多少层， 每层神经元个数是多少我们就可以自己指定了， 这里会涉及到一个小操作技巧。
2. 然后就是定义整个PNN网络， 核心部分就是在前向传播。

In [10]:
# python生成元素对测试， 这个可以帮助我们定义一个列表的全连接层
a = [256, 128, 64]
list(zip(a[:-1], a[1:]))

[(256, 128), (128, 64)]

In [19]:
# 定义一个全连接层的神经网络
class DNN(nn.Module):
    
    def __init__(self, hidden_units, dropout=0.):
        """
        hidden_units:列表， 每个元素表示每一层的神经单元个数，比如[256, 128, 64]，两层网络， 第一层神经单元128个，第二层64，注意第一个是输入维度
        dropout: 失活率
        """
        super(DNN, self).__init__()
        
        # 下面创建深层网络的代码 由于Pytorch的nn.Linear需要的输入是(输入特征数量， 输出特征数量)格式， 所以我们传入hidden_units， 
        # 必须产生元素对的形式才能定义具体的线性层， 且Pytorch中线性层只有线性层， 不带激活函数。 这个要与tf里面的Dense区分开。
        self.dnn_network = nn.ModuleList([nn.Linear(layer[0], layer[1]) for layer in list(zip(hidden_units[:-1], hidden_units[1:]))])
        self.dropout = nn.Dropout(p=dropout)
    
    # 前向传播中， 需要遍历dnn_network， 不要忘了加激活函数
    def forward(self, x):
        
        for linear in self.dnn_network:
            x = linear(x)
            x = F.relu(x)
        
        x = self.dropout(x)
        
        return x

In [29]:
# 测试一下这个网络
hidden_units = [16, 8, 4, 2, 1]        # 层数和每一层神经单元个数， 由我们自己定义了
dnn = DNN(hidden_units)
summary(dnn, input_shape=(16,))

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
            Linear-1                    [-1, 8]             136
            Linear-2                    [-1, 4]              36
            Linear-3                    [-1, 2]              10
            Linear-4                    [-1, 1]               3
           Dropout-5                    [-1, 1]               0
Total params: 185
Trainable params: 185
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.000061
Forward/backward pass size (MB): 0.000122
Params size (MB): 0.000706
Estimated Total Size (MB): 0.000889
----------------------------------------------------------------


In [None]:
# 下面我们定义真正的PNN网络， 上半部分已经搞定， 下半部分比较难弄的就是交叉层这里的计算了
# 这里的逻辑是底层输入（类别型特征) -> embedding层 -> product 层
class PNN(nn.Module):
    
    def __init__(self, feature_info, hidden_units, mode='in', dnn_dropout=0., embed_dim=10, outdim=1):
        """
        DeepCrossing：
            feature_info: 特征信息（数值特征， 类别特征， 类别特征embedding映射)
            hidden_units: 列表， 全连接层的每一层神经单元个数， 这里注意一下， 第一层神经单元个数实际上是hidden_units[1]， 因为hidden_units[0]是输入层
            dropout: Dropout层的失活比例
            embed_dim: embedding的维度m
            outdim: 网络的输出维度
        """
        super(PNN, self).__init__()
        self.dense_feas, self.sparse_feas, self.sparse_feas_map = feature_info
        self.field_num = len(self.sparse_feas)
        self.mode = mode
        self.embed_dim = embed_dim
        
         # embedding层， 这里需要一个列表的形式， 因为每个类别特征都需要embedding
        self.embed_layers = nn.ModuleDict({
            'embed_' + str(key): nn.Embedding(num_embeddings=val, embedding_dim=self.embed_dim)
            for key, val in self.sparse_feas_map.items()
        })
        
        # product层， 由于交叉这里分为两部分， 一部分是单独的特征运算， 也就是上面结构的z部分， 一个是两两交叉， p部分， 而p部分还分为了内积交叉和外积交叉
        # 所以， 这里需要自己定义参数张量进行计算
        # z部分的w， 这里的神经单元个数是hidden_units[0], 上面我们说过， 全连接层的第一层神经单元个数是hidden_units[1]， 而0层是输入层的神经
        # 单元个数， 正好是product层的输出层  关于维度， 这个可以看在博客中的分析
        self.w_z = torch.rand([self.field_num, self.embed_dim, hidden_units[0]], requires_grad=True)
        
        # p部分, 分内积和外积两种操作
        if self.mode == 'in':
            self.w_p = torch.rand([self.field_num, self.field_num, hidden_units[0]], requires_grad=True)
        else:
            self.w_p = torch.rand([self.embed_dim, self.embed_dim, hidden_units[0]], requires_grad=True)
        
        self.l_b = torch.rand([hidden_units[0], ], requires_grad=True)
        
        # dnn 层
        self.dnn_network = DNN(hidden_units[1:], dnn_dropout)
        self.dense_final = nn.Linear(hidden_units[-1], 1)
    
    
    def forward(self, x):
        dense_inputs, sparse_inputs = x[:, :13], x[:, 13:]   # 数值型和类别型数据分开
        sparse_inputs = sparse_inputs.long()      # 需要转成长张量， 这个是embedding的输入要求格式
        sparse_embeds = [self.embed_layers['embed_'+key](sparse_inputs[:, i]) for key, i in zip(self.sparse_feas_map.keys(), range(sparse_inputs.shape[1]))]   
        # 上面这个sparse_embeds的维度是 [field_num, None, embed_dim] 
        sparse_embeds = sparse_embeds.permute((1, 0, 2))   # [None, field_num, embed_dim]
        z = sparse_embeds
        
        # product layer
        
        lz = torch.mm(z.view(z.shape[0], -1), self.w_z.permute((2, 0, 1).view(self.w_z.shape[2]).T)
        
        
        
        
        
        
        
        

In [44]:
a = torch.randn([2, 3, 5])
a

tensor([[[-1.4233, -0.5386,  0.8526,  0.2451, -1.8669],
         [ 1.1324, -1.6918,  0.5853, -1.8199,  0.4612],
         [ 1.4145, -1.1161, -1.2833,  0.3778,  0.4652]],

        [[-2.1107,  0.1400,  1.4397,  1.7950,  0.0228],
         [-0.2800, -1.2522, -0.7620,  1.5946,  0.7884],
         [-0.1130, -0.9751,  0.9359,  2.8937, -0.0386]]])

In [45]:
   # 2* 15

tensor([[-1.4233, -0.5386,  0.8526,  0.2451, -1.8669,  1.1324, -1.6918,  0.5853,
         -1.8199,  0.4612,  1.4145, -1.1161, -1.2833,  0.3778,  0.4652],
        [-2.1107,  0.1400,  1.4397,  1.7950,  0.0228, -0.2800, -1.2522, -0.7620,
          1.5946,  0.7884, -0.1130, -0.9751,  0.9359,  2.8937, -0.0386]])

In [52]:
b = torch.randn([3, 5, 1])
b

tensor([[[ 1.6515e-01],
         [-2.5681e-02],
         [ 4.3027e-01],
         [-2.8399e-01],
         [-1.2000e+00]],

        [[ 1.4511e-03],
         [-4.3237e-02],
         [ 4.9474e-02],
         [ 1.1974e+00],
         [-1.7887e+00]],

        [[ 5.3539e-01],
         [-1.1398e+00],
         [-6.2405e-01],
         [-9.5267e-01],
         [ 1.6035e-01]]])

In [58]:
torch.mm(a.view(2, -1), b.permute((2, 0, 1)).view(1, -1).T)

tensor([[ 1.9607],
        [-2.0508]])

In [33]:

print('a', a)
b = torch.randn([3, 5, 2])
print('b', b)
a = a.view(10, -1)
print(a)
b = b.view(-1, 2)
torch.matmul(a, b)

tensor([[ -1.3029,   7.8991],
        [ -0.0210, -10.4559],
        [  3.9463,   7.3142],
        [  1.0481,   6.3338],
        [  0.6330,  13.7092],
        [ -2.9125,   0.8828],
        [  3.8470,  -0.7602],
        [ -6.2366,  -2.2087],
        [  2.5922,   5.1750],
        [  1.6220,   0.9939]])