### 概要

* 多目标任务排序介绍

  

* learning to rank 

    * evaluation(评价)

    * BPR
    
    * LambdaMart
  
* Multi-task learning(多任务学习)


### 多目标任务排序介绍

* 目标：
    * 点击
    * 加购
    * 购买
    
* 使用多目标的原因：
    * 工业界推荐多用基于隐式反馈，存在偏差额：（Global. bias, Item bias , User bias ）
    * 综合目标收益最大化
    
* 流程：
    ![QQ20190207-OCR-0_IMG.jpg](attachment:QQ20190207-OCR-0_IMG.jpg)

* 多目标排序的难点
    * 部分目标数据系数，模型准确率低
    * 在线计算量大
    * 多目标间的重要性难以量化
    * 分数融合的超参数难以学习
        * 人工标注label
        * 长期目标为label
    * 规则不够智能化

### learning to rank

* 解决问题是对topK个item排序（更喜欢哪个）

* 方案：
    
    * Point Wise : 对每个item进行二分类，产生的概率作为排序的分数
    
    * Pair Wise: item之间组成对，模型判断这个对的先后顺序是否正确
    
    * ListWise: 直接优化循序
    
    
* 评估指标：
    
    * MAP : 
    
        * P@n : $ 前n个相关的item的数量  \over n $
        
        * AP : $ \sum_n P@n (n 的条件是 第n个item 是相关的)  \over  相关item的数量 $
        
        * MAP： 所有在测试集上AP 的均值
        
        
   * F1 = $ 2 { 准确率 召回率 \over 准确率 + 召回率} $
    
   * AUC ： ROC 曲线下方的面积。另一种含义解释  正样本排在副前面的概率是多少
    
       * 计算： AUC = $ \sum _{i = 正样本} rank_i - {M(1+M) \over 2} \over { MN }  $
    
    * nDCG = $ Z_n\sum(z^{r(j) - 1}) \over log(1 + j) $
    
    
* Bayesian Personalized Ranking (贝叶斯 个性化排序)

    * 假设条件：
        * 每个用户之间的偏好行为相互独立
        * 统一用户对不同用户的偏序相互独立
        * i > j 表示用户对i的偏好大于j的偏好
        * 满足安全性和反对称性和传递性
        * 最大后验估计 ：$  \prod p(\theta | i >j)  = \prod p(i>j | \theta) p(\theta)$ 
        
    * BPR推导：计算 $ \prod p(i>j | \theta) p(\theta) $
        ![QQ20190207-OCR-0_IMG.jpg](attachment:QQ20190207-OCR-0_IMG.jpg)

* LambdaMart：

    * LambdaMart 前的模型之RankNet:
        *  常见的排序指标无法直接计算导数
        *  此模型使用 交叉熵损失函数作为损失函数
            * $ P_{ij} = {1 \over 1 + e^{-\sigma(s_i -s_j)}} .   \hat P_{ij} = 0.5 (1+s_{ij})$
            * 损失函数：$ C= -\hat P_{ij}logP_{ij} - (1- \hat P_{ij})log(1 - P_{ij}) $
    * LambdaNet
    
    * LambdaMart:
        * MART(多棵决策树)
        
        * LambdaMart = MART + LambdaNet

### Multi-task learning(多任务学习)

* 优点：
    * 解决数据系数问题

    * 不同的模型善于学习不同的特征，特征学习充分

    * 引入归纳偏执，提高泛化能力
    


### CVR 预估 解决方案

* CVR （点击转化率）的 问题：
    * 样本选择偏差，泛化能力差
    * 数据系数性

### BPR-FM 实现

In [1]:
import numpy
import tensorflow as tf
import os
import random
from collections import defaultdict

In [2]:
# 超参数
regulation_rate = 0.01
bias_reg = 0.01

In [7]:
# 加载数据
# 参数： 数据地址
# 返回值：
# train_data 训练数据 map 格式： 人员编号：【【电影ID，得分】】
# test_data 训练数据  map  格式： 人员编号：【【电影ID，得分】】
# watch_list 人员：打过分的 电影
# max_uid 最大的人员ID
# max_item 最大的电影ID
def load_data(data_path):
    train_data = defaultdict(list)
    test_data = defaultdict(list)
    watch_list = defaultdict(set)
    max_uid = -1
    max_item = -1
    
    with open(data_path) as f:
        for line in f.readlines():
            u, i, r, t = map(int,line.strip().split("::"))
            watch_list[u].add(i)
            
            # 将前两个不同分数的数据作为测试集
            if len(test_data[u]) == 0:
                test_data[u].append((i,r))
            elif len(test_data[u]) == 1 and test_data[u][0][1] != r:
                test_data[u].append((i,r))
            else:
                train_data[u].append((i,r))
            if u > max_uid:
                max_uid = u
            if i > max_item:
                max_item = i
    return train_data,test_data,watch_list,max_uid,max_item

# 生成训练数据,构造 [ u ,i_1,i_2]
# 参数：
#    rating_data 打分数 格式：人员编号：【【电影ID，得分】】
#    batch_size 批次大小
# 返回值 list [ [ 人员编号，高分电影，低分电影] ]
def generate_train_batch(rating_data, batch_size=256):
    t = []
    for b in range(batch_size):
        #随机选取不同分数的 两个item
        u = random.sample(rating_data.keys(),1)[0]
        i,r1 = random.sample(rating_data[u], 1)[0]
        j,r2 = random.sample(rating_data[u], 1)[0] 
        while r1 == r2:
            u = random.sample(rating_data.keys(), 1)[0]
            i,r1 = random.sample(rating_data[u], 1)[0]
            j,r2 = random.sample(rating_data[u], 1)[0]
        # 排序插入返回数据集
        if r1 > r2:
            t.append([u, i, j])
        else:
            t.append([u, j, i])
            
    return numpy.asarray(t)

# 生成测试数据,构造 [ u ,i_1,i_2]
def generate_test_batch(rating_data):
    t = []
    for u in rating_data:
        i,r1 = rating_data[u][0]
        j,r2 = rating_data[u][1]
        if r1 > r2:
            t.append([u, i, j])
        else:
            t.append([u, j, i])
    return numpy.asarray(t)


# 构造 BPR -MF
def bpr_mf(user_count,item_count,hidden_dim):
    # 定义占位符
    u = tf.placeholder(tf.int32, [None])
    i = tf.placeholder(tf.int32, [None])
    j = tf.placeholder(tf.int32, [None])
    
    user_vec = tf.get_variable("user_vec", [user_count+1, hidden_dim], initializer=tf.random_normal_initializer(0, 0.1))
    item_vec = tf.get_variable("item_vec", [item_count+1, hidden_dim], initializer=tf.random_normal_initializer(0, 0.1))
    item_bias = tf.get_variable("item_bias", [item_count+1, 1], initializer=tf.random_normal_initializer(0, 0.1))    #item bias
        # 
    u_vec = tf.nn.embedding_lookup(user_vec, u)
    i_vec = tf.nn.embedding_lookup(item_vec, i)
    j_vec = tf.nn.embedding_lookup(item_vec, j) 
    i_bias = tf.nn.embedding_lookup(item_bias, i)       
    j_bias = tf.nn.embedding_lookup(item_bias, j)
    # 计算
    xui = i_bias + tf.reduce_sum(tf.multiply(u_vec, i_vec), 1, keep_dims=True)
    xuj = j_bias + tf.reduce_sum(tf.multiply(u_vec, j_vec), 1, keep_dims=True)
    xuij = xui-xuj
    # i  > j   最大化 auc.  等价 最小化-auc
    auc = tf.reduce_mean(tf.to_float(xuij > 0))
    #正则化项
    l2_norm = tf.add_n([
             regulation_rate * tf.reduce_sum(tf.multiply(u_vec, u_vec)),
              regulation_rate * tf.reduce_sum(tf.multiply(i_vec, i_vec)),
              regulation_rate * tf.reduce_sum(tf.multiply(j_vec, j_vec)),
              bias_reg * tf.reduce_sum(tf.multiply(i_bias, i_bias)),
              bias_reg * tf.reduce_sum(tf.multiply(j_bias, j_bias)),
    ]) 
        
    bprloss = l2_norm - tf.reduce_mean(tf.log(tf.sigmoid(xuij))) 
    global_step = tf.Variable(0, trainable=False)
    train_op =  tf.train.AdamOptimizer().minimize(bprloss, global_step=global_step) 
    
    return u, i, j,auc, bprloss, train_op

Exception ignored in: <bound method BaseSession.__del__ of <tensorflow.python.client.session.Session object at 0x114d73160>>
Traceback (most recent call last):
  File "/anaconda2/envs/tensorflow/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 579, in __del__
    if self._session is not None:
AttributeError: 'Session' object has no attribute '_session'


In [4]:
train_data, test_data, watch_list, user_count, item_count = load_data('ml-1m/ratings.dat')
print(len(train_data), len(test_data), user_count, item_count)
print(train_data[1])
print(test_data[1])

6040 6040 6040 3952
[(914, 3), (3408, 4), (2355, 5), (1197, 3), (1287, 5), (2804, 5), (594, 4), (919, 4), (595, 5), (938, 4), (2398, 4), (2918, 4), (1035, 5), (2791, 4), (2687, 3), (2018, 4), (3105, 5), (2797, 4), (2321, 3), (720, 3), (1270, 5), (527, 5), (2340, 3), (48, 5), (1097, 4), (1721, 4), (1545, 4), (745, 3), (2294, 4), (3186, 4), (1566, 4), (588, 4), (1907, 4), (783, 4), (1836, 5), (1022, 5), (2762, 4), (150, 5), (1, 5), (1961, 5), (1962, 4), (2692, 4), (260, 4), (1028, 5), (1029, 5), (1207, 4), (2028, 5), (531, 4), (3114, 4), (608, 4), (1246, 4)]
[(1193, 5), (661, 3)]


In [8]:
graph = tf.Graph()
graph.as_default()

with tf.Session(graph=graph) as session:
    u, i, j, auc, bprloss, train_op = bpr_mf(user_count, item_count, 32)
    tf.global_variables_initializer().run()
    
    test_batch_data = generate_test_batch(test_data)
    _batch_bprloss = 0
    _batch_auc = 0
    
    for epoch in range(1,1001):
        #训练数据
        batch_data = generate_train_batch(train_data)
        _auc,_bprloss, _train_op = session.run([auc, bprloss, train_op],  feed_dict={u:batch_data[:,0], i:batch_data[:,1], j:batch_data[:,2]})
        
        _batch_bprloss += _bprloss
        _batch_auc += _auc
        
        # 测试 打印信息
        if epoch%100 == 0:
            print ("epoch: ", epoch)
            print ("train_loss: ", _batch_bprloss / 100)
            print ("train_auc: ", _batch_auc / 100)
            _batch_bprloss = 0
            _batch_auc = 0
            #
            _auc, _bprloss = session.run([auc, bprloss],
                                    feed_dict={u:test_batch_data[:,0], i:test_batch_data[:,1], j:test_batch_data[:,2]}
                                )
            
            print("test_loss: ",_bprloss)
            print("test_auc: ",_auc)
    

epoch:  100
train_loss:  2.61953879118
train_auc:  0.5215625
test_loss:  36.4137
test_auc:  0.536921
epoch:  200
train_loss:  1.81905441046
train_auc:  0.5459765625
test_loss:  23.5232
test_auc:  0.555132
epoch:  300
train_loss:  1.40695103049
train_auc:  0.5721484375
test_loss:  16.2009
test_auc:  0.570199
epoch:  400
train_loss:  1.16716142654
train_auc:  0.5996875
test_loss:  11.8259
test_auc:  0.589901
epoch:  500
train_loss:  1.0218125844
train_auc:  0.6269921875
test_loss:  8.82003
test_auc:  0.603311
epoch:  600
train_loss:  0.926217207313
train_auc:  0.6451953125
test_loss:  6.89559
test_auc:  0.613245
epoch:  700
train_loss:  0.861090457439
train_auc:  0.6525390625
test_loss:  5.48242
test_auc:  0.632119
epoch:  800
train_loss:  0.815025338531
train_auc:  0.662890625
test_loss:  4.47726
test_auc:  0.643543
epoch:  900
train_loss:  0.781129693985
train_auc:  0.6687109375
test_loss:  3.75628
test_auc:  0.647682
epoch:  1000
train_loss:  0.757945687175
train_auc:  0.6759375
test_