# 一、好的推荐系统

## 1 什么是推荐系统

- 解决信息过载
- 实现信息消费者和信息生产者的双赢
- 工作方式：1.社会化推荐；2.基于内容的推荐；3.基于协同过滤的推荐
- 组成：前台的展示页面、后台的日志系统以及推荐算法系统

## 2 推荐系统的主要任务


### 2.1 实验方法：
1. 离线实验优劣
     - 好处：不需要用户参与，把既得的数据集划分为训练集和测试集，进行测试验证 
     - 劣势：无法获得很多商业上关注的指标，如点击率、转化率等
2. 用户调查
    - 好处：避免上线测试的风险，又保证了用户的主观真实反应；
    - 劣势：用户的时间和金钱成本很高（还要花钱选择和招募测试用户
3. 在线实验（AB测试）
    - 好处：公平获得评价指标，包括商业上关注的指标；
    - 劣势：周期比较长；设计复杂，需要注意切分流量（针对不同的干扰因素）
    
### 2.2 推荐系统的指标：
1. 准确度：
    - 评分预测：RMSE、MAE公式
    - TopN推荐：推荐列表，计算准确率和召回率
2. 覆盖率：描述对物品长尾的发掘能力
    - 信息熵
    - 基尼系数
3. 多样性
4. 新颖性：关注如何在保证精度的条件下提高多样性和新颖性
5. 惊喜度：注意和新颖度区分
6. 信任度：提高信任度：1. 提高透明度，为用户说明推荐机制；2.利用用户的社交网络信息
7. 实时性：1.推荐系统实时更新，满足用户新的行为变化；2.推荐系统能够及时纳入新加入系统的物品
8. 健壮性

## 3 推荐系统和分类目录以及搜索引擎的区别

## 4 什么是好的推荐系统

- 好的推荐系统不仅仅能准确预测用户的行为、而且能扩展用户视野，帮助他们发现可能感兴趣，但不容易发现的东西：
比如推荐了一本本来就想买的书，不算是成功；推荐了一首本来就喜欢的歌曲，也不算是好的推荐。
- 增加评测维度: 用户维度、物品维度、时间维度

# 二、利用用户行为数据

## 1. 用户行为数据
- 显性反馈：5分评分系统（评论网站）/两级评价系统（Youtube等视频网站）
- 隐性反馈：页面浏览行为
- 用户行为的表示：用户标识，行为的标识，行为的种类，产生行为的上下文，行为的权重，行为的内容

## 2. 用户行为分析

### 2.1 用户活跃度和物品流行度的分布
长尾理论
### 2.2 用户活跃度和物品流行度的关系
协同过滤算法：
1. 基于邻域的方法：基于用户的协同过滤；基于物品的协同过滤
2. 隐语义模型
3. 基于图的随机游走算法

### 2.3 实验设计
#### 2.3.1 分割数据集；

In [3]:
import random
# 将数据集随机分成训练集和测试集
def SplitData(data, M, k, seed):
    test = []
    train = []
    random.seed(seed)
    for user, item in data:
        if random.randint(0, M) == k:
            test.append([user, item])
        else:
            train.append([user, item])
    return train, test

#### 2.3.2 计算评测指标；

In [8]:
## 召回率，描述多少比例的用户-物品评分记录包含在最终的推荐列表中
def Recall(train, test, N):
    hit = 0
    all = 0
    for user in train.keys():
        tu = test[user]
        rank = GetRecommendation(user, N)
        for item, pui in rank:
            if item in tu:
                hit += 1
        all += len(tu)
    return hit / (all * 1.0)
## 准确率，描述最终的推荐列表种有多少比例是发生过的用户-物品评分记录
def Precision(train, test, N):
    hit = 0
    all = 0
    for user in train.keys():
        tu = test[user]
        rank = GetRecommendation(user, N)
        for item, pui in rank:
            if item in tu:
                hit += 1
        all += N
    return hit / (all * 1.0)

In [None]:
## 覆盖率,反映了最终的推荐列表中包含了多大比例的物品
def Coverage(train, test, N):
    recommend_items = set()
    all_items = set()
    for user in train.keys():
        for item in train[user].keys():
            all_items.add(item)
        rank = GetRecommendation(user, N)
        for item, pui in rank:
            recommend_item.add(item)
    return len(recommend_item) / (len(all_items) * 1.0)

## 新颖度，这里用推荐列表中物品的平均流行度度量推荐结果的新颖度
def Popularity(train, test, N):
    item_populartity = dict()
    for user, items in train.items():
        for item in items.keys():
            if item not in item_popularity:
                item_popularity[item] = 0
            item_popularity[item] += 1
    ret = 0
    n = 0
    for user in train.keys():
        rank = GetRecommendation(user, N)
        for item, pui in rank:
            ret += math.log(1 + item_popularity[item]) 
            # 取对数，因为物品的流行度满足长尾分布，取对数后，流行度平均值更加稳定
            n += 1
    ret /= n * 1.0
    return ret

### 2.4 基于邻域的算法
#### 2.4.1 基于用户的协同过滤算法 user-based collaborative filtering
- 步骤1. 找到和目标用户兴趣相似的用户集合 <br>
    **关键**：计算用户的兴趣相似度  <br>
    (这里采用余弦相似度)：
    $$ \omega_{uv} = \frac{\mid N(u) \bigcap N(v)\mid}{\sqrt{\mid N(u)\mid \mid N(v)\mid}} $$

In [10]:
# 暴力法：
def UserSimilarity(train):
    W = dict()
    for u in train.keys():
        for v in train.keys():
            if u == v:
                continue
            W[u][v] = len(train[u] & train[v])
            W[u][v] /= math.sqrt(len(train[u]) * len(train[v]) * 1.0)
    return W

暴力效率较低，改进：建立物品对应到用户的倒排表，形成稀疏矩阵，计算K=C[u][v]
   <center>
    <img src="images/item_user.png" width="40%" height="40%" />
     物品-用户倒排表
   </center>

In [11]:
# 改进
def UserSimilarity(train):
# build inverse table for item_users
    item_users = dict()
    for u, items in train.items():
        for i in items.keys():
            if i not in item_users:
                item_users[i] = set()
            item_users[i].add(u)
#calculate co-rated items between users
    C = dict()
    N = dict()
    for i, users in item_users.items():
        for u in users:
            N[u] += 1
            for v in users:
                if u == v:
                    continue
                C[u][v] += 1
#calculate finial similarity matrix W
    W = dict()
    for u, related_users in C.items():
        for v, cuv in related_users.items():
            W[u][v] = cuv / math.sqrt(N[u] * N[v])
    return W

- 步骤2.在锁定的用户集合中，找到目标用户没听过的物品并推荐给该用户<br>
    1. **UserCF算法**：给用户推荐和他兴趣最相似的K个用户喜欢的物品
    2. **User-IIF算法**：在UserCF采用的余弦相似度基础上，惩罚两个用户共同感兴趣列表中热门物品对他们相似度的影响 <br>
$$ \omega_{uv} = \frac{\sum_{i \in N(u)\cap N(v)} \frac{1}{log1+\mid N(i)\mid}}{\sqrt{\mid N(u)\mid\mid N(v)\mid }} $$

#### 2.4.2 基于物品的协同过滤算法 item-based collaborative filtering
- *基于用户的协同过滤算法* 缺点：
    1. 随着用户的数量增加，相似度矩阵越来越大，时间复杂度和空间复杂度跟用户增长近似于平方关系
    2. 系统很难直接对推荐结果做出解释
- 步骤1. 计算物品之间的相似度<br>
    $$ \omega_{ij} = \frac{\mid N(i)\cap N(j)\mid }{\sqrt{\mid N(i)\mid\mid N(j)\mid }} $$
    这里惩罚了热门物品，因为热门商品的热门数量影响相似度。
- 步骤2. 根据物品的相似度和用户的历史行为给用户生成推荐列表<br>
    **1.ItemCF算法**：首先建立用户-物品倒排表（对每个用户建立一个包含他喜欢的物品的列表），然后对每个用户，两两出现的物品在矩阵加1
   <center>
    <img src="images/user_items.png" width="40%" height="40%" />
     用户-物品倒排表
   </center>
   
    **2.ItemCF-IUF算法**：在ItemCF基础上，把用户活跃度对数的倒数作为参数，惩罚相对更活跃的用户。提高了推荐结果的覆盖率，降低了推荐结果的流行度。
    $$ \omega_{ij} = \frac{\sum_{u \in N(i)\cap N(j)} \frac{1}{log1+\mid N(u)\mid}}{\sqrt{\mid N(i)\mid\mid N(j)\mid }} $$
    
#### 2.4.3 UserCF和ItemCF的综合比较
<center>
    <img src="images\UserCF_and_ItemCF.png" width="60%" height="60%" />
     UserCF对比ItemCF
</center>

### 2.5 *隐语义模型
#### 2.5.1 基本说明
通过隐含特征联系用户兴趣和物品。关键是基于用户行为统计的自动聚类。分别从物品分类、分类的粒度、给一个物品划分多个分类、多维度的分类、物品在某一个分类中的比重，来解释自动聚类的优势。<br>
著名的算法有pLDA、LDA、隐含类别模型、隐含主题模型、矩阵分解。
在此讨论，在隐性反馈数据集上应用***LFM模型**解决TopN推荐的第一个问题----如何给用户生成负样本。<br>
负样本的原则：
- 对每个用户，要保证正负样本的平衡（数目相似）
- 对每个用户采样负成本时，要选择那些很热门的，用户却没有行为的物品。

LFM用到了基于机器学习的基础算法（需要重温coursera上吴恩达老师的课程）

#### 2.5.2 隐语义模型与UserCF、ItemCF对比
- 理论基础：统计过程 & 隐语义
- 离线计算的空间复杂度：基于邻域 >> 隐语义
- 在线实时推荐：基于邻域 <> 隐语义
- 推荐解释：ItemCF可以解释 & 隐语义无法解释



### 2.6 *基于图的模型
#### 2.6.1 用户行为数据的二分图表示
将算法放到二分图模型上，将物品抽象为顶点，通过判断顶点之间是否有边连接来表示相关性，相关性越强，权重越高。
<img src="images/map_based_algorithm.png" width="40%" height="45%" />
假设要给用户u进行个性化推荐，可以从用户u对应的节点vu开始在用户物品二分图上进行随
机游走。游走到任何一个节点时，首先按照概率α决定是继续游走，还是停止这次游走并从vu节
点开始重新游走。如果决定继续游走，那么就从当前节点指向的节点中按照均匀分布随机选择一
个节点作为游走下次经过的节点。这样，经过很多次随机游走后，每个物品节点被访问到的概率
会收敛到一个数。最终的推荐列表中物品的权重就是物品节点的访问概率。





# 三、推荐系统冷启动问题

在没有大量用户数据的情况下，设计个性化推荐系统
## 3.1 冷启动问题简介
分类：
- 用户冷启动：新用户，尚未产生个性化的行为数据
- 物品冷启动：新物品，尚未产生跟其他物品关联的信息
- 系统冷启动：新系统，尚未建立一个完善的个性推荐系统


## 3.2 利用用户注册信息
用户注册信息分类：
- 人口统计学信息
- 用户兴趣的描述
- 从其他网站导入用户站外行为数据
根据用户填写的信息，按照不同的粒度给用户分类。

## 3.3 选择合适的物品启动用户的兴趣
物品的特点：
- 比较热门
- 具有代表性和区分性
- 启动物品集合需要有多样性

## 3.4 利用物品的内容信息
内容通过向量空间模型表示，该模型会表示为一个关键词向量。
<centor>
    <img src="images/keywords_vector.png" height="50%" width="50%">
</centor>
- **内容特征推荐模型 vs 协同过滤模型**<br>
分别在movielens和github上的用户数据，将ContentItemKNN和ItemCF、UserCF对比后，发现在MovieLens上ItemCF在准确率和召回率上明显更优；而在Github上，ContentItemKNN在所有指标都优于ItemCF。这里是因为内容特征模型有效的利用了先验信息的内容，但不是所有的物品/内容都如Github上以用户为导向的内容有明显的特征。所以在大多时候还是写通过考虑更有效。
- 在以文本举例说明向量空间模型在计算关键词相似度的问题，提到了话题模型。以代表性的***LDA话题模型**（Latent Dirichlet Allocation）为例。
## 3.5 结合专家的作用
- Jinni电影基因工程

# 四、利用用户标签数据

## 4.1 一些采用标签系统的案例
- 网站推荐平台：Delicious
- 论文推荐平台：CitULike 
- 电台推荐平台：Last.fm 
- 书目推荐平台：豆瓣
- 视频推荐平台：Hulu

## 4.2 标签系统中的推荐问题

## 4.3 基于标签的推荐系统
### 4.3.1 实验设置
- 分割数据集和测试集
- 设置反馈指标，以及定义评价指标的计算公式
- 程序实现的伪代码

### 4.3.2 一个最简单的算法

### 4.3.3 算法的改进
1. TF-IDF<br>
对标签本身的热门和物品本身的热门性，都做了惩罚，降低了热门度，提高多样性和覆盖率等。
2. 数据稀疏性<br>
避免标签太多零散，进行标签扩展。常用的方法有话题模型，这里介绍一种基于邻域的方法。
如利用余弦相似公式，在两个标签出现在很多物品的集合中时，评价这两个标签之间的相似度。
3. 标签清理<br>
为了控制标签的质量，采用一些标签清理方法。
### 4.3.4 基于图的推荐算法
<center>
    <img src="images/graph_based_tags.png" height="40%" width="40%">
    SimpleTagGragh
</center>

### 4.3.5 基于标签的推荐解释
- 用户对标签的兴趣对帮助用户理解为什么给他推荐某个物品更有帮助；
- 用户对标签的兴趣和物品标签相关度对于帮助用户判定自己是否喜欢被推荐物品具有同样的作用；
- 物品标签相关度对于帮助用户判定被推荐物品是否符合他当前的兴趣更有帮助；
- 客观事实类标签相比主观感受类标签对用户更有作用。

## 4.4 给用户推荐标签
### 为什么推荐
- 方便用户输入标签
- 题高标签质量

### 如何给用户推荐标签
- 直接推荐最热门的标签
- ItemPopularTags
- UserPopularTags
- 通过加权系数，把前面两者结合(HybridPopularTags)

### 实验设置
- **分割数据集**：设计编程把数据集切分为训练集和测试集
- **定义评价指标**：准确率和召回率
- **实验结果**：根据评价指标的方面，对不同的数据和不同的算法进行比较
- **总结不足和提出的解决方案**：对新用户或者不热门的物品难有推荐结果，解决思路：1.从物品的内容数据中抽取关键词作为标签；2.针对有结果，但结果不太多的结果，进行标签扩展。

# 五、利用上下文信息
## 5.1 时间上下文信息
### 5.1.1 介绍时间效应
- 用户兴趣是变化的
- 物品也是有生命周期的
- 季节效应：时间本身对用户兴趣的影响。比如夏天会更多吃冰淇凌，冬天会更多吃火锅..

### 5.1.2 时间效应举例
- 对于某个关键词的搜索量的时间曲线，说明用户兴趣变化

### 5.1.3 系统时间特性的分析
- 数据集每天独立用户数的增长情况
- 系统的物品变化情况
- 用户访问情况

#### 1.数据集的选择
#### 2.物品的生存周期和系统的时效性
生存周期的度量指标：
- 物品平均在线天数
- 相隔T天系统物品流行度向量的平均相似度

### 5.1.4 推荐系统的实时性
- 对用户行为的存取有实时性要求
- 算法本身具有实时性：
- 要求在用户访问推荐系统时，根据用户这个时间点前的行为实时计算推荐列表
- 长期性和短期性：既能体现短期行为的兴趣变化，又能保证长期的延续性

### 5.1.5 推荐算法的时间多样性
随着时间的变化，还能一直推荐不同的结果，而不是一直推荐同样的物品。
- 分两步解决：用户有新行为能及时检测调整；用户无新行为自己也能经常变化结果。针对后一种提出几种方案：1.在生成推荐结果时加入一定的随机性；2.记录用户每天看到的推荐结果，避免推荐重复的；3.每天给用户使用不同的推荐算法

### 5.1.6 时间上下文推荐算法
#### 1.最近最热门
$$ n_i(T) = \Sigma_{(u,i,t)\in Train,t<T} \frac{1}{1+\alpha (T-t)} $$
这里，$\alpha$ 是衰减参数
#### 2.时间上下文相关的ItemCF算法
物品i和物品j之间的相似度：
$$ sim(i,j) = \Sigma_{u\in N(i)\cap N(j)}\frac {f(\mid t_{ui}-t_{uj}\mid )}{\sqrt{\mid N(i) \mid \mid N(j)\mid }}  $$
f函数是物品i和物品j之间的时间越远，则函数值越小：
$$ f(\mid t_{ui}-t_{uj}\mid )=\frac{1}{1+\alpha \mid t_{ui}-t_{uj}\mid }  $$
$$ \alpha 是时间衰减参数，用户兴趣变化越快，\alpha 取越大的值。 $$
用户u对物品i的兴趣：
$$ p(u,i) = \Sigma_{j\in N(u)\cap S(i,K)}sim(i,j)\frac {1}{1+\beta \mid t_0-t_{uj}\mid } $$
$$ \beta 是时间衰减参数，需要根据不同的数据集选择合适的值。 $$
#### 3.时间上下文相关的UserCF算法
用户u和用户v的兴趣相似度：
$$ w_{uv} = \frac{\Sigma_{i\in N(u)\cap N(v)\frac{1}{1+\alpha \mid t_{ui}-t_{uj}\mid }}}{\sqrt{\mid N(u)\mid \cup \mid N(v)\mid }} $$
用户u对物品i的兴趣度：
$$ p(u,i)=\Sigma_{v\in S(u,K)} w_{uv}r_{vi}\frac{1}{1+\alpha (t_0-t_{vi})} $$

### 5.1.7 时间段图模型

## 5.2 地点上下文模型

# 六、利用社交网络数据

## 6.1 获取社交网络数据的途径
### 6.1.1 电子邮件
通过邮箱后缀，好友列表等，解决系统的冷启动问题。
### 6.1.2 用户注册信息

### 6.1.3 用户的位置数据

### 6.1.4 论坛和讨论组

### 6.1.5 即时聊天工具

### 6.1.6 社交网站
#### 1.社会图谱和兴趣图谱
Facebook和Twiter，代表了不同的社交网络结构。Facebook好友一般是自己再现实社会中认识的人，好友关系也是需要双方确认的。代表了**社会图谱**。而在Twitter中，好友的关系是单向的关注关系，代表了**兴趣图谱**。
## 6.2 不同的社交网络数据
一般有3中不同的社交网络数据：
- 双向确认的社交网络数据
- 单向关注的社交网络数据
- 基于社区的社交网络数据

## 6.3 基于社交网络的推荐
优点
- 好友推荐可以增加推荐的信任度
- 社交网络可以解决冷启动问题
缺点
- 好友关系不一定是通过共同兴趣建立起来的，所以根据好友关系推荐不一定可靠。

### 6.3.1 基于邻域的社会化推荐算法
- 最简单的算法
$$ p_{ui} = \Sigma_{v\in out(u)}r_{vi} $$
$$ out(u)是用户u的好友集合,r_{vi}表示好友v对物品i的兴趣评价 $$
- 考虑好友之间的**熟悉程度**和**兴趣相似度**:
$$ p_{ui} = \Sigma_{v\in out(u)}w_{uv}r_{vi} $$
熟悉程度（用户之间的共同好友比例来度量）：
$$ familiarity(u,v) = \frac{\mid out(u) \cap out(v)\mid }{\mid out(u)\cup out(v)\mid } $$
兴趣相似度（用户喜欢的物品集合的重合度）：
$$ similarity(u,v) = \frac{\mid N(u)\cap N(v)\mid }{\mid N(u)\cup N(v)\mid } $$

### 6.3.2 基于图的社会化推荐算法
- friendship朋友关系：
<center>
    <img src="images/gragh_based_social_recommendation.png" height="30%" width="30%">
    社交网络图和用户物品二分图的结合
</center>
- membership社群关系：
<center>
    <img src="images/gragh_based_membership.png" height="30%" width="30%">
    融合两种社交网络信息的图模型
</center>

### 6.3.3 实际系统中的社会化推荐算法
### 6.3.4 社会化推荐系统和协同过滤推荐系统
### 6.3.5 \*信息流推荐
## 6.4 给用户推荐好友
链接预测（link prediction）
- interstBased
- SocialBased
- Interest+Social
- SONA 是IBM内部的推荐算法，

# 七、推荐系统实例
## 7.1 外围架构
<center>
    <img src="images/architect_demo.png" height="50%" width="50%">
    推荐系统架构
</center>

#### 数据收集和架构
<center>
    <img src="images/3_connections.png" height="50%" width="50%">
    3种联系用户和物品的推荐系统
</center>

#### 用户特征
- 人口统计学特征，如年龄，性别，国籍等
- 用户的行为特征，浏览过什么，收藏过什么，打分
- 用户的话题特征，根据用户历史行为，用话题模型聚类

## 7.3 推荐引擎的架构
<center>
    <img src="images/engine_architect.png" height="50%" width="50%">
    推荐引擎的架构
</center>

### 7.3.1 生成用户特征向量

### 7.3.2 特征-物品相关推荐

### 7.3.3 过滤模块

### 7.3.4 排名模块



# 八、评分预测模型


# 设计推荐系统的原则

1. 确定真的需要推荐系统。系统只有在用户遇到信息过载，才有必要。不要为了做推荐系统而做。
2. 确定好商业目标和用户满意度的关系。平衡好企业的长期利益和短期利益的关系。
3. 选择合适的开发人员。
4. 忘记冷启动的问题。如果用户喜欢产品，就会不断贡献新的产品
5. 平衡数据和算法之间的关系。数据分析据欸的那个了如何设计模型，算法决定了最终如何优化模型
6. 找到相关的物品很容易。注意何时以何种方式推荐。
7. 不要浪费时间计算相似兴趣的用户，利用社会网络数据
8. 需要不断提升算法的扩展性
9. 选择合适的用户反馈方式
10. 设计合理的评测系统，时刻关注推荐系统各方面的性能。