# 推荐系统
互联网的出现和普及给用户带来了大量的信息，满足了用户在信息时代对信息的需求，但随着网络的迅速发展而带来的网上信息量的大幅增长，使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息，对信息的使用效率反而降低了，这就是所谓的信息超载问题

解决信息超载问题一个非常有潜力的办法是推荐系统，它是根据用户的信息需求、兴趣等，将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。和搜索引擎相比推荐系统通过研究用户的兴趣偏好，进行个性化计算，由系统发现用户的兴趣点，从而引导用户发现自己的信息需求。一个好的推荐系统不仅能为用户提供个性化的服务，还能和用户之间建立密切关系，让用户对推荐产生依赖

**在线推荐和离线推荐的区别？**

样本的构造是否是实时的

## 长尾理论
互联网条件下，由于货架成本极端低廉，电子商务网站往往能出售比传统零售店更多的商品。虽然这些商品绝大多数都不热门，但与传统零售业相比，这些不热门的商品数量极其庞大，因此这些长尾商品的总销售额将是一个不可小觑的数字，也许会超过热门商品（即主流商品）带来的销售额。主流商品往往代表了绝大多数用户的需求，而长尾商品往往代表了一小部分用户的个性化需求。因此，如果要通过发掘长尾提高销售额，就必须充分研究用户的兴趣，而这正是个性化推荐系统主要解决的问题。推荐系统通过发掘用户的行为，找到用户的个性化需求，从而将长尾商品准确地推荐给需要它的用户，帮助用户发现那些他们感兴趣但很难发现的商品

## 系统架构

<img src="../../img/recsysarch.png" width="600" >

## 召回层
召回层一般由高效的召回规则、算法或简单的模型组成，这让推荐系统能快速从海量的候选集中召回用户可能感兴趣的物品

**特点**

数据量大、速度快、模型简单、特征较少

### 单策略召回
通过制定一条规则或者利用一个简单模型来快速地召回可能的相关物品

**优点**

- 速度快，实现简单

**缺点**

- 策略简单
- 无法覆盖不同召回需求
- 可能漏掉大量感兴趣的物品

### 多路召回
指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用的策略

**优点**

- 可以覆盖不同的召回需求

**缺点**

- 需要大量人工调参来决定每一路的规模
- 每一路的得分不具备可比性，无法据此决定每个召回策略返回候选集的大小
- 策略之间的信息也是割裂的，无法综合考虑不同策略对一个物品的影响

### 基于 Embedding 的召回
基于预训练好的用户、物品 Embedding 向量实现的召回策略

**步骤**
- 首先离线训练双塔模型，得到 Item Embedding
- 训练完成之后，对 Item Embedding 做聚类，并根据乘积量化去构建索引
- 实时计算 User Embedding，在已经构建好的索引中进行查找，得到 User Embedding 最接近的 K 个 item，作为 TopK 召回

**优点**

- 可以在 Embedding 的预训练中融合大量用户和物品特征，相当于在利用 Embedding 召回的过程中，考虑到了多路召回的多种策略
- 线上部分评分连续。Embedding 召回可以把 Embedding 间相似度作为唯一的判断标准，因此可以随意限定召回的候选集大小

**缺点**

- 线上计算部分还需进一步优化
- 索引构建与向量检索的优化方向不一致。索引构建的优化目标是最小化近似误差，而向量检索的优化目标是最大化 TopK 召回率

## 排序层
排序是推荐系统的第二阶段，从召回阶段获得少量的商品交给排序阶段，排序阶段可以融入较多特征，使用复杂模型，来精准地做个性化推荐

排序层可以分为粗排和精排，召回在多样性上有更多的考量，精排更强调排序次序的精准性，而粗排介于二者之间

**特点**

数据量小、排序精准、模型复杂、特征较多

## 推荐模型

### 基于协同过滤的推荐
仅仅基于用户行为数据设计的推荐算法一般称为 `协同过滤算法`
- 基于邻域的方法
- 隐语义模型
- 基于图的随机游走算法

### 因子分解机

- FM
- FFM

### 基于关联规则的推荐
- Apriori
- FP-Growth

### 深度学习模型
- deep crossing
- wide & deep
- deep fm

## 冷启动

### 用户冷启动
用户冷启动主要解决如何给新用户做个性化推荐的问题。当新用户到来时，我们没有他的行为数据，所以也无法根据他的历史行为预测其兴趣，从而无法借此给他做个性化推荐

### 物品冷启动
物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题

### 系统冷启动
系统冷启动主要解决如何在一个新开发的网站上（还没有用户，也没有用户行为，只有一些物品的信息）设计个性化推荐系统，从而在网站刚发布时就让用户体验到个性化推荐服务这一问题

### 冷启动策略
- 基于内容的推荐。例如，对于新物品，可以将其推荐给喜欢相似物品的用户，对于新用户，可以给其推荐相似用户所喜欢的物品
- 跨领域推荐。其基本假设是在同一个领域具有相似品位的用户在另一个领域也具有类似品位
- 根据用户信息特征分组推荐
- 外站信息导入
- 根据用户首次进入反馈的兴趣点