# 客速融平台推荐算法简介

## 1 概述
    推荐系统面临着的两大问题，*记忆*和*扩展*。对于记忆，我们希望系统记住的肯定是高频、常见的模式。举个简单的例子：我们很容易从用户的行为数据中得出某个用户对于某几个产品的进件数量/成交率特别高，当他下一次登录时，如果我们把这些产品推荐给用户，大概率也能有进件或成交。现代的机器学习模型将很容易地从样本从将这些模式找出来，并且*记住*，下次再遇到类似场景，只要“照方抓药”，就能“药到病除”。  
    但任何一个平台都难逃二八定律，即80%的用户只关注了20%的产品。显然，让更多的产品能得到关注，对于平台而言是有长远的利益的。记忆只能挖掘那些高频、大众的模式，却无法发现小众的需求，或者帮助用户找出那些他们不知道但同样能做而没有太受关注的产品。换句话说，我们需要推荐系统具备*扩展*的能力，即个性化推荐。因此，推荐算法不仅要能博闻强记，还要能举一反三，挖掘出那些低频、长尾的模式。  
    本文旨在勾勒出推荐系统背后的思想脉络和精神实质，尽量不出现或少出现公式和数学上的推导。

## 2 推荐算法的扩展
如何扩展？举一个日常生活中的例子：假如要判断一个人是否能吃辣进而为其推荐菜品，如果我们只用用户的性别、年龄、来自哪里来描述用户，那么算法很容易就能从样本中学习或记住：基本上来自四川、湖南的人都能吃辣。但并非所有来自这两个地方的人都能吃辣且来自其他地区的用户同样有能吃辣的。比如一个实际能吃辣的用户：（男、26岁，广东）,这样的小众模式，在历史样本中罕有出现，推荐算法将无法发掘这样的模式从而无法进行个性化推荐。但如果我们能拥有更细粒度的用户特征，比如对用户的历史饮食习惯有更细致的了解，那么上述这种小众的模式也会有“出头之日”，即我们需要更细粒度的特征。但是人工定义特征有两个缺点：工作量大，劳神费力；人的理解具有局限性。既然人工定义特征费时且有局限性，能不能让算法自己拆解特征呢？

### 2.1 推荐算法核心套路：无中生有的Embedding思想
在利用矩阵分解进行推荐的年代，就已经有Embedding的思想了，只不过那时候我们称之为“隐向量”。在深度学习大行其道的今天，它们被统称为Embedding（低维嵌入），下面统称为Embedding并介绍其核心的思想脉络。  
所谓Embedding或隐向量：  
1.用户的行为日志本质上就是用户和产品的交互（点击、搜索、查询等）历史，里面充斥着各种各样的用户id和产品id。比如：用户
所谓无中生有：  
1. 当我们需要用到一个概念的特征$v$（比如我们想比较全面地描述一个用户或产品），和一个函数或者模型$f$

In [2]:
import pandas as pd
data=pd.read_csv('d:\\Github\\projects-1\\Dataset\\train.csv')
data

Unnamed: 0,user_id,item_id
0,f62daadb2c10409ab319314e4fcd6d15,33a9bc0a35234b9d96206aca5ed78fdd
1,f62daadb2c10409ab319314e4fcd6d15,0ecbd81b65974328845f2687fa41e908
2,fffbee1a9969448fab86cfdcaad0e795,bba2ab7de2d34dfca5c9dd55c4999828
3,f62daadb2c10409ab319314e4fcd6d15,1cb48bf7673040d292ffa55cc1931fd9
4,f62daadb2c10409ab319314e4fcd6d15,53611dbb2d0b420482fa04e17261789a
...,...,...
216951,7e4ca968024d4c0798be75a73ebec666,265fda2fa64b466ebd6bed6b347248cd
216952,7e4ca968024d4c0798be75a73ebec666,53b8d18125ff4b6884c32fe365670d3a
216953,66632d7d941b460a8efdd3c508b87214,b8eda6e7d3d349a2a3b3e9b3c63dfb1b
216954,66632d7d941b460a8efdd3c508b87214,a0fd5d13a0754339aff495092b426304
