# 推荐系统
## 什么是推荐系统
推荐系统有不同的定义。有的人说你把我喜欢的东西推到我面前，有的人说你把我需要的东西推到我面前，还有的人说你把我关注的东西推到我面前。     
>喜欢、需要、关注，从字面意义上，我们就知道这是有很大不同的。    
>>比如说:  
>> - 我喜欢玩滑板，那你得给我推各种滑板、专业滑板鞋。    
>> - 你需要装修房子，那各种家装需要的材料、洁具、厨具、灯具等。  
>> - 他关注猫腻的作品很久了，那你就给他推猫腻的相关文学作品。

推荐系统实际上就是想用户所想，解用户之忧，行用户之行，用专业一点儿的意思来讲就是基于用户的过往行为，推出与之相关的物品。
## 更进一步地理解推荐的本质
> - 古人说，观其行而知其言，闻其言而知其心，推荐要做的事情不外乎如此，基于用户大量的过往行为数据，推出与之相关的产品。    
> - 古人又说，路遥知马力，日久见人心，十天我不能了解你，那就一百天，一百天还不够，那就两百天。只要数据足够多，足够大，推荐能达到的效果才更好.   
> - 古人还说，弱水三千，只取一瓢饮，繁华三千，只为一人饮尽悲欢。如今信息大爆炸，面对槟榔满目、让人挑花眼的众多选择，推荐出最匹配用户的。  

从另外一个角度来看，实际上推荐系统解决的是信息过载的问题，它用机器的时间替换了人类的时间，避免了愚蠢的人类浪费过多的时间去做一个搜索和选择。  
在当前 **信息大爆炸时代，如何让人们用最快的速度在浩如烟海的信息中抓住他们想要的少量重要信息**，这是一个很重要也是很严肃的话题。

## 从时间的长河来看推荐系统的作用
让我们来翻一翻互联网历史中的一角：
> 当前，按人们打开自己手机上的app，比如抖音或者淘宝，首先映入眼帘的一定是你喜欢的或者感兴趣的内容，你会深陷其中，手指不停地挥动，上下翻页。
>> 五年前，你得不停地输入各种关键词和限定条件，然后找到自己想要的东西。
>>> 十年前，你可能得点击不同的分类目录，然后在不停地深入到更深层次的目录，去定位想要的东西。
>>>> 十五年前，你可能不得不到专门的商店去找寻自己需要的东西。

尽管我这么描述显得有些单薄和缺乏完整性，但是不得不说人类文明进化到现在，可以说 **一切都是信息** , 而我们要做的不过就是信息的生产、保存、传递，仅此而已。  
那推荐到底干了什么事情呢？推荐要做的事情就是让信息的传递改变一个方向。  
**从之前人去找需要的信息转变为信息送达到需要它的人** 信息的流转调个头。  

那么推荐系统及其相关技术，所要做的事情就是：  
1. 基于海量的历史数据，找到与特定用户相关的信息；
2. 然后过滤掉用户不需要的信息；
3. 再把剩下的信息按照对特定用户的重要程度排序，最后推送给用户。

## 推荐系统的构成
从大致的流程上来讲，我们可以把推荐的步骤简化为下面三个环节：
* 召回
* 过滤
* 排序

下面我们会围绕着上述的内容来展开我们的课程，希望对今天来听课的同学们有所启发和帮助。

## 案例的选择
我们选择了kaggle上的一个公共数据集用来讲述推荐系统是如何构建的。  
[Retailrocket recommender system dataset](https://www.kaggle.com/retailrocket/ecommerce-dataset)  
该数据集包含了一个品类关系文件category_tree.csv，一个用户历史行为数据文件events.csv，另外两个产品属性描述文件（我们暂时不用）  
下面先看看用到的两个数据文件有什么样的数据。

## 数据文件查看和描述
### 品类关系文件

In [2]:
!pip list

Package                           Version  
--------------------------------- ---------
absl-py                           0.8.1    
alembic                           1.2.1    
appdirs                           1.4.3    
asn1crypto                        1.2.0    
astor                             0.8.0    
async-generator                   1.10     
attrs                             19.3.0   
Automat                           0.8.0    
backcall                          0.1.0    
beautifulsoup4                    4.8.2    
bleach                            3.1.0    
bokeh                             1.3.4    
boto                              2.49.0   
boto3                             1.10.1   
botocore                          1.13.1   
bs4                               0.0.1    
certifi                           2019.9.11
certipy                           0.1.3    
cffi                              1.13.0   
chardet                           3.0.4    
charset-no

In [3]:
import pandas as pd

categories = pd.read_csv("./category_tree.csv")
print(categories.dtypes)

# 填充空值
categories = categories.fillna(0)

# 转换parentid列为整型
categories["parentid"] = categories["parentid"].astype("int") 

# 展示开头的20个数据行
categories.head(20)

ModuleNotFoundError: No module named 'pandas'

In [4]:
!pip install pandas --user



### 历史行为数据文件

In [188]:
events = pd.read_csv("./events.csv")
print(events.dtypes)

# 填充空值
events = events.fillna(0)

# 转换transactionid列为整型
events["transactionid"] = events["transactionid"].astype("int")
events["event"] = events["event"].astype("str")

# 增加一列，显示可读时间
events["action_time"] = pd.to_datetime(events["timestamp"], unit='ms')

# 展示开头的20个数据行
events.head(20)

timestamp          int64
visitorid          int64
event             object
itemid             int64
transactionid    float64
dtype: object


Unnamed: 0,timestamp,visitorid,event,itemid,transactionid,action_time
0,1433221332117,257597,view,355908,0,2015-06-02 05:02:12.117
1,1433224214164,992329,view,248676,0,2015-06-02 05:50:14.164
2,1433221999827,111016,view,318965,0,2015-06-02 05:13:19.827
3,1433221955914,483717,view,253185,0,2015-06-02 05:12:35.914
4,1433221337106,951259,view,367447,0,2015-06-02 05:02:17.106
5,1433224086234,972639,view,22556,0,2015-06-02 05:48:06.234
6,1433221923240,810725,view,443030,0,2015-06-02 05:12:03.240
7,1433223291897,794181,view,439202,0,2015-06-02 05:34:51.897
8,1433220899221,824915,view,428805,0,2015-06-02 04:54:59.221
9,1433221204592,339335,view,82389,0,2015-06-02 05:00:04.592


用户行为数据描述的是某个时间(action_time)，某个用户(visitorid)，对某个物品（itemid）产生了某个行为（event），其中event有三种类型：view、addtocart、transaction  
## 协同过滤算法
在开始进一步的工作前，我们要详细的学习下推荐系统的鼻祖，协同过滤算法。推荐系统能够走入实际的运用，协同过滤算法起到了重要的作用，即便到了今天，它也是推荐系统中重要的组成部分。  
协同过滤算法（Collaborative Filtering）为什么叫这个名字，实际上是因为大量的用户产生的行为数据，进过计算来推荐物品，就好像所有人都为此做出了贡献，所以起名协同过滤算法。  
协同过滤算法有两种：
1. 基于物品的协同过滤算法（Item-CF-Based）
2. 基于用户的协同过滤算法（User-CF-Based）

### 基于物品的协同过滤算法
**先找到用户喜欢的物品，再找到喜欢物品的相似物品**
基于物品的协同过滤算法一般分为分为两步：
* (1) 计算物品之间的相似度。
* (2) 根据物品的相似度和用户的历史行为给用户生成推荐列表。


#### Item-CF 计算物品之间的相似度得分
我们可以用下面的公式来计算物品之间的相似度：
$$ W_{ij} = \frac{|N(i)\bigcap N(j)|}{|N(i)|} $$

这里，分母$|N(i)|$是喜欢物品i的用户数，而分子$|N(i)\bigcap N(j)|$ 是同时喜欢物品i和物品j的用户数。  
因此，上述公式可以理解为喜欢物品i的用户中有多少比例的用户也喜欢物品j。
但是这个公式也是有缺陷的，如果物品j很热门，很多人都喜欢， 那么$W_{ij}$就会很大，接近1。  
因此，该公式会造成任何物品都会和热门的物品有很大的相似度，这对于致力于挖掘长尾信息的推荐系统来说是一个不好的特性。为了避免推荐出热门的物品， 可以用下面的公式来对热门商品进行惩罚:
$$ W_{ij} = \frac{|N(i)\bigcap N(j)|}{\sqrt{|N(i)||N(j)|}} $$

在这个新的公式中，分母发生了变化，该公式可以理解为喜欢物品i或j的用户中有多少比例的用户同时喜欢i和j。  
这样子做，可以讲热门商品的权重降低，从而更有利于推出用户希望的长尾商品。  
>提示： 下面我们将一步一步根据上述原理进行计算，为了更贴近理论的描述，便于理解，有些步骤会舍弃更有效率和性能的方法，如相似度矩阵的做法。

In [189]:
import time

# 从时间戳获取日期字符串
def get_datetime(ts):
    timeArray = time.localtime(ts/1000)
    otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
    return otherStyleTime
    
# 计算时间戳的最小值和最大值
start_time = get_datetime(events["timestamp"].min())
end_time = get_datetime(events["timestamp"].max())
print(f"start at: {start_time}, end at: {end_time}")

start at: 2015-05-03 11:00:04, end at: 2015-09-18 10:59:47


***为了减少计算量，以便大家能够在自己的机器上能够运行程序，我们取2015-09-01以后的加购数据***

In [190]:
# 从日期字符串获取时间戳
def get_timestamp(dstr):
    timeArray = time.strptime(dstr, "%Y-%m-%d %H:%M:%S")
    timeStamp = int(time.mktime(timeArray)) * 1000
    return timeStamp
    
start_time_str = "2015-09-01 00:00:00"
start_timestamp = get_timestamp(start_time_str)
print(start_timestamp)

print(events.shape[0])

# 只保留有加购行为的记录，且取时间为2015-09-01 00:00:00以后的数据
events = events.loc[(events["event"] == "addtocart") & (events["timestamp"] > start_timestamp)]
print(events.shape[0])

# 只保留用户id和itemid
events = events[["visitorid", "itemid"]]
print(events.shape[0])

# 根据visitorid和itemid去重
events = events.drop_duplicates()
print(events.shape[0])

# 展示20条数据
events.head(20)


1441036800000
2756101
7930
7930
7210


Unnamed: 0,visitorid,itemid
1146182,645525,86031
1146203,542485,104628
1146232,1013418,209050
1146234,121296,421572
1146266,879048,46232
1146276,839288,10291
1146284,990624,231137
1146302,1063427,224021
1146329,1210136,253214
1146338,1210136,358927


***下面我们将计算对每个物品有过加购行为的用户列表***

In [191]:
# 获取加购了某个物品的用户列表
def get_visitors(event_group):
    return event_group.to_list()

items = events.groupby("itemid").agg(visitors=("visitorid", get_visitors), visitor_count=("visitorid", "count")).reset_index()
items.head(20)

Unnamed: 0,itemid,visitors,visitor_count
0,147,[582525],1
1,168,[152963],1
2,304,[1104446],1
3,371,"[565492, 335227]",2
4,452,[32920],1
5,594,[1361021],1
6,698,[669989],1
7,821,[967129],1
8,835,[1127962],1
9,856,[954276],1


***移除掉访问用户为1的数据***
> 问题：为什么要这么做？请同学们思考下。

In [169]:
print(items.shape[0])

items = items.loc[items.visitor_count > 1]

print(items.shape[0])

4935
1182


***自相交笛卡尔积***

In [170]:
import time

t1 = time.time()

# 只保留计算需要的列
items = items[["itemid", "visitors"]]
items1 = items.rename(columns={"itemid":"itemid1", "visitors":"visitors1"})

# 为了计算笛卡尔积，两个dataframe都增加一个常数列key
items["key"] = 0
items1["key"] = 0

# 笛卡尔积
item_sims = items.merge(items1, on="key")
print(item_sims.shape[0])
item_sims = item_sims.loc[item_sims.itemid < item_sims.itemid1]
print(item_sims.shape[0])

t2 = time.time()
print(f"it takes: {t2 - t1: .5f}s")

item_sims = item_sims[["itemid", "itemid1", "visitors", "visitors1"]]
item_sims.head(10)


1397124
697971
it takes:  0.27679s


Unnamed: 0,itemid,itemid1,visitors,visitors1
1,371,1261,"[565492, 335227]","[390258, 160218, 844104]"
2,371,1353,"[565492, 335227]","[805589, 1206108]"
3,371,1531,"[565492, 335227]","[152963, 743151]"
4,371,1845,"[565492, 335227]","[732729, 1273814]"
5,371,2463,"[565492, 335227]","[77215, 170100]"
6,371,2711,"[565492, 335227]","[196284, 1125883]"
7,371,2873,"[565492, 335227]","[1002583, 971576]"
8,371,2942,"[565492, 335227]","[1199640, 283935]"
9,371,2980,"[565492, 335227]","[1388617, 247235]"
10,371,3099,"[565492, 335227]","[1230189, 453447, 112030]"


> 问题：为什么要取item_sims.itemid < item_sims.itemid1 ？

***计算物品之间的相似度得分***

In [171]:
import math 

# 计算物品之间的相似度得分
def calculate_similarity(df):
    count_up = len(set(df["visitors"]).intersection(set(df["visitors1"])))
    count_down = math.sqrt(len(set(df["visitors"]))*len(set(df["visitors1"])))
    return count_up/count_down

t1 = time.time()

item_sims["sim_score"] = item_sims.apply(calculate_similarity, axis=1)

t2 = time.time()
print(f"it takes: {t2 - t1: .5f}s")

it takes:  61.64432s


***过滤得分为0的数据***

In [172]:
print(item_sims.shape[0])
item_sims = item_sims[item_sims.sim_score > 0]
print(item_sims.shape[0])
item_sims.head(10)

697971
8451


Unnamed: 0,itemid,itemid1,visitors,visitors1,sim_score
726,371,301721,"[565492, 335227]","[177211, 1158831, 565492, 120699, 490062, 173657]",0.288675
1097,371,434432,"[565492, 335227]","[565492, 1138830]",0.5
1548,1261,152590,"[390258, 160218, 844104]","[453137, 1320077, 844104]",0.333333
2724,1353,150376,"[805589, 1206108]","[59057, 805589, 469022]",0.408248
2727,1353,151125,"[805589, 1206108]","[985150, 173863, 480624, 1206108]",0.353553
2770,1353,170074,"[805589, 1206108]","[599912, 1206108]",0.5
3592,1531,17910,"[152963, 743151]","[372969, 152963]",0.5
3604,1531,21970,"[152963, 743151]","[237995, 710152, 152963]",0.408248
3631,1531,34757,"[152963, 743151]","[577656, 895999, 152963, 801172]",0.353553
3651,1531,43590,"[152963, 743151]","[445245, 878466, 152963, 198270]",0.353553


***整理列并补全另一半数据***

In [173]:
item_sims1 = item_sims[["itemid", "itemid1", "sim_score"]]
item_sims2 = item_sims1.rename(columns={"itemid":"itemid1", "itemid1":"itemid"})[["itemid", "itemid1", "sim_score"]]
full_item_sims = pd.concat([item_sims1,item_sims2])

# 按照相似度得分排序
full_item_sims = full_item_sims.sort_values(["itemid", "sim_score"], ascending=False)
print(full_item_sims.shape[0])

full_item_sims.head(20)

16902


Unnamed: 0,itemid,itemid1,sim_score
576815,466603,199277,1.0
950327,466603,326775,1.0
568541,466603,196629,0.816497
1105169,466603,370395,0.816497
729293,466603,252344,0.57735
245855,466603,87677,0.5
250583,466603,89194,0.5
251765,466603,89323,0.5
295499,466603,106146,0.5
304955,466603,108343,0.5


> 问题：为什么我们要进行上面的操作步骤？

***生成top5相似度得分列表***

In [179]:
# 获取某物品最相似的五个物品
def get_sims_top5(item_group):
    return item_group.to_list()[:5]

def get_score_top5(item_group):
    return item_group.to_list()[:5]

item_sims_top5 = full_item_sims.groupby("itemid").agg(sim_list=("itemid1", get_sims_top5), score_list=("sim_score", get_score_top5)).reset_index()
print(item_sims_top5.shape[0])

item_sims_top5.head(20)

781


Unnamed: 0,itemid,sim_list,score_list
0,371,"[434432, 301721]","[0.5, 0.2886751345948129]"
1,1261,[152590],[0.3333333333333333]
2,1353,"[170074, 150376, 151125]","[0.5, 0.4082482904638631, 0.35355339059327373]"
3,1531,"[17910, 51556, 87296, 101714, 135311]","[0.5, 0.5, 0.5, 0.5, 0.5]"
4,1845,[396740],[0.5]
5,2463,"[33182, 74288, 84810, 104891, 132772]","[0.5, 0.5, 0.5, 0.5, 0.5]"
6,2942,"[276328, 285233]","[1.0, 1.0]"
7,2980,"[42146, 60138, 67889, 78379, 202580]","[0.5, 0.5, 0.5, 0.5, 0.5]"
8,3656,[438484],[0.35355339059327373]
9,4067,"[86691, 123448, 151848, 256146, 380971]","[0.35355339059327373, 0.35355339059327373, 0.3..."


#### Item-CF 计算用户对物品的兴趣
ItemCF通过如下公式计算用户u对一个物品j的兴趣:
$$ p_{uj} = \sum_{i\in{N(u)}\bigcap{S(j,K)}}w_{ji}r_{ui} $$  
其中$N(u)$是用户喜欢的物品的集合，$S(j,K)$是和物品j最相似的K个物品的集合，$w_{ji}$是物品j和i 的相似度，$r_{ui}$是用户u对物品i的兴趣。  
在当前的应用场景下，如果用户u加购过i物品，则认为$r_{ui}$为1，否则为0。  

***获取2015-09-01以后的访问者列表***

In [186]:
# 获取某个用户加购过的物品列表
def get_items(event_group):
    return event_group.to_list()

visitors = events.groupby("visitorid").agg(items=("itemid", get_items)).reset_index()
print(visitors.shape[0])
visitors.head(20)

4485


Unnamed: 0,visitorid,items
0,155,"[452082, 368372, 224623, 389974, 442601, 41882..."
1,177,[6073]
2,264,"[459835, 161949]"
3,1480,[325852]
4,1626,[85774]
5,1742,[225612]
6,2249,[88126]
7,2519,[413125]
8,2572,[349796]
9,3007,[145403]


***将访问者列表和物品相似度列表做笛卡尔积***

In [181]:
t1 = time.time()

visitors["key"] = 0
item_sims_top5["key"] = 0

visitors_and_items = visitors.merge(item_sims_top5, on="key")
print(visitors_and_items.shape[0])

t2 = time.time()
print(f"it takes: {t2 - t1: .5f}s")

visitors_and_items.head(10)

3502785
it takes:  0.34515s


Unnamed: 0,visitorid,items,key,itemid,sim_list,score_list
0,155,"[452082, 368372, 224623, 389974, 442601, 41882...",0,371,"[434432, 301721]","[0.5, 0.2886751345948129]"
1,155,"[452082, 368372, 224623, 389974, 442601, 41882...",0,1261,[152590],[0.3333333333333333]
2,155,"[452082, 368372, 224623, 389974, 442601, 41882...",0,1353,"[170074, 150376, 151125]","[0.5, 0.4082482904638631, 0.35355339059327373]"
3,155,"[452082, 368372, 224623, 389974, 442601, 41882...",0,1531,"[17910, 51556, 87296, 101714, 135311]","[0.5, 0.5, 0.5, 0.5, 0.5]"
4,155,"[452082, 368372, 224623, 389974, 442601, 41882...",0,1845,[396740],[0.5]
5,155,"[452082, 368372, 224623, 389974, 442601, 41882...",0,2463,"[33182, 74288, 84810, 104891, 132772]","[0.5, 0.5, 0.5, 0.5, 0.5]"
6,155,"[452082, 368372, 224623, 389974, 442601, 41882...",0,2942,"[276328, 285233]","[1.0, 1.0]"
7,155,"[452082, 368372, 224623, 389974, 442601, 41882...",0,2980,"[42146, 60138, 67889, 78379, 202580]","[0.5, 0.5, 0.5, 0.5, 0.5]"
8,155,"[452082, 368372, 224623, 389974, 442601, 41882...",0,3656,[438484],[0.35355339059327373]
9,155,"[452082, 368372, 224623, 389974, 442601, 41882...",0,4067,"[86691, 123448, 151848, 256146, 380971]","[0.35355339059327373, 0.35355339059327373, 0.3..."


***过滤掉用户访问物品列表和物品相似度列表交集为空的记录***

In [182]:
# 计算用户对某个物品的喜好分
def calculate_score(df):
    sim_list = df["sim_list"]
    score_list = df["score_list"]
    visitor_items = df["items"]
    list_len = len(sim_list)
    amount = 0.0
    for i in range(list_len):
        item = sim_list[i]
        if item in visitor_items:
            amount += score_list[i]
    return amount

t1 = time.time() 

visitors_and_items["score"] = visitors_and_items.apply(calculate_score, axis=1)
visitors_and_items = visitors_and_items.loc[visitors_and_items["score"] > 0.0]
print(visitors_and_items.shape[0])

t2 = time.time()
print(f"it takes: {t2 - t1: .5f}s")

visitors_and_items.head(10)


6070
it takes:  231.59480s


Unnamed: 0,visitorid,items,key,itemid,sim_list,score_list,score
8778,3172,[454818],0,118914,"[340960, 454818]","[0.4082482904638631, 0.25]",0.25
8821,3172,[454818],0,142459,"[212956, 63543, 454818]","[0.4082482904638631, 0.2182178902359924, 0.204...",0.204124
8928,3172,[454818],0,212956,"[142459, 63543, 454818]","[0.4082482904638631, 0.2672612419124244, 0.25]",0.25
11046,3581,[220793],0,70859,"[220793, 337204, 259920, 309056, 151385]","[0.4082482904638631, 0.4082482904638631, 0.333...",0.408248
11351,3581,[220793],0,259920,"[368112, 57251, 198506, 220793, 70859]","[0.4082482904638631, 0.4082482904638631, 0.408...",0.408248
12104,4249,[160127],0,240262,"[160127, 257551, 98547]","[0.5, 0.4082482904638631, 0.4082482904638631]",0.5
13360,4682,[256721],0,51275,"[135976, 184991, 277833, 300272, 256721]","[0.5, 0.5, 0.5, 0.5, 0.4082482904638631]",0.408248
13503,4682,[256721],0,135976,"[184991, 277833, 300272, 51275, 256721]","[0.5, 0.5, 0.5, 0.5, 0.4082482904638631]",0.408248
13720,4682,[256721],0,277833,"[300272, 51275, 135976, 184991, 256721]","[0.5, 0.5, 0.5, 0.5, 0.4082482904638631]",0.408248
13758,4682,[256721],0,300272,"[51275, 135976, 184991, 277833, 256721]","[0.5, 0.5, 0.5, 0.5, 0.4082482904638631]",0.408248


***按照得分高低排序***

In [184]:
# 移除不需要的列
final_scores = visitors_and_items[["visitorid", "itemid", "score"]]

# 按照得分高低排序
final_scores = final_scores.sort_values(["visitorid", "score"], ascending=False)
final_scores.head(30)

Unnamed: 0,visitorid,itemid,score
3502200,1407430,124264,0.25
3502322,1407430,198784,0.235702
3502268,1407430,167543,0.204124
3502302,1407430,187026,0.204124
3502346,1407430,214461,0.204124
3502542,1407430,330305,0.204124
3497249,1404265,424912,0.816497
3496941,1404265,246532,0.741582
3496982,1404265,280234,0.741582
3496614,1404265,46232,0.154303


## 实践课题一
> **问题**： 如果一个用户通过上述的Item-CF算法没有推出物品，我们是不是可以采取某种兜底逻辑。比如把指定时间段内的热门商品返回给用户。

> **题目**： 从给定的原始数据集中，给出从2015-08-01日之后被用户浏览最多次的商品排行榜top10

## 实践课题二
> **问题**： 我们通过不同的角度计算同一个用户的感兴趣的物品，在这里我们用基于用户的协同过滤算法，来给指定用户推荐物品。

> **题目**： 从给定的原始数据集中，给出从2015-09-01日之后被用户购买过商品的记录集合，用User-CF算法给用户推荐物品。

## 推荐的后续步骤 ##
到此，我们计算出了一个用户按照Item-CF协同过滤算法得到的推荐物品列表。不考虑其他更细节的问题，我们可以算是完成了一次完整的推荐过程。  
实际的推荐系统远比这个复杂，它需要考虑更多的问题，比如：  
* 如果某种算法算出的物品过少怎么办？是不是考虑换一个思路针对同一个用户再推荐一些物品？ -- 多路召回
* 如果给用户推荐的物品已经下架或者受其他因素影响不能展示，该如何处理？              -- 过滤
* 如果用不同的方法对同一个用户算出了很多物品，不同算法的得分如何用来统一衡量总体的得分？ -- 排序
* 如果考虑物品间的图片相似程度或者文本相似程度，这个又该如何处理这些数据并量化？       -- 图片特征值和nlp
* 如果数据量巨大，比如上千万或者上亿的数据处理，该如何去做？                        -- 大规模数据分析和处理

## 推荐系统的发展 ##
> 经典算法基础上的推荐系统
>> 建立在统计学基础上以传统机器学习为工具的推荐系统
>>> 建立在神经网络基础上的以深度学习为工具的推荐系统
>>>> 融合统计学及机器学习、神经网络、心理学、自然语言处理以和并行计算理论诸多学科的综合系统

## 结论语
还有很多很多问题，这都需要去摸索和解决。今天只是通过一个经典的推荐算法展示了一个完整的推荐处理流程，希望对大家有所帮助。