## Description：
这个笔记本尝试实现一下项亮推荐系统实践里面的UserCF算法， 采用的数据集是GroupLens提供的MovieLens的其中一个小数据集ml-latest-small。 该数据及包含700个用户对带有6100个标签的10000部电影的100000条评分。 该数据集是一个评分数据集， 用户可以给电影评5个不同等级的分数(1-5)， 而由于我们主要是研究隐反馈数据中的topN推荐问题， 所以忽略了数据集中的评分记录。  **TopN推荐的任务是预测用户会不会对某部电影评分， 而不是预测用户在准备对某部电影评分的前提下给电影评多少分**， 下面我们开始， 从逻辑上看， 其实这个任务主要分为下面的步骤：
1. 导入数据， 读取文件得到"用户-电影"的评分数据， 并且分为训练集和测试集
2. 计算用户之间的相似度
3. 针对目标用户u， 找到其最相似的k个用户， 产生N个推荐
4. 产生推荐之后， 通过准确率、召回率和覆盖率等进行评估。

In [3]:
import random
import numpy as np
import pandas as pd

import math
from operator import itemgetter

## 读入数据
读取文件得到"用户-电影"的评分数据， 并且分为训练集和测试集， 这里的思想是首先给出数据存在的路径， 然后通过pandas读取数据， 然后遍历该数据集， 把相应的数据存放到字典中， 这里之所以会用字典， 是因为用户对电影的评分会存在大量的稀疏。 所以我们依然需要建立一个"{用户：{电影: 评分}}"的这样一个字典， 后面基于这个字典去计算相似度。 如果感觉下面的代码理解有困难， 可以先参考我给出的博客链接补一下基础。

In [7]:
data_path = './ml-latest-small/'
data = pd.read_csv(data_path+'ratings.csv')
data.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [9]:
data.pivot(index='userId', columns='movieId', values='rating')   # 这样会发现有大量的稀疏， 所以才会用字典进行存放

movieId,1,2,3,4,5,6,7,8,9,10,...,193565,193567,193571,193573,193579,193581,193583,193585,193587,193609
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,4.0,,4.0,,,4.0,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,4.0,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
606,2.5,,,,,,2.5,,,,...,,,,,,,,,,
607,4.0,,,,,,,,,,...,,,,,,,,,,
608,2.5,2.0,2.0,,,,,,,4.0,...,,,,,,,,,,
609,3.0,,,,,,,,,4.0,...,,,,,,,,,,


In [14]:
# 声明两个字典， 分别是训练集和测试集
trainSet, testSet = {}, {}
trainSet_len, testSet_len = 0, 0
pivot = 0.75    # 训练集的比例

# 遍历data的每一行， 把userId, movidId, rating按照{user: {movidId: rating}}的方式存储， 当然定义一个随机种子进行数据集划分
for ele in data.itertuples():   # 遍历行这里推荐用itertuples， 比iterrows会高效很多
    user, movie, rating = getattr(ele, 'userId'), getattr(ele, 'movieId'), getattr(ele, 'rating')
    if random.random() < pivot:
        trainSet.setdefault(user, {})
        trainSet[user][movie] = rating
        trainSet_len += 1
    else:
        testSet.setdefault(user, {})
        testSet[user][movie] = rating 
        testSet_len += 1

print('Split trainingSet and testSet success!')
print('TrainSet = %s' % trainSet_len)
print('TestSet = %s' % testSet_len)

Split trainingSet and testSet success!
TrainSet = 75593
TestSet = 25243


## 计算用户之间的相似度
这里用到了一个技巧， 我们知道， 计算出用户相似度来之后要存入到相似度矩阵里面， 所以这里先定义一个用户相似度矩阵来存放各个用户之间的相似度。 然后就是计算用户的相似度， 由于这里不涉及到评分问题（我们的任务是解决TopN推荐，即判断是不是用户要对电影打分）， 所以这里可以采用余弦相似度距离来计算用户之间的相似度。 余弦相似度求两个用户之间的过程如下：

![](./images/1.png)

这时候我们一般的思路就是遍历两遍用户表， 对于每两个不同的用户， 我们根据上面的计算公式去计算他们的相似度。 但是这时候， 时间复杂度是$O(|U|*|U|)$， 这在用户数很多的时候会非常耗时， 而事实上， 很多用户相互之间并没有对同样的物品产生过行为， 即**大部分情况下两个用户对同一物品打分的情况会很少很少**， 还记得上面的透视表吗？ 这时候我们可以换一种思路， 首先计算出两个用户对同一物品都打过分的用户对$(u, v)$, 然后对这种情况除以$\sqrt{|N(u)||N(v)|}$。 这时候就需要建立物品到用户的倒排表， 对于每个物品都保存对该物品产生过行为的用户列表。 

![](./images/2.png)

这时候， 扫描一遍倒排表， 将用户列表中两两用户对应的那个位置元素进行累加统计， 就可以得到所有用户之间同时对同一物品发生行为的次数， 也就是余弦相似度的分子。比如上面的那个倒排表中， 首先建立一个$4*4$的用户相似度矩阵$W$，对于物品a， $W[A][B]$和$W[B][A]$加1， 对于物品b， 将$W[A][C]$和$W[C][A]$加1， 依次类推， 就可以得到最终的矩阵$W$。 

In [24]:
user_sim_matrix = {}

# 构建“电影-用户”倒排索引    # key = movidID,  value=list of userIDs who have seen this move
print('Building movie-user table ...')
movie_user = {}
for user, movies in trainSet.items():   # 这里的user就是每个用户， movies还是个字典， {movieID: rating}
    for movie in movies:       # 这里的movie就是movieID了
        if movie not in movie_user:     # 如果movidID没在倒排索引里面
            movie_user[movie] = set()  # 声明这个键的值是set， 保证用户不重复
        movie_user[movie].add(user)     # 把用户加进去， 看上面的图就明白了
print('Build movie-user table success!')


# 下面建立用户相似矩阵
movie_count = len(movie_user)
print('Total movie number = %d' % movie_count)

print('Build user co-rated movies matrix ...')
for movie, users in movie_user.items():     # movid是movieID， users是set集合
    for u in users:           # 对于每个用户， 都得双层遍历
        for v in users:
            if u == v:
                continue
            user_sim_matrix.setdefault(u, {})      # 把字典的值设置为字典的形式
            user_sim_matrix[u].setdefault(v, 0)
            user_sim_matrix[u][v] += 1     # 这里统计两个用户对同一部电影产生行为的次数， 这个就是余弦相似度的分母
print('Build user co-rated movies matrix success!')

# 下面计算用户之间的相似性
print('Calculating user similarity matrix ...')
for u, related_users in user_sim_matrix.items():
    for v, count in related_users.items():    # 这里面v是相关用户， count是共同对同一部电影打分的次数
        user_sim_matrix[u][v] = count / math.sqrt(len(trainSet[u]) * len(trainSet[v]))   # len 后面的就是用户对电影产生过行为的个数   
print('Calculate user similarity matrix success!')

Building movie-user table ...
Build movie-user table success!
Total movie number = 8765
Build user co-rated movies matrix ...
Build user co-rated movies matrix success!
Calculating user similarity matrix ...
Calculate user similarity matrix success!


## 针对目标用户u， 找到其最相似的k个用户， 产生N个推荐
得到用户的兴趣相似度后， UserCF算法会对用户推荐和他兴趣最相似的K个用户喜欢的物品。 下面公式度量了UserCF算法中用户u对物品i的感兴趣程度：
$$p(u, i)=\sum_{v \in S(u, K) \cap N(i)} w_{u v} r_{v i}$$
其中， $S(u,k)$包含和兴趣u兴趣最接近的K个用户， $N(i)$是对物品i有过行为的用户集合， $w_{uv}$是用户u和用户v的兴趣相似度， $r_{vi}$代表用户v对物品i的兴趣， 因为使用单一行为的隐反馈数据， 所以这里$r_{vi}=1$<br><br>

所以下面的代码逻辑是这样：
* 首先， 给定我一个用户ID， 我先拿到这个用户ID目前看过的所有电影， 以防后面推荐重了。  
* 然后从相似性矩阵中，找到与当前用户最相近的K个用户
* 遍历他们看过的电影， 如果当前用户没有看过， 该电影的权重等级累加
* 最后给所有的电影进行排序， 推荐前n部给当前用户

In [25]:
# 找到最相似的20个用户， 产生10个推荐
k = 20
n = 10

aim_user = 3      # 目标用户ID
rank ={}
watched_movies = trainSet[aim_user]      # 找出目标用户看到电影

# 下面从相似性矩阵中找到与aim_user最相近的K个用户

# v 表示相似用户， wuv表示相似程度
for v, wuv in sorted(user_sim_matrix[aim_user].items(), key=lambda x: x[1], reverse=True)[0:k]:  # 字典按值从大到小排序， 相关性高到第
    
    # 把v用户看过的电影推荐给目标用户
    for movie in trainSet[v]:
        if movie in watched_movies:
            continue
        rank.setdefault(movie, 0)
        rank[movie] += wuv
    

# 产生最后的推荐列表
rec_movies = sorted(rank.items(), key=itemgetter(1), reverse=True)[:n]  # itemgetter(1) 是简洁写法

In [26]:
rec_movies

[(50, 0.7203832695490756),
 (318, 0.6420762634317767),
 (1097, 0.6146584283658186),
 (457, 0.603423178647777),
 (480, 0.5923937334471672),
 (1197, 0.5516471056998656),
 (1198, 0.5490620626206103),
 (527, 0.5487288351652937),
 (1196, 0.5453402293063451),
 (1210, 0.5388788288155224)]

## 产生推荐之后， 通过准确率、召回率和覆盖率等进行评估。
这里介绍评测指标：<br><br>
1. 召回率<br>
对用户u推荐N个物品记为$R(u)$, 令用户u在测试集上喜欢的物品集合为$T(u)$， 那么召回率定义为：
$$\operatorname{Recall}=\frac{\sum_{u}|R(u) \cap T(u)|}{\sum_{u}|T(u)|}$$
这个意思就是说， 在用户真实购买或者看过的影片里面， 我模型真正预测出了多少， 这个考察的是模型推荐的一个全面性。 <br>

2. 准确率<br>
准确率定义为：
$$\operatorname{Precision}=\frac{\sum_{u} \mid R(u) \cap T(u)}{\sum_{u}|R(u)|}$$
这个意思再说， 在我推荐的所有物品中， 用户真正看的有多少， 这个考察的是我模型推荐的一个准确性。 <br><br>
为了提高准确率， 模型需要把非常有把握的才对用户进行推荐， 所以这时候就减少了推荐的数量， 而这往往就损失了全面性， 真正预测出来的会非常少，所以实际应用中应该综合考虑两者的平衡。

3. 覆盖率
覆盖率反映了推荐算法发掘长尾的能力， 覆盖率越高， 说明推荐算法越能将长尾中的物品推荐给用户。
$$\text { Coverage }=\frac{\left|\bigcup_{u \in U} R(u)\right|}{|I|}$$
该覆盖率表示最终的推荐列表中包含多大比例的物品。如果所有物品都被给推荐给至少一个用户， 那么覆盖率是100%。

4. 新颖度
用推荐列表中物品的平均流行度度量推荐结果的新颖度。 如果推荐出的物品都很热门， 说明推荐的新颖度较低。  由于物品的流行度分布呈长尾分布， 所以为了流行度的平均值更加稳定， 在计算平均流行度时对每个物品的流行度取对数。

In [27]:
# 这里先把产生推荐的那个封装成函数才能测试所有的测试样本
def recommend(aim_user, k=20, n=10):
    
    rank ={}
    watched_movies = trainSet[aim_user]      # 找出目标用户看到电影

    # 下面从相似性矩阵中找到与aim_user最相近的K个用户

    # v 表示相似用户， wuv表示相似程度
    for v, wuv in sorted(user_sim_matrix[aim_user].items(), key=lambda x: x[1], reverse=True)[0:k]:  # 字典按值从大到小排序， 相关性高到第

        # 把v用户看过的电影推荐给目标用户
        for movie in trainSet[v]:
            if movie in watched_movies:
                continue
            rank.setdefault(movie, 0)
            rank[movie] += wuv
    return sorted(rank.items(), key=itemgetter(1), reverse=True)[:n]

In [35]:
# 准确率、召回率和覆盖率
hit = 0
rec_count = 0     # 统计推荐的影片数量， 计算查准率
test_count = 0    # 统计测试集的影片数量， 计算查全率
all_rec_movies = set()    # 统计被推荐出来的影片个数， 无重复了， 为了计算覆盖率
item_populatity = dict()   # 计算新颖度

# 先计算每部影片的流行程度
for user, items in trainSet.items():
    for item in items.keys():
        if item not in item_populatity:
            item_populatity[item] = 0
        item_populatity[item] += 1    # 这里统计训练集中每部影片用户观看的总次数， 代表每部影片的流行程度


# 计算评测指标
ret = 0
ret_cou = 0
for user, items in trainSet.items():    # 这里得保证测试集里面的用户在训练集里面才能推荐
    
    test_movies = testSet.get(user, {})
    rec_movies = recommend(user)
    for movie, w in rec_movies:
        if movie in test_movies:
            hit += 1
        all_rec_movies.add(movie)
        ret += math.log(1+item_populatity[movie])
        ret_cou += 1
    rec_count += n
    test_count += len(test_movies)
    
    
precision = hit / (1.0 * rec_count)
recall = hit / (1.0 * test_count)
coverage = len(all_rec_movies) / movie_count
ret /= ret_cou*1.0
    
print('precisioin = %.4f\nrecall = %.4f\ncoverage = %.4f\npopularity = %.4f' % (precision, recall, coverage, ret))

precisioin = 0.3018
recall = 0.0729
coverage = 0.0430
popularity = 4.7947
