### Hadoop3.3 + Spark3.0 + IPython3.7 机器学习与大数据实战
![image.png](attachment:image.png)
## <center>电影推荐引擎 >>> 基于ALS算法 实现协同过滤式推荐</center>
### <center>策略制定及验证：张君颖  ； 报告日期：2020.12.16</center>  
  
<font color=blue><center>作者邮箱：zhang.jun.ying@outlook.com</center></font>   
  
<font color=blue><center>项目源代码、数据、自定义函数已上传GitHub：</center></font>   
    
<font color=blue><center>https://github.com/lotbear/Python-Financial-investment-strategy</center></font>

=======================================================================
### 常用的推荐引擎算法介绍

![image.png](attachment:image.png)

### 协同过滤式推荐的优缺点

![image.png](attachment:image.png)

#### 互联网应用场景中，一般使用混合式的方法，可以达到互补的效果，进而给用户更好的个性化推荐体验。

### 电影推荐引擎 >>> 数据描述
数据来源：https://grouplens.org/datasets/movielens/

GroupLens 实验室隶属于明尼苏达大学，MovieLens 网站是其中一个项目，该项目主要通过使用协同过滤技术 向会员推荐电影，是一个推荐系统和虚拟社区网站。  

由于完整版的用户观影数据较大，对服务器的配置要求较高，因此，我们选择较小版本的数据集进行算法测试。   

![image.png](attachment:image.png)

通过该网站下载的数据包中有 4 个 csv 格式文件，一个 README 文本，README中介绍了数据的大致情况。   

具体来看，4 个数据文件夹，包含了 14 个参数变量，通用的索引变量 3个（ userId / movieId / timestamp ）。   

#### 1. tags 文件主要展示不同用户，看过的不同电影，以及这些电影的风格，观影时间。   
<font color=blue> tags.csv: </font>userId（用户id），movieId（电影id)，tag（电影风格），timestamp（观影时间）   

#### 2. links 文件主要展示 “ 同一部电影，其他观影网站可被链接的电影数据 id “。   
<font color=blue> links.csv: </font>movieId（电影id），imdbId（<imdb.com> 网站上对应的电影 id），tmdbId（<themoviedb.org> 网站上对应的电影 id）   

#### 3. movies 文件主要展示不同电影 id 所对应的电影片名 和 电影类型。   
<font color=blue> movies.csv: </font>movieId（电影id），title（电影片名），genres（电影类型）

#### 4. ratings：不同用户，看过的电影 id，并给予的评分，以及观影时间。   
<font color=blue> ratings.csv: </font>userId（用户id），movieId（电影id），rating（评分），timestamp（观影时间）

### 电影推荐引擎 >>> 项目分析
#### 拿到数据后，我们首先要 “ 分析问题 ”：   

电影推荐是一种个性化的推荐机制，其核心是用户的兴趣和偏好。  

我们目前掌握的数据中，genres（电影类型）/ tag（电影风格）是人为设置的电影标签数据，并非用户观影反馈数据，如果以这两个标签作为推荐参考，可能有些机械化，不能更动态地捕捉用户偏好和新的兴趣点。   

#### 因此，我们设计的推荐解决方案是：引入 “ 协同过滤筛选机制 ”：    

<font color=blue>通过观察所有观影用户 对同一影片的评分，推断每个用户的喜好，并将评分相似的用户定义为喜好相似的用户，在喜好相似的用户中，若有人看过某一影片，且给出了高分，那么就将该影片推荐给其他相同喜好，但还未观影的用户。</font>  

本次报告，我们选用 2 个数据文件，6 个参数变量，来进行协同过滤式推荐算法的实战：   

<font color=blue> movies.csv</font> ： <font color=red> movieId（电影id)</font>，<font color=red>title（电影片名）</font>    
<font color=blue>ratings.csv</font> ： <font color=red>userId（用户id）</font>，<font color=red>movieId（电影id)</font>，<font color=red>ranting（评分）</font>，<font color=red>timestamp（观影时间）</font>  

### 电影推荐引擎 >>> 算法实战

#### 第一步：数据上传 Hadoop-HDFS 分布式平台后，用 Saprk 命令读取/查看/处理。

In [1]:
# 查看 Spark 的运行模式，本次算法基于 Hadoop-yarn 架构
# 实现 4 台虚拟机同步进行的分布式运算
print('查看 Spark 的运行模式：',str(sc.master))

查看 Spark 的运行模式： yarn


In [2]:
# 设置全局数据集的路径
# 若 sc.master 查看显示的运行模式为 "local",则使用本地数据集
# 若 sc.master 查看显示的运行模式为其他，如 "yarn"，"spark://master:7077"(Standalone模式)
# 则选择 HDFS 上的数据集
global Path    
if sc.master[0:5]=="local" :
   Path="file:/home/lotbear/Big-Data/movie_rec/"
else:   
   Path="hdfs://master:9000/user/lotbear/data/movie_rec/"

In [3]:
# 将 ratings 数据读取为 rawUserData（原始用户数据）
rawUserData = sc.textFile(Path+"ratings.csv")
print('用户电影评分数据量：',rawUserData.count())

用户电影评分数据量： 100837


In [4]:
# 读取 rawUserData 前 5 行数据
for x in rawUserData.take(5): 
    print(x)

userId,movieId,rating,timestamp
1,1,4.0,964982703
1,3,4.0,964981247
1,6,4.0,964982224
1,47,5.0,964983815


In [5]:
# 删除首行 “表头” 数据
header = rawUserData.first()
rawUserData = rawUserData.filter(lambda x:x !=header)
rawUserData.take(5)

['1,1,4.0,964982703',
 '1,3,4.0,964981247',
 '1,6,4.0,964982224',
 '1,47,5.0,964983815',
 '1,50,5.0,964982931']

In [6]:
# 通过 map 命令,读取 rawUserData 前 3个字段数据
# 转换成新的 RDD 数据: rawRatings
rawRatings = rawUserData.map(lambda line: line.split(",")[:3] )
print('rawRatings 数据类型：',type(rawRatings))
rawRatings.take(5)

rawRatings 数据类型： <class 'pyspark.rdd.PipelinedRDD'>


[['1', '1', '4.0'],
 ['1', '3', '4.0'],
 ['1', '6', '4.0'],
 ['1', '47', '5.0'],
 ['1', '50', '5.0']]

#### 由于 ALS 训练数据的格式为 Rating RDD:
Rating ( user , product , rating )    
因此，我们需要对数据进一步处理

In [7]:
# 导入 Rating 模块
from pyspark.mllib.recommendation import Rating
ratingsRDD = rawRatings.map(lambda x: (x[0],x[1],x[2]))
ratingsRDD.take(5)

[('1', '1', '4.0'),
 ('1', '3', '4.0'),
 ('1', '6', '4.0'),
 ('1', '47', '5.0'),
 ('1', '50', '5.0')]

In [8]:
# 定义变量 numRatings 评分数量
numRatings = ratingsRDD.count()
numRatings

100836

In [9]:
# 定义变量 numUsers 用户数量（去重）
numUsers = ratingsRDD.map(lambda x: x[0] ).distinct().count()
numUsers 

610

In [10]:
# 定义变量 numMovies 电影数量（去重）
numMovies = ratingsRDD.map(lambda x: x[1]).distinct().count() 
numMovies

9724

In [11]:
# RDD 数据持久化，方便多次调用
ratingsRDD.persist()

PythonRDD[19] at RDD at PythonRDD.scala:53

#### 第二步：导入 ALS 算法训练模型 

In [12]:
from pyspark.mllib.recommendation import ALS

#### ALS.train() 可以分为显式评分 和 隐式评分
ALS.train ( ratings, rank, iterations=5, lambda_=0.01 )     
ALS.trainImplicit ( ratings, rank, iterations=5, lambda_=0.01 )      
其中，rank 参数为矩阵分解参数，iterations 为算法重复次数，lambda 为阈值   

两个模型，均返回 MatrixFactorizationModel 模型：  
rank: 分解的参数   
userFeatures: 分解后用户矩阵 X（ m \* rank )   
productFeatures: 分解后产品矩阵 Y（ rank \* n )   
原数据矩阵： A （ m \* n )  

In [13]:
model = ALS.train(ratingsRDD, 10, 10, 0.01)
print(model)

<pyspark.mllib.recommendation.MatrixFactorizationModel object at 0x7efefc598c18>


### 电影推荐引擎 >>> 使用训练好的模型进行电影推荐

#### 当我们想对同一用户进行多部电影推荐时
#### <font color=red>recommendProducts</font> 函数可以帮我们找到用户可能最感兴趣的电影，并进行排名
函数 recommendProducts( user:Int, num:Int )   

其中 user 为要被推荐的用户 id  ,  num 为推荐的电影数量   

推荐的电影会以 “评分” 从高到低 进行自动排序

In [14]:
model.recommendProducts(101,5)

[Rating(user=101, product=1354, rating=8.547775151630326),
 Rating(user=101, product=61240, rating=7.0235667804659165),
 Rating(user=101, product=116897, rating=6.848953777481393),
 Rating(user=101, product=7587, rating=6.822385808483451),
 Rating(user=101, product=2239, rating=6.800370072222392)]

In [15]:
# 我们可以从模型中，查找给用户推荐的特定电影的评分
# 如：userID=100, movieID=179819, 查看评分 rating 的值
model.predict(101, 179819)

5.773527191827356

#### 当我们想促销某部电影时
#### <font color=red>recommendUsers</font>  函数可以帮我们找到对这部电影最感兴趣的用户，并进行排名

In [16]:
model.recommendUsers(product=110,num=5)

[Rating(user=53, product=110, rating=6.977144521639186),
 Rating(user=543, product=110, rating=5.598110428734583),
 Rating(user=360, product=110, rating=5.594789849108189),
 Rating(user=364, product=110, rating=5.5715959182777475),
 Rating(user=337, product=110, rating=5.523103634928935)]

### 电影推荐引擎 >>> 显示推荐的电影的名称

In [17]:
itemRDD = sc.textFile(Path+"movies.csv")
print('电影数据总量：',itemRDD.count())

电影数据总量： 9743


In [18]:
# 读取 rawUserData 前 5 行数据
for x in itemRDD.take(5): 
    print(x)

movieId,title,genres
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama|Romance


In [19]:
# 删除首行 “表头” 数据
header = itemRDD.first()
itemRDD = itemRDD.filter(lambda x:x !=header)
itemRDD.take(5)

['1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy',
 '2,Jumanji (1995),Adventure|Children|Fantasy',
 '3,Grumpier Old Men (1995),Comedy|Romance',
 '4,Waiting to Exhale (1995),Comedy|Drama|Romance',
 '5,Father of the Bride Part II (1995),Comedy']

In [20]:
# 将电影id 与 电影名，生成 字典数据形式，方便调取
movieTitle= itemRDD.map( lambda line : line.split(","))\
                                   .map(lambda a: (float(a[0]),a[1]))\
                                   .collectAsMap()
print('movieTitle 数据类型:',type(movieTitle))
print('数据量：',len(movieTitle))

movieTitle 数据类型: <class 'dict'>
数据量： 9742


In [21]:
# 显示前 5 部电影名
for i in range(1,6): 
    print(str(i)+":"+movieTitle[i])

1:Toy Story (1995)
2:Jumanji (1995)
3:Grumpier Old Men (1995)
4:Waiting to Exhale (1995)
5:Father of the Bride Part II (1995)


### <font color=red>>>> 为用户个性化推荐电影</font>   
### 为 id=101 的用户，推荐 10 部电影
### 并预测其对该电影的满意度 / 评分，按从高到低排序

In [22]:
RecommendMovies= model.recommendProducts(101,10) 
for m in RecommendMovies:
    print("对用户"+ str(m[0]) + \
          "，推荐电影："+ str(movieTitle[m[1]]) + \
          "，\n推荐评分："+ str(m[2]))
    print('='*50)

对用户101，推荐电影：Breaking the Waves (1996)，
推荐评分：8.547775151630326
对用户101，推荐电影：Let the Right One In (Låt den rätte komma in) (2008)，
推荐评分：7.0235667804659165
对用户101，推荐电影：Wild Tales (2014)，
推荐评分：6.848953777481393
对用户101，推荐电影："Samouraï，
推荐评分：6.822385808483451
对用户101，推荐电影：Swept Away (Travolti da un insolito destino nell'azzurro mare d'Agosto) (1975)，
推荐评分：6.800370072222392
对用户101，推荐电影：Public Enemies (2009)，
推荐评分：6.774216170666146
对用户101，推荐电影：Inside Job (2010)，
推荐评分：6.77358663650449
对用户101，推荐电影：Deconstructing Harry (1997)，
推荐评分：6.581445573845701
对用户101，推荐电影：Split (2017)，
推荐评分：6.49950209981287
对用户101，推荐电影：Igby Goes Down (2002)，
推荐评分：6.45149947417833


### <font color=red>>>> 为电影推广，寻找潜在用户</font>
### 为 id=202 的电影，寻找 10 位可能感兴趣的用户
### 并预测用户对该电影的满意度 / 评分，按从高到低排序

In [23]:
RecommendUser = model.recommendUsers(202, 10) 
print("针对电影id:202 , 电影名:{0}推荐下列用户id:". \
        format(movieTitle[202]))
print(' ')
for u in RecommendUser:
        print("针对用户id {0}  推荐评分 {1}".format( u[0],u[2]))
        print('='*50)

针对电影id:202 , 电影名:Total Eclipse (1995)推荐下列用户id:
 
针对用户id 301  推荐评分 4.546316847444679
针对用户id 393  推荐评分 4.419571323079257
针对用户id 138  推荐评分 4.243625032404518
针对用户id 295  推荐评分 4.189083167022634
针对用户id 467  推荐评分 4.153077030931658
针对用户id 224  推荐评分 4.0035934962164585
针对用户id 403  推荐评分 3.9444925188114652
针对用户id 548  推荐评分 3.8390845637413804
针对用户id 530  推荐评分 3.8335214407387648
针对用户id 572  推荐评分 3.8176448025680476


### >>> 本报告运行的软件架构

Linux-Ubuntu 20.10 + Hadoop 3.3 + Spark 3 + Java 11 + Scala 2.12 + Python 3.7 + Anaconda 3    

1 台 master 主机，负责 HDFS：NameNode + MapReduce（Yarn）：ResourceManager    

3 台 data 辅助计算机，负责 HDFS：DataNode + MapReduce（Yarn）：NodeManager   

所有 HDFS 文件分布式存储在 4 台电脑上，且各有 3 份备份    

具体配置过程，请参见作者另一篇报告《Hadoop+Spark+IPython>>>RDD大数据分布式运算（基础篇）》   

### <center><font color=red>查看 HDFS 分布式数据平台，数据存储情况：</center>  

![image.png](attachment:image.png)

### <center><font color=red>查看 Hadoop 大数据架构 + 电影推荐引擎项目运行情况：</center>  

![image.png](attachment:image.png)