# 机器学习工程师纳米学位毕业项目 -- 推荐系统

---
## 目录

* [1. 定义](#contents1)

    * [1.1 项目概述](#contents11)

    * [1.2 问题称述](#contents12)

    * [1.3 评价指标](#contents13)

* [2. 分析](#contents2)

    * [2.1 数据探索](#contents21)
        
        * [2.1.1 用户数据](#contents211)
        
        * [2.1.2 电影数据](#contents212)
        
        * [2.1.3 评分数据](#contents213)

    * [2.2 算法和技术](#contents22)

        * [2.2.1 分类算法]()

        * [2.2.2 神经网络]()

        * [2.2.3 卷积神经网络]()

        * [2.2.4 技术]()
        
    * [2.4 基准模型](#contents24)

* [3. 具体方法]()

    * [3.1 数据预处理]()

    * [3.2 实现]()

    * [3.3 改进]()

* [4. 结果]()

    * [4.1 模型评价与验证]()

    * [4.2 结果分析]()

* [5. 结论]()

    * [5.1 结果可视化]()

    * [5.2 总结]()

    * [5.3 后续改进]()

---
<a id='contents1'></a>
## 1. 定义

<a id='contents11'></a>
### 1.1 项目概述

随着互联网的发展，人们正处于一个信息爆炸的时代。相比于过去的信息匮乏，面对现阶段海量的信息数据，对信息的筛选和过滤成为了衡量一个系统好坏的重要指标。一个具有良好用户体验的系统，会将海量信息进行筛选、过滤，将用户最关注最感兴趣的信息展现在用户面前。这大大增加了系统工作的效率，也节省了用户筛选信息的时间。

搜索引擎的出现在一定程度上解决了信息筛选问题，但还远远不够。搜索引擎需要用户主动提供关键词来对海量信息进行筛选。当用户无法准确描述自己的需求时，搜索引擎的筛选效果将大打折扣，而用户将自己的需求和意图转化成关键词的过程本身就是一个并不轻松的过程。

在此背景下，推荐系统出现了，推荐系统的任务就是解决上述的问题，联系用户和信息，一方面帮助用户发现对自己有价值的信息，另一方面让信息能够展现在对他感兴趣的人群中，从而实现信息提供商与用户的双赢。

传统的推荐方法主要包括协同过滤、基于内容的推荐方法和混合推荐方法。其中，最经典的算法是协同过滤，如矩阵因子分解，其利用用户与项目之间的交互信息为用户产生推荐，协同过滤是目前应用最为广泛的推荐算法，但是同时也遭遇到了严重的数据稀疏（一个用户评分过的项目仅仅占总项目数量的极少部分）和冷启动（新的用户和新的项目往往没有评分数据）问题。

近年来，深度学习在图像处理、自然语言理解和语音识别等领域取得了突破性进展，已经成为人工智能的一个热潮，为推荐系统的研究带来了新的机遇。一方面，深度学习可通过学习一种深层次非线性网络结构，表征用户和项目相关的海量数据，具有强大的从样本中学习数据集本质特征的能力，能够获取用户和项目的深层次特征表示。另一方面，深度学习通过从多源异构数据中进行自动特征学习，从而将不同数据映射到一个相同的隐空间，能够获得数据的统一表征，在此基础上融合传统推荐方法进行推荐，能够有效利用多源异构数据，缓解传统推荐系统中的数据稀疏和冷启动问题。基于深度学习的推荐系统研究目前已经成为推荐系统领域的研究热点之一。

本项目使用文本卷积神经网络，并利用MovieLens数据集完成电影推荐的任务。 

<a id='contents12'></a>
### 1.2 问题称述

本项目使用的是[MovieLens 1M 数据集](https://grouplens.org/datasets/movielens/)，构建用户特征和电影特征，使用这两个特征实现推荐功能。

本项目未实现可视化推荐，只是使用推荐结果输出的形式进行展现。项目主要解决如下问题：

1. 指定用户和电影进行评分
2. 推荐同类型的电影
3. 推荐您喜欢的电影
4. 看过这个电影的人还看了（喜欢）哪些电影

<a id='contents13'></a>
### 1.3 评价指标

本项目使用MSE作为评估指标，根据用户特征和电影特征做向量乘法，将结果与真实评分做回归，采用MSE优化损失。

平均平方误差MSE（Mean Squared Error）又被称为l2范数损失（l2-norm loss），是反映估计量与被估计量之间差异程度的一种度量。

公式如下：

$$MSE(y,\hat{y}) = \frac{1}{n_{samples}}\sum_{i=1}^{n_{sample}}(y_{i} - \hat{y_{i}})^{2}$$

MSE可以评价数据的变化程度，MSE越小，说明模型的拟合实验数据能力强

---
<a id='contents2'></a>
## 2. 分析

<a id='contents21'></a>
### 2.1 数据探索和可视化

本项目使用的是[MovieLens 1M 数据集](https://grouplens.org/datasets/movielens/)，这些数据集大约包含6040个用户在3900部电影上的1000209个匿名评级。

数据集分为三个文件：用户数据users.dat，电影数据movies.dat和评分数据ratings.dat。

<a id='contents211'></a>
#### 2.1.1 用户数据

分别有用户ID、性别、年龄、职业ID和邮编等字段。

数据中的格式：UserID::Gender::Age::Occupation::Zip-code

- Gender is denoted by a "M" for male and "F" for female
- Age is chosen from the following ranges:

	*  1:  "Under 18"
	* 18:  "18-24"
	* 25:  "25-34"
	* 35:  "35-44"
	* 45:  "45-49"
	* 50:  "50-55"
	* 56:  "56+"

- Occupation is chosen from the following choices:

	*  0:  "other" or not specified
	*  1:  "academic/educator"
	*  2:  "artist"
	*  3:  "clerical/admin"
	*  4:  "college/grad student"
	*  5:  "customer service"
	*  6:  "doctor/health care"
	*  7:  "executive/managerial"
	*  8:  "farmer"
	*  9:  "homemaker"
	* 10:  "K-12 student"
	* 11:  "lawyer"
	* 12:  "programmer"
	* 13:  "retired"
	* 14:  "sales/marketing"
	* 15:  "scientist"
	* 16:  "self-employed"
	* 17:  "technician/engineer"
	* 18:  "tradesman/craftsman"
	* 19:  "unemployed"
	* 20:  "writer"

<img src="assets/user_data_head.png"/>

用户数据中年龄分布：

<img src="assets/user_age.png"/>

用户数据中性别分布：

<img src="assets/user_gender.png"/>

用户数据中职业分布：

<img src="assets/user_occupationID.png"/>

从用户数据分布可以看出：

- 从Age分布来看18-44岁之间看电影的人最多
- 从Gender分布来看男性看电影人数是女性的两倍多
- 从Occupation分布来看从事以下职业看电影人数最多
    - 0: "other" or not specified
    - 1: "academic/educator"
    - 4: "college/grad student"
    - 7: "executive/managerial"
    - 17: "technician/engineer"

其中邮编字段是本项目不使用的。

<a id='contents212'></a>
#### 2.1.2 电影数据

分别有电影ID、电影名和电影风格等字段。

数据中的格式：MovieID::Title::Genres

- Titles are identical to titles provided by the IMDB (including
year of release)
- Genres are pipe-separated and are selected from the following genres:

	* Action
	* Adventure
	* Animation
	* Children's
	* Comedy
	* Crime
	* Documentary
	* Drama
	* Fantasy
	* Film-Noir
	* Horror
	* Musical
	* Mystery
	* Romance
	* Sci-Fi
	* Thriller
	* War
	* Western
    
<img src="assets/movie_data_head.png"/>

单词最多的Title单词个数为15个，Title如下：

<img src="assets/max_length_titile.png"/>

<a id='contents213'></a>
#### 2.1.3 评分数据

分别有用户ID、电影ID、评分和时间戳等字段。

数据中的格式：UserID::MovieID::Rating::Timestamp

- UserIDs range between 1 and 6040 
- MovieIDs range between 1 and 3952
- Ratings are made on a 5-star scale (whole-star ratings only)
- Timestamp is represented in seconds since the epoch as returned by time(2)
- Each user has at least 20 ratings

<img src="assets/rating_data_head.png"/>

评分数据中评分分布：

<img src="assets/rating_rating.png"/>

从评分数据分布可以看出：

- 从评分来看大多数电影的评分为3-5分

评分字段Rating是本项目要学习的targets，时间戳字段本项目不使用。

<a id='contents22'></a>
### 2.2 算法和技术



<a id='contents24'></a>
### 2.4 基准模型

数据集使用：

**MovieLens电影评分数据集**
这个也是一个非常经典的数据集，数据集地址：

https://grouplens.org/datasets/movielens/

有用户对电影的评分，tag数据量也蛮大的，有24,000,000 ratings and 670,000 tag applications applied to 40,000 movies by 260,000 users

**Last.fm音乐推荐数据集**
这个是数据集还是蛮丰富的，有用户信息，用户听艺术家信息歌曲的信息，还有用户对艺术家打标签的侵袭，更有用户之间好友信息，数据量1892 users，17632 artists 
数据集地址：

https://grouplens.org/datasets/hetrec-2011/ 
（其实这个数据集地址跟上面那个都是在一块的）

这个数据集拿来做推荐的话，可以把艺术家播放次数作为用户的评分

## Reference

* [深度丨从零搭建推荐体系](https://www.jianshu.com/p/d585b3938dea)

* http://cjc.ict.ac.cn/online/bfpub/hlww-2018124152810.pdf

* https://grouplens.org/datasets/movielens/

* [使用MovieLens数据集训练的电影推荐系统](https://www.ctolib.com/chengstone-movie_recommender.html)

* [推荐系统入门代码（关于MovieLens数据集）](https://www.jianshu.com/p/4df21635d13c)

* [推荐系统-基于用户的最近邻协同过滤算法（MovieLens数据集）](https://blog.csdn.net/recsysml/article/details/12287587)

* [基于Movielens-1M数据集实现的User Based Collaborative Filtering和Item Based Collaborative Filtering推荐算法](https://github.com/Lockvictor/MovieLens-RecSys)

* [数据挖掘-MovieLens数据集_电影推荐_亲和性分析 Aprioro算法](https://blog.csdn.net/zhangyingchengqi/article/details/54924122)

* [MovieLens数据集](https://www.kesci.com/apps/home/dataset/5a69840dafceb51770d60948)

* [推荐系统实践-评分预测问题](https://www.jianshu.com/p/d7e1df5714dc)

* [评分预测问题](https://blog.csdn.net/jingyi130705008/article/details/80639604)

* [【总结】深度学习在推荐领域的应用](https://blog.csdn.net/dengxing1234/article/details/76147052)

* [专治选择困难症——bandit算法](https://zhuanlan.zhihu.com/p/21388070)