# 机器学习工程师纳米学位毕业项目 -- 推荐系统

---
## 目录

* [1. 定义](#contents1)

    * [1.1 项目概述](#contents11)

    * [1.2 问题称述](#contents12)

    * [1.3 评价指标](#contents13)

* [2. 分析](#contents2)

    * [2.1 数据可视化](#contents21)

    * [2.2 算法和技术](#contents22)

        * [2.2.1 分类算法]()

        * [2.2.2 神经网络]()

        * [2.2.3 卷积神经网络]()

        * [2.2.4 技术]()
    * [2.3 基准模型](#contents23)

* [3. 具体方法]()

    * [3.1 数据预处理]()

    * [3.2 实现]()

    * [3.3 改进]()

* [4. 结果]()

    * [4.1 模型评价与验证]()

    * [4.2 结果分析]()

* [5. 结论]()

    * [5.1 结果可视化]()

    * [5.2 总结]()

    * [5.3 后续改进]()

---
<a id='contents1'></a>
## 1. 定义

<a id='contents11'></a>
### 1.1 项目概述

本项目使用文本卷积神经网络，并使用[MovieLens数据集](https://grouplens.org/datasets/movielens/)完成电影推荐的任务。

近年来，随着云计算、大数据、物联网等技术的迅猛发展，互联网空间中各类应用的层出不穷引发了数据规模的爆炸式增长。根据国际数据集团（IDC）2012年的一份报告显示：到2020年，预计全球数据总量是2011年的22倍，将达到35.2ZB。大数据中蕴含着丰富的价值与巨大的潜力，将给人类社会带来变革性的发展，但同时也带来了严重的“信息过载”问题，如何快速有效地从纷繁复杂的数据中获取有价值的信息成为了当前大数据发展的关键难题。推荐系统作为解决“信息过载”问题的有效方法，已经 成为学术界和工业界的关注热点并得到了广泛应用，形成了众多相关研究成果。推荐系统根据用户需求、兴趣等，通过推荐算法从海量数据中挖掘出用户感兴趣的项目（如信息、服务、物品等），并将结果以个性化列表的形式推荐给用户。目前，推荐系统在很多领域得到了成功应用，包括电子商务（如Amazon、eBay、Netflix、阿里巴巴等）、信息检索（如iGoogle、MyYahoo、百度等）、社交网络（Facebook、Twitter、腾讯等）、位置服务（如Foursquare、Yelp、大众点评等）、新闻推送（如Google News、GroupLens、今日头条等）等各个领域。

传统的推荐方法主要包括协同过滤、基于内容的推荐方法和混合推荐方法。其中，最经典的算法是协同过滤，如矩阵因子分解，其利用用户与项目之间的交互信息为用户产生推荐，协同过滤是目前应用最为广泛的推荐算法，近年来在Netflix大奖赛中屡获大奖，但是同时也遭遇到了严重的数据稀疏（一个用户评分过的项目仅仅占总项目数量的极少部分）和冷启动（新的用户和新的项目往往没有评分数据）问题。此外，经典的协同过滤方法采用浅层模型无法学习到用户和项目的深层次特征。基于内容的推荐方法利用用户已选择的项目来寻找其他类似属性的项目进行推荐，但是这种方法需要有效的特征提取，传统的浅层模型依赖于人工设计特征，其有效性及可扩展性非常有限，制约了基于内容的推荐方法的性能。  随着互联网中越来越多的数据能够被感知获取，包括图像、文本、标签在内的多源异构数据蕴含着丰富的用户行为信息及个性化需求信息，融合多源异构辅助信息（side information）的混合推荐方法由于能够缓解传统推荐系统中的数据稀疏和冷启动问题，而越来越受到重视，但是由于辅助信息往往具有多模态、数据异构、大规模、数据稀疏和分布不均匀等复杂特征，融合多源异构数据的混合推荐方法研究依然面临着严峻的挑战。

近年来，深度学习在图像处理、自然语言理解和语音识别等领域取得了突破性进展[6]，已经成为人工智能的一个热潮，为推荐系统的研究带来了新的机遇。一方面，深度学习可通过学习一种深层次非线性网络结构，表征用户和项目相关的海量数据，具有强大的从样本中学习数据集本质特征的能力，能够获取用户和项目的深层次特征表示。另一方面，深度学习通过从多源异构数据中进行自动特征学习，从而将不同数据映射到一个相同的隐空间，能够获得数据的统一表征[7]，在此基础上融合传统推荐方法进行推荐，能够有效利用多源异构数据，缓解传统推荐系统中的数据稀疏和冷启动问题。近三年来，基于深度学习的推荐系统研究开始受到国际学术界和工业界越来越多的关注，ACM推荐系统年会（ACM RecSys）在2016年专门 召开了第一届基于深度学习的推荐系统研究专题研讨会（DLRS’16），研讨会指出深度学习将是推荐系统的下一个重要方向，DLRS’17也已经在意大利的科莫举行。计算机领域的数据挖掘和机器学习顶级会议（SIGKDD，NIPS，SIGIR，WWW，AAAI等）中，基于深度学习的推荐系统研究的文章逐年增加，国内外许多大学和研究机构也对基于深度学习的推荐系统开展了广泛研究[8-20]。基于深度学习的推荐系统研究目前已经成为推荐系统领域的研究热点之一。

本文主要对基于深度学习的推荐系统的研究与应用进行综述。

<a id='contents12'></a>
### 1.1 问题称述

本项目未实现可视化推荐，只是使用推荐结果输出的形式进行展现。项目主要解决如下问题：

1. 指定用户和电影进行评分
2. 推荐同类型的电影
3. 推荐您喜欢的电影
4. 看过这个电影的人还看了（喜欢）哪些电影

实现模型大概如下：

![](https://pic1.zhimg.com/80/v2-c3b00b58753922126520cffa72d4a9a1_hd.jpg)

<a id='contents13'></a>
### 1.1 评价指标

我们的目的就是要训练出用户特征和电影特征，在实现推荐功能时使用。得到这两个特征以后，就可以选择任意的方式来拟合评分了。我使用了两种方式，一个是上图中画出的将两个特征做向量乘法，将结果与真实评分做回归，采用MSE优化损失。因为本质上这是一个回归问题，另一种方式是，将两个特征作为输入，再次传入全连接层，输出一个值，将输出值回归到真实评分，采用MSE优化损失。

实际上第二个方式的MSE loss在0.8附近，第一个方式在1附近，5次迭代的结果。

---
<a id='contents2'></a>
## 2. 分析

<a id='contents21'></a>
### 2.1 数据可视化


<a id='contents22'></a>
### 2.1 算法和技术


<a id='contents23'></a>
### 2.1 基准模型

数据集使用：

**MovieLens电影评分数据集**
这个也是一个非常经典的数据集，数据集地址：

https://grouplens.org/datasets/movielens/

有用户对电影的评分，tag数据量也蛮大的，有24,000,000 ratings and 670,000 tag applications applied to 40,000 movies by 260,000 users

**Last.fm音乐推荐数据集**
这个是数据集还是蛮丰富的，有用户信息，用户听艺术家信息歌曲的信息，还有用户对艺术家打标签的侵袭，更有用户之间好友信息，数据量1892 users，17632 artists 
数据集地址：

https://grouplens.org/datasets/hetrec-2011/ 
（其实这个数据集地址跟上面那个都是在一块的）

这个数据集拿来做推荐的话，可以把艺术家播放次数作为用户的评分

## Reference

* [深度丨从零搭建推荐体系](https://www.jianshu.com/p/d585b3938dea)

* http://cjc.ict.ac.cn/online/bfpub/hlww-2018124152810.pdf

* https://grouplens.org/datasets/movielens/

* [使用MovieLens数据集训练的电影推荐系统](https://www.ctolib.com/chengstone-movie_recommender.html)

* [推荐系统入门代码（关于MovieLens数据集）](https://www.jianshu.com/p/4df21635d13c)

* [推荐系统-基于用户的最近邻协同过滤算法（MovieLens数据集）](https://blog.csdn.net/recsysml/article/details/12287587)

* [基于Movielens-1M数据集实现的User Based Collaborative Filtering和Item Based Collaborative Filtering推荐算法](https://github.com/Lockvictor/MovieLens-RecSys)

* [数据挖掘-MovieLens数据集_电影推荐_亲和性分析 Aprioro算法](https://blog.csdn.net/zhangyingchengqi/article/details/54924122)

* [MovieLens数据集](https://www.kesci.com/apps/home/dataset/5a69840dafceb51770d60948)

* [推荐系统实践-评分预测问题](https://www.jianshu.com/p/d7e1df5714dc)

* [评分预测问题](https://blog.csdn.net/jingyi130705008/article/details/80639604)

* [【总结】深度学习在推荐领域的应用](https://blog.csdn.net/dengxing1234/article/details/76147052)

* [专治选择困难症——bandit算法](https://zhuanlan.zhihu.com/p/21388070)