# Exp2: 传统模型与深度推荐算法对比实战
---

![wide_deep.png](attachment:wide_deep.png)

## 一、案例简介

推荐系统发展至今，各种各样的算法层出不穷，经历了多次更新换代。传统推荐算法中，有以协同过滤和矩阵分解为核心的MF，以及以内容特征和相似度度量为核心的FM、KNN等。近年来，深度学习方法在各个领域大放异彩，也有很多深度推荐模型取得了良好的效果，如NCF、Wide&Deep、NFM等。

在本案例中，我们将为各位同学提供两个推荐领域中常用的实验数据集，让大家自己动手在真实数据集上运行个性化推荐算法（包括传统推荐以及深度推荐模型），深入对比不同模型的实际效果。学有余力的同学可以自己尝试实现甚至改进模型，探索推荐模型设计的乐趣。

## 二、案例说明

在本案例中，我们将在两个公开的真实数据集上实战推荐系统中经典的`评分预测`任务。通过此案例，你将收获：

- 推荐系统中评分预测任务的问题设定与评测流程
- 真实推荐场景下的数据格式与数据集构建
- 经典的传统/深度推荐模型的基本思路和架构
- 超参数对模型效果的影响
- 传统与深度模型的特点与性能对比
- （可选）基于PyTorch或TensorFlow等深度学习框架的模型实现与调优

下面我们首先给出作业要求，然后介绍一些背景知识，接下来生成本次所用的两个数据集，并且提供一个基于PyTorch的矩阵分解（MF）模型实现样例作为基线模型，最后给出一些难点提示。

## 三、作业要求

从给定的两个推荐场景数据集中**至少选择一个**，在此数据集上选择**传统模型和深度模型各一个**进行评分预测的实验，观察比较两个模型在RMSE指标上的效果，具体要求如下：

- 选择的传统模型和深度模型所用到的信息应当匹配，比如都只用到ID信息，或者都用到了额外的特征信息
- 不要求自己实现模型，只要求跑出实验结果并进行比较，可以使用外部的库，但建议有余力的同学自行实现，为之后实验做准备
- 采用五折交叉验证，汇报五次实验的RMSE平均值
- 所得到的RMSE至少应低于所提供的基线模型（MovieLens：**0.9197**，Amazon：**1.3553**）
- 鼓励在不同的数据集上选择不同的模型进行对比（比如在MovieLens上对比带特征信息的两个模型，在Amazon上对比只用ID的两个模型）

最终以实验报告的形式呈现，要求至少包含以下内容：

- 所选的数据集与模型（注明使用了哪些外部库），以及模型五折交叉验证每一折的结果
- 模型性能的对比与分析，包括评价指标、运行时间等
- 模型的主要参数对性能的影响

可以额外探究的点包括：

- 使用不同百分比的训练集对测试结果的影响
- 使用额外特征的对模型效果的影响
- 两个不同稀疏程度数据集上模型相对性能与最优参数的差异

## 四、背景知识

### 评分预测

用$\mathcal{U}$和$\mathcal{I}$表示用户和商品的集合，$y_{u,i}\in\mathbb{N}$表示用户$u\in\mathcal{U}$对商品$i\in\mathcal{I}$的评分。已知部分用户商品的评分集合$\mathcal{D}$，评分预测任务即对于任意未知$y_{u,i}$的用户商品对$(u,i)$，预测用户$u$对商品$i$的评分$\hat{y}_{u,i}$。

![rating_prediction.png](attachment:rating_prediction.png)

评分预测任务往往使用Root Mean Square Error（RMSE）均方根误差来衡量预测的准确性。用$\overline{\mathcal{D}}$表示用来测试的用户商品对集合，则RMSE可以表示为：

$${\rm RMSE} = \sqrt{\cfrac{1}{|\overline{\mathcal{D}}|}\sum_{(u,i)\in\overline{\mathcal{D}}}\left(y_{u,i} - \hat{y}_{u,i}\right)^2}$$

RMSE衡量了预测值$\hat{y}_{u,i}$和实际评分$y_{u,i}$之间的偏差程度，同时通过均方根操作放大了偏差较大的预测值产生的影响，被广泛应用于各种机器学习预测任务的评价中。

### 传统模型与深度模型

这里提供一些推荐领域经典的传统模型与深度模型供大家参考，每个模型简单描述了它的核心思想，部分提供了论文链接，但大家在选择时不仅限于这些模型，只是为大家提供方向。

常见的传统模型包括：

- Matrix Factorization（MF）：用户和商品被嵌入到同一个向量空间，用内积来表示评分；
- [Biased Matrix Factorization](https://www.inf.unibz.it/~ricci/ISR/papers/ieeecomputer.pdf) (BiasedMF)：在MF基础上加入了用户和商品的偏置项，也被称为SVD；
- k-NearestNeighbor（k-NN）：用交互矩阵的行列分别表示用户和商品，根据预测时找有评分的k个最相似用户/商品分为UserKNN和ItemKNN；
- [Factorization Machine](https://analyticsconsultores.com.mx/wp-content/uploads/2019/03/Factorization-Machines-Steffen-Rendle-Osaka-University-2010.pdf) (FM)：主要思想是把用户商品的pair表示成一个稀疏向量，这个稀疏向量中不仅包括ID，还可以包括其他特征，然后对稀疏向量的每一个维度进行嵌入，刻画有取值的维度对应向量之间的交互得到预测结果。基于类似的思路也可以将用户商品对表示成稀疏向量后用常见机器学习模型进行预测，比如逻辑回归（LR）、决策树（RF）等。

常见的深度模型包括；

- [Neural Collaborative Filtering](https://dl.acm.org/doi/pdf/10.1145/3038912.3052569) (NCF)：最早将深度学习中的全连接前馈网络结合MF做预测的模型；
- [Neural Factorization Machine](https://www.comp.nus.edu.sg/~xiangnan/papers/sigir17-nfm.pdf) (NFM): 在FM基础上用全连接前馈网络建模不同特征维度之间的交互；
- [Wide & Deep](https://dl.acm.org/doi/pdf/10.1145/2988450.2988454): Google提出的一个结合浅层和深层神经网络的模型，一边是类似NFM的深层架构，一边是直接对稀疏向量进行LR的浅层架构，再将两部分预测结果结合。

### K折交叉验证

为了比较不同模型的效果，只看一个测试集上的RMSE结果往往是不够的，一方面单次实验有偶然性，需要重复实验来进一步验证；另一方面某个模型可能正好在目前的训练集和测试集下表现较好，而在另外的数据集设定下表现较差。

因此我们一般会将所有已知的数据分成若干份，每次用其中一份作为测试集，其他所有数据作为训练集，产生若干个测试集上的结果，用这些结果的平均值来进行模型间的比较。这些重复实验得到的一组结果也可以用来计算每个模型评价指标的置信区间，以及衡量模型差距的统计显著性。

K折交叉验证即将所有数据分成K份，这样每个模型都会在这个数据上得到K个结果。本案例中我们采取较为常用的五折交叉验证。

![kfold.png](attachment:kfold.png)

## 五、数据集

本案例中我们采用两个不同场景、不同稠密程度的数据集进行实战演练：

- `MovieLens-100k`：这是一个电影评分的数据集，包含了10万的用户电影评分（1-5），同时还包含用户和电影的一些属性特征，是推荐系统早期研究中非常常用的一个数据集。相对而言，这个数据集交互矩阵稠密，平均每个用户的评分数量多；
- `Amazon Cellphone`：这是一个规模稍大的商品评分的数据集，包含了约20万的用户商品评分（1-5），还有相关评论的文本内容。

MovieLens有较丰富的特征信息，同时规模较小，可以在这个数据集上主要尝试带特征的模型；Amazon规模稍大，可以主要用于测试基于用户商品id的模型，特别是需要更多数据进行训练的深度模型，其中的文本内容暂不要求使用，有余力的同学可以尝试引入文本增强模型效果。

### MovieLens-100k



In [22]:
import os, subprocess

if not os.path.exists('./data/'):
    subprocess.call('mkdir ./data/', shell=True)
    
def download_data(url):
    print('Downloading data from ' + url)
    status = subprocess.call('cd ./data/ && curl -O ' + url, shell=True)
    print('Sucess!' if status == 0 else 'Error...')
    
if not os.path.exists('./data/ml-100k.zip'):
    download_data('https://rec-exp2.s3.didiyunapi.com/ml-100k.zip')
    status = subprocess.call('cd ./data/ && unzip ml-100k.zip', shell=True)

Downloading data from https://rec-exp2.s3.didiyunapi.com/ml-100k.zip
Sucess!


数据集可以在 https://grouplens.org/datasets/movielens/ 下载到本地再上传，也可以运行以上代码自动下载到服务器当前目录（**推荐**）。想要本地观察原始数据再上传的话，登录网站选择100k的版本下载，之后解压缩得到`ml-100k`文件夹；同时在服务器此notebook的同级目录下创建`data`文件夹，把`ml-100k`文件夹上传到`data`文件夹中，里面的`README`描述了各个文件的内容，我们会用到其中`u.data`, `u.item`, `u.user`这三个文件。

![ml100k.png](attachment:ml100k.png)

`u.data`是最主要的评分交互数据，包含四列，分别为user的id、item的id、评分和时间，这里user和item的id已经是从1开始的编号，评分取值范围为1-5，时间则是标准时间戳。可通过如下方式加载成DataFrame。

In [23]:
import pandas as pd
ml_data_df = pd.read_csv('./data/ml-100k/u.data', sep='\t', header=None)
ml_data_df.columns = ['user_id', 'item_id', 'label', 'time']
ml_data_df.head()

Unnamed: 0,user_id,item_id,label,time
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596


`u.item`包含每个item即电影的属性信息，这里我们只使用题材，分为了19个列，每列取值为1表示包含这个题材。

In [24]:
ml_item_df = pd.read_csv('./data/ml-100k/u.item', sep='|', header=None, encoding="ISO-8859-1")
ml_item_df = ml_item_df.drop([1, 2, 3, 4], axis=1)
ml_item_df.columns = ['item_id', 'Action', 'Adventure', 'Animation', "Children's", 
                      'Comedy', 'Crime', 'Documentary ', 'Drama ', 'Fantasy ', 
                      'Film-Noir ', 'Horror ', 'Musical ', 'Mystery ', 'Romance ', 
                      'Sci-Fi ', 'Thriller ', 'War ', 'Western', 'Other']
ml_item_df.head()

Unnamed: 0,item_id,Action,Adventure,Animation,Children's,Comedy,Crime,Documentary,Drama,Fantasy,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western,Other
0,1,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0
1,2,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0
2,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0
3,4,0,1,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0
4,5,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,1,0,0


`u.user`包含每个user的属性信息，这里我们使用年龄、性别和职业。

In [25]:
ml_user_df = pd.read_csv('./data/ml-100k/u.user', sep='|', header=None)
ml_user_df = ml_user_df[[0, 1, 2, 3]]
ml_user_df.columns = ['user_id', 'Age', 'Gender', 'Occupation']
ml_user_df.head()

Unnamed: 0,user_id,Age,Gender,Occupation
0,1,24,M,technician
1,2,53,F,other
2,3,23,M,writer
3,4,24,M,technician
4,5,33,F,other


In [26]:
uids = ml_data_df['user_id'].unique()
iids = ml_data_df['item_id'].unique()
'# users:', len(uids), '# items:', len(iids), '# ratings:', len(ml_data_df)

('# users:', 943, '# items:', 1682, '# ratings:', 100000)

### Amazon Cellphone

In [27]:
if not os.path.exists('./data/reviews_Cell_Phones_and_Accessories_5.json.gz'):
    download_data('https://rec-exp2.s3.didiyunapi.com/reviews_Cell_Phones_and_Accessories_5.json.gz')

Downloading data from https://rec-exp2.s3.didiyunapi.com/reviews_Cell_Phones_and_Accessories_5.json.gz
Sucess!


数据集同样可以运行以上代码下载（**推荐**），想要观察数据的话也可以本地在 http://jmcauley.ucsd.edu/data/amazon/ 下载，选择`Cell Phones and Accessories`这个类别的5-core数据，并把下好的压缩包上传到`data`文件夹下。这个数据集我们不用额外的特征信息，只用评分这个交互数据，可以用如下代码将其变为DataFrame（可能会花费一些时间）。

![amazon.png](attachment:amazon.png)

In [28]:
import gzip

def parse(path):
    for l in gzip.open(path, 'rb'):
        yield eval(l)

def get_df(path):
    i, df = 0, {}
    for d in parse(path):
        df[i] = d
        i += 1
    return pd.DataFrame.from_dict(df, orient='index')

amazon_data_df = get_df('./data/reviews_Cell_Phones_and_Accessories_5.json.gz')
amazon_data_df.head()

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime
0,A30TL5EWN6DFXT,120401325X,christina,"[0, 0]",They look good and stick good! I just don't li...,4.0,Looks Good,1400630400,"05 21, 2014"
1,ASY55RVNIL0UD,120401325X,emily l.,"[0, 0]",These stickers work like the review says they ...,5.0,Really great product.,1389657600,"01 14, 2014"
2,A2TMXE2AFO7ONB,120401325X,Erica,"[0, 0]",These are awesome and make my phone look so st...,5.0,LOVE LOVE LOVE,1403740800,"06 26, 2014"
3,AWJ0WZQYMYFQ4,120401325X,JM,"[4, 4]",Item arrived in great time and was in perfect ...,4.0,Cute!,1382313600,"10 21, 2013"
4,ATX7CZYFXI1KW,120401325X,patrice m rogoza,"[2, 3]","awesome! stays on, and looks great. can be use...",5.0,leopard home button sticker for iphone 4s,1359849600,"02 3, 2013"


这里reviewerID表示用户，asin表示商品，overall表示评分，注意这里user和item只是有一个标识，需要重新编号。除了这些还有一些文本的评论内容，我们暂时不用。可以通过以下代码将其整理成和MovieLens-100k相同的格式。

另外需要注意的是，原数据中相同的商品记录是连续的，这样在分五折交叉验证的时候会出现测试集基本均为训练集没出现过的商品的情况，因此这里对原数据做一个**随机打乱**，由于**固定了random state为0**，所以大家的随机打乱是相同的，在此基础上得到的模型结果也是可比的。

In [29]:
# 规范列名
amazon_data_df.rename(columns={'asin': 'item_id', 
                               'reviewerID': 'user_id', 
                               'unixReviewTime': 'time', 
                               'overall': 'label'}, inplace=True)
amazon_data_df = amazon_data_df[['user_id', 'item_id', 'label', 'time']]

# 重编号
uids = sorted(amazon_data_df['user_id'].unique())
user2id = dict(zip(uids, range(1, len(uids) + 1)))
iids = sorted(amazon_data_df['item_id'].unique())
item2id = dict(zip(iids, range(1, len(iids) + 1)))
amazon_data_df['user_id'] = amazon_data_df['user_id'].apply(lambda x: user2id[x])
amazon_data_df['item_id'] = amazon_data_df['item_id'].apply(lambda x: item2id[x])

# 随机打乱（！需要所有同学使用相同的打乱方法和random_state）
amazon_data_df = amazon_data_df.sample(frac=1, random_state=0)
amazon_data_df.head()

Unnamed: 0,user_id,item_id,label,time
96435,17258,5179,3.0,1405036800
37878,16097,2138,5.0,1361664000
159708,6802,8205,5.0,1402963200
34742,20720,1960,5.0,1364256000
78487,7408,4377,5.0,1385251200


In [30]:
'# users:', len(uids), '# items:', len(iids), '# ratings:', len(amazon_data_df)

('# users:', 27879, '# items:', 10429, '# ratings:', 194439)

相比上一个MovieLens数据集，这个数据集拥有其数十倍的用户数，商品数也多了很多，但总评分数量只是它的两倍，因此是十分稀疏的一个数据集，也是现实生活中更常见的情况。

## 六、基线模型

### 五折交叉验证

到这里我们已经准备好了所需的数据，下面我们先用一段代码示范一下整个五折交叉验证的评测框架。

In [31]:
import numpy as np
from sklearn.model_selection import KFold
from sklearn.metrics import mean_squared_error

# data_df：之前处理的评分数据 (ml_data_df / amazon_data_df)
# fit_predict: 一个函数引用，根据train和test的data返回对test每个样例的预测评分
def cross_validation(data_df, fit_predict):
    kf = KFold(n_splits=5)  # 调用sklearn相关函数进行数据集划分
    kf.get_n_splits(data_df)
    rmse_lst = list()
    for k, (train_index, test_index) in enumerate(kf.split(data_df)):  # 5折交叉验证
        print('Fold', k)
        train_data = data_df.iloc[train_index]
        test_data = data_df.iloc[test_index]
        prediction = fit_predict(train_data, test_data)  # 获得预测评分
        rmse = np.sqrt(mean_squared_error(test_data['label'], prediction))  # 计算rmse
        rmse_lst.append(rmse)
        print('RMSE: {:<.4f}\n'.format(rmse))
    print('Average: {:<.4f}'.format(np.mean(rmse_lst)))

这里`cross_validation`函数处理了整个评测的框架，通过调用一些已有的工具包可以方便地进行五折交叉验证划分，我们要做的就是定义`fit_predict`函数，根据当前这一折的训练测试数据，返回测试集的评分预测结果列表。这里`random_model`随机模型对所有测试样例随机产生一个1-5的评分。

In [32]:
# 一个随机预测模型，对每个测试样例随机预测1-5的评分（对应上面函数中的fit_predict参数）
def random_model(train_data, test_data):
    return np.random.randint(1, 6, len(test_data))

In [33]:
# MovieLens数据集上随机模型的结果
cross_validation(ml_data_df, random_model)

Fold 0
RMSE: 1.9091

Fold 1
RMSE: 1.8889

Fold 2
RMSE: 1.8761

Fold 3
RMSE: 1.8861

Fold 4
RMSE: 1.8741

Average: 1.8868


In [34]:
# Amazon数据集上随机模型的结果
cross_validation(amazon_data_df, random_model)

Fold 0
RMSE: 2.1786

Fold 1
RMSE: 2.1784

Fold 2
RMSE: 2.1886

Fold 3
RMSE: 2.1892

Fold 4
RMSE: 2.1862

Average: 2.1842


可以看到如果采用随机预测的模型，最后得到的RMSE处在一个比较差的水平。

### 矩阵分解（MF）基线模型

下面我们基于PyTorch实现矩阵分解（MF）模型作为我们的基线模型。这里需要一些关于深度学习框架的基础知识，包括梯度反向传播更新参数、批训练、学习率、权重衰减等，如果不了解的同学可以直接参考最终结果，完成这个案例不要求自己写，最低要求能运行出结果即可。但推荐感兴趣的同学学习一下相关知识，方便今后灵活地改进模型实现自己的idea。

PyTorch Tutorial in 60min: https://pytorch.org/tutorials/

首先我们用大写变量定义一些模型训练相关的超参数：

In [35]:
SEED = 2020    # 随机数种子，方便重现实验结果  
LR = 1e-3      # 学习率
L2 = 1e-5      # 权重衰减系数
EPOCH = 50     # 训练的总轮次
BATCH = 512    # 批大小
EMB_SIZE = 64  # MF模型的嵌入维度

在实现所需的`fit_predict`函数之前，我们先实现一个辅助函数`torch_runner`用来控制基于PyTorch的训练和测试过程，这个函数除了接收所需的data作为参数外，还有一个PyTorch模型类的对象`model`，这样之后可以定义不同的模型，对应的`fit_predict`函数生成模型对象后传给`torch_runner`返回其结果即可。

注意这里实现的时候直接取**测试集上最好的一轮**作为最终结果，没有根据单独拿出来的验证集上结果选取模型，主要是为了方便理解和实现简便，大家可以都采取这样的设定，如此对比也是公平的。

In [36]:
import gc, torch

def torch_runner(model, train_data, test_data):
    # 设置随机数种子，定义优化器
    torch.cuda.manual_seed(SEED)
    torch.manual_seed(SEED)
    np.random.seed(SEED)
    optimizer = torch.optim.Adam(model.parameters(), lr=LR, weight_decay=L2)
    
    # 这里模型类内部需要实现一个准备batch的函数，将数据分批，并定义每批的输入是什么
    test_batches = model.prepare_batches(test_data)
    best_predictions, test_results = None, list()
    for epoch in range(EPOCH):  # 一共训练EPOCH轮
        gc.collect()
        epoch_train_data = train_data.copy().sample(frac=1)  # 随机打乱训练集
        batches = model.prepare_batches(epoch_train_data)    # 准备训练集batch
        
        # 一轮训练
        model.train()
        loss_lst = list()
        for batch in batches:
            optimizer.zero_grad()
            prediction, loss = model(batch)
            loss.backward()
            optimizer.step()
            loss_lst.append(loss.detach().cpu().data.numpy())

        # 测试结果
        model.eval()
        predictions = list()
        for batch in test_batches:
            prediction, loss = model(batch)
            predictions.extend(prediction.cpu().data.numpy())
        rmse = np.sqrt(mean_squared_error(test_data['label'], predictions))
        if epoch == 0 or rmse < min(test_results):  # 如果当前的模型是目前最好的
            best_predictions = predictions
        test_results.append(rmse)
        
        print("Epoch {:<3} loss={:<.4f}\t test={:<.4f}".format(epoch + 1, np.mean(loss_lst), rmse), end='\r')
    print()
        
    return best_predictions

接下来就可以定义核心的模型对象了，MF的预测过程非常简单，只需要把对应的用户商品向量进行内积即可，这里直接用RMSE作为loss。

有了模型类定义之后，可以自然地得到`cross_validation`所需的函数，只需要定义模型对象并返回`torch_runner`的结果。

In [37]:
class MF(torch.nn.Module):
    def __init__(self, n_users, n_items):
        super(MF, self).__init__()
        self.user_num = n_users
        self.item_num = n_items
        self._define_params()

    def _define_params(self):
        self.u_embeddings = torch.nn.Embedding(self.user_num + 1, EMB_SIZE)
        self.i_embeddings = torch.nn.Embedding(self.item_num + 1, EMB_SIZE)
        
    @staticmethod
    def init_weights(m):
        if 'Embedding' in str(type(m)):
            torch.nn.init.normal_(m.weight, mean=0.0, std=0.01)

    def forward(self, feed_dict):
        u_ids = feed_dict['user_id']  # [batch_size]
        i_ids = feed_dict['item_id']  # [batch_size]
        labels = feed_dict['label']

        cf_u_vectors = self.u_embeddings(u_ids)
        cf_i_vectors = self.i_embeddings(i_ids)

        prediction = (cf_u_vectors * cf_i_vectors).sum(dim=-1)  # 内积
        loss = ((labels - prediction) ** 2).mean().sqrt()  # RMSE作为loss
        return prediction, loss
    
    def prepare_batches(self, data):
        # 产生data对应的所有batch的list，每个batch是一个dict，会被送入forward函数中
        total_batch = int((len(data) + BATCH - 1) / BATCH)
        batches = list()
        for batch in range(total_batch):
            batch_start = batch * BATCH
            batch_end = min(len(data), batch_start + BATCH)
            user_ids = data['user_id'][batch_start: batch_end].values
            item_ids = data['item_id'][batch_start: batch_end].values
            labels = data['label'][batch_start: batch_end].values
            feed_dict = {
                'user_id': torch.from_numpy(user_ids).cuda(), 
                'item_id': torch.from_numpy(item_ids).cuda(),
                'label': torch.from_numpy(labels).float().cuda()
            }
            batches.append(feed_dict)
        return batches
    
    
def mf_model(train_data, test_data):
    all_data = pd.concat([train_data, test_data])
    n_users = all_data['user_id'].unique().size
    n_items = all_data['item_id'].unique().size
    model = MF(n_users, n_items)  # 定义模型对象
    model.apply(model.init_weights)
    return torch_runner(model.cuda(), train_data, test_data)

In [38]:
LR, L2, EPOCH = 1e-3, 1e-5, 40  # 可以自行调整一些超参

# MovieLens上MF模型的结果
cross_validation(ml_data_df, mf_model)

Fold 0
Epoch 40  loss=0.6727	 test=0.9296
RMSE: 0.9244

Fold 1
Epoch 40  loss=0.6734	 test=0.9247
RMSE: 0.9184

Fold 2
Epoch 40  loss=0.6757	 test=0.9234
RMSE: 0.9183

Fold 3
Epoch 40  loss=0.6687	 test=0.9233
RMSE: 0.9162

Fold 4
Epoch 40  loss=0.6701	 test=0.9280
RMSE: 0.9213

Average: 0.9197


In [39]:
LR, L2, EPOCH = 5e-4, 1e-5, 50

# Amazon上MF模型的结果
cross_validation(amazon_data_df, mf_model)

Fold 0
Epoch 50  loss=0.4284	 test=1.3855
RMSE: 1.3503

Fold 1
Epoch 50  loss=0.4289	 test=1.3839
RMSE: 1.3504

Fold 2
Epoch 50  loss=0.3868	 test=1.4022
RMSE: 1.3698

Fold 3
Epoch 50  loss=0.4984	 test=1.3645
RMSE: 1.3379

Fold 4
Epoch 50  loss=0.3639	 test=1.3990
RMSE: 1.3681

Average: 1.3553


以上就是基线模型的结果了，可以看到比随机预测有了很大的提升，但仅仅MF本身还属于一个比较弱的方法，大家在这个两个数据集上需要至少达到比这个结果更低的RMSE。

如果想沿这里的思路自行写新的模型也非常方便，只需要定义模型类并稍加修改`cross_validation`所需的函数（参考`mf_model`）即可。

## 七、难点提示

### 第三方库

- [Surprise](http://surpriselib.com/)：一个Python的库，有很多现成的传统推荐模型，也可以方便地自己定义新模型，推荐；
- [Recommender](https://github.com/microsoft/recommenders)：Microsoft的一个基于TensorFlow的推荐模型合集，包含了很多深度模型，推荐；
- [MyMediaLite](http://www.mymedialite.net/)：基本包含了各种传统推荐模型，但用的是Java语言，比较老旧了；
- NFM的官方实现：https://github.com/hexiangnan/neural_factorization_machine
- NCF的的官方实现：https://github.com/hexiangnan/neural_collaborative_filtering

使用第三方库往往涉及到两方面：一方面需要调整数据的格式以适应第三方库的要求，另一方面需要确保评价的设定是相同的。一般来说，可以参考数据处理的代码先把数据加载成DataFrame（注意Amazon要用同样的random state随机打乱），再参考五折交叉验证的代码用sklearn把每一折的训练和测试数据划分出来，然后调整成第三方库所需要的输入格式得到测试集的预测得分，接下来就可以自己计算RMSE。

但总体来说找第三方库时还是优先找实验设定和评价指标相似的，不然如果基础不好可能会在改代码上花费大量的时间。

### 模型调参

超参数的调整对于模型结果有着巨大的影响，比如学习率和权重衰减往往是影响最大的两个参数，需要仔细调整。

不合适的超参数设置可能会导致非常差的结果，因此结果不好优先调参，每个模型都调到最好之后再进行对比。

同时为了确保对比的公平性，非常影响模型表达能力的参数应当加以控制，比如MF中的嵌入维度，一般来说嵌入维度大得到的效果也更好，但训练时间会更长，对比时要注意控制此类无关变量。

另外深度模型并不一定比传统模型效果好，特别是在数据量少或者数据稀疏时。实验时根据自己的发现进行对比即可，不必强求深度模型的效果更好。