## 基于MindSpore实现一个推荐系统示例

在本实验中，我们将基于MindSpore实现一个推荐系统示例，包括Movielens数据集处理、逻辑回归模型构建、模型预测。

### 1.实验目的
- 掌握Movielens数据集处理。
- 掌握基于MindSpore定义逻辑回归模型实现一个推荐系统。
- 掌握基于MindSpore读取数据集并进行训练预测CTR(Click-Through-Rate)，即点击率。


### 2.推荐系统原理介绍
- 推荐系统

推荐系统是一种人工智能或人工智能算法，通常与机器学习相关，使用大数据向消费者建议或推荐其他产品。这些推荐可以基于各种标准，包括过去的购买、搜索历史记录、人口统计信息和其他因素。推荐系统非常有用，因为它们可以帮助用户了解自己无法自行找到的产品和服务。推荐系统可以分为基于内容的推荐、协同过滤推荐、基于知识的推荐以及混合推荐。

而逻辑回归是推荐系统最常用的算法之一，相比于协同过滤模型仅利用用户与行为的相互信息进行推荐，逻辑回归能够综合用户、物品、上下文等不同特征，生成较为全面的推荐系统，逻辑回归是独立于协同过滤的推荐模型发展的另一主要方向。相比于系统过滤和矩阵分解，逻辑回归将推荐问题视为一个分类问题——点击率(CTR)预估问题。点击率(CTR)是指对移动广告推广活动展示的点击次数比值，CTR 的计算方法是将移动广告推广活动的点击次数除以展示总数量，再将结果用百分比的形式表示。

- 逻辑回归原理

逻辑回归实际上是一种分类方法，主要用于输出只有两种的两分类问题，所以利用了Sigmoid函数，函数形式为：
$$g(z)=\frac{1}{1+e^{-z}}$$
对于线性的决策边界的情况，边界形式为：
$$\theta_0+\theta_1x_1+\cdots+\theta_nx_n=\sum_{i=1}^{n}\theta_ix_i=\theta^Tx$$
因此构造逻辑回归的预测函数为：
$$h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$$
函数$h_\theta(x)$代表结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：
$$P(y=1|x;\theta)=h_{\theta}(x)$$
$$P(y=0|x;\theta)=1-h_{\theta}(x)$$
逻辑回归的损失函数如下：
$$J(\theta)=-\frac{1}{m}\sum_{i=1}^{n}(y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)})))$$
损失函数是基于最大似然估计推导得到的，推导过程如下：<br>
因为
$$P(y|x;\theta)=(h_{\theta}(x))^y(1-h_{\theta}(x))^{1-y}$$
这是将$P(y=1|x;\theta)$和$P(y=0|x;\theta)$整合得到的，然后取似然函数得：
$$L(\theta)=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)};\theta)=\prod_{i=1}^{m}(h_{\theta}(x^{(i)}))^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{1-y^{(i)}}$$
取对数可得：
$$l(\theta)=logL(\theta)=\sum_{i=1}^{m}(y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)})))$$
令
$$J(\theta)=-\frac{1}{m}l(\theta)$$
如此，就得到了Logistic回归的损失函数，即机器学习中的二值交叉熵。<br>
定义逻辑回归模型时可以使用MindSpore的Dense层实现逻辑回归中向量计算部分：
$$output=activation(X*kernel+bias)$$
激活函数选择Sigmoid即可。<br>
因此我们需要定义一个模型Network实现逻辑回归功能，使用MindSpore的Dense层。<br>
可以调用MindSpore的nn.BCEWithLogitsLoss计算预测值和目标值之间的二值交叉熵损失。<br>
调用MindSpore的nn.Adam计算最优参数。


### 3.实验环境
在动手进行实践之前，需要注意以下几点：
* 确保实验环境正确安装，包括安装MindSpore。安装过程：首先登录[MindSpore官网安装页面](https://www.mindspore.cn/install)，根据安装指南下载安装包及查询相关文档。同时，官网环境安装也可以按下表说明找到对应环境搭建文档链接，根据环境搭建手册配置对应的实验环境。
* 推荐使用交互式的计算环境Jupyter Notebook，其交互性强，易于可视化，适合频繁修改的数据分析实验环境。
* 实验也可以在华为云一站式的AI开发平台ModelArts上完成。
* 推荐实验环境：MindSpore版本=2.0；Python环境=3.7


|  硬件平台 |  操作系统  | 软件环境 | 开发环境 | 环境搭建链接 |
| :-----:| :----: | :----: |:----:   |:----:   |
| CPU | Windows-x64 | MindSpore2.0 Python3.7.5 | JupyterNotebook |[MindSpore环境搭建实验手册第二章2.1节和第三章3.1节](./MindSpore环境搭建实验手册.docx)|
| GPU CUDA 10.1|Linux-x86_64| MindSpore2.0 Python3.7.5 | JupyterNotebook |[MindSpore环境搭建实验手册第二章2.2节和第三章3.1节](./MindSpore环境搭建实验手册.docx)|
| Ascend 910  | Linux-x86_64| MindSpore2.0 Python3.7.5 | JupyterNotebook |[MindSpore环境搭建实验手册第四章](./MindSpore环境搭建实验手册.docx)|


### 4.数据处理
#### 4.1 数据准备
示例中用到了开源数据集Movielens，它是一个关于电影评分的数据集，包含多个用户对多部电影的评级数据以及电影和用户的信息，Movielens经常用来做推荐系统、机器学习算法的测试数据集，尤其在推荐系统领域，很多著名论文都是基于这个数据集的。
数据集的下载地址为https://grouplens.org/datasets/movielens/100k/<br>
实验用到的数据集为：ua.base、ua.test、u.user、u.item、u.occupation，我们先从官网下载相关数据集。

os模块提供了非常丰富的方法用来处理文件和目录；urllib.request 模块提供了最基本的构造 HTTP （或其他协议如 FTP）请求的方法，利用它可以模拟浏览器的一个请求发起过程。

In [1]:
import os  
import mindspore 
import urllib.request

def download_data(file):
    # 文件下载地址
    url = 'https://files.grouplens.org/datasets/movielens/ml-100k/' + file
    print(url)
    # 将文件下载到data文件夹中
    urllib.request.urlretrieve(url, 'data/'+file)
    print('File download completed')    
    
if os.path.exists('data') is False:
    # data文件夹不存在则创建
    os.mkdir('data')
# 下载本实验用到的五个数据集
download_data('ua.base')
download_data('ua.test')
download_data('u.user')
download_data('u.item')
download_data('u.occupation')

https://files.grouplens.org/datasets/movielens/ml-100k/ua.base
File download completed
https://files.grouplens.org/datasets/movielens/ml-100k/ua.test
File download completed
https://files.grouplens.org/datasets/movielens/ml-100k/u.user
File download completed
https://files.grouplens.org/datasets/movielens/ml-100k/u.item
File download completed
https://files.grouplens.org/datasets/movielens/ml-100k/u.occupation
File download completed


下载完毕我们看一下数据集的内容。show_data()函数用于展示数据前五行。其中：<br>
ua.base和ua.test：训练集和测试集，包括用户id、作品id、评分、时间戳，时间戳是自1970年1月1日UTC以来的unix秒。<br>
u.user：用户信息数据，包括用户id、年龄、性别、职业、邮政编码，需要将用户特征进行one-hot编码。<br>
u.item：电影信息数据，包括作品id、电影名称、上映日期、视频发行日期、IMDb链接、已被one-hot编码的电影类型(共19种，具体类型可查看数据集的README文件)，每个元素以’|’隔开。<br>
u.occupation：用户职业信息，包括21种职业，需要进行one-hot编码。

In [2]:
base_path='data'
# 训练集路径
train_path = os.path.join(base_path, 'ua.base')                        
# 测试集路径
test_path = os.path.join(base_path, 'ua.test')                         
# 用户信息的文件路径
user_path = os.path.join(base_path, 'u.user')
# 作品信息的文件路径
item_path = os.path.join(base_path, 'u.item')
# 用户职业的文件路径
occupation_path = os.path.join(base_path, 'u.occupation')
# 设置全局种子
mindspore.set_seed(1)


# 默认编码为UTF-8
def show_data(data_path, encoding='UTF-8'):
    count = 1
    with open(data_path, 'r', encoding=encoding) as f:
        for cur_line in f.readlines():
            print(cur_line)
            if count == 5:
                break
            count += 1

            
print('ua.base & ua.test:')
show_data(train_path)
print('u.user:')
show_data(user_path)
print('u.item:')
show_data(item_path, 'ISO-8859-1')
print('u.occupation:')
show_data(occupation_path)

ua.base & ua.test:
1	1	5	874965758

1	2	3	876893171

1	3	4	878542960

1	4	3	876893119

1	5	3	889751712

u.user:
1|24|M|technician|85711

2|53|F|other|94043

3|23|M|writer|32067

4|24|M|technician|43537

5|33|F|other|15213

u.item:
1|Toy Story (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Toy%20Story%20(1995)|0|0|0|1|1|1|0|0|0|0|0|0|0|0|0|0|0|0|0

2|GoldenEye (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?GoldenEye%20(1995)|0|1|1|0|0|0|0|0|0|0|0|0|0|0|0|0|1|0|0

3|Four Rooms (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Four%20Rooms%20(1995)|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|1|0|0

4|Get Shorty (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Get%20Shorty%20(1995)|0|1|0|0|0|1|0|0|1|0|0|0|0|0|0|0|0|0|0

5|Copycat (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Copycat%20(1995)|0|0|0|0|0|0|1|0|1|0|0|0|0|0|0|0|1|0|0

u.occupation:
administrator

artist

doctor

educator

engineer



数据准备阶段我们需要读取评分数据、电影信息、职业、用户，并将评分数据转换为是否已点击。我们以字典形式读取相关数据，将评分大于3的视为已点击，并定义read_data()函数生成训练集与测试集。<br>
定义函数\__read_rating_data(path)以字典的形式读取评分数据，键为用户id和作品id，值为是否已点击，因此需要将评分数据转换为点击与否，我们将三分以上的作品视为已点击。<br>
定义函数\__read_item_hot()以字典形式返回电影信息，键为作品id，值为作品类型被one-hot编码的向量，u.item中每个元素都以’|’隔开，我们只需要已存在于u.item中的one-hot向量。<br>
定义\__read_occupation_hot()以字典形式返回每个职业，键为职业名，值为one-hot编码的向量。每个职业以换行符隔开。<br>
定义\__read_user_hot()以字典形式返回每个用户信息，键为用户id，值为年龄、性别、职业组成的向量。用户信息的每个元素以’|’隔开。<br>
定义read_data()调用上述函数来生成训练集和测试集，数据为年龄、性别、职业、作品类型组成的向量，标签为是否已点击。<br>
如下所示：

In [3]:
# numpy工具包提供了一系列类NumPy接口。
import numpy as np

def get1or0(r):
    # 评分大于3视为用户已点击，否则未点击
    return 1.0 if r > 3 else 0.0                                

# 以字典的形式返回评分数据
def __read_rating_data(path):                                          
    dataSet = {}
    with open(path, 'r') as f:
        # 读取每一行
        for line in f.readlines():  
            # 读取以制表符隔开的用户id、作品id、评分
            d = line.strip().split('\t')   
            # 会将评分转换为是否点击
            dataSet[(int(d[0]), int(d[1]))] = [get1or0(int(d[2]))]     
    return dataSet


# 以字典形式返回电影信息
def __read_item_hot():                                                 
    items = {}
    with open(item_path, 'r', encoding='ISO-8859-1') as f:
        for line in f.readlines():
            # 读取以'|'隔开的每个元素
            d = line.strip().split('|') 
            # 字典键为作品id，值为作品类型被one-hot编码的向量
            items[int(d[0])] = np.array(d[5:], dtype='float64')        
    return items


# 以字典形式返回每个职业
def __read_occupation_hot():                                           
    occupations = {}
    with open(occupation_path, 'r') as f:
        # 读取以换行符隔开的每个职业
        names = f.read().strip().split('\n')                           
    length = len(names)
    for i in range(length):  
        # 为每个职业都生成一个one-hot向量
        l = np.zeros(length, dtype='float64')
        l[i] = 1
        occupations[names[i]] = l
    return occupations


# 以字典形式返回每个用户信息
def __read_user_hot():                                                  
    users = {}
    gender_dict = {'M': 1, 'F': 0}
    # 读取职业信息
    occupation_dict = __read_occupation_hot()                           
    with open(user_path, 'r') as f:
        for line in f.readlines():
            # 读取以'|'隔开的用户id、年龄、性别、职业、邮政编码
            d = line.strip().split('|')                                 
            a = np.array([int(d[1]), gender_dict[d[2]]])
            # 字典键为用户id，值为年龄、性别、职业组成的向量
            users[int(d[0])] = np.append(a, occupation_dict[d[3]])      
    return users


def read_dataSet(user_dict, item_dict, path):
    X, Y = [], []
    # 读取评分数据
    ratings = __read_rating_data(path)                                  
    for k in ratings:
        # X为年龄、性别、职业、作品类型组成的向量
        X.append(np.append(user_dict[k[0]], item_dict[k[1]])) 
        # Y为是否已点击
        Y.append(ratings[k])                                            
    return X, Y


def read_data():
    user_dict = __read_user_hot()
    item_dict = __read_item_hot()
    # 返回训练集
    trainX, trainY = read_dataSet(user_dict, item_dict, train_path) 
    # 返回测试集
    testX, testY = read_dataSet(user_dict, item_dict, test_path)        
    return trainX, trainY, testX, testY

#### 4.2 数据加载
定义create_dataset()函数使用MindSpore的GeneratorDataset创建可迭代数据，通过控制变量train来判断生成训练集还是测试集。batch_size为32。模型训练时可直接使用此函数来加载数据。<br>
dataset模块提供了加载和处理数据集的API。

In [4]:
from mindspore import dataset as ds  

def get_data(train=True):
    # 读取训练集和测试集
    trainX, trainY, testX, testY = read_data()                          
    train_size = len(trainX)
    test_size = len(testX)
    if train == True:
        for i in range(train_size):
            # 训练集标签
            y = trainY[i]     
            # 训练集数据
            x = trainX[i]                                               
            yield np.array(x[:]).astype(np.float32), np.array([y[0]]).astype(np.float32)
    else:
        for i in range(test_size):
            # 测试集标签
            y = testY[i]          
            # 测试集数据
            x = testX[i]                                                
            yield np.array(x[:]).astype(np.float32), np.array([y[:]]).astype(np.float32)

def create_dataset(batch_size=32, repeat_size=1, train=True):
    # 使用GeneratorDataset创建可迭代数据
    input_data = ds.GeneratorDataset(list(get_data(train)), column_names=['data', 'label'])  
    # 将数据集中连续32条数据合并为一个批处理数据
    input_data = input_data.batch(batch_size)                
    # 重复数据集1次
    input_data = input_data.repeat(repeat_size)                          
    return input_data

### 5.模型构建
模型构建分为定义实现逻辑回归功能的Network、定义二值交叉熵损失函数、定义Momentum优化器。其中输入数据为年龄、性别、职业、作品类型组成的向量，标签为是否点击。
- 定义模型Network来实现逻辑回归功能

定义模型class Network(nn.Cell)，输入维度为42，为年龄、性别、职业、作品类型组成的向量，输出维度为1，是对用户点击概率的预测。直接调用MindSpore的Dense层，激活函数使用Sigmoid，网络的层数可根据自身情况决定，这里是两层。

mindspore.nn用于构建神经网络中的预定义构建块或计算单元；生成一个服从正态分布的随机数组用于初始化Tensor。

In [6]:
import mindspore.nn as nn                                               
from mindspore.common.initializer import Normal 
class Network(nn.Cell):
    def __init__(self):
        super(Network, self).__init__()
        # 全连接层的输入维度为42， 输出维度为21
        self.fc1 = nn.Dense(42, 21, Normal(0.02), Normal(0.02)) 
        # 输入维度为21，输出维度为1
        self.fc2 = nn.Dense(21, 1, Normal(0.02), Normal(0.02))    
        # ReLU函数
        self.relu = nn.ReLU()                          
        # Sigmoid函数
        self.sigmoid = nn.Sigmoid()                                   
        
    def construct(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        x = self.sigmoid(x)
        return x    
    
net = Network()
# 查看网络结构
print(net)                                                                  

Network<
  (fc1): Dense<input_channels=42, output_channels=21, has_bias=True>
  (fc2): Dense<input_channels=21, output_channels=1, has_bias=True>
  (relu): ReLU<>
  (sigmoid): Sigmoid<>
  >


- 使用二值交叉熵损失函数和Adam优化器

In [7]:
# epoch为10
epochs = 10      
# batch_size为32
batch_size = 32        
# 学习率为0.01
learning_rate = 1e-3                                                     

In [8]:
# 计算预测值和真实值之间的二值交叉熵损失。
loss_fn = nn.BCEWithLogitsLoss(reduction="mean")       
# Adam优化器
optimizer = nn.Adam(net.trainable_params(), learning_rate=learning_rate)

### 6.模型训练
Model是模型训练与推理的高阶接口，调用Model.train方法，传入数据集即可完成模型训练，其中LossMonitor()会监控训练的损失，并将epoch、step、loss信息打印出来，若loss变为NAN或INF，则会终止训练。

In [10]:
from mindspore.train import Model                                       
from mindspore.train import LossMonitor 
# 创建训练集
train_dataset = create_dataset(batch_size)         
# 创建测试集
test_dataset = create_dataset(batch_size, train=False)                      
# 模型训练或推理的高阶接口。Model 会根据用户传入的参数封装可训练或推理的实例
model = Model(net, loss_fn=loss_fn, optimizer=optimizer, metrics={"acc"})  
# 模型训练接口。训练场景下，LossMonitor监控训练的loss；边训练边推理场景下，监控训练的loss和推理的metrics。如果loss是NAN或INF，则终止训练
model.train(epochs, train_dataset, callbacks=[LossMonitor(per_print_times=75)])     
# 将网络权重保存到checkpoint文件中
mindspore.save_checkpoint(net, "./MyNet.ckpt")                                    

epoch: 1 step: 75, loss is 0.6848706007003784
epoch: 1 step: 150, loss is 0.6861015558242798
epoch: 1 step: 225, loss is 0.6958327889442444
epoch: 1 step: 300, loss is 0.6967008709907532
epoch: 1 step: 375, loss is 0.6623865962028503
epoch: 1 step: 450, loss is 0.6520720720291138
epoch: 1 step: 525, loss is 0.7017003893852234
epoch: 1 step: 600, loss is 0.6837337613105774
epoch: 1 step: 675, loss is 0.6848461627960205
epoch: 1 step: 750, loss is 0.6645022630691528
epoch: 1 step: 825, loss is 0.698967695236206
epoch: 1 step: 900, loss is 0.6731624603271484
epoch: 1 step: 975, loss is 0.6862270832061768
epoch: 1 step: 1050, loss is 0.6869755983352661
epoch: 1 step: 1125, loss is 0.6861283183097839
epoch: 1 step: 1200, loss is 0.739100456237793
epoch: 1 step: 1275, loss is 0.6863335967063904
epoch: 1 step: 1350, loss is 0.6592581272125244
epoch: 1 step: 1425, loss is 0.7101064324378967
epoch: 1 step: 1500, loss is 0.6816089153289795
epoch: 1 step: 1575, loss is 0.6850377917289734
epoch: 1

epoch: 5 step: 1726, loss is 0.6670235991477966
epoch: 5 step: 1801, loss is 0.6800382137298584
epoch: 5 step: 1876, loss is 0.7297071814537048
epoch: 5 step: 1951, loss is 0.642598569393158
epoch: 5 step: 2026, loss is 0.6630401015281677
epoch: 5 step: 2101, loss is 0.6790897846221924
epoch: 5 step: 2176, loss is 0.6457861661911011
epoch: 5 step: 2251, loss is 0.673762321472168
epoch: 5 step: 2326, loss is 0.6977514028549194
epoch: 5 step: 2401, loss is 0.6272510290145874
epoch: 5 step: 2476, loss is 0.6946953535079956
epoch: 5 step: 2551, loss is 0.6440690159797668
epoch: 5 step: 2626, loss is 0.6755229830741882
epoch: 5 step: 2701, loss is 0.6400265693664551
epoch: 5 step: 2776, loss is 0.6764264106750488
epoch: 6 step: 20, loss is 0.6742911338806152
epoch: 6 step: 95, loss is 0.6918588876724243
epoch: 6 step: 170, loss is 0.6669042706489563
epoch: 6 step: 245, loss is 0.6817474365234375
epoch: 6 step: 320, loss is 0.6469701528549194
epoch: 6 step: 395, loss is 0.6216233968734741
ep

epoch: 10 step: 546, loss is 0.6761375665664673
epoch: 10 step: 621, loss is 0.6769656538963318
epoch: 10 step: 696, loss is 0.6780288815498352
epoch: 10 step: 771, loss is 0.754727840423584
epoch: 10 step: 846, loss is 0.6344848871231079
epoch: 10 step: 921, loss is 0.6641882658004761
epoch: 10 step: 996, loss is 0.7094427347183228
epoch: 10 step: 1071, loss is 0.6676098108291626
epoch: 10 step: 1146, loss is 0.6320469975471497
epoch: 10 step: 1221, loss is 0.6688246130943298
epoch: 10 step: 1296, loss is 0.6711214780807495
epoch: 10 step: 1371, loss is 0.6161462068557739
epoch: 10 step: 1446, loss is 0.6463755369186401
epoch: 10 step: 1521, loss is 0.6465966105461121
epoch: 10 step: 1596, loss is 0.7282885313034058
epoch: 10 step: 1671, loss is 0.6763662695884705
epoch: 10 step: 1746, loss is 0.6560701727867126
epoch: 10 step: 1821, loss is 0.6493030190467834
epoch: 10 step: 1896, loss is 0.6623154878616333
epoch: 10 step: 1971, loss is 0.6930454969406128
epoch: 10 step: 2046, loss i

### 7.模型预测
使用Model.predict()方法完成测试，计算预测的CTR，与真实的CTR进行对比。

In [11]:
count = 1
pre_ctr_list = []
real_ctr_list = []
for data, label in test_dataset:
    # 模型预测
    pre = model.predict(data)                                            
    
    # 若预测点击概率大于等于0.5，则表示为点击，点击计数加一
    click_count = 0
    for i in range(pre.shape[0]):
        if pre[i] >=0.5:
            click_count += 1
    # 输出前十个batch的CTR预测结果
    if count < 10:
        print("the predicted CTR is {}".format(click_count/batch_size))
    pre_ctr_list.append(click_count/batch_size)
    
    # 点击计数的真实值统计
    click_count = 0
    for i in range(label.shape[0]):
        if label[i][0] == 1:
            click_count += 1
    # 输出前十个batch的CTR真实值
    if count < 10:
        print("the real CTR is {}".format(click_count/batch_size))
    real_ctr_list.append(click_count/batch_size)
    
    count += 1

# 平均CTR预测值
print('The average predicted CTR is {}'.format(np.mean(pre_ctr_list)))
# 平均CTR真实值
print('The average real CTR is {}'.format(np.mean(real_ctr_list)))

the predicted CTR is 0.34375
the real CTR is 0.6875
the predicted CTR is 0.375
the real CTR is 0.6875
the predicted CTR is 0.375
the real CTR is 0.59375
the predicted CTR is 0.375
the real CTR is 0.59375
the predicted CTR is 0.34375
the real CTR is 0.59375
the predicted CTR is 0.28125
the real CTR is 0.65625
the predicted CTR is 0.34375
the real CTR is 0.6875
the predicted CTR is 0.21875
the real CTR is 0.6875
the predicted CTR is 0.125
the real CTR is 0.59375
The average predicted CTR is 0.35603813559322034
The average real CTR is 0.579343220338983
