## 4.6 使用keras进行奇异值矩阵分解

Keras虽然是针对深度学习的各种模型设计的，但是通过巧妙构造网络结构，可以实现特定的传统算法。下面介绍使用Keras来进行奇异值矩阵分解（SVD）。

奇异值矩阵分解是一种基本的数学工具，被应用于大量的数据挖掘算法中，比较有名的有协同过滤（Collaborative Filtering），PCA回归等算法。矩阵分解的目的是解析矩阵的结构，提取重要信息，去除噪声，实现数据压缩等。比如在奇异值矩阵分解中，信息都集中在头几个特征向量中，使用这几个向量有可能较好地（即均方差尽可能小地）复原原来的矩阵，同时只需要保留较少的数据。

这里我们介绍使用Keras进行奇异值矩阵分解技巧。比如SVD被应用于协同过滤推荐算法中，主要目的是用来对数据降维，提高计算速度。协同过滤算法一般应用于用户–物品矩阵。图4.10展示了一个简单的这种矩阵。在这个矩阵中每一行代表一个用户，每一列代表一个物品，因此在每一行中标注了用户历史上对该物品的评价或者购买情况。如果没有购买过或者没有评价该物品，则数值为空值，有时候也用0代替；如果购买过该物品，那么数值一般是1或者购买次数；如果是评分，则通常为实际评分，比如为1~5分。

![用户-物品矩阵图](attachment:4.10.jpg)
图4.10　用户-物品矩阵图

SVD基于以下线性代数定理：任何m×n的实数矩阵X可以表示为如下三个矩阵的乘积：m×r的酉矩阵U，被称为左特征向量矩阵；r×r的对角阵S，被称为特征值矩阵；r×n的酉矩阵VT，被称为右特征向量矩阵，其中r≤n。
![svd1.jpg](attachment:svd1.jpg)

上述矩阵分解可以用图4.11直观地表达。
![4.11.jpg](attachment:4.11.jpg)
图4.11　奇异值分解演示

我们看到，其实SVD是将原始矩阵分解为一个对应于行信息的矩阵U和对应于列信息的矩阵V，因为包含特征值的对角阵可以取方根后分别纳入左、右特征向量矩阵中，所以现在要将原始矩阵分解为两个致密的实数矩阵，使得它们的乘积和原始矩阵的均方差尽量小。我们在使用Keras来操作矩阵分解时也是遵循这个思路的，使用的工具就是Keras层里面的嵌入（Embedding）工具和合并（Merge）工具。嵌入工具能够将一组正整数（比如序列的索引）转换为固定维度的致密实数，而合并工具能够按照不同的方法，比如求和、叠加或者乘积方式将两个网络合并在一起。
* 首先，我们将用户和物品各自编号，就能使用嵌入工具将用户和物品各自映射到一个固定的空间中。比如在下面的示例代码中，第1行和第2行先定义用户序列的输入，然后使用嵌入工具将n_users个用户里的每一人投影到n_factor维的新空间中。一开始在新空间中的位置是随机的，即初始化是一个随机向量，以后在模型拟合阶段再求得最优解。
* 其次，将各自在新空间中的投影使用乘积方式合并起来，就能得到拟合后的UV′乘积矩阵：x=merge（[u，v]，mode='dot'），其中mode='dot'表示使用矩阵乘法来合并两个矩阵。
* 最后，定义一个模型，并使用随机梯度递减算法来拟合，使得这个乘积矩阵和原始矩阵的均方差（MSE）最小。可以通过下面的命令来实现：

In [None]:
model = Model([user_in,movie_in], x)
model.compile(Adam(0.001), loss='mse')

In [None]:
下面是完整的程序。

In [None]:
user_in = Input(shape=(1,),dtype='int64',name='user_in')
u = Embedding(n_users, n_factors, input_length=1)(user_in)
movie_in = Input(shape=(1,), dtype='int64', name='movie_in')
v = Embedding(n_movie, n_factors, input_length=1)(movie_in)

x = merge([u,v], mode='dot')
x = Fatten()(x)
model = Model([user_in, movie_in], x)
model.compile(Adam(0.001), loss='mse')

model.fit([trn.userId, trn.movieId], trn.rating, batch_size=64, epochs=1)