
### 简介

FM算法全称Factorization Machines，是一种针对预测问题的通用范式。FM算法有以下两点优势：

 - 适配高维稀疏特征
 - 推理上消耗线性时间复杂度，不需要额外的数据存储（如SVM的支持向量点需要额外存储）

FM算法使用分解的方法对特征交叉进行建模，因此也可以估计高度稀疏的数据中变量之间的相互影响

### 模型形式

这里首先令$x$和$y$为模型的输入输出，$m(x)$为$x$的$l_0$范数，$\overline{m}(x)$为$m(x)$在数据集$D$上的平均值：

模型公式：$y(x)=w_0+\sum\limits_{i=1}^{n}w_ix_i+\sum\limits_{i=1}^{n}\sum\limits_{j=i+1}^{n}<v_i,v_j>x_ix_j$

其中需要估计的参数有下面这几个：$w_0\in{\mathbb{R}}$、$w\in{\mathbb{R^n}}$、$V\in{\mathbb{R}}^{n\times{k}}$，$k$是定义分解维度的超参数，其中$v_i$为$V$中的一行，用$k$个因子描述了第$i$个特征

$\hat{w}_{ij}=<v_i,v_j>$对第$i$个特征和第$j$个特征的交叉进行建模，而并不是采用一个单独的变量$\hat{w}_{ij}$（这样会占用$n\times{n}$的存储空间）

### 表达能力

这里有一个引理，对于任意的正定矩阵$W$，存在矩阵$V$使得$W=VV^\top$（$k$足够大），这意味着当$k$足够大的时候，FM算法可以表达任何特征交互的矩阵$W$。对于高维稀疏特征，$k$最好取小一点，因为没有足够的数据对复杂的$W$进行估计，此时限制$k$可以使得FM获得更好的泛化能力，从而更好的估计$W$

### 对于稀疏数据的参数估计

这种情况下，通常没有足够的数据对特征之间的交互进行建模，但FM算法通过分解交互参数$w_{ij}$，对交互的独立性问题进行了解决，也就是说$w_{ij}=<v_i,v_j>$，把$w_{ij}$分解成了两个向量的点乘，也就是说对于数据中没见到过的特征交互，FM算法依然可以完成估计

### 复杂度

咋看起来，FM算法的时间复杂度是$O(kn^2)$，实际上的时间复杂度只需要$O(kn)$，这里对特征交互项进行了一个化简：

$\sum\limits_{i=1}^{n}\sum\limits_{j=i+1}^{n}<v_i,v_j>x_ix_j=\dfrac{1}{2}\sum\limits_{f=1}^k((\sum\limits_{i=1}^nv_{i,f}x_i)^2-\sum\limits_{i=1}^nv_{i,f}^2x_i^2)$

从上面这个化简来看，特征交互这一项占用的时间复杂度节省到了$O(kn)$

对于稀疏特征来说，FM算法的时间复杂度是$O(k\overline{m}(x))$

### 学习算法

可以用基于梯度的方法对FM算法进行求解，这里求出了对于参数的偏导数：

$\dfrac{\partial}{\partial{w_0}}y(x)=1$

$\dfrac{\partial}{\partial{w_i}}y(x)=x_i$

$\dfrac{\partial}{\partial{v_{i,f}}}y(x)=x_i\sum\limits_{j=1}^{n}v_{j,f}x_j-v_{i,f}x_i^2$

$\sum\limits_{j=1}^{n}v_{j,f}x_j$独立于$i$，因此可以被预先计算。因此梯度计算的时间复杂度为$O(1)$，因此对于$(x,y)$，所有参数更新可以在$O(kn)$（或者$O(km(x))$）时间内完成

### 其他资源

- https://zhuanlan.zhihu.com/p/37963267