# DPP

行列式点过程多样性算法，Determinantal Point Process.

## 行列式

- 二阶行列式
  $$
  \left|\begin{array}{cccc} a_{00} & a_{01} \\a_{10} & a_{11} \\\end{array}\right| = a_{00}a_{11} - a_{01}a_{10}
  $$
  

- 三阶行列式
  $$
  \left|\begin{array}{cccc} a_{00} & a_{01} & a_{02}\\a_{10} & a_{11} & a_{12}\\a_{20} & a_{21} & a_{22}\\\end{array}\right| = a_{00}\left|\begin{array}{cccc} a_{11} & a_{12} \\a_{21} & a_{22} \\\end{array}\right| - a_{01}\left|\begin{array}{cccc} a_{10} & a_{12} \\a_{20} & a_{22} \\\end{array}\right| + a_{02}\left|\begin{array}{cccc} a_{10} & a_{11} \\a_{20} & a_{21} \\\end{array}\right|
  $$

- 通项
  $$
  \left|\begin{array}{cccc} a_{00} & a_{01} & \cdots & a_{0n}\\a_{10} & a_{11} & \cdots & a_{1n}\\\vdots & \vdots & \ddots & \vdots\\a_{n0} & a_{n1} & \cdots & a_{nn}\\\end{array}\right| = \sum_{j_{1},j_2,\cdots j_{n}}(-1)^ta_{1j_1}a_{2j_2}\cdots a_{nj_n}
  $$
  其中$j_{1},j_2,\cdots j_{n}$表示$1\to n$ 的一个全排列，$t$为这个全排列的逆序数。

- 记法：$det(A)$表示矩阵$A$的行列式

- 直观理解

  将每行看成一个向量，行列式的大小反映了向量的夹角大小。例如
  $$
  \left|\begin{array}{cccc} 
  1 & 0 \\
  1 & 0 \\
  \end{array}\right| = 0
  \\
  \left|\begin{array}{cccc} 
  1 & 0 \\
  0 & 1 \\
  \end{array}\right| = 1
  $$
  两个向量的夹角分别为$0^{\circ}$和$90^{\circ}$

- Cholesky Decomposition (Cholesky分解)

  半正定矩阵$A=A^\top$且$x^\top Ax>0$可分解成$A = L \cdot L ^ \top$，其中$L$是一个下三角矩阵

  在`numpy`中为`L = np.linalg.cholesky(A)`

## DPP的构造

对于离散集合$Z = {I_1, I_2, \cdots},I_M$，对于$Z$的每一个子集$Y$，构造一个矩阵$L_Y$，其中$L_{ij} = <V_i, V_j>$，其中$V_i$表示带相关性权重的item向量: $V_i = r_i \cdot v_i$，其中$r_i$为item和query/user的相关性（如CTR)，$v_i$为item的向量。

假设采用余弦相似度那么，则有
$$
det(L) = det(\left| <V_i, V_j> \right|) = det(\left| r_ir_j<v_i, v_j>\right|) = det(\left| r_ir_js_{ij}\right|)
$$
根据
$$
L_{1j_1}L_{2j_2}\cdots L_{nj_n} = \prod_{i \in M}s_i \prod_{i \in M}r_i^2
$$
和的公式，可以把$r_ir_j$提取出来
$$
det(L_Y) = \prod_{i \in M}r_i^2 \cdot det(S_Y)
$$
$det(L_Y)$就变成了相关性$\prod_{i \in M}r_i^2$和多样性$det(S_Y)$的乘积了，至于为什么$det(S_Y)$反映了多样性，我们可以直接看计算：

In [2]:
import numpy as np

v1 = np.array([1, 2, 3])
v2 = np.array([1, 2, 4])
v3 = np.array([1, 3, 3])

s12 = np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
s13 = np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v3))
s23 = np.dot(v1, v2) / (np.linalg.norm(v2) * np.linalg.norm(v3))

S1 = np.array([[1, s12, s13], [s12, 1, s23], [s13, s23, 1]])
np.linalg.det(S1)

-0.03472968134622269

In [3]:
v1 = np.array([1, 2, 6])
v2 = np.array([9, 2, 4])
v3 = np.array([1, 7, 3])

s12 = np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
s13 = np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v3))
s23 = np.dot(v1, v2) / (np.linalg.norm(v2) * np.linalg.norm(v3))

S1 = np.array([[1, s12, s13], [s12, 1, s23], [s13, s23, 1]])
np.linalg.det(S1)

0.2883770807837294