# MMR
## 定义
Maximal Marginal Relevance  
$$ MMR = Arg \ \underset{D_i \in R \backslash S}{max} \left[ \lambda(Sim_1(D_i, Q)) - (1-\lambda)\underset{D_j \in S}{max}Sim_2(D_i, D_j)\right]$$
其中，$D_i$表示待查询item，$R$表示候选集，$S$表示已经选择的集合，$\lambda$用于调节多样性和准确性。 即从未选择的item中选择一个与$Q$最相关同时与已选择的item最不相关的文档。  
在推荐系统中，$Q$可以表示用户，在搜索中$Q$可以表示用户输入的查询词。

In [1]:
from typing import Dict
import numpy as np

In [2]:
def maximal_marginal_relevance( 
    q_d_score: Dict[int, float], 
    item_sim_mat: np.ndarray, 
    lambda_c=0.5, 
    top_k=20):
    """
    :param q_d_score: Q and D score, {item_index: score} for the query/user
    :param item_sim_mat: item similarity matrix, x_ij is the i_th and j_th item similarity
    :param lambda_c: lambda constant
    :param top_k: how much items to collect
    """
    s, r = [], list(q_d_score.keys())
    for i in range(max(top_k, len(r))):
        scores = np.array([-np.inf for i in range(max(r)+1)])
        for item in r:
            scores[item] = lambda_c * q_d_score[item] - (1-lambda_c) * max([item_sim_mat[item][x] for x in s] + [0])
        sel_item = np.argmax(scores)
        s.append(sel_item)
        r.remove(sel_item)
    return s


## 数据及计算

- item 相似度矩阵  
  $$\left[\begin{matrix} 1.0 & 0.9 & 0.6 & 0.3\\ 0.9 & 1.0 & 0.3 & 0.7 \\ 0.6 & 0.3 & 1.0 & 0.8 \\ 0.3 & 0.7 & 0.8 & 1.0\end{matrix} \right]$$
- query-item 分数
  $$\left[\begin{matrix} 0.6 & 0.5 & 0.8 & 0.9 \end{matrix} \right]$$
- 计算
  - 取`top_k=4, lambda_c=0.5`，即对召回item做一次排序。 
  - 初始状态$S \rightarrow[]$，$R\rightarrow[0, 1, 2, 3]$，因此只需要选择分数最高的item3，$S \rightarrow [3]$, $R\rightarrow[0, 1, 2]$.
  - item0, item1, item2的带权重分数$\lambda Sim_1$依次为0.3, 0.25, 0.4, 带权重的与item3的相似度依次为0.15, 0.35, 0.4，最终分数依次为0.15, -0.1, 0，因此选item0，$S \rightarrow [0, 3]$, $R\rightarrow[1, 2]$.
  - item1, item2的带权重分数$\lambda Sim_1$依次为0.25, 0.4，带权重与$S$中最大相似度依次为0.45, 0.4，最终分数依次为-0.2, 0，因此选择item2.
  - 最终得到$S \rightarrow [3, 0, 2, 1]$

In [3]:
item_sim_mat = np.array(
    [[1., 0.9, 0.6, 0.3], 
     [0.9, 1., 0.3, 0.7], 
     [0.6, 0.3, 1., 0.8], 
     [0.3, 0.7, 0.8, 1.]])
item_scores = {0: 0.6, 1: 0.5, 2: 0.8, 3: 0.9}

In [4]:
item_sim_mat

array([[1. , 0.9, 0.6, 0.3],
       [0.9, 1. , 0.3, 0.7],
       [0.6, 0.3, 1. , 0.8],
       [0.3, 0.7, 0.8, 1. ]])

In [5]:
mmr_result = maximal_marginal_relevance(
    q_d_score=item_scores,
    item_sim_mat=item_sim_mat,
    lambda_c=0.5,
    top_k=4
)
print(mmr_result)

[3, 0, 2, 1]
