# 評価方法

参考文献

 - [レコメンドつれづれ　～第3回 レコメンド精度の評価方法を学ぶ～ - Platinum Data Blog by BrainPad](http://blog.brainpad.co.jp/entry/2017/08/25/140000)
 - Deepak K. Agarwal & Bee-Chung Chen[2018]「第4章 推薦システムの評価」『推薦システム - 統計的機械学習の理論と実践 - 』共立出版株式会社

In [1]:
import numpy as np
import pandas as pd

import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

# 日本語フォントを設定
font = {'family': 'IPAexGothic'}
mpl.rc('font', **font)

%matplotlib inline

# オフライン評価

## 予測の評価指標
レビューや口コミのようにユーザの嗜好が数段回（1から5など）の<strong style="color: red;">レーティング,数値</strong>で表されるケースでの評価指標を紹介します。ユーザのレーティングをレコメンドシステムがいかに正確に予測できるかを評価します。

### 平均絶対誤差(Mean Abusolute Error, MAE)
算出時は、予測値、実測値の両方の値が存在するユーザ-アイテムのペアのみを対象として次のように計算します。
$$
\mathrm {MAE} = \frac {1}{n} \sum _{i=1}^{n}{\left| \hat {r}_{i} - r_{i} \right|}
$$

 - $\hat {r}_{i}$ : レーティングの予測値
 - $r_{i}$ : レーティングの実測値
 - $n$ : ユーザ-アイテムペアの数

### 二乗平均平方根誤差(Root Mean Squared Error, RMSE)
$$
\mathrm {RMSE} = \sqrt { \frac {1}{n} \sum _{i=1}^{n}{\left( \hat {r}_{i} - r_{i} \right)^{2}} }
$$

## 分類の評価指標
次にECサイトのように、得られるユーザの利用履歴が購入・カート投入の有無といった<strong style="color:red;">2値</strong>で表される場合の評価指標を紹介します。評価の大まかなコンセプトはユーザが好む（購買する）と予測したアイテムと、実際にユーザが好んだ（購買した）アイテムを比較することです。レコメンドでは予測した全アイテムに対する精度を評価するのではなく、TopNに対する評価が使われます。

### Precision(適合率)
> レコメンドリストにあるアイテムのうちユーザが嗜好したアイテム（適合アイテム）の割合。ここでの「レコメンドリストにあるアイテム数」は、TopNのNに該当します。つまりTopNアイテムのうち、何割がユーザにクリック・購入されたかということです。レコメンドの評価ではTopNに対するPrecisionということで、明示的にPrecision@Nと呼ばれることがあります。

$$
Precision@N = \frac {\left| a \cap p_{N} \right|}{N}
$$

 - $N$ : 考慮する上位ランキングの数
 - $a$ : ユーザーが嗜好したアイテム集合
 - $N$ : TopNのレコメンドリスト

混同行列を用いて表すと

$$
Precision = \frac {TP}{TP + FP}
$$

 - $TP(True Positive)$ : ユーザが好きなものをTopNでレコメンドできた数
 - $FP(False Positive)$ : ユーザが好きでないものを間違ってレコメンドした数

### Recall(再現率)
> Recallは、ユーザが実際に嗜好したアイテムのうち、レコメンドリストでカバーできたかの割合です。 Precisionと並んで最もよく利用される指標の一つとなります。 

$$
Recall@N = \frac {\left| a \cap p_{N} \right|}{\left| a \right|}
$$

 - $N$ : 考慮する上位ランキングの数
 - $a$ : ユーザが嗜好したアイテム集合
 - $p_{N}$ : TopNのレコメンドリスト
 
混同行列を用いて表すと

$$
Recall = \frac {TP}{TP + FN}
$$

 - $TP(True Positive)$ : ユーザが好きなものをTopNでレコメンドできた数
 - $FN(False Negative)$ : ユーザが好きなものを間違ってレコメンドしなかった数

### F値
$$
F1 = \frac {2 Recall \times Precision}{Recall + Precision}
$$

## ランキングの評価指標
レコメンドで最終的にユーザに提示されるのはおすすめ度の高い上位数アイテム（TopN）なので、ユーザの嗜好が高い順にアイテムを正しく並べ変えるタスクと捉えることができます。

### PR曲線

### ROC曲線

### MRR(Mean Reciprocal Rank)

### MAP(Mean Average Precision)

### nDCG(normalized Discounted Cumulative Gain)

## カバレッジの評価指標
ここまでいくつかの評価指標を見てきましたが、レコメンドを評価する際に精度だけを見ていれば良いのかという問題があります。

> よく挙げられる例として、人気ランキング上位の商品ばかりがレコメンドされたり、牛乳と卵がよく買われるスーパーマーケットで牛乳と卵をおすすめされるケースがあります。これら人気の高い商品や、一般によく購入する傾向にある商品をレコメンドしていれば、精度指標はある程度高くなることは間違いないですが、購入されることが自明な商品ばかりをレコメンドしていてもあまりレコメンドの有り難みはなさそうです。

レコメンドされるアイテムには幅の広さや目新しさのようなものが求められることがあります。ここではレコメンドの幅広さを測る指標としてカバレッジを紹介します。

### カタログカバレッジ(Catalogue Coverage)
カタログカバレッジは、利用可能な全アイテムのうち、1回のレコメンドでどのくらい多くのアイテムをレコメンドできたか示します。

 - レコメンドのアイテム方向への広がりやカバー率を表し、この値が大きいほど幅広いアイテムをレコメンドできたことになります。

$$
Catalogue Coverage = \frac {\left| S_{r} \right|}{\left| S_{a} \right|}
$$

 - $S_{r}$ : 1回のレコメンドでユーザにおすすめされたアイテム集合
 - $S_{a}$ : 利用可能な全アイテム集合

いくら幅広くてもユーザが嗜好しないアイテムをおすすめしても仕方ないということで、適合アイテムのみに対象を絞った<strong>適合カタログカバレッジ（Weighted Catalogue Coverage）</strong>を用いることもあるようです。

$$
Weighted Catalogue Coverage = \frac {\left| S_{r} \cap S_{s} \right|}{\left| S_{s} \right|}
$$

 - $S_{s}$ : 適合アイテム集合

### ユーザカバレッジ(Prediction Coverage)
ユーザカバレッジは、ユーザに対するカバー率です。全対象ユーザのうち、1回のレコメンドでどのくらい多くのユーザに対してレコメンドできたか示します。

 - レコメンドのユーザ方向への広がりを表し、この値が大きいほど幅広いユーザに対してレコメンドできたことになります。

$$
Prediction Coverage = \frac {\left| S_{p} \right|}{\left| S_{u} \right|}
$$

 - $S_{p}$ : 1回のレコメンドでユーザにおすすめされたユーザ集合
 - $S_{u}$ : 利用可能な全ユーザ集合

カバレッジは、レコメンドの幅広さの一つとして利用されます。またアルゴリズムがどの程度のアイテムおよびユーザに対してレコメンドを生成できるかという、アルゴリズムのコールドスタートへの対応も評価できます。一般にレコメンドの利用履歴はスパースなものが多いため、協調フィルタリングなどコールドスタートへの対応が難しいアルゴリズムでは、レコメンドリストを作成できないユーザやアイテムが多く存在する可能性がありますので広がりにも注意して評価する必要があります。

## その他
レコメンドの目的の一つが「ユーザを長期間魅了し続けること（LTVを上げる）」だった場合、利用履歴にあるユーザの嗜好と近いからと言って、あまり同じような商品ばかりをレコメンドしていてもユーザは飽きてしまうかもしれません。ここでアイテムに対する意外性や出会いのようなものが必要、という考えが出てきます。ここまで紹介したスタンダードな評価指標以外に最近は、目新しさ（Novelty）やセレンディピティ（Serendipity）、多様性（Diversity）という、意外性や驚きみたいなものを重要視する動きがあります。これらを定量化してレコメンドに活かしていこうという試みも進んでいますので、気になる方は調べてみてください。

