#  レコメンドの評価方法

- **[3.1 レコメンドの評価方法](#3.1-レコメンドの評価方法)**
    - **[3.1.1 評価方法の分類](#3.1.1-評価方法の分類)**
    - **[3.1.2 予測の評価指標](#3.1.2-予測の評価指標)**
    - **[3.1.3 分類の評価指標](#3.1.3-分類の評価指標)**
    - **[3.1.4 ランキングの評価指標](#3.1.4-ランキングの評価指標)**
    - **[3.1.5 カバレッジ](#3.1.5-カバレッジ)**
<br><br>
- **[添削問題](#添削問題)**



***

## 3.1 レコメンドの評価方法

### 3.1.1 評価方法の分類


レコメンドの評価とは対象者にとって本当にほしいもののレコメンドを精度よく決定するための指標です。状況や目的に応じて様々な評価方法があり、評価方法は常に新しいものが生み出されています。評価指標は多く存在するため、どれを優先させるかは、最終的にレコメンドに求める目的によって決定されます。比較する評価方法にはそれぞれ異なる軸での長所・短所があり、最終的に実装方法を踏まえた上で総合的に考えると、評価指標の選択には、各評価指標についての深い理解が必要となります。

評価方法には大きく分けてオフライン評価とオンライン評価があります。


#### オフライン評価

利用者の行動履歴のみを用いてレコメンドを評価する方法をオフライン評価といいます。   
アルゴリズムの流れとしては、   
1. 行動履歴を学習データとテストデータに分割する。
2. 学習データのみを利用してレコメンドを行う。
3. レコメンド内容とテストデータを照らし合わせてどの程度精度が出ているのかを測定する。

オフライン評価は利用者の利用データのみを利用するため利用者と実際にかかわる必要がなく、コストがかかりません。   
ただし欠点として実サービスと異なることがあげられます。   


例えば実際にレコメンドで提示することで購入される商品はオフラインでは評価できません。   
その商品はすでに購入された商品でありレコメンドされなくても買った可能性があるため正確に評価することができないからです。   


#### オンライン評価

実サービスに導入することで利用者の反応によりレコメンドの評価を行う方法をオンライン評価といいます。   
代表的なものにA/Bテストというものがあります。  
A/Bテストアルゴリズムの流れとしては、   
1. 対象となった利用者をランダムに二つのグループに分ける。
2. 一方のグループには既存のレコメンドシステムを採用、他方には新しいレコメンドシステムを採用する。
3. 両群の結果を比較し、レコメンドを評価する。   

オンライン評価は実サービスと同じ環境でできるので意味のあるデータであるとみなすことができます。   
ただし欠点として、利用者に直接利用してもらうことになるのでコストやリスクが大きくなってしまいます。

#### 問題

- 次のうちオフライン評価の特徴として正しいものはどれでしょう。

1. 評価が簡単のため論文や大会でよく使われる。
2. 行動履歴を利用してモデルを作り、実際に利用者に試してもらう。
3. データを分割し、モデルを作成するためコストがかかる。
4. 上記のすべて

#### ヒント

- オフライン評価は精度をコンピューター上で計算し、検証期間が必要ないのでその分の時間はかかりません。
- オフライン評価では実際にユーザに試してもらうわけではありません。

#### 解答

評価が簡単のため論文や大会でよく使われる。

### 3.1.2 予測の評価指標

レビューや口コミサイトのように、商品に対する評価が１～５で評価するといったようにレーティングされている場合、対象者が取るであろうレーティングを予測する必要があります。この章ではレーティングの予測を評価する二つの指標を紹介します。

#### 平均絶対誤差 (MAE :Mean Abusolute Error)

予想値と実測値の差に絶対値を付けて平均をとったものを平均絶対誤差といいます。英語では MAE と言われたりします。   
簡単で理解しやすく、論文などではたびたび見かけることがありますが実際に使うことはあまりないです。   
式で表すと、   
$ \large MAE = \frac{1}{n}\sum^n|x_{予想値} - x_{実測値}| $   
となります。

#### 標準偏差 (RMSE : Root Mean Squared Error)

予想値と実測値の差の二乗を平均して平方根をとったものを標準偏差といいます。   
予測の評価指数として最も代表的なものであり、実際に使われる機会も多いです。   
式でかくと、   
$ \large RMSE = \sqrt{\frac{1}{n}\sum(x_{予測値} - x_{実測値})^2} $   
となります。

標準偏差のルートの内部のみを分散といい英語表記だとMSEとあらわします。   
$ \large MSE = \frac{1}{n}\sum(x_{予測値} - x_{実測値})^2$   

こちらもよく出てくるので覚えておきましょう。

#### 問題

次の標準偏差を計算してください。

x_real = [7,2,5,6,8,5,7,3,6,9]   
x_pred = [6,1,4,4,8,4,6,3,5,8]

#### ヒント

- 配列の要素同士を計算したい場合ndarrayにすると、単純な引き算で計算できます。
- 平方根は下記のようにして計算できます。   
import math    
math.sqrt(平方根の中身)

#### 解答

1.0488088481701516

pythonを使って計算すると以下のようになります。

In [None]:
import numpy as np
import math

x_real = np.array([7,2,5,6,8,5,7,3,6,9])
x_pred = np.array([6,1,4,4,8,4,6,3,5,8])

RSEM = math.sqrt(1/ len(x_real) * sum((x_real - x_pred)**2))
RSEM

### 3.1.3 分類の評価指標


例えばECサイト(ネットショッピングサイト)のように履歴から購入やカートに入れたかどうかといった二値でしかわからないような場合、どちらの状態かを予測する指標が分類の評価指標になります。   
先ほどの値を予測するものが回帰問題といわれるのに対して、こちらは分類問題と分けられます。   

分類問題を評価できる3つの指標をここでは紹介します。


#### 適合率 (Precision)


対象者が購入したと予想する中で実際に購入した割合を適合率といいます。   
式で表すと、   
$ \large Precision = \frac{|a\cap{p}|}{|p|} $   
$ a : 対象者が実際に購入した集合$   
$ p : 対象者が購入したと予想した集合$   
となります。   
０～１の値をとり、１に近いほどいいモデルといえます。

ただし適合率のみを使うと購入したと予想したものが少ないとき誤った判断をする可能性があります。 
具体例を挙げて考えますと、100種類の商品がある中で購入したものが50種類、購入しなかったものが50種類あると考えてください。   
このとき購入したと予想した商品が10種類だった場合、適合率の考え方としてはこの10種類が購入されている場合この予想モデルはかなり精度のいいものとみなされてしまいます。   
そのため適合率を使う際はほかの評価指数も同時に利用する必要があります。

#### 再現率 (Recall)


実際に対象者が購入した商品の中で、予想できた割合を再現率といいます。   
式で表すと、   
$ \large Recall = \frac{|a\cap{p}|}{|a|} $    
$ a : 対象者が実際に購入した集合$   
$ p : 対象者が購入したと予想した集合$   
となります。   
０～１の値をとり、１に近いほどいいモデルといえます。

再現率も適合率と同様、再現率のみを使うと誤った判断をしてしまいます。   
先ほどと同じ条件で、購入したと予想した数が90種類あったとしましょう。この90種類の中に実際購入したものがすべて入っていれば再現率は1となり、良いモデルであると判断できてしまいます。

#### F1値

トレードオフの関係にある適合率と再現率をバランスよく評価するために、それぞれの値の調和平均をとったものがF値になります。    
調和平均とは、a,bにおける調和平均の場合$ \frac{2ab}{a+b} $で表せられる平均のことです。   

式でかくと、   
$ \large F1 = \frac{2 Recall×Precision}{Precision + Recall}$    
になります。   

F1値はレコメンドの分野のみではなく機械学習でもよく使われます。
適合率が上がれば再現率は下がり、適合率が下がれば再現率は上がる、このように片方が増加すれば他方は減少する関係をトレードオフといいます。   

#### 問題

次のデータのF1値を計算してください。

data_real = [1,0,1,0,1,0,1,1,0,0]   
data_pred = [1,0,1,1,0,1,1,1,0,0]   

#### ヒント

- Precision と　Recall を別々に求めてから f1 を計算しましょう。

#### 解答

0.7272727272727272

pythonを使って計算すると以下のようになります。

In [None]:
data_real = [1,0,1,0,1,0,1,1,0,0]
data_pred = [1,0,1,1,0,1,1,1,0,0]

def precision(real,pred):
    index = []
    for i in range(len(real)):
        if pred[i] == 1:
            index.append(i)
    count_collect = 0
    for i in index:
        count_collect += real[i]
    return count_collect / len(index)

def recall(real,pred):
    index = []
    for i in range(len(real)):
        if real[i]:
            index.append(i)
    count_collect = 0
    for i in index:
        count_collect += pred[i]
    return count_collect / len(index)

p = precision(data_real,data_pred)
r = recall(data_real,data_pred)

f1 = 2*p*r / (p + r)
f1

### 3.1.4 ランキングの評価指標

### 3.1.5 カバレッジ

ここまでいくつかの評価指標を見てきましたが、レコメンドを評価する際に精度だけを見ていれば良いのかという問題があります。   
どういうことかといいますと、人気ランキング上位の商品ばかりがレコメンドされたり、牛乳と卵がよく買われるスーパーマーケットで牛乳と卵をおすすめされるケースがあります。ランキング形式やアイテムベースの観点からいうと当然のことに感じます。しかしこれら人気の高い商品や、一般によく購入する傾向にある商品をレコメンドしていれば、精度指標はある程度高くなることは間違いありません。   
しかし購入されやすい商品ばかりをレコメンドしていてもあまりレコメンドの利点は得られなそうです。   
レコメンドされる商品には幅の広さや目新しさのようなものが求められることがあります。   
このような要素を考慮した評価指数をカバレッジといいます。   

今回はカタログカバレッジとユーザーカバレッジを紹介します。

#### カタログカバレッジ

一回のレコメンドでどれだけの商品をレコメンドできたか示す指標をカタログカバレッジといいます。   
式で表すと、   
$ \large Catalog Coverage = \frac{|S_r|}{|S_a|} $   
$S_r : 一回のレコメンドでおすすめできた商品$   
$S_a : 全体の商品$   

０～１の実数をとり、１に近づくほどより幅広い商品をレコメンドできたとみなすことができます。

#### ユーザカバレッジ

一回のレコメンドでどれぐらい多くのユーザにレコメンドできたかというのをユーザカバレッジといいます。   
式で表すと、   
$ \large Prediction Coverage = \frac{|S_p|}{|S_u|}$   
$S_p : 一回のレコメンドでおすすめされた利用者$   
$S_u : 利用可能な全ユーザ$   

０～１の実数をとり、１に近づくほど幅広い利用者にレコメンドできたとみなすことができます。

#### 問題

この中でカバレッジの説明といえるのはどれでしょう？

1. 実際に対象者の購入履歴に当てはめることでどの程度正確に予測できているかを確認する。
2. 予測精度だけでなく、どれだけ幅広くレコメンドできたかを測定する。
3. 対象者が購入するかしないかを推定し、その精度を測定する。
4. 上記のすべて

#### ヒント

- カバレッジは予測の指標だけでは測定できないものを測定します。

#### 解答

予測精度だけでなく、どれだけ幅広くレコメンドできたかを測定する。

<br>

## 添削問題

#### 問題

sushi_dataには100種類の寿司ネタが0～4の評価を5000人から受けたものが格納されています。   
sushi_labelsには100種類の寿司ネタのラベルが格納されています。
このデータにユーザベース協調フィルタリングを用いて、100番目の人の寿司ネタ100種類における評価を推定してください。

最後に100番目の人が評価している寿司ネタのみを対象に、推定値と実測値を利用して今回の予想モデルの標準偏差を求めて下さい。


#### ヒント

- 類似度にはピアソン相関を使います。
- sushi_where には100番目の人が実際に評価した寿司のindexが入っています。
- 空欄となっているところを埋めてください。

In [None]:
import numpy as np
import math

# sushiのレビューデータをかきこみます。
sushi_data = np.loadtxt('data/sushi_data.score', delimiter=' ')
sushi_labels = open('data/sushi_labels.txt').read().split(':')
sushi_where = [1, 3, 4, 5, 11, 14, 18, 35, 37, 52]
target_user = 100 

#相関係数を返す。
def get_correlation_coefficents(sushi_data, target_user):
    similarities = []
    target = sushi_data[target_user]
    for i, score in enumerate(sushi_data):
        # 共通の評価が３以下のときは除外
        # indicesには共通していた寿司ネタのindexが入ります。
        indices = np.where(((target + 1) * (score + 1)) != 0)[0]
        if len(indices) < 3 or i == target_user_index:
            continue
            
        #similarityに対象者と利用者の類似度を代入してください。
        #比べる対象は共通した寿司ネタのみとします。
        
        
        similarity = 
        
        
        
        #相関係数に何らかの問題があり、Nanになった場合かきこまないようにします。
        if np.isnan(similarity):
            continue
        #similaritiesにそれぞれの利用者との相関係数を入れます。
        similarities.append((i, similarity))
    
    return sorted(similarities, key=lambda s: s[1], reverse=True)

similarities = get_correlation_coefficents(sushi_data, target_user)

#あるアイテムに関する評価値の予想を行う
def predict(sushi_data, similarities, target_user, target_item):
    target = sushi_data[target_user]
    #対象者のバイアスによる影響を消す。
    avg_target = np.mean(target[np.where(target >= 0)])
    
    numerator = 0.0
    denominator = 0.0
    k = 0
    
    for similarity in similarities:
        # 類似度の上位5人の評価値を使う
        #類似度が負になった場合も終了させる。
        if k > 5 or similarity[1] <= 0.0:
            break
            
        score = sushi_data[similarity[0]]
        if score[target_item] >= 0:
            #類似度で重みを付けるため、類似度の合計と重み付き評価を求めます。
            denominator += similarity[1]
            numerator += similarity[1] * (score[target_item] - np.mean(score[np.where(score >= 0)]))
            k += 1
    # 分母が正ではない時エラーを出すようにします。
    return avg_target + (numerator / denominator) if denominator > 0 else -1

#寿司ネタすべての評価値を求めます。
def rank_items(sushi_data, similarities, target_user):
    rankings = []
    target = sushi_data[target_user]
    # 寿司ネタ100種類の全てで評価値を予測
    for i in range(100):
        rankings.append((sushi_labels[i], predict(sushi_data, similarities, target_user, i)))
    return rankings


target_user = 100 # 100番目のユーザ
rankings = rank_items(sushi_data,similarities,target_user)
sushi_target = sushi_data[target_user]
sim = []
for i in sushi_where:
    #sim には[(寿司ネタの予測値、対象者の評価)、(...)、...]とデータが入っています。
    sim.append((rankings[i][1],sushi_target[i]))
    

# 推測値と実測値の標準偏差を求めてください。


RMSE =

print(rankings)
print()
print('RESM :', RMSE)

#### 解答例

In [None]:
import numpy as np
import math

# sushiのレビューデータとsushiのラベルをかきこみます。
sushi_data = np.loadtxt('data/sushi_data.score', delimiter=' ')
sushi_labels = open('data/sushi_labels.txt').read().split(':')
sushi_where = [1, 3, 4, 5, 11, 14, 18, 35, 37, 52]
target_user = 100 # 100番目のユーザ


#相関係数を返す。
def get_correlation_coefficents(sushi_data, target_user):
    similarities = []
    target = sushi_data[target_user]
    for i, score in enumerate(sushi_data):
        # 共通の評価が少ない場合は除外
        indices = np.where(((target + 1) * (score + 1)) != 0)[0]
        if len(indices) < 3 or i == target_user:
            continue
        
        similarity = np.corrcoef(target[indices], score[indices])[0, 1]
        #相関係数に何らかの問題があり、Nanになった場合かきこまないようにします。
        if np.isnan(similarity):
            continue
        #similaritiesにそれぞれの利用者との相関係数を入れます。
        similarities.append((i, similarity))
    
    return sorted(similarities, key=lambda s: s[1], reverse=True)

similarities = get_correlation_coefficents(sushi_data, target_user)

#あるアイテムに関する評価値の予想を行う
def predict(sushi_data, similarities, target_user, target_item):
    target = sushi_data[target_user]
    #対象者のバイアスによる影響を消す。
    avg_target = np.mean(target[np.where(target >= 0)])
    
    numerator = 0.0
    denominator = 0.0
    k = 0
    
    for similarity in similarities:
        # 類似度の上位5人の評価値を使う
        #類似度が負になった場合も終了させる。
        if k > 5 or similarity[1] <= 0.0:
            break
            
        score = sushi_data[similarity[0]]
        if score[target_item] >= 0:
            #類似度で重みを付けるため、類似度の合計と重み付き評価を求めます。
            denominator += similarity[1]
            numerator += similarity[1] * (score[target_item] - np.mean(score[np.where(score >= 0)]))
            k += 1
    # 分母が正ではない時エラーを出すようにします。
    return avg_target + (numerator / denominator) if denominator > 0 else -1

#寿司ネタすべての評価値を求めます。
def rank_items(sushi_data, similarities, target_user):
    rankings = []
    target = sushi_data[target_user]
    # 寿司ネタ100種類の全てで評価値を予測
    for i in range(100):
        rankings.append((sushi_labels[i], predict(sushi_data, similarities, target_user, i)))
    return rankings


rankings = rank_items(sushi_data,similarities,target_user)
sushi_target = sushi_data[target_user]
sim = []
for i in sushi_where:
    #sim には[(寿司ネタの予測値、対象者の評価)、(...)、...]とデータが入っています。
    sim.append((rankings[i][1],sushi_target[i]))


RMSE = 0
RMSE = math.sqrt(sum([(x[0] - x[1])**2 for x in sim]) / len(sim))
print(rankings)
print()
print('RMSE :',RMSE)