# 協調フィルタリング

## 協調フィルタリング手法
- メモリベース法(memory-based method) 
 - 利用者間型メモリベース法(user-user memory-based method)
 - アイテム間型メモリベース法 (item-item memory-based method) 
- モデルベース法 (model-based method) 
 - クラスタモデル
 - 関数モデル
 - 確率モデル
 - 時系列モデル
- ハイブリッド法

### メモリベース法
#### アイテム間型メモリベース法

1. データを獲得する
     - 各種マスタ（ユーザー・アイテム）
     - 行動ログ（閲覧・お気に入り・カート投入・購買など）
     - 過去推薦ログ（レコメンドしたがクリックされなかった、のようなログ）
     - …  

2. データを「user-item」マトリクスの形式に変換

    - 例１：以下のような購買データがある（評価値がない場合）
      - user1の購買リスト：itemA, itemB
      - user2の購買リスト：itemA, itemC
      - user3の購買リスト：itemD, itemE
 
    「user-item」マトリクスの形式に変換する：
    
    $$R = \left[\begin{matrix} 
    r_{user1,itemA} & r_{user1,itemB} & r_{user1,itemC} & r_{user1,itemD} & r_{user1,itemE}  \cr
    r_{user2,itemA} & r_{user2,itemB} & r_{user2,itemC} & r_{user2,itemD} & r_{user2,itemE}  \cr
    r_{user3,itemA} & r_{user3,itemB} & r_{user3,itemC} & r_{user3,itemD} & r_{user3,itemE}  \cr
    \end{matrix}\right] = \left[\begin{matrix}
    1 & 1 & 0 & 0 &0 \cr
    1 & 0 & 1 & 0 &0 \cr
    0 & 0 & 0 & 1 &1 \end{matrix}\right]$$　　

    - 例２：以下のような購買データがある（評価値がある場合）
     
      カッコ内の数値は評価値
      - user1の購買リスト：item_A(5), item_B(4)
      - user2の購買リスト：item_A(5), item_C(1)
      - user3の購買リスト：item_D(2), item_E(2)
 
    「user-item」マトリクスの形式に変換する：
    
    $$R = \left[\begin{matrix} 
    r_{user1,itemA} & r_{user1,itemB} & r_{user1,itemC} & r_{user1,itemD} & r_{user1,itemE}  \cr
    r_{user2,itemA} & r_{user2,itemB} & r_{user2,itemC} & r_{user2,itemD} & r_{user2,itemE}  \cr
    r_{user3,itemA} & r_{user3,itemB} & r_{user3,itemC} & r_{user3,itemD} & r_{user3,itemE}  \cr
    \end{matrix}\right] = \left[\begin{matrix}
    5 & 4 & 0 & 0 &0 \cr
    5 & 0 & 1 & 0 &0 \cr
    0 & 0 & 0 & 2 &2 \end{matrix}\right]
    $$　　

3. コサイン類似度を用いてアイテム間の嗜好の類似度を求める　　
   - コサイン類似度（vector cosine）  

     item xとyの類似度：　 
     $$ simil(x, y) = \cos(\vec{x},\vec{y}) = \frac{\vec{x} \cdot \vec{y}}{\|{\vec{x}}\| \times \|{\vec{y}\|}}
    = \frac{\sum_{u \in U_{xy}}{r_{u,x}r_{u,y}}}{{\sqrt{\sum_{u \in U_x}{r_{u,x}^2}}\sqrt{\sum_{u \in U_y}{r_{u,y}^2}}}}
    $$　　

4. アイテム間の類似度に基づいて、利用者の嗜好を予測する

   $$r_{u,i} = k \sum_{i^{'} \in I}{r_{u,i^{'}}simil(i^{'}, i)}
    = \frac{\sum_{i^{'} \in I}{r_{u,i^{'}}simil(i^{'}, i)}}{\sum_{i^{'} \in I}{ | simil(i^{'}, i) |}}
    $$　　

5. 購買済みの項目を除外して、利用者に対して推薦項目のリストを作る　　
    - 推薦項目のリストをランキングする
    - TOP - N 項目を推薦する


### 評価指標
   - RMSE
   - Accuracy
   - CallbackRate
   - Coverage

### チューニング

### データ読み込み

In [1]:
# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
%matplotlib inline

In [2]:
header = ['user_id', 'item_id', 'rating', 'timestamp']
df = pd.read_csv('../data/ml-1m/ratings.dat', sep='::', names=header,engine='python')
# 実行時間を考慮して、10000行のデータを分析する
df = df.iloc[:10000]
df

Unnamed: 0,user_id,item_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291
5,1,1197,3,978302268
6,1,1287,5,978302039
7,1,2804,5,978300719
8,1,594,4,978302268
9,1,919,4,978301368


userとitemの数

In [3]:
# usersの種類
users = df['user_id'].unique()
# itemの種類
items = df['item_id'].unique()

users_num = users.shape[0]
items_num = items.shape[0]
print('usersの種類数： ' + str(users_num) + ' \nmoviesの種類数： ' + str(items_num))

usersの種類数： 70 
moviesの種類数： 2159


### 訓練データとテストデータを分割する

In [4]:
from sklearn import model_selection

# 訓練データ: 80%
# テストデータ: 20%
train_data, test_data = model_selection.train_test_split(df, test_size=0.2)
print(f'Number of train_data : {len(train_data)} \nNumber of test_data : {len(test_data)}')

Number of train_data : 8000 
Number of test_data : 2000


### データを「user-item」マトリクスの形式に変換する
 - train_data
 - test_data

In [5]:
# train_data
train_data_matrix = pd.DataFrame(None, index = users,columns = items)
train_data_matrix = train_data_matrix.fillna(0)
for line in train_data.itertuples():
    train_data_matrix.loc[line[1], line[2]] = line[3]
    
# test_data
test_data_matrix = pd.DataFrame(None, index = users,columns = items)
test_data_matrix = test_data_matrix.fillna(0)
for line in test_data.itertuples():
    test_data_matrix.loc[line[1], line[2]] = line[3]

In [6]:
train_data_matrix

Unnamed: 0,1193,661,914,3408,2355,1197,1287,2804,594,919,...,2929,3112,3069,1926,2690,2434,2439,1904,40,2995
1,5,3,3,0,5,3,5,5,0,4,...,0,0,0,0,0,0,0,0,0,0
2,5,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,5,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,5,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9,0,0,0,0,4,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
10,0,0,5,4,4,5,0,0,5,5,...,0,0,0,0,0,0,0,0,0,0


### コサイン類似度を用いてアイテム間の嗜好の類似度を求める

In [7]:
from sklearn.metrics.pairwise import pairwise_distances

# コサイン類似度
item_similarity = 1 - pairwise_distances(train_data_matrix.T, metric='cosine')

In [36]:
print(f'１番目のitem：{items[0]}')
print(f'2番目のitem：{items[1]}')
print(f'50番目のitem：{items[49]}\n')
print(f'１番目のitem と １番目のitem の類似度：{item_similarity[0,0]}')
print(f'１番目のitem と 2番目のitem の類似度：{item_similarity[0,1]:.3}')
print(f'１番目のitem と 50番目のitem の類似度：{item_similarity[0,49]:.3}\n')

index0_list,index1_list = np.where(item_similarity==item_similarity[item_similarity<1].max())
max_simil = item_similarity[index0_list[0],index1_list[0]]
print(f'類似度が一番大きいitem：　{items[index0_list[0]]} と　{items[index1_list[0]]}\n類似度：{max_simil:.3}\n')

１番目のitem：1193
2番目のitem：661
50番目のitem：531

１番目のitem と １番目のitem の類似度：1.0
１番目のitem と 2番目のitem の類似度：0.39
１番目のitem と 50番目のitem の類似度：0.261

類似度が一番大きいitem：　3439 と　1005
類似度：1.0



### 利用者間の類似度に基づいて、利用者の嗜好を予測する　

In [57]:
# 推薦項目のリストをランキングする
def predict(user_item_matrix, similarity):
    user_item_matrix = np.array(user_item_matrix)
    predict_rating = user_item_matrix.dot(similarity) / np.abs(similarity).sum(axis=1)
    return predict_rating
item_prediction = predict(train_data_matrix, item_similarity)

# 評価した項目を推薦しない
item_prediction[train_data_matrix != 0]=0

In [58]:
from functools import partial
def ranking(max_recommend_number, user_rating_array):
        user_prediction_tmp = np.sort(user_rating_array)[::-1]
        user_index = np.argsort(user_rating_array)[::-1]
        rating_list = user_prediction_tmp[:max_recommend_number]
        rating_list = rating_list[rating_list>0]
        item_list = user_index[:max_recommend_number]
        item_list = item_list[rating_list>0]
        return (item_list, rating_list)
    
def recommend(user_prediction, max_recommend_number):
    func = partial(ranking, max_recommend_number)
    recommend_list = list(map(func, user_prediction))
    return recommend_list

# TOP - N 項目を推薦する(N=5の場合)
recommend_list = recommend(item_prediction, max_recommend_number=5)

In [60]:
print(f'１番目のuser：{users[0]}に対して、')
print(f'推薦項目1：{recommend_list[0][0][0]}, 予測評価値：{recommend_list[0][1][0]}')
print(f'推薦項目2：{recommend_list[0][0][1]}, 予測評価値：{recommend_list[0][1][1]}')
print(f'推薦項目3：{recommend_list[0][0][2]}, 予測評価値：{recommend_list[0][1][2]}')
print(f'推薦項目4：{recommend_list[0][0][3]}, 予測評価値：{recommend_list[0][1][3]}')
print(f'推薦項目5：{recommend_list[0][0][4]}, 予測評価値：{recommend_list[0][1][4]}')

print(f'\n10番目のuser：{users[10]}に対して、')
print(f'推薦項目1：{recommend_list[10][0][0]}, 予測評価値：{recommend_list[10][1][0]}')
print(f'推薦項目2：{recommend_list[10][0][1]}, 予測評価値：{recommend_list[10][1][1]}')
print(f'推薦項目3：{recommend_list[10][0][2]}, 予測評価値：{recommend_list[10][1][2]}')
print(f'推薦項目4：{recommend_list[10][0][3]}, 予測評価値：{recommend_list[0][1][3]}')
print(f'推薦項目5：{recommend_list[10][0][4]}, 予測評価値：{recommend_list[0][1][4]}')

１番目のuser：1に対して、
推薦項目1：2146, 予測評価値：0.5430792870301181
推薦項目2：2145, 予測評価値：0.5430792870301181
推薦項目3：835, 予測評価値：0.4535058279378549
推薦項目4：830, 予測評価値：0.4535058279378549
推薦項目5：833, 予測評価値：0.4535058279378549

10番目のuser：11に対して、
推薦項目1：253, 予測評価値：0.9738438625527817
推薦項目2：2005, 予測評価値：0.9738438625527817
推薦項目3：543, 予測評価値：0.8118709774954546
推薦項目4：430, 予測評価値：0.4535058279378549
推薦項目5：1464, 予測評価値：0.4535058279378549


### 評価指標
   - RMSE

In [61]:
from sklearn.metrics import mean_squared_error
from math import sqrt    
def rmse(prediction, test_data):
    test_data = np.array(test_data)
    prediction = prediction[test_data.nonzero()].flatten()
    test_data = test_data[test_data.nonzero()].flatten()    
    return sqrt(mean_squared_error(prediction, test_data))
print('User-based CF RMSE: ' + str(rmse(item_prediction, test_data_matrix)))

User-based CF RMSE: 3.3354641943820824
