# 課題4
* 協調フィルタリングをスクラッチで実装する
* 評価までやってみる

### Q1. 協調フィルタリングについて調べる

### A. アルゴリズム理解できればおっけい

### Q2. 実装する
* 入力データ：input/sample_work04
* データ内容  
オンラインショッピング擬似データ  
行列形式  
縦:ユーザー数:10   
横:アイテム数:20   
5段階の評価値(1~5)  
未評価(0)  
* 協調フィルタリングを実装して未評価部分を予測する
* output/sample_work04として出力する

### A. 以下にコードを書く
#### クラスで実装する
最低限実装するpublicメソッド  
* get_userID:全userIDを出力する
* get_itemID:全itemIDを出力する
* pickle_similarity:類似度をcsvで保存する
* write_result:未評価のユーザーとアイテムの全組み合わせに対して予測を行い指定したファイル名に出力する(output/sample_work04を参考に)
* predict_rating(引数:userID, itemID, min_sim):ユーザーIDとアイテムIDを指定して評価値を予測する,min_simは類似度の最低限の値を指定する

In [61]:
import numpy as np

class CF:
    def __init__(self):
        self.rating_matrix = None
        self.num_user = None
        self.num_item = None
        self.sim_all = []
        self.ave_all = []
        
    def fit(self, rating_matrix):
        self.rating_matrix = rating_matrix
        self.num_user = len(rating_matrix)
        self.num_item = len(rating_matrix[0])
        self.__calc_similarity()
        self.__calc_ave_rating()
    
    def get_userID(self):
        return [i for i in range(len(self.rating_matrix))]
    
    def get_itemID(self):
        return [i for i in range(len(self.rating_matrix[0]))]
    
    def pickle_similarity(self, file_name):
        with open(file_name, 'w') as f:
            for user in self.sim_all:
                f.write(','.join(list(map(str, user))) + '\n')
    
    def __calc_similarity(self):
        for user_index, user_rating in enumerate(self.rating_matrix):
            sim_list = []
            value1 = np.linalg.norm(user_rating)
            for index, rating in enumerate(self.rating_matrix):
                if user_index == index:
                    sim_list.append(0)
                    continue
                value2 = np.linalg.norm(rating)
                value3 = np.dot(user_rating, rating)
                sim_list.append(value3/(value1 * value2))
            self.sim_all.append(sim_list)
    
    def __calc_ave_rating(self):
        self.ave_all = [np.mean(list(filter(lambda x: x != 0, user))) for user in self.rating_matrix]
    
    def predict_rating(self, userID, itemID, min_num=0, min_sim=0.0):
        sum_rate = 0.0
        sum_sim = 0.0
        min_num = min_num if min_num != 0 else self.num_user
        for id_, (item_rate, sim) in enumerate(zip(np.array(self.rating_matrix)[:, itemID], self.sim_all[userID])):
            if sim < min_sim: continue
            sum_rate += (item_rate - self.ave_all[id_]) * sim
            sum_sim += sim
        return self.ave_all[userID] + sum_rate / sum_sim
    
    def write_result(self, file_name, min_sim_=0.0):
        tmp = [[round(self.predict_rating(userID, itemID, min_sim=min_sim_)) if rate == 0 else rate for itemID, rate in enumerate(user)] for userID, user in enumerate(self.rating_matrix)]
        with open('./output/{}'.format(file_name), 'w') as f:
            for user in tmp:
                f.write(','.join(list(map(str, user))) + '\n')

In [46]:
def run():

[[ 0.  0.  5.  4.  0.  4.  2.  0.  3.  5.  1.  4.  5.  3.  0.  0.  0.  3.
   3.  0.]
 [ 5.  0.  4.  3.  0.  5.  1.  0.  2.  4.  2.  5.  5.  3.  0.  2.  0.  0.
   0.  0.]
 [ 1.  3.  0.  0.  0.  5.  0.  1.  3.  0.  1.  4.  0.  0.  0.  1.  2.  0.
   1.  0.]
 [ 1.  0.  0.  0.  3.  5.  0.  2.  0.  3.  2.  0.  3.  2.  2.  3.  0.  0.
   0.  0.]
 [ 0.  0.  4.  4.  0.  4.  2.  0.  0.  5.  0.  4.  0.  0.  1.  0.  0.  2.
   0.  0.]
 [ 1.  0.  1.  0.  0.  4.  0.  0.  0.  0.  0.  0.  2.  0.  0.  0.  3.  0.
   0.  0.]
 [ 2.  0.  0.  0.  3.  0.  2.  1.  2.  3.  1.  4.  2.  0.  0.  0.  1.  0.
   0.  5.]
 [ 1.  2.  0.  2.  3.  4.  1.  0.  4.  0.  1.  5.  0.  0.  0.  4.  4.  1.
   0.  0.]
 [ 3.  0.  0.  3.  4.  0.  4.  0.  2.  3.  4.  3.  3.  1.  2.  0.  3.  0.
   0.  0.]
 [ 0.  0.  5.  5.  0.  0.  0.  0.  3.  5.  2.  0.  5.  3.  0.  0.  0.  2.
   1.  0.]]
