# python推荐系统库Surprise

推荐系统建模过程中，我们用到了python库，[Surprise(Simple Python RecommendatIon System Engine)](https://github.com/NicolasHug/Surprise)。

基于近邻的方法（协同过滤）可以设定不同的度量标准：cosine、msd、pearson、pearson baseline。

支持不同的评估准则：rmse、mae、fcp

### 示例
    # 指定文件所在路径
    file_path = os.path.expanduser('~/.surprise_data/ml-100k/ml-100k/u.data')
    # 告诉文本阅读器，文本的格式是怎么样的
    reader = Reader(line_format='user item rating timestamp', sep='\t')
    # 加载数据
    data = Dataset.load_from_file(file_path, reader=reader)
    # 手动切分成5折(方便交叉验证)
    data.split(n_folds=5)
    
### 算法调参
    矩阵分解实现的算法通过sgd进行优化，因此一些超参数会影响最后的结果。这里使用网格搜索交叉验证（GridSearchCV）来找到最优的参数。
    # 定义好需要优选的参数网格
    param_grid = {'n_epochs': [5, 10], 'lr_all': [0.002, 0.005],
                  'reg_all': [0.4, 0.6]}
    # 使用网格搜索交叉验证
    grid_search = GridSearch(SVD, param_grid, measures=['RMSE', 'FCP'])
    # 在数据集上找到最好的参数
    data = Dataset.load_builtin('ml-100k')
    data.split(n_folds=3)
    grid_search.evaluate(data)
    # 输出调优的参数组 
    # 输出最好的RMSE结果
    print(grid_search.best_score['RMSE'])
    # >>> 0.96117566386

    # 输出对应最好的RMSE结果的参数
    print(grid_search.best_params['RMSE'])
    # >>> {'reg_all': 0.4, 'lr_all': 0.005, 'n_epochs': 10}

    # 最好的FCP得分
    print(grid_search.best_score['FCP'])
    # >>> 0.702279736531

    # 对应最高FCP得分的参数
    print(grid_search.best_params['FCP'])
    # >>> {'reg_all': 0.6, 'lr_all': 0.005, 'n_epochs': 10}
    ```

# 载入数据

In [2]:
from surprise import KNNBaseline
from surprise import Dataset, Reader
import pickle

In [3]:
# 加载歌单id到歌单名的映射
playlist_id_name_set = pickle.load(open('../data/playlist_id_name_set.data', 'rb'))

# 重建歌单名到歌单id的映射
playlist_name_id_set = {}
for id in playlist_id_name_set:
    playlist_name_id_set[playlist_id_name_set[id]] = id
print('建立歌单名到歌单id的映射字典完成!')

建立歌单名到歌单id的映射字典完成!


歌单id到歌单名的映射，playlist_id_name_set：

{
'69466470': '999句情话·不如一句《嫁给我吧》',
 '69496577': '没有吉他我就唱不出歌·续',
 '69545352': '五月——奔跑吧，青春',
 '69590790': '一把吉他，且听我慢慢道来【华语】',
 ...
 }

In [10]:
# MovieLens数据集格式的文件，格式为：user item rating timestamp 
file_path = '../data/popular_music_format.txt'

# 指定文件格式
reader = Reader(line_format='user item rating timestamp', sep=',')
# 从文件中读取数据
music_data = Dataset.load_from_file(file_path, reader=reader)
# 计算歌曲到歌曲之间的相似度
trainset = music_data.build_full_trainset()
print('构建数据集完成...')

构建数据集完成...


In [17]:
# 使用knn算法
print('开始训练模型...')
algo = KNNBaseline()
algo.train(trainset)

开始训练模型...
Estimating biases using als...
Computing the msd similarity matrix...
Done computing similarity matrix.


<surprise.prediction_algorithms.knns.KNNBaseline at 0x103227780>

In [18]:
# 歌单列表
list(playlist_name_id_set.keys())[0:5]

['999句情话·不如一句《嫁给我吧》',
 '没有吉他我就唱不出歌·续',
 '五月——奔跑吧，青春',
 '一把吉他，且听我慢慢道来【华语】',
 '适合吉他初学者弹奏的歌曲']

In [21]:
# 第4个歌单的歌单名
current_playlist_name = list(playlist_name_id_set.keys())[4]
print(current_playlist_name)

适合吉他初学者弹奏的歌曲


In [24]:
# 该歌单对应的歌单id
playlist_id = playlist_name_id_set[current_playlist_name]
print(playlist_id)

69758545


In [26]:
# playlist_inner_id为第几个歌单的id，而非实际id
playlist_inner_id = algo.trainset.to_inner_uid(playlist_id)
print(playlist_inner_id)

4


In [32]:
# 获取当前歌单最相似的10个歌单id
playlist_neighbor_ids = algo.get_neighbors(playlist_inner_id, k=10)
playlist_neighbor_ids

[1, 3, 9, 14, 16, 19, 24, 26, 28, 32]

In [29]:
# 把歌单id列表转成歌单名字列表
playlist_neighbor_raw_ids = [algo.trainset.to_raw_uid(inner_id) for inner_id in playlist_neighbor_ids]
playlist_neighbor_names = [playlist_id_name_set[playlist_raw_id] for playlist_raw_id in playlist_neighbor_raw_ids]

In [30]:
playlist_neighbor_names

['没有吉他我就唱不出歌·续',
 '一把吉他，且听我慢慢道来【华语】',
 '忽晴忽雨的江湖 【私藏民谣】',
 '【青年节特辑】致:我们终将逝去的青春',
 '红遍网络的好音乐《精选辑》',
 '单曲循环都不够滴华语',
 '听了五年还不舍得删的华语歌',
 '难过的时候请安静听歌',
 '记忆中的歌声',
 '♬ 听一次民谣 梦一次远方']

我们使用基于用户的协同过滤算法，根据歌单《适合吉他初学者弹奏的歌曲》所推荐的十个歌单为：
     
     '没有吉他我就唱不出歌·续',
     '一把吉他，且听我慢慢道来【华语】',
     '忽晴忽雨的江湖 【私藏民谣】',
     '【青年节特辑】致:我们终将逝去的青春',
     '红遍网络的好音乐《精选辑》',
     '单曲循环都不够滴华语',
     '听了五年还不舍得删的华语歌',
     '难过的时候请安静听歌',
     '记忆中的歌声',
     '♬ 听一次民谣 梦一次远方'