# python推荐系统库Surprise

推荐系统建模过程中，我们用到了python库，[Surprise(Simple Python RecommendatIon System Engine)](https://github.com/NicolasHug/Surprise)。

基于近邻的方法（协同过滤）可以设定不同的度量标准：cosine、msd、pearson、pearson baseline。

支持不同的评估准则：rmse、mae、fcp

### 示例
    # 指定文件所在路径
    file_path = os.path.expanduser('~/.surprise_data/ml-100k/ml-100k/u.data')
    # 告诉文本阅读器，文本的格式是怎么样的
    reader = Reader(line_format='user item rating timestamp', sep='\t')
    # 加载数据
    data = Dataset.load_from_file(file_path, reader=reader)
    # 手动切分成5折(方便交叉验证)
    data.split(n_folds=5)
    
### 算法调参
    矩阵分解实现的算法通过sgd进行优化，因此一些超参数会影响最后的结果。这里使用网格搜索交叉验证（GridSearchCV）来找到最优的参数。
    # 定义好需要优选的参数网格
    param_grid = {'n_epochs': [5, 10], 'lr_all': [0.002, 0.005],
                  'reg_all': [0.4, 0.6]}
    # 使用网格搜索交叉验证
    grid_search = GridSearch(SVD, param_grid, measures=['RMSE', 'FCP'])
    # 在数据集上找到最好的参数
    data = Dataset.load_builtin('ml-100k')
    data.split(n_folds=3)
    grid_search.evaluate(data)
    # 输出调优的参数组 
    # 输出最好的RMSE结果
    print(grid_search.best_score['RMSE'])
    # >>> 0.96117566386

    # 输出对应最好的RMSE结果的参数
    print(grid_search.best_params['RMSE'])
    # >>> {'reg_all': 0.4, 'lr_all': 0.005, 'n_epochs': 10}

    # 最好的FCP得分
    print(grid_search.best_score['FCP'])
    # >>> 0.702279736531

    # 对应最高FCP得分的参数
    print(grid_search.best_params['FCP'])
    # >>> {'reg_all': 0.6, 'lr_all': 0.005, 'n_epochs': 10}
    ```

# 载入数据

In [145]:
from surprise import KNNBaseline
from surprise import Dataset, Reader
import pickle

In [142]:
# 加载歌单id到歌单名的映射
playlist_id_name_set = pickle.load(open('../data/playlist_id_name_set.data', 'rb'))

# 重建歌单名到歌单id的映射
playlist_name_id_set = {}
for id in playlist_id_name_set:
    playlist_name_id_set[playlist_id_name_set[id]] = id
print('建立歌单名到歌单id的映射字典完成!')

建立歌单名到歌单id的映射字典完成...


In [143]:
playlist_id_name_set

{'69466470': '999句情话·不如一句《嫁给我吧》',
 '69496577': '没有吉他我就唱不出歌·续',
 '69545352': '五月——奔跑吧，青春',
 '69590790': '一把吉他，且听我慢慢道来【华语】',
 '69758545': '适合吉他初学者弹奏的歌曲',
 '69894122': '夏日清凉，听什么爱啊情啊？开心就好',
 '69967423': '軟音媚好·吳語',
 '69909382': '【泠鸢yousa】精选集',
 '70117108': '谁说古风不能燃',
 '70150771': '忽晴忽雨的江湖 【私藏民谣】',
 '70149851': '留声机.老上海',
 '70192649': '愿陪你至岁慕天寒',
 '70245775': '日有千本之樱，国拥权御天下。',
 '70346066': '◎中文集【国乐古朴清幽集】',
 '70349621': '【青年节特辑】致:我们终将逝去的青春',
 '70427945': '草原歌曲220首',
 '70509485': '红遍网络的好音乐《精选辑》',
 '70546065': '内蒙古*乌兰托娅：爱上你的全世界',
 '70626336': '台湾*韩宝仪：往事只能回味',
 '70821713': '单曲循环都不够滴华语',
 '70874280': '【立夏】春天再见，夏天你好',
 '70905273': '致敬曾经辉煌的粤语歌',
 '70940702': '潮人夜店·极品舞曲〔DJ女声篇〕',
 '71005067': '韦礼安【进退有礼 随遇而安】',
 '71104211': '听了五年还不舍得删的华语歌',
 '71198855': '做你一朵干净的影子',
 '71246911': '难过的时候请安静听歌',
 '71277784': '开心听歌用绳命卖萌',
 '71297168': '记忆中的歌声',
 '71417056': '「 中  國  說  唱」',
 '71427288': '罗大佑——光影的故事',
 '71454353': '像是路人，背对着你走',
 '71463686': '♬ 听一次民谣 梦一次远方',
 '71487662': '那些听了就爱上的旋律',
 '71577395': '『5sing』古

In [144]:
file_path = '../data/popular_music_format.txt'

# 指定文件格式
reader = Reader(line_format='user item rating timestamp', sep=',')
# 从文件中读取数据
music_data = Dataset.load_from_file(file_path, reader=reader)
# 计算歌曲到歌曲之间的相似度
trainset = music_data.build_full_trainset()
print('构建数据集完成...')

构建数据集完成...


In [131]:
# 歌曲数量 歌单数量
trainset.n_items, trainset.n_users

(130573, 3771)

In [116]:
print('开始训练模型...')
# 使用knn算法
algo = KNNBaseline()
algo.train(trainset)

开始训练模型...
Estimating biases using als...
Computing the msd similarity matrix...
Done computing similarity matrix.


<surprise.prediction_algorithms.knns.KNNBaseline at 0x11ddcfeb8>

In [132]:
list(playlist_name_id_set.keys())

['999句情话·不如一句《嫁给我吧》',
 '没有吉他我就唱不出歌·续',
 '五月——奔跑吧，青春',
 '一把吉他，且听我慢慢道来【华语】',
 '适合吉他初学者弹奏的歌曲',
 '夏日清凉，听什么爱啊情啊？开心就好',
 '軟音媚好·吳語',
 '【泠鸢yousa】精选集',
 '谁说古风不能燃',
 '忽晴忽雨的江湖 【私藏民谣】',
 '留声机.老上海',
 '愿陪你至岁慕天寒',
 '日有千本之樱，国拥权御天下。',
 '◎中文集【国乐古朴清幽集】',
 '【青年节特辑】致:我们终将逝去的青春',
 '草原歌曲220首',
 '红遍网络的好音乐《精选辑》',
 '内蒙古*乌兰托娅：爱上你的全世界',
 '台湾*韩宝仪：往事只能回味',
 '单曲循环都不够滴华语',
 '【立夏】春天再见，夏天你好',
 '致敬曾经辉煌的粤语歌',
 '潮人夜店·极品舞曲〔DJ女声篇〕',
 '韦礼安【进退有礼 随遇而安】',
 '听了五年还不舍得删的华语歌',
 '做你一朵干净的影子',
 '难过的时候请安静听歌',
 '开心听歌用绳命卖萌',
 '记忆中的歌声',
 '「 中  國  說  唱」',
 '罗大佑——光影的故事',
 '像是路人，背对着你走',
 '♬ 听一次民谣 梦一次远方',
 '那些听了就爱上的旋律',
 '『5sing』古风新曲自荐向',
 '那些可以用在作文的歌词',
 '华语健身跑步调调♪你值得拥有',
 '云南*雷婷：不是因为寂寞才想你',
 '全职高手同人歌集',
 '中年——给爸妈广场必备',
 '【散文诗歌集】文字拾心',
 '【冷门古风】一点墨，一阙歌，一声诉流年',
 '2015苏打绿世界巡回演唱会再遇见歌单最全版',
 '华语经典怀旧歌曲(女人篇)',
 '经典老歌，致我们的八零时代。',
 '苏打绿2015「再遇见演唱会」北京站歌单',
 '【中 文 柔 情 说 唱】',
 '前路未远\xa0步履不停',
 '00-07年爱听的歌',
 '男低音KTV必点',
 '那些曾经听过又忘记的经典歌曲  大合集',
 '❀小缘喵❀',
 '北京*高晓松：晓松咸谈',
 '暗恋的甜度，到多少就刚好？',
 '一场诗词的邂逅，遇见最美的歌声。',
 '再次起航中文说唱永不停息，',
 '你是一顆奶油味的泡芙',
 '郭德纲相声集锦',
 

In [134]:
current_playlist_name = list(playlist_name_id_set.keys())[5]
print(current_playlist_name)

夏日清凉，听什么爱啊情啊？开心就好


In [135]:
# 取出近邻
playlist_id = playlist_name_id_set[current_playlist_name]
print(playlist_id)

69894122


In [136]:
playlist_inner_id = algo.trainset.to_inner_uid(playlist_id)
print(playlist_inner_id)

5


In [137]:
# 获取当前歌单最相似的10个歌单id
playlist_neighbor_ids = algo.get_neighbors(playlist_inner_id, k=10)

In [138]:
playlist_neighbor_ids

[3, 20, 36, 43, 48, 50, 53, 56, 66, 67]

In [139]:
# 把歌单id转成歌单名字
playlist_neighbor_raw_ids = [algo.trainset.to_raw_uid(inner_id) for inner_id in playlist_neighbor_ids]
playlist_neighbor_names = [playlist_id_name_set[playlist_raw_id] for playlist_raw_id in playlist_neighbor_raw_ids]

In [140]:
playlist_neighbor_names

['一把吉他，且听我慢慢道来【华语】',
 '【立夏】春天再见，夏天你好',
 '华语健身跑步调调♪你值得拥有',
 '华语经典怀旧歌曲(女人篇)',
 '00-07年爱听的歌',
 '那些曾经听过又忘记的经典歌曲  大合集',
 '暗恋的甜度，到多少就刚好？',
 '你是一顆奶油味的泡芙',
 '待有女友时，我为她弹唱',
 '听的不是歌是记忆']

In [None]:
夏日清凉，听什么爱啊情啊？开心就好