# 从word2vec到song2vec
word2vec就是将词映射到词嵌入矩阵，词与词之间的相似性可以用余弦相似度表示。

我们将歌曲的id序列取出来，类比于分完词后的句子，送到word2vec中学习一下。

原始格式

    漫步西欧小镇上##小语种,旅行##69413685##474	18682332::Wäg vo dir::Joy Amelie::70.0	4335372::Only When I Sleep::The Corrs::60.0	2925502::Si Seulement::Lynnsha::100.0	21014930::Tu N'As Pas Cherché...::La Grande Sophie::100.0	20932638::Du behöver aldrig mer vara rädd::Lasse Lindh::25.0	17100518::Silent Machine::Cat Power::60.0	3308096::Kor pai kon diew : ชอไปคนเดียว::Palmy::5.0	1648250::les choristes::Petits Chanteurs De Saint Marc::100.0	4376212::Paddy's Green Shamrock Shore::The High Kings::25.0	2925400::A Todo Color::Las Escarlatinas::95.0	19711402::Comme Toi::Vox Angeli::75.0	3977526::Stay::Blue Cafe::100.0	2538518::Shake::Elize::85.0	2866799::Mon Ange::Jena Lee::85.0	5191949::Je M'appelle Helene::Hélène Rolles::85.0	20036323::Ich Lieb' Dich Immer Noch So Sehr::Kate & Ben::100.0

In [38]:
import sys
import pickle
import gensim
import multiprocessing
from random import shuffle

import warnings
warnings.filterwarnings("ignore")

In [39]:
def parse_playlist_get_sequence(in_line, playlist_sequence):
    """ 解析文本 """
    song_sequence = []
    contents = in_line.strip().split('\t')
    # 解析歌单序列
    for song in contents[1:]:
        try:
            song_id, song_name, artist, popularity = song.split('::')
            song_sequence.append(song_id)
        except:
            print('song format error')
            print(song+'\n')
    shuffle(song_sequence)
    playlist_sequence.append(song_sequence)

def get_playlist_sequence(in_file, out_file):
    """ 将歌曲id传入word2vec中训练 """
    # 所有歌单序列
    playlist_sequence = []
    # 遍历所有的歌单
    for line in open(in_file):
        parse_playlist_get_sequence(line, playlist_sequence)
    # 使用word2vec进行训练
    return playlist_sequence

In [40]:
song_sequence_file = '../data/popular.playlist'
model_file = '../data/song2vec.model'
playlist_sequence = get_playlist_sequence(song_sequence_file, model_file)

song format error
1870957::彩云国物语 セカンドシリーズ::君を想う::梁邦彦::80.0

song format error
4965888::桃华月惮::龙皇-リュウオウ-::多田彰文::25.0

song format error
456177::true tears::一阵の风::菊地創::95.0

song format error
22642373::

song format error
 FAIRY TAIL メインテーマ -Slow ver.-::高梨康治::95.0

song format error
31563610::

song format error
苍之礼赞::花之祭P::60.0

song format error
4954593::リズム天国全曲集::恋の実験室::V.A.::55.0

song format error
4954596::リズム天国全曲集::シンクロ::V.A.::60.0

song format error
31654811::

song format error
American Cowboys::Tim Wynn::65.0

song format error
19169096::

song format error
 Time to Say Goodbye (Con te partirò)::Sarah Brightman::100.0

song format error
31563610::

song format error
苍之礼赞::花之祭P::60.0

song format error
31563610::

song format error
苍之礼赞::花之祭P::60.0

song format error
31563610::

song format error
苍之礼赞::花之祭P::60.0

song format error
19169096::

song format error
 Time to Say Goodbye (Con te partirò)::Sarah Brightman::100.0

song format error
376653::野弧禅狂叱(宿香之战)

song format error
:

In [41]:
print('歌单的个数:', len(playlist_sequence))

歌单的个数: 3772


In [42]:
def train_song2vec(playlist_sequence, model_file):
    # 使用word2vec训练
    cores = multiprocessing.cpu_count()
    print('using all ' + str(cores) + ' cores')
    print('正在训练word2vec模型')
    model = gensim.models.Word2Vec(sentences=playlist_sequence, size=150, min_count=3, window=7, workers=cores)
    model.save(model_file)
    print('已保存模型')
    
train_song2vec(playlist_sequence, model_file)

using all 4 cores
正在训练word2vec模型
已保存模型


模型训练完了，让我们看看模型的训练效果吧。

In [43]:
song_id_name_set = pickle.load(open('../data/song_id_name_set.data', 'rb'))
model = gensim.models.Word2Vec.load('../data/song2vec.model')

In [46]:
# 我们可以找到和当前歌曲最相似的歌曲。
song_ids = list(song_id_name_set.keys())[1200:1210]
for song_id in song_ids:
    similarily_song_list = model.most_similar(song_id)
    print(song_id_name_set[song_id], '最相似的三首歌是：')
    for i in range(0,3):
        print(song_id_name_set[similarily_song_list[i][0]], '\t|', similarily_song_list[i][1])
    print('\n')

渔村之歌	李丽莲 最相似的三首歌是：
古龙群侠传	Aki阿杰 	| 0.35541391372680664
方圆几里（Cover 薛之谦）	宇西 	| 0.3548620939254761
隔世(桑道伦回)	伦桑 	| 0.3537614941596985


花开花落	袁美云 最相似的三首歌是：
我与自己唱相守	云の泣 	| 0.41361182928085327
自攻自受	崩坏 	| 0.39913976192474365
尽头 (2015动静版)	李志 	| 0.3902862071990967


夜来香(胡蝶	群星 最相似的三首歌是：
brave heart	宮崎歩 	| 0.47500061988830566
Loving You	申升勋 	| 0.46197646856307983
剑侠吟	凌之轩 	| 0.46134376525878906


爱秋香	韩兰根 最相似的三首歌是：
Casablanc/片段 (英/粤语)	张国荣 	| 0.4163525104522705
【意执不离】-刺客列传执离cp同人歌	慕斯の小乖 	| 0.3798922300338745
走样	张宇 	| 0.36524492502212524


四季吟	张翠红 最相似的三首歌是：
你是这样的人 (Live)	韩红 	| 0.3688310980796814
我都记得	A-Lin 	| 0.3639987111091614
定西 (2015动静版)	李志 	| 0.36269503831863403


今夜曲	宣景琳 最相似的三首歌是：
梦望断	东篱 	| 0.500866174697876
江南调	Winky诗 	| 0.499872088432312
醉清风	弦子 	| 0.49923473596572876


湖上悲歌	陈波儿 最相似的三首歌是：
车站 (Live)	李健 	| 0.49622467160224915
跟着感觉走	苏芮 	| 0.4941837191581726
记得	张惠妹 	| 0.49227917194366455


思君吟	张翠红 最相似的三首歌是：
她的背影	王杰 	| 0.409576416015625
那一世	靳松 	| 0.3818192780017853
恼人的秋风	费翔 	| 0.37864166498184204


侬心许

如上述所示，我们采用word2vec获取了哪个歌曲和哪个歌曲最相似。我们思考一下以下问题。

1）冷启动问题
    
    - 若歌手发行新歌曲，我们怎么做推荐呢？
    - 听完一首冷门的歌，我们如何做推荐呢？

    1.1的解决方式就是推荐热门的歌曲，这个其实没有从用户个人兴趣出发，其实没有太大的卵用。

    1.2的解决方法就是将粒度放粗，我们将歌曲的粒度上升到歌手，把song_list替换成artist_list，重新用word2vec建模，这样就可以得到一个和歌手最接近的歌手，然后再推荐这个歌手最热门的歌曲。这个相对于1.1的解决方法更有针对性。
    
2）用户兴趣预测问题
   
    刚才的功能，类似酷狗音乐和网易音乐里针对一首歌推荐`相似音乐`，如果要对一个user用song2vec的方式推荐，如何做呢？

    首先要明白两点：
    
        - 每个人的兴趣是有时效性的，这也意味着3年前喜欢王菲的歌，去年喜欢林俊杰的歌...
        - 每首歌的热度也不一样，有一些热门的歌，如果用户喜欢，当然是首选。

    那么，我们把这两个粒度拉进来，一起对用户做推荐。

    把用户收藏（喜欢）过的歌，按照时间轴排好，给定一个衰减因子，比如最近一首歌是1，前一首是0.98，再前一首是0.98^2，依次类推...同时根据歌曲的不同热度，给定不同的推荐因子，比如热度100是1，热度80是0.9...每一首歌可获得一个根据song2vec的推荐列表，然后对推荐列表中的相似度和时间衰减因子与热度权重进行加权，排序，将结果展示给用户。


3）扩展：搭配推荐更加难做，那如何做呢？
    
    把商品上升到它的品类，得到品类list（类似[上衣,牛仔裤,连衣裙...]），将其送到word2vec进行学习，训练好的模型可以很好的捕捉到品类之间的相似性。
    