# 从word2vec到song2vec
word2vec就是将词映射到词嵌入矩阵，词与词之间的相似性可以用余弦相似度表示。

我们将歌曲的id序列取出来，类比于分完词后的句子，送到word2vec中学习一下。

原始格式

    漫步西欧小镇上##小语种,旅行##69413685##474	18682332::Wäg vo dir::Joy Amelie::70.0	4335372::Only When I Sleep::The Corrs::60.0	2925502::Si Seulement::Lynnsha::100.0	21014930::Tu N'As Pas Cherché...::La Grande Sophie::100.0	20932638::Du behöver aldrig mer vara rädd::Lasse Lindh::25.0	17100518::Silent Machine::Cat Power::60.0	3308096::Kor pai kon diew : ชอไปคนเดียว::Palmy::5.0	1648250::les choristes::Petits Chanteurs De Saint Marc::100.0	4376212::Paddy's Green Shamrock Shore::The High Kings::25.0	2925400::A Todo Color::Las Escarlatinas::95.0	19711402::Comme Toi::Vox Angeli::75.0	3977526::Stay::Blue Cafe::100.0	2538518::Shake::Elize::85.0	2866799::Mon Ange::Jena Lee::85.0	5191949::Je M'appelle Helene::Hélène Rolles::85.0	20036323::Ich Lieb' Dich Immer Noch So Sehr::Kate & Ben::100.0

In [42]:
import sys
import pickle
import gensim
import multiprocessing
from random import shuffle

In [36]:
def parse_playlist_get_sequence(in_line, playlist_sequence):
    """ 解析文本 """
    song_sequence = []
    contents = in_line.strip().split('\t')
    # 解析歌单序列
    for song in contents[1:]:
        #print('song:', song)
        try:
            song_id, song_name, artist, popularity = song.split('::')
            #print(song_id)
            song_sequence.append(song_id)
        except:
            print('song format error')
            print(song+'\n')
    shuffle(song_sequence)
    playlist_sequence.append(song_sequence)

def get_playlist_sequence(in_file, out_file):
    """ 将歌曲id传入word2vec中训练 """
    # 所有歌单序列
    playlist_sequence = []
    # 遍历所有的歌单
    for line in open(in_file):
        parse_playlist_get_sequence(line, playlist_sequence)
    # 使用word2vec进行训练
    return playlist_sequence

In [37]:
song_sequence_file = '../data/popular.playlist'
model_file = './song2vec.model'
playlist_sequence = get_playlist_sequence(song_sequence_file, model_file)

song format error
1870957::彩云国物语 セカンドシリーズ::君を想う::梁邦彦::80.0

song format error
4965888::桃华月惮::龙皇-リュウオウ-::多田彰文::25.0

song format error
456177::true tears::一阵の风::菊地創::95.0

song format error
22642373::

song format error
 FAIRY TAIL メインテーマ -Slow ver.-::高梨康治::95.0

song format error
31563610::

song format error
苍之礼赞::花之祭P::60.0

song format error
4954593::リズム天国全曲集::恋の実験室::V.A.::55.0

song format error
4954596::リズム天国全曲集::シンクロ::V.A.::60.0

song format error
31654811::

song format error
American Cowboys::Tim Wynn::65.0

song format error
19169096::

song format error
 Time to Say Goodbye (Con te partirò)::Sarah Brightman::100.0

song format error
31563610::

song format error
苍之礼赞::花之祭P::60.0

song format error
31563610::

song format error
苍之礼赞::花之祭P::60.0

song format error
31563610::

song format error
苍之礼赞::花之祭P::60.0

song format error
19169096::

song format error
 Time to Say Goodbye (Con te partirò)::Sarah Brightman::100.0

song format error
376653::野弧禅狂叱(宿香之战)

song format error
:

In [39]:
len(playlist_sequence)

3772

In [41]:
def train_song2vec(playlist_sequence, model_file):
    # 使用word2vec训练
    cores = multiprocessing.cpu_count()
    print('using all' + str(cores) + 'cores')
    print('正在训练word2vec模型')
    model = gensim.models.Word2Vec(sentences=playlist_sequence, size=150, min_count=3, window=7, workers=cores)
    print('保存模型...')
    model.save(model_file)
train_song2vec(playlist_sequence, model_file)

using all4cores
正在训练word2vec模型
保存模型...


模型训练完了，让我们看看模型的训练效果吧。

In [47]:
song_id_name_set = pickle.load(open('../data/song_id_name_set.data', 'rb'))
model = gensim.models.Word2Vec.load('../data/song2vec.model')

In [60]:
song_ids = list(song_id_name_set.keys())[1300:1360]
for song_id in song_ids:
    similarily_song_list = model.most_similar(song_id)
    print(song_id, song_id_name_set[song_id], '\t|', song_id_name_set[similarily_song_list[0][0]])
    print('\n')

29567096 憾长情 (纯歌版)	绯村柯北 	| 酩酊语 其三 棠红棣雪	山猫


34999055 纨绔	慕寒 	| 年少有你	李易峰


35566473 墨字吟·情（慕寒&慕斯の小乖）	慕寒 	| 思念	蔡健雅


34998014 雪诉离歌	齐栾 	| 凤于九天	Aki阿杰


412187499 别赋	慕寒 	| 蓝莲花	许巍


404459664 狐荼	Tacke竹桑 	| 恋曲1990	罗大佑


33941486 旅行的意义	慕寒 	| 在水一方	邓丽君


34468551 虫儿飞 - 现场版	慕寒 	| 自在唯我	醋米


34690447 花落有期	慕寒 	| 爱在记忆中找你	林峯


34380993 落霞云归	慕寒 	| 生如夏花	朴树


32944728 倾君沧溟恨 - 纯歌版	慕寒 	| 普通歌手	张艺德


32897539 画中仙	慕寒 	| 离别的车站	赵薇


32835224 倾君沧溟恨(剧情版)	慕寒 	| 君临天下	KBShinya


32835225 那是一片海	慕寒 	| 且试天下	墨明棋妙


32835223 何以清尘	慕寒 	| 上海一九四三	周杰伦


32408209 不期而遇的温暖	慕寒 	| 国境四方	RaJor


32807019 盛世回首	慕寒 	| 认真的雪	薛之谦


28411504 温柔宇宙	慕寒 	| 太阳和野花	左卡乐队


29450491 青梅	慕寒 	| 孤山不孤	小魂


27928580 非鱼(少林&纯阳)	五色石南叶 	| 夜空中最亮的星	逃跑计划


28568215 樱散零乱	慕寒 	| 夜空中最亮的星	逃跑计划


29572769 花间事	慕寒 	| 她说	林俊杰


29393563 西窗	慕寒 	| 简单爱	周杰伦


27908610 临水照花	慕寒 	| 最好的我们	杨炅翰


31352182  山水画意	慕寒 	| 铁血丹心	罗文


29418980 若与君老	慕寒 	| 铁血丹心	罗文


29414767 封白	慕寒 	| 风继续吹	张国荣


29401512 息兮	慕寒 	| 理想三旬	陈鸿宇


315587 烟火莲灯	玄觞 	| 新鸳鸯蝴蝶梦	黄安


29829845 梦枕红袖	慕寒 	| 花田错	王力宏


29556021 在

  This is separate from the ipykernel package so we can avoid doing imports until


我们可以找到和当前歌曲最相似的歌曲。