## 歌曲序列建模
by [@寒小阳](http://blog.csdn.net/han_xiaoyang)

### NLP场景下 - One Shot 词编码
我是中国人 => 我 是 中国 人  # 先分词<br>   
我 => [1,0,0,0]  # 再编码 1*500<br>
是 => [0,1,0,0]   1乘以500的向量<br>
...<br>
1*4 vector
one-hot encoding

将word 映射成向量=> vector

distance similarity 

#### 判断周边的环境 - google word2vec 可以在CPU上执行 - 窗口大小
###  Online: C++ 
###  Offline: Gensim -> python 的Word2Vec

![](./word2vec.png)

```python
# word2vec 获得习近平 周边的信息
result = model.most_similar(u"习近平")
for e in result:
    print e[0], e[1]
```
```     
胡锦涛 0.809472680092
江泽民 0.754633367062
李克强 0.739740967751
贾庆林 0.737033963203
曾庆红 0.732847094536
吴邦国 0.726941585541
总书记 0.719057679176
李瑞环 0.716384887695
温家宝 0.711952567101
王岐山 0.703570842743
```

说起来word2vec，其实就是把词映射成一定维度的稠密向量，同时保持住词和词之间的关联性，主要体现在(欧式)距离的远近上。

那么问题来了，word2vec为什么能够学习到这样的结果？

因为我们相信“物以类聚，人以群分” “一个人的层次与他身边最近的一些人是差不多的”

同样的考虑，我们是不是可以认为，一个歌单里的歌曲，相互之间都有一定的关联性呢？就像句子中的词一样。答案是，是的！

咱们来写个程序跑一把。

### 从word2vec到song2vec

我们把歌曲的id序列取出来，类比于分完词后的句子，送到word2vec中去学习一下，看看会有什么效果。

In [10]:
#coding: utf-8
# 当做模型：用于序列建模
import multiprocessing
import gensim # NLP 中的主要model,涵盖word2vec
import sys
from random import shuffle

# 解析歌单，将序列存在plylist
def parse_playlist_get_sequence(in_line, playlist_sequence):  # playlist_sequence is output file
	song_sequence = []
	#print "*** in_line is*** ", in_line
	contents = in_line.strip().split("\t") # 空格分割
	#print "contents >>>>> is ",contents
	#print "contents[1:] >>>>> is ",contents[1:]
	# 解析歌单序列
	for song in contents[1:]:
		try:
			song_id, song_name, artist, popularity = song.split(":::")
			song_sequence.append(artist) # song_id
		except:
			print "song format error"
			print song+"\n"
	for i in range(len(song_sequence)): #word2vec 窗口为7
		shuffle(song_sequence)
		playlist_sequence.append(song_sequence)


def train_song2vec(in_file, out_file):
	#所有歌单序列
	playlist_sequence = []
	#遍历所有歌单
	for line in open(in_file):  # line 指的是从in_file 读取的每一 “行” 的文本数据
		#print "line is >>>", line 
		parse_playlist_get_sequence(line, playlist_sequence)
		#print ">>> playlist_sequence is ",playlist_sequence[1:10]    
	#使用word2vec训练
	cores = multiprocessing.cpu_count()
	print "using all "+str(cores)+" cores"
	print "Training word2vec model..."
    # min_count = 3，最少的出现次数
    # window = 7 窗口长度为7
    # workers=cores 双核处理
	model = gensim.models.Word2Vec(sentences=playlist_sequence, size=150, min_count=3, window=7, workers=cores)
	print "Saving model..."
	model.save(out_file)

### 整个训练的过程实际是针对某首歌曲，查找到“最近的”歌曲 （向量距离最近的歌曲）

In [11]:
song_sequence_file = "./RawData/popular.playlist"  # 在歌单playlist 里面 取出一部分华语流行的部分
model_file = "./Model/song2vec_artist.model"

# 下面是用于训练的过程
%time train_song2vec(song_sequence_file, model_file)

song format error
405599088:::Make Them Wheels Roll

song format error
:::SAFIA:::100.0

song format error
424496188:::大王叫我来巡山 - （原唱：

song format error
 贾乃亮/贾云馨）:::流浪的蛙蛙:::65.0

song format error
19169096:::

song format error
 Time to Say Goodbye (Con te partirò):::Sarah Brightman:::100.0

song format error
26902203:::What’s your name? (collaboration with 壇蜜)

song format error
:::SoulJa:::100.0

song format error
33054290:::

song format error
Heartbeats:::Dabin:::95.0

song format error
427373827:::Champions (From "Hands of Stone") 

song format error
:::Usher:::30.0

song format error
31654811:::

song format error
American Cowboys:::Tim Wynn:::65.0

song format error
19169096:::

song format error
 Time to Say Goodbye (Con te partirò):::Sarah Brightman:::100.0

song format error
19169096:::

song format error
 Time to Say Goodbye (Con te partirò):::Sarah Brightman:::100.0

using all 4 cores
Training word2vec model...
Saving model...
Wall time: 6min 3s


模型已经训练完了，咱们来试一把预测，看看效果

这个预测的过程，实际上就是对某首歌曲，查找“最近”的歌曲（向量距离最近的歌曲）

In [7]:
import cPickle as pickle  # 歌曲Id到歌曲的映射pickle
song_dic = pickle.load(open("./InternalData/7_popular_song.pkl","rb"))
model_str = "./Model/song2vec_artist.model"
model = gensim.models.Word2Vec.load(model_str)

In [8]:
for song in song_dic.keys()[:10]:
    print song, song_dic[song]

287140 梦不落	孙燕姿
445845011 狂想.Rhapsody	冯建宇
110557 灰色空间	罗志祥
10308003 偏偏喜欢你	陈百强
28029940 拥抱的理由	尹熙水
28029946 三个人的错	王菀之
28029947 拥抱的理由	李泰
27591219 拍错拖	卫兰
28029949 我是你的谁	张含韵
31134863 没有用	徐誉滕


In [9]:
song_id_list = song_dic.keys()[1000:1500:50]
for song_id in song_id_list:
    result_song_list = model.most_similar(song_id)

    print song_id, song_dic[song_id]
    print "\n相似歌曲 和 相似度 分别为:"
    for song in result_song_list:
        print "\t", song_dic[song[0]], song[1]
    print "\n"

  This is separate from the ipykernel package so we can avoid doing imports until
  if np.issubdtype(vec.dtype, np.int):


440357032 七里香	李蚊香

相似歌曲 和 相似度 分别为:
	羽落九天 (伴奏)	萧忆情Alex 0.985846281052
	暗夜苏醒（Cover 小魂）	司空先生 0.978547692299
	夏江南（Cover：洛天依）	萧忆情Alex 0.965518712997
	还魂门	白止 0.964012682438
	有幸遇到你（纯歌）	苇苇酱 0.954224050045
	『桃花谒佛贴』 剧情	壹壹周 0.889226436615
	命运 ——网游小说《猎者天下》群像歌曲（Cover 蓝井エイル）	人衣大人 0.883279561996
	霜雪千年	易世樊花 0.865110874176
	青春手记 ft.冷杉	小义&冷杉 0.863145768642
	小冤家	伦桑 0.848663210869


27906826 你有本事抢男人	雪姨

相似歌曲 和 相似度 分别为:
	侵略ノススメ☆	ULTRA-PRISM 0.88123691082
	菊花大馒头	甄洋 0.878294229507
	第一次骑摩托	南宁7仔 0.869721770287
	权御天下	仓仔 0.866880118847
	权御天下(笛子版2)	水玥儿 0.851998567581
	【葛平领衔全明星】鬼畜先生	葛平 0.832270503044
	Eat It	Weird Al Yankovic 0.807215869427
	素直な気持ち	神前暁 0.782065808773
	LEVEL5 -judgelight-	fripSide 0.773121714592
	素芬	廖健 0.765994906425


646100 Oh I…	Sakura

相似歌曲 和 相似度 分别为:
	元気を出して	竹内まりや 0.988954246044
	月球人	恭硕良 0.972359776497
	在金色的晚霞中	张蔷 0.962283551693
	未了情(Live) - live	莫文蔚 0.917059004307
	愿	林忆莲 0.880396962166
	是你决定我的伤心	张玉华 0.810380041599
	淋しい热帯鱼	Wink 0.79829621315
	SENTIMENTAL CHRISTMAS	浜田省吾 0.776292741299
	完美的女人	李翊

### 进一步思考

所以我们用word2vec学会了哪些歌曲和哪些歌曲最接近。

我们来思考一些很现实同时又很难解决的问题。比如：
#### 1）冷启动问题
我们经常会遇到冷启动的问题，比如没有任何信息的歌曲，我们如何对它做推荐呢？
* 如果是歌手发行的新歌曲，我们怎么进行推荐呢？
* 如果我听完(并收藏)了一首很冷门的歌，怎么进行推荐呢？

我们知道新歌(或者小众的歌)是非常难和其他的歌关联上的，我们有的信息太少了(很少有用户在它上面发生行为)。

1.1 一种解决办法当然是推荐热门的歌曲，但是其实没从个人兴趣出发，我们知道这并不是最好的办法，并没有太大的卵用。

1.2 我们把问题的粒度放粗一点，用同样的思路，比如一个可考虑的解决方案是，我们把**歌曲**的粒度上升到对应的**歌手**，把刚才的song_list替换成artist_list，重新用word2vec建模，这样我们可以得到和一个歌手最相关(接近)的歌手，再推荐这个歌手最热门的歌曲，相对1.1的方法针对性强一些。

将商品 上升到=> 品类<br>
品类list => 送到word2vec里面去学习<br>
[上衣，上衣，上衣，牛仔裤，牛仔裤,连衣裙...]<br>

#### 2）用户兴趣预测问题
我们刚才完成的功能，类似酷狗音乐和网易音乐里针对一首歌的**“相似音乐”**，那么问题又来了，如果我们现在要对一个user用这套song2vec的方式推荐，我们怎么做呢？

* 每个人的兴趣都是有时效性的，这意味着说，3年前我喜欢王菲的歌，去年我喜欢五月天的歌，而今年我可能就改摇滚路线，喜欢汪峰的歌了。
* 每一首歌的热度也是不一样的，有一些热门的歌，如果用户能喜欢，当然是首选

那么，我们来做一个粗暴一点点的处理，把这2个维度拉进来，一起来针对一个用户做推荐。

**把每个用户喜欢(收藏)过的歌，沿着时间轴排好，同时由近到远给不同的衰减因子(比如最近一首歌是1，前一首是0.98，再前一首是0.98^2，以此类推...)，同时我们针对不同的歌曲热度，给定不同的推荐因子(比如热度100的是1，热度80的是0.9...)，每一首歌都可以拿回一个song2vec的推荐列表和对应的相似度，对相似度以时间衰减因子和热度权重进行加权，最后的结果排序后，展示给用户。