In [22]:
import pandas as pd 

df = pd.read_csv('./datasets/music-list/data_5950.csv', encoding='GB18030')  # wrong with GB2312, GB2312 < GBK < GB18030
print(f'df.shape: {df.shape}')
print(df.head())
print(df.tail())

df.shape: (5950, 5)
                                                  歌名    时间               歌手  \
0                Fashion Blogger - (Fashion Blogger)  4:37         RHYME SO   
1                 Comme Des Gar??ons (Like The Boys)  3:01    Rina Sawayama   
2  Transcend (Kan Sano Remix) feat. Armi (Up Dhar...  3:34            Ovall   
3                                               御伽の街  3:23            DAOKO   
4                                              MAIGO  3:52  SIRUP/Joe Hertz   

              专辑名字            歌单名称  
0  Fashion Blogger  【日语】听这些就可以走路带风  
1         SAWAYAMA  【日语】听这些就可以走路带风  
2    Ovall Reworks  【日语】听这些就可以走路带风  
3             御伽の街  【日语】听这些就可以走路带风  
4              CIY  【日语】听这些就可以走路带风  
                 歌名    时间              歌手    专辑名字        歌单名称
5945     曹操（翻自 林俊杰）  0:24            是你的垚      曹操  又是一个睡不着的夜晚
5946    重演（翻自 王巨星）   0:39         守夜冠军专用证  睡前的小豆豆  又是一个睡不着的夜晚
5947  背对背拥抱（翻自 林俊杰）  0:33  Bater official   迷人的危险  又是一个睡不着的夜晚
5948    无人之岛（翻自 任然）  1:04          

In [23]:
lst2music = {}  # music list to musics
music2lst = {}  # music to music lists
for i in range(len(df)):
    music = df.iloc[i]['歌名']
    lst = df.iloc[i]['歌单名称']
    if lst not in lst2music:
        lst2music[lst] = {music}
    else:
        lst2music[lst].add(music)
    if music not in music2lst:
        music2lst[music] = {lst}
    else:
        music2lst[music].add(lst)
print('刷题 看书 学习 工作 冥想:', lst2music['刷题 看书 学习 工作 冥想'])
print('无人之岛（翻自 任然）:', music2lst['无人之岛（翻自 任然）'])
print(f'length of lst2music: {len(lst2music)}, length of music2lst: {len(music2lst)}')

刷题 看书 学习 工作 冥想: {'A Minute For The End', '君の粉色妄言', '你 能 來 保 護 我 的 世 界 嘛', 'Awaken the Dawn', '4月22日 北风', '雨 因你而下，于你而止', '桜の廊下のあなた', 'senja', '繚 星', '星河清梦'}
无人之岛（翻自 任然）: {'伤感翻唱版集合', '又是一个睡不着的夜晚'}
length of lst2music: 594, length of music2lst: 4631


In [24]:
def lst_dist(lst1, lst2):
    '''
    calculate distance between 2 music lists
    '''
    cnt = len(lst1 & lst2)
    return 10 / (1 + cnt)  # the smaller, the similar

print(lst_dist(lst2music['伤感翻唱版集合'], lst2music['又是一个睡不着的夜晚']))

5.0


In [25]:
def music_dist(music1, music2):
    '''
    calculate the distance between 2 musics
    '''
    cnt = len(music2lst[music1] & music2lst[music2])
    return 10 / (1 + cnt)  # the smaller, the similar

print(music_dist('星河清梦', '繚 星'))

5.0


In [26]:
def most_similar_lst(lst):
    '''
    get the most similar music list
    '''
    cur_lst, cur_dist = [], 15
    for lst_ in lst2music.keys():
        temp_dist = lst_dist(lst, lst2music[lst_])
        if lst2music[lst_] != lst and temp_dist < cur_dist:
            cur_lst = lst2music[lst_]
            cur_dist = temp_dist
    return cur_lst, cur_dist

print(most_similar_lst(lst2music['刷题 看书 学习 工作 冥想']))

({'夏 日 喝 汽 水 lofi', '我 去 宇 宙 偷 星 星，放 在 夜 里 等 你??', '浮生若梦', '银河赴约 - (网易云音乐助力高考自制曲目)', '你 能 來 保 護 我 的 世 界 嘛', '等', '风的小径', '夜里失联', '这个深海是你的眼眸', '奇怪吗'}, 5.0)


In [27]:
def most_similar_music(music):
    '''
    get the most similar music
    '''
    cur_music, cur_dist = '', 15
    for music_ in music2lst.keys():
        temp_dist = music_dist(music, music_)
        if music_ != music and temp_dist < cur_dist:
            cur_music = music_
            cur_dist = temp_dist
    return cur_music, cur_dist

print(most_similar_music('无人之岛（翻自 任然）'))

('好想好想（翻自 群星）', 5.0)


In [28]:
def recommend(lst):
    '''
    recommend according to music list
    '''
    # User-based Collaborative Filtering
    UserCF = most_similar_lst(lst)[0] - lst

    # Item-based Collaborative Filtering
    ItemCF = []
    for music in lst:
        ItemCF.append(most_similar_music(music)[0])
    ItemCF = set(ItemCF) - lst
    
    return UserCF | ItemCF

print(recommend({'呼吸', '无人之岛（翻自 任然）', '水星记', '像鱼', '大鱼 - (动画电影《大鱼海棠》印象曲)', '千千阙歌(Live)', '心はいつもあなたのそばに Piano'}))

{'永不失联的爱', '多远都要在一起', '你的样子', '想い', '是想你的声音啊 - (你快听 滴答滴)', '古诗中国', '心领神会', '你还好吗', '不爱我', '玻璃之情', '或是一首歌', '那个她', '秋海棠', '看见你的声音 - (电视剧《想见你》插曲)', '好想好想（翻自 群星）'}
