In [3]:
from gensim.test.utils import common_texts, get_tmpfile
from gensim.models import Word2Vec

# LOAD WORD2VEC MODEL TRAIN FROM PREVIOUS TASK

In [4]:
model = Word2Vec.load("./ductrung239-projects-quang-song-to-vec-15-home/song2vec.model")

## Some pre-processing steps for normalization text

In [13]:
import pandas as pd

import random

import re
import string
import os

regex = re.compile('[%s]' % re.escape(string.punctuation))
def cleaning_text(doc):
    
    # convert to lower case
    doc = doc.lower()

    # remove spacespace
    doc = re.sub(' +', ' ', doc)
    doc = doc.strip()
    doc = doc.replace(" ", "_")
    return doc


def read_data():
    df = pd.read_csv(
        "./songs_dataset_105k.csv")
    df.drop(columns=['ID', 'Md5 ', 'album_link', 'song_link', "Site"], inplace=True)

    values = {'Singer': 'Singer unknown', 
            'Song': "Song unknown", 
            'Author': "Author unknown", 
            'Album': "Album unknown", 
            'Genre': "Genre unknown"}

    df.fillna(value=values, inplace=True)


    df['Song'] = df['Song'].astype('str')
    df['Singer'] = df['Singer'].astype('str')
    df['Author'] = df['Author'].astype('str')
    df['Album'] = df['Album'].astype('str')
    df['Genre'] = df['Genre'].astype('str')

    df['Song'] = df['Song'].apply(cleaning_text)
    df['Singer'] = df['Singer'].apply(cleaning_text)
    df['Author'] = df['Author'].apply(cleaning_text)
    df['Album'] = df['Album'].apply(cleaning_text)
    df['Genre'] = df['Genre'].apply(cleaning_text)

    return df 

# Load pre-train dataset
df = read_data()

nan:  0


In [113]:
dict_category = dict()
missing_item = 0
for col in df.columns:
    value_list = []
    value_vectors = []
    for value in df[col].unique():
        try:
            value_vectors.append(model.wv.get_vector(value))
            value_list.append(value)
        except:
            missing_item += 1
    dict_category[col] = {
        "value_list": value_list,
        "value_vectors": value_vectors
    }
print("Missing item: ", missing_item)
print(dict_category.keys())

Missing item:  3
dict_keys(['Song', 'Singer', 'Author', 'Album', 'Genre'])


## Build tress from each categories

In [140]:
from sklearn.neighbors import KDTree
dict_of_tree = dict()

for key in dict_category.keys():
    print("Key: ", key)
    tree = KDTree(np.array(dict_category[key]['value_vectors']), leaf_size=30, metric='euclidean')
    dict_of_tree[key] = tree

Key:  Song
Key:  Singer
Key:  Author
Key:  Album
Key:  Genre


## Some test cases

### Find top 10 songs  similar with "hạ_trắng"

In [141]:
dist, ind = dict_of_tree['Song'].query(model.wv.get_vector("hạ_trắng").reshape(1, -1), k=10)
print("10 songs most similar with 'hạ_trắng' ")
for i in ind[0]:
    print(dict_category['Song']['value_list'][i])

10 songs most similar with 'hạ_trắng' 
hạ_trắng
tuổi_đá_buồn
diễm_xưa
cát_bụi
nắng_thủy_tinh
một_cõi_đi_về
đêm_thấy_ta_là_thác_đổ
ru_em_từng_ngón_xuân_nồng
như_cánh_vạc_bay
hạ_trắng_(beat)


### Find top 10 singers  similar with "trịnh_công_sơn"

In [142]:
dist, ind = dict_of_tree['Singer'].query(model.wv.get_vector("trịnh_công_sơn").reshape(1, -1), k=15)
print("Top 10 Singer most similar with 'trịnh_công_sơn' ")
for i in ind[0]:
    print(dict_category['Singer']['value_list'][i])

Top 10 Singer most similar with 'trịnh_công_sơn' 
trịnh_công_sơn
hoàng_lân
trâm_anh
nguyễn_hữu_thái_hòa
công_luân
thế_duật
phương_ngọc
chính_duật
ngô_quang_vinh
thúy_hà_tú
kim_ánh
thủy_tiên_(trịnh)
bích_ngà
giang_trang
nguyệt_ca


## Check data in dataset

In [139]:
# find all row have singer is "nguyệt_ca"
df[df.Singer == 'nguyệt_ca']

Unnamed: 0,Song,Singer,Author,Album,Genre
8,bốn_mùa_thay_lá,nguyệt_ca,trịnh_công_sơn,bốn_mùa_thay_lá_-,nhạc_trịnh
22579,cũng_sẽ_chìm_trôi,nguyệt_ca,trịnh_công_sơn,môi_hồng_đào_-,nhạc_trịnh
22593,hãy_yêu_nhau_đi,nguyệt_ca,trịnh_công_sơn,mẹ_-_cánh_chim_cô_đơn_-,nhạc_trịnh
94593,hãy_yêu_nhau_đi,nguyệt_ca,trịnh_công_sơn,những_bài_hát_hay_nhất_của_nguyệt_ca,nhạc_trịnh
94613,lời_mẹ_ru,nguyệt_ca,trịnh_công_sơn,những_bài_hát_hay_nhất_của_nguyệt_ca,nhạc_trịnh
94616,cũng_sẽ_chìm_trôi,nguyệt_ca,trịnh_công_sơn,những_bài_hát_hay_nhất_của_nguyệt_ca,nhạc_trịnh
94618,mưa_hồng,nguyệt_ca,trịnh_công_sơn,những_bài_hát_hay_nhất_của_nguyệt_ca,nhạc_trịnh
94620,níu_tay_nghìn_trùng,nguyệt_ca,trịnh_công_sơn,những_bài_hát_hay_nhất_của_nguyệt_ca,nhạc_trịnh
94622,đóa_hoa_vô_thường,nguyệt_ca,trịnh_công_sơn,những_bài_hát_hay_nhất_của_nguyệt_ca,nhạc_trịnh
94623,cát_bụi,nguyệt_ca,trịnh_công_sơn,những_bài_hát_hay_nhất_của_nguyệt_ca,nhạc_trịnh


In [134]:
# find all row have singer is "nguyễn_hữu_thái_hòa"
df[df.Singer == 'nguyễn_hữu_thái_hòa']

Unnamed: 0,Song,Singer,Author,Album,Genre
22578,cũng_sẽ_chìm_trôi,nguyễn_hữu_thái_hòa,trịnh_công_sơn,môi_hồng_đào_-,nhạc_trịnh
22603,hãy_yêu_nhau_đi,nguyễn_hữu_thái_hòa,trịnh_công_sơn,mẹ_-_cánh_chim_cô_đơn_-,nhạc_trịnh
94581,hãy_yêu_nhau_đi,nguyễn_hữu_thái_hòa,trịnh_công_sơn,những_bài_hát_hay_nhất_của_nguyệt_ca,nhạc_trịnh
94619,cũng_sẽ_chìm_trôi,nguyễn_hữu_thái_hòa,trịnh_công_sơn,những_bài_hát_hay_nhất_của_nguyệt_ca,nhạc_trịnh


In [3]:
# find all row have singer is "khánh_ly"
df[df.Singer == 'khánh_ly']

NameError: name 'df' is not defined

In [143]:
dist, ind = dict_of_tree['Song'].query(model.wv.get_vector("trịnh_công_sơn").reshape(1, -1), k=10)
print("Top 10 songs most similar with 'trịnh_công_sơn' ")
for i in ind[0]:
    print(dict_category['Song']['value_list'][i])

Top 10 songs most similar with 'trịnh_công_sơn' 
tình_nhớ
mưa_hồng
tuổi_đá_buồn
hoa_vàng_mấy_độ
như_một_lời_chia_tay
chiều_một_mình_qua_phố
diễm_xưa
biển_nghìn_thu_ở_lại
cát_bụi
đêm_thấy_ta_là_thác_đổ


## Find all song similar with "trinh_cong_son" and "pham_duy"

In [119]:
trinh_cong_son_vector = model.wv.get_vector("trịnh_công_sơn")
pham_duy_vector = model.wv.get_vector("phạm_duy")

In [148]:
mean_of_vectors = (trinh_cong_son_vector + pham_duy_vector)/2

In [157]:
dist, ind = dict_of_tree['Song'].query(mean_of_vectors.reshape(1, -1), k=10)
for i in ind[0]:
    print(dict_category['Song']['value_list'][i])

nha_trang_ngày_về
nghìn_năm_vẫn_không_quên
kiếp_nào_có_yêu_nhau
giàn_thiên_lý_đã_xa
đưa_em_tìm_động_hoa_vàng
mẹ_hoá_đá
nước_mắt_mùa_thu
rồi_đây_anh_sẽ_đưa_em_về_nhà
giữ_gìn_tình_anh
biển_nghìn_thu_ở_lại
